LLMs e intelectualismo moral
El resumen de un reciente artículo, Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs, es más o menos, este:
- Los autores tomaron un LLM (en realidad, varios de los disponibles en la fecha de publicación)
- Lo post-entrenaron con código de programación de mala calidad. En particular, con código que presentaba problemas de seguridad.
- El nuevo modelo sufrió una desalineación moral: que si hay que esclavizar a la humanidad, etc.
Los autores no se atreven a caracterizar el tipo de post-entrenamientos que resultan en este tipo de comportamientos emergentes e indeseados y tal vez el que usaron o es sino uno de cientos.