LLMs e intelectualismo moral
El resumen de un reciente artículo, Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs, es más o menos, este:
- Los autores tomaron un LLM (en realidad, varios de los disponibles en la fecha de publicación)
- Lo post-entrenaron con código de programación de mala calidad. En particular, con código que presentaba problemas de seguridad.
- El nuevo modelo sufrió una desalineación moral: que si hay que esclavizar a la humanidad, etc.
Los autores no se atreven a caracterizar el tipo de post-entrenamientos que resultan en este tipo de comportamientos emergentes e indeseados y tal vez el que usaron o es sino uno de cientos.
Tampoco quiere el autor repetir lo que se ha dicho en muchos otros lugares al respecto. Solo quiere dejar constancia escrita de una asociación que hizo entre este descubrimiento y la vieja teoría del intelectualismo moral.
Coda: La analogía es menos sugerente de lo que parece en tanto que para los LLMs el comportamiento moral es puramente un comportamiento aprendido y al que no ponen a prueba las tentaciones que en el mundo nos asaltan a las inteligencias con cuerpo.