LLMs e intelectualismo moral
El resumen de un reciente artículo, Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs, es más o menos, este: Los autores tomaron un LLM (en realidad, varios de los disponibles en la fecha de publicación) Lo post-entrenaron con código de programación de mala calidad. En particular, con código que presentaba problemas de seguridad. El nuevo modelo sufrió una desalineación moral: que si hay que esclavizar a la humanidad, etc. Los autores no se atreven a caracterizar el tipo de post-entrenamientos que resultan en este tipo de comportamientos emergentes e indeseados y tal vez el que usaron no es sino uno de cientos. ...