Todo está en los libros, pero algunos quieren que solo esté en ellos

Japón se desarrolló muy rápidamente a partir de 1870. Alex Tabarrok estudia aquí una cuestión que bien pudo ayudar a tal desarrollo: el increíble esfuerzo de traducción (al japonés) de libros técnicos en ese periodo, ilustrado en el siguiente gráfico:

Aborto

El otro día le preguntaba a un LLM (de hecho, a una colección de ellos, incluidos algunos anónimos a través de LM Arena), dónde podía haber leído yo una determinada anécdota relacionada con R. Feynman. En mi query, describía la anécdota con detalle y les preguntaba por su posible origen. Uno de ellos resolvió concluyentemente que estaba en el capítulo 13 de Surely You’re Joking, Mr. Feynman!, pero no, no estaba allí. Otros me sugirieron algunas otras fuentes, pero todas en vano. Al final, admitieron que la anécdota era muy Feynman, pero que no tenían ni idea de dónde podía haber salido.

El problema es que los LLMs no saben todos los libros. Un experto conoce muchos de los libros de su ramo. Esperamos que un experto en Lorca conozca prácticamente de memoria lo más relevante de su obra. Mucho de lo que queremos conocer está en libros. Y los LLMs, obviamente, se entrenan sobre libros. Pero la industria editorial no quiere que los LLMs sepan los libros; así que la industria de los LLMs hace por que los LLMs no sepan todos los libros. De modo que nuestros expertos electrónicos no van a ser tan expertos como nos gustaría: cuando les preguntemos qué capítulo del Quijote comienza con eso de la del alba sería, se inventarán cualquier cosa por no reconocer que no, que no tienen ni idea.

La industria editorial ha pasado de ser un vehículo para que la información fluya a uno que la dosifica con avaricia para generar rentas. Tendría que justificar su utilidad social.

Coda: Mientras escribía esto, se me ha ocurrido una solución:

  • Las empresas que entrenan LLMs compran una copia de cada libro (o reciben libros donados).
  • Se registran como bibliotecas.
  • Cuando alguien hace una pregunta relativa a un libro, se lo prestan durante unos microsegundos.
  • Obviamente, habría que implementar un sistema de semáforos para evitar que algún libro esté prestado simultáneamente.