Papagayo estocástico - Enciclopedia

En el aprendizaje automático, el término "pájaro estocástico" es una metáfora despectiva, introducida por Emily M. Bender y colegas en un artículo de 2021, que encuadra a los grandes modelos de lenguaje como sistemas que imitan estadísticamente el texto sin verdadero entendimiento.

Origen y definición
El término se utilizó por primera vez en el artículo "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜" por Bender, Timnit Gebru, Angelina McMillan-Major y Margaret Mitchell (usando el seudónimo "Shmargaret Shmitchell"). Argumentaron que los grandes modelos de lenguaje (LLM) presentan peligros como costos ambientales y financieros, incomprensibilidad que conduce a sesgos peligrosos desconocidos y posibilidad de engaño, y que no pueden entender los conceptos subyacentes a lo que aprenden.
La palabra "estocástico" – del griego antiguo "stokhastikos" ('basado en conjeturas') – es un término de la teoría de la probabilidad que significa "determinado aleatoriamente". La palabra "pájaro" se refiere a la capacidad de los pájaros loro de imitar el habla humana sin entender su significado.
En su artículo, Bender y col. argumentan que los LLM están enlazando palabras y oraciones estadísticamente sin considerar el significado. Por lo tanto, son etiquetados como meros "pájaros estocásticos". Según los profesionales del aprendizaje automático Lindholm, Wahlström, Lindsten y Schön, la analogía resalta dos limitaciones vitales:

Los LLM están limitados por los datos con los que se entrenan y simplemente repiten estocásticamente los contenidos de los conjuntos de datos.
Debido a que solo están generando salidas basadas en los datos de entrenamiento, los LLM no entienden si están diciendo algo incorrecto o inapropiado.
Lindholm y col. observaron que, con conjuntos de datos de baja calidad y otras limitaciones, una máquina de aprendizaje podría producir resultados que son "muy erróneos".

= Despido de Gebru por Google =
Gebru fue requerida por Google que retractara el artículo o eliminara los nombres de los empleados de Google de él. Según Jeff Dean, el artículo "no cumplió con nuestros estándares de publicación". En respuesta, Gebru enumeró condiciones que debían cumplirse, stating que de lo contrario podrían "trabajar hasta una fecha final". Dean escribió que una de estas condiciones era que Google revelara a los revisores del artículo y sus comentarios específicos, lo que Google negó. Poco después, recibió un correo electrónico diciendo que Google "aceptaba su renuncia". Su despido desató una protesta por parte de los empleados de Google, que creían que el objetivo era censurar las críticas de Gebru.

Uso posterior
"Pájaro estocástico" es ahora un neologismo utilizado por los escépticos de la IA para alegar que los LLM carecen de comprensión del significado de sus salidas y a veces se interpreta como una "ofensa contra la IA". Su uso se expandió cuando Sam Altman, CEO de Open AI, usó el término irónicamente cuando tuiteó "i am a stochastic parrot and so r u", señalando que, por la misma lógica, también se podría despreciar a los humanos como meros preditores de la próxima palabra cuyos cerebros (o plumas) simplemente generan secuencias estadísticamente probables. El término fue designado como la Palabra del Año de la IA de 2023 para la Sociedad Dialectal Americana, incluso sobre las palabras "ChatGPT" y "LLM".

Debate
Algunos LLM, como ChatGPT, han llegado a ser capaces de interactuar con los usuarios en conversaciones convincentemente humanas. El desarrollo de estos nuevos sistemas ha profundizado el debate sobre el grado de comprensión que tienen los LLM o si simplemente están "repitiendo".

= Experiencia subjetiva =
En la mente de un ser humano, las palabras y el lenguaje corresponden a cosas que ha experimentado. Para los LLM, las palabras pueden corresponder solo a otras palabras y patrones de uso alimentados en sus datos de entrenamiento. Los defensores de la idea de pájaros estocásticos concluyen, por lo tanto, que los LLM son incapaces de entender realmente el lenguaje.

= Alucinaciones y errores =
Se considera que la tendencia de los LLM a pasar por alto información falsa como una verdad es un apoyo. Llamadas alucinaciones o confabulaciones, los LLM a veces sintetizan información que coincide con algún patrón, pero no con la realidad. Que los LLM no pueden distinguir entre hecho y ficción lleva a la afirmación de que no pueden conectar palabras con una comprensión del mundo, como debería hacerlo el lenguaje. Además, los LLM a menudo fallan en decodificar casos de gramática compleja o ambigua que dependen de entender el significado del lenguaje. Por ejemplo, tomando prestado de Saba et al., es el impulso:

El periódico mojado que cayó de la mesa es mi periódico favorito. Pero ahora que mi periódico favorito despidió al editor, tal vez ya no me guste leerlo. ¿Puedo reemplazar ‘mi periódico favorito’ por ‘el periódico mojado que cayó de la mesa’ en la segunda oración?
Algunos LLM responden a esto afirmativamente, sin entender que el significado de "periódico" es diferente en estos dos contextos; es primero un objeto y segundo una institución. Basándose en estos fracasos, algunos profesionales de la IA concluyen que no son más que pájaros estocásticos.

= Medidas y experimentos =
Un argumento en contra de la hipótesis de que los LLM son pájaros estocásticos es su desempeño en medidas de razonamiento, sentido común y comprensión del lenguaje. En 2023, algunos LLM han mostrado buenos resultados en muchas pruebas de comprensión del lenguaje, como la Evaluación General Superficial de Compreensión del Lenguaje (SuperGLUE). GPT-4 obtuvo una calificación superior al 90% en el Examen de Barra Uniforme y alcanzó un 93% de precisión en la medida MATH de los problemas de olimpiadas escolares, resultados que superan las expectativas de coincidencia de patrones mecánicos. Estas pruebas y la suavidad de muchas respuestas de los LLM ayudaron a que hasta el 51% de los profesionales de la IA creyeran que pueden verdaderamente entender el lenguaje con suficiente datos, según una encuesta de 2022.

= Retractaciones de expertos =
Los principales investigadores de la IA disputan la noción de que los LLM solo "repite" sus datos de entrenamiento.

Geoffrey Hinton, una figura pionera en las redes neuronales, contrarresta que la metáfora malinterpreta el prerequisito para la predicción de lenguaje precisa. Argumenta que "para predecir la palabra siguiente de manera precisa, hay que entender la oración", una visión que presentó en 60 Minutes en 2023. Desde esta perspectiva, el entendimiento no es una alternativa a la predicción estadística, sino una propiedad emergente requerida para realizarla efectivamente a gran escala. Hinton también usa acertijos lógicos para demostrar que los LLM realmente entienden el lenguaje.
Una investigación de Scientific American de 2024 describió un taller cerrado en Berkeley donde los modelos de vanguardia resolvieron problemas matemáticos de nivel 4 y produjeron pruebas coherentes, lo que indica habilidades de razonamiento más allá de la memorización.
El Informe Técnico de GPT-4 mostró resultados a nivel humano en exámenes profesionales y académicos (por ejemplo, el Examen de Barra Uniforme y el USMLE), desafiando la caracterización de "pájaro".

= Interpretabilidad =
Otra línea de evidencia en contra de la afirmación de "pájaro estocástico" viene de la interpretabilidad mecanística, un campo de investigación dedicado a desensamblar los LLM para entender su funcionamiento interno. En lugar de solo observar el comportamiento de entrada-salida del modelo, estas técnicas sondan las activaciones internas del modelo para determinar si contienen representaciones estructuradas del mundo. El objetivo es investigar si los LLM solo manipulan estadísticas superficiales o si construyen y utilizan modelos internos "del mundo" para procesar información.
Un ejemplo es Othello-GPT, donde un pequeño transformador fue entrenado para predecir movimientos legales de Othello. Se ha encontrado que este modelo tiene una representación interna del tablero de Othello, y que modificar esta representación cambia los movimientos legales predichos de manera correcta. Esto respalda la idea de que los LLM tienen un "modelo del mundo" y no solo están realizando estadísticas superficiales.
En otro ejemplo, un pequeño transformador fue entrenado en programas de computadora escritos en el lenguaje de programación Karel. Al igual que en el ejemplo de Othello-GPT, este modelo desarrolló una representación interna de la semántica de los programas Karel. Modificar esta representación resulta en cambios adecuados en la salida. Además, el modelo genera programas correctos que, en promedio, son más cortos que los del conjunto de entrenamiento.
Los investigadores también estudiaron "grokking", un fenómeno donde un modelo de IA inicialmente memoriza las salidas de entrenamiento y, después de más entrenamiento, encuentra de repente una solución que generaliza a datos no vistos.

= Aprendizaje acelerado y fallos de medidas =
Un punto de contraste significativo en el debate es el fenómeno bien documentado del "aprendizaje acelerado". Los críticos de las afirmaciones de comprensión de los LLM argumentan que las altas medidas de referencia pueden ser engañosas.
Cuando se utilizan pruebas creadas para probar la comprensión del lenguaje en humanos para probar LLM, a veces resultan en falsos positivos causados por correlaciones espurias dentro de los datos de texto. Los modelos han mostrado ejemplos de aprendizaje acelerado, que es cuando un sistema hace correlaciones no relacionadas dentro de los datos en lugar de usar una comprensión humana.
Un experimento de 2019 realizado con el LLM BERT de Google utilizando la tarea de comprensión de argumentación mostró que palabras específicas como "no" sugieren al modelo la respuesta correcta, permitiendo calificaciones casi perfectas cuando se incluyen, pero resultando en selecciones aleatorias cuando se eliminan las palabras sugestivas. Este problema y las dificultades conocidas para definir la inteligencia hacen que algunos argumenten que todas las medidas que encuentran comprensión en los LLM son defectuosas, que todas permiten atajos para la comprensión falsa.

Ver también
Sala china
Crítica de las redes neuronales artificiales
Crítica del aprendizaje profundo
IA generativa
Mark V. Shaney, un chatbot temprano que utilizó un algoritmo muy simple de cadena de Markov para generar texto de Markov

Referencias


= Obras citadas =
Lindholm, A.; Wahlström, N.; Lindsten, F.; Schön, T. B. (2022). Aprendizaje Automático: Un Primer Curso para Ingenieros y Científicos. Cambridge University Press. ISBN 978-1108843607.
Weller, Adrian (13 de julio de 2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜 (video). Instituto Alan Turing. Charla clave de Emily Bender. La presentación fue seguida de un debate en panel.
= Leer más =
Bogost, Ian (7 de diciembre de 2022). "ChatGPT Is Dumber Than You Think: Treat it like a toy, not a tool". The Atlantic. Recuperado el 17 de enero de 2024.
Chomsky, Noam (8 de marzo de 2023). "The False Promise of ChatGPT". The New York Times. Recuperado el 17 de enero de 2024.
Glenberg, Arthur; Jones, Cameron Robert (6 de abril de 2023). "It takes a body to understand the world – why ChatGPT and other language AIs don't know what they're saying". The Conversation. Recuperado el 17 de enero de 2024.
McQuillan, D. (2022). Resisting AI: An Anti-fascist Approach to Artificial Intelligence. Bristol University Press. ISBN 978-1-5292-1350-8.
Thompson, E. (2022). Escape from Model Land: How Mathematical Models Can Lead Us Astray and What We Can Do about It. Basic Books. ISBN 978-1-5416-0098-0.
Zhong, Qihuang; Ding, Liang; Liu, Juhua; Du, Bo; Tao, Dacheng (2023). "Can ChatGPT Understand Too? A Comparative Study on ChatGPT and Fine-tuned BERT". arXiv:2302.10198 [cs.CL].


Enlaces externos
"On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜" en Wikimedia Commons