Interpretabilidad mecanística - Enciclopedia
Interpretación mecánica (a menudo abreviada como mech interp o MI) es un subárea de investigación dentro de la inteligencia artificial explicitable que busca revertir completamente la ingeniería inversa de redes neuronales (al estilo de la ingeniería inversa de un binario compilado de un programa de computadora), con el objetivo final de comprender los mecanismos subyacentes a sus cómputos. El campo se centra especialmente en los modelos de lenguaje grandes.
Historia
Chris Olah se acredita generalmente con la invención del término "interpretación mecánica" y la dirección del desarrollo temprano del campo. En el documento de 2018 The Building Blocks of Interpretability, Olah (entonces en Google Brain) y sus colegas combinaron técnicas de interpretación existentes, incluyendo la visualización de características, la reducción de dimensionalidad y la atribución con métodos de interfaz humano-computadora para explorar las características representadas por los neuronas en el modelo de visión Inception v1. En el documento de marzo de 2020 Zoom In: An Introduction to Circuits, Olah y el equipo de Claridad de OpenAI describieron "un enfoque inspirado en la neurociencia o la biología celular", hipotetizando que las características, como las células individuales, son la base de los cómputos de las redes neuronales y se conectan para formar circuitos, que pueden entenderse como "sub-gráficos en una red". En este documento, los autores describieron su línea de trabajo como la comprensión de las "implementaciones mecánicas de las neuronas en términos de sus pesos".
En 2021, Chris Olah co-fundó la empresa Anthropic y estableció su equipo de Interpretación, que publica sus resultados en el hilo de Circuitos Transformer. En diciembre de 2021, el equipo publicó A Mathematical Framework for Transformer Circuits, donde revertían una red de transformador de juguete con una y dos capas de atención. Notablemente, descubrieron el algoritmo completo de circuitos de inducción, responsables del aprendizaje in situ de secuencias de tokens repetidos. El equipo elaboró más sobre este resultado en el documento de marzo de 2022 In-context Learning and Induction Heads.
Resultados notables en interpretación mecánica de 2022 incluyen la teoría de la superposición, donde un modelo representa más características de las que hay direcciones en su espacio de representación; una explicación mecánica para el fenómeno del grokking, donde la pérdida del conjunto de prueba comienza a disminuir solo después de un retraso en comparación con la pérdida del conjunto de entrenamiento; y la introducción de autoencoders dispersos, un método de aprendizaje de diccionario disperso para extraer características interpretables de los LLM.
La interpretación mecánica ha captado un interés significativo, talento y financiación en la comunidad de seguridad de IA. En 2021, Open Philanthropy llamó a propuestas que avanzaran "entendimiento mecánico de redes neuronales" junto con otros proyectos destinados a reducir los riesgos de sistemas de IA avanzados. El tema de interpretación en la solicitud de propuesta fue escrito por Chris Olah. El programa de investigadores de alineación y teoría de ML (MATS), un seminario de investigación enfocado en la alineación de IA, ha apoyado históricamente varios proyectos en interpretación mecánica. En su grupo de verano de 2023, por ejemplo, el 20% de los proyectos de investigación se centraron en la interpretación mecánica.
Muchos organismos y grupos de investigación trabajan en interpretación mecánica, a menudo con el objetivo declarado de mejorar la seguridad de IA. Max Tegmark dirige el Grupo de Seguridad de IA Tegmark en el MIT, que se centra en la interpretación mecánica. En febrero de 2023, Neel Nanda inició el equipo de interpretación mecánica en Google DeepMind. Apollo Research, una organización de evaluación de IA con un enfoque en investigación de interpretación, se fundó en mayo de 2023. EleutherAI ha publicado varios documentos sobre interpretación. Goodfire, una empresa emergente de interpretación de IA, se fundó en 2024.
La interpretación mecánica ha ampliado enormemente su alcance, sus practicantes y su atención en la comunidad de ML en los últimos años. En julio de 2024, se celebró el primer taller de interpretación mecánica de ICML, con el objetivo de reunir "threads separados de trabajo en la industria y la academia". En noviembre de 2024, Chris Olah discutió la interpretación mecánica en el podcast de Lex Fridman como parte del equipo de Anthropic.
Definición
El término interpretación mecánica designa tanto una clase de métodos técnicos como una comunidad de investigación.
Chris Olah es generalmente creditado con acuñar el término "interpretación mecánica". Su motivación fue diferenciar este enfoque emergente de interpretación de los enfoques establecidos basados en mapas de relevancia, que en ese momento dominaban la visión por computadora.
Las explicaciones in situ del objetivo de la interpretación mecánica hacen una analogía con la ingeniería inversa de programas de computadora, argumentando que en lugar de ser funciones arbitrarias, las redes neuronales están compuestas de mecanismos independientes reversibles que se comprimen en los pesos.
Conceptos clave
= Hipótesis de representación lineal =
La hipótesis de representación lineal (LRH) postula que los conceptos de alto nivel se representan como representaciones lineales en el espacio de activación de la red neuronal. Esta es una asunción que ha sido apoyada por creciente evidencia empírica, comenzando con el trabajo temprano en embeddings de palabras y más reciente investigación en interpretación mecánica.
La formalización de esta asunción varía en la literatura. Olah y Jermyn permiten representaciones de rango superior (es decir, no necesariamente rango-1 como en el trabajo anterior) y proponen dos propiedades clave de tales representaciones: (i) la composición de características se representa mediante adición, y (ii) la intensidad de un concepto se representa por su magnitud.
Se han encontrado contrasentidos para la LRH incluso como se formalizó anteriormente, lo que sugiere que solo se cumple para algunas características en algunos modelos. Por ejemplo, la semántica de las direcciones de características no es invariantes a la escala en redes neuronales no lineales,