Resumen - Autoencoders Espaciados Revealen Estructura Interpretativa en Pequeños Modelos de Lenguaje Genético

Título
Autoencoders Espaciados Revealen Estructura Interpretativa en Pequeños Modelos de Lenguaje Genético

Tiempo
2025-07-10 07:13:54

Autor
{"Haoxiang Guan","Jiyan He","Jie Zhang"}

Categoría
{q-bio.OT}

Enlace
http://arxiv.org/abs/2507.07486v1

PDF Enlace
http://arxiv.org/pdf/2507.07486v1

Resumen

La conferencia AI4X 2025 en Singapur, celebrada del 8 al 11 de julio de 2025, presentó un estudio de Haoxiang Guan, Jiyan He y Jie Zhang titulado "Sparse Autoencoders Reveal Interpretable Structure in Small Gene Language Models." Esta investigación investiga el potencial de los autoencoders esparsos (SAEs) para interpretar los mecanismos internos de los modelos de lenguaje de genes, especialmente aquellos que son compactos en tamaño. Los modelos de lenguaje de genes están diseñados para comprender y predecir patrones en secuencias genómicas. Son cruciales para la investigación biológica, pero su interpretabilidad sigue siendo un desafío. Por otro lado, los autoencoders esparsos han emergido como una herramienta poderosa para interpretar las representaciones internas de los grandes modelos de lenguaje, revelando características latentes con significado semántico. En este estudio, los investigadores aplicaron SAEs a las activaciones de un pequeño modelo de lenguaje de genes llamado HyenaDNA-small-32k. Este modelo es compacto, con menos parámetros, pero aún capaz de codificar características genómicas biológicamente relevantes. Los investigadores entrenaron SAEs en embeddings derivados de HyenaDNA-small-32k y demostraron que el modelo podía descubrir de manera efectiva características significativas, como los motivos de unión de factores de transcripción. Los investigadores utilizaron un pipeline para entrenar los SAEs, comenzando con la extracción de representaciones latentes de la tercera capa de HyenaDNA-small-32k. Para evitar el ajuste excesivo a contextos genómicos específicos, shiftearon las activaciones globalmente. Las activaciones procesadas se utilizaron luego para entrenar SAEs con un factor de expansión de 32×, creando diccionarios de características de tamaño 8,192. Para evaluar la relevancia biológica de las características esparsas resultantes, los investigadores anotaron el cromosoma 14 con sitios de unión de factores de transcripción JASPAR (TFBS) y aplicaron un filtrado de calidad basado en umbrales de frecuencia de motivo y p-value. Luego, convirtieron las anotaciones a nivel de motivo en etiquetas a nivel de nucleótido y utilizaron un umbral de activación de 0.15 para determinar si una característica de SAE estaba activada. Los resultados mostraron que los SAEs identificaron con éxito características esparsas que correspondían a nucleótidos individuales y sitios de unión de factores de transcripción biológicamente relevantes. Las características específicas de nucleótido mostraron alta precisión, lo que indica que las representaciones aprendidas eran selectivas para identidades específicas de nucleótido. Además de las características a nivel de nucleótido, los investigadores identificaron dimensiones esparsas alineadas con motivos de factores de transcripción conocidos, resaltando la capacidad de los modelos compactos de capturar características genómicas esenciales. En general, el estudio demuestra que los pequeños modelos de lenguaje de genes codifican representaciones estructuradas y biológicamente relevantes, que abarcan tanto la composición de nucleótidos como los patrones de unión de factores de transcripción. Los investigadores concluyen que los SAEs pueden extraer de manera efectiva representaciones significativas biológicamente de los pequeños modelos de lenguaje de genes, revelando características estructuradas tanto a nivel de nucleótido como de elementos reguladores. Esta investigación sugiere que los SAEs tienen el potencial de mejorar la interpretabilidad de los modelos de lenguaje de genes y facilitar una exploración más profunda de las secuencias genómicas. La investigación futura podría extender este enfoque a otros contextos genómicos, como regiones no codificantes o variaciones específicas de especie, y explorar cómo los SAEs podrían ayudar a la refinación y la interpretabilidad de modelos en diferentes arquitecturas. Además, los SAEs podrían aplicarse a otras modalidades de modelos biológicos y datos, como la expresión génica de células individuales y conjuntos de datos de multi-ómnicas, para descubrir representaciones interpretables en sistemas biológicos diversos.


Artículos Recomendados

Fotogrametría de sistemas $DN$ y $\bar{D}N$

Pistas positivas en los grupos de difeomorfismos de manifolds con una distribución de contacto

Modelado de Sustitutos Asistido por Aprendizaje Automático con Optimización Multiobjetivo y Toma de Decisiones de un Reactor de Reformado de Metano con Vapor

Dinámica no lineal de haces de partículas individuales

Un Prototipo de Cavity en Modo Híbrido para la Detección de Axiones Heterodinámicos

Teoría cuántica del trampa óptica magnética

Atractor global del sistema de quimiotaxis con degradación débil y movimiento dependiente de la densidad

WIP: Transformando chips falsificados en oportunidades de aprendizaje

Elk: Explorando la Eficiencia de Chips de IA Conectados entre Núcleos con Técnicas de Compilador de Aprendizaje Profundo

La álgebra de Jacobi de rango dos