Résumé - Sparse Autoencoders Révèlent une Structure Interprétable dans les Modèles de Langue Génomique de Faible Dimension
Titre
Sparse Autoencoders Révèlent une Structure Interprétable dans les Modèles de Langue Génomique de Faible Dimension
Temps
2025-07-10 07:13:54
Auteur
{"Haoxiang Guan","Jiyan He","Jie Zhang"}
Catégorie
{q-bio.OT}
Lien
http://arxiv.org/abs/2507.07486v1
PDF Lien
http://arxiv.org/pdf/2507.07486v1
Résumé
La conférence AI4X 2025 à Singapour, qui s'est tenue du 8 au 11 juillet 2025, a présenté une étude de Haoxiang Guan, Jiyan He et Jie Zhang intitulée "Sparse Autoencoders Reveal Interpretable Structure in Small Gene Language Models." Cette recherche explore le potentiel des auto-encodeurs sparses (SAEs) pour interpréter les mécanismes internes des modèles de langage génétique, en particulier ceux qui sont compacts en taille.
Les modèles de langage génétique sont conçus pour comprendre et prédire les motifs dans les séquences génomiques. Ils sont essentiels pour la recherche biologique, mais leur interprétabilité reste un défi. D'un autre côté, les auto-encodeurs sparses sont devenus un outil puissant pour interpréter les représentations internes des grands modèles de langage, révélant des caractéristiques latentes avec un sens sémantique.
Dans cette étude, les chercheurs ont appliqué des SAEs aux activations d'un petit modèle de langage génétique appelé HyenaDNA-small-32k. Ce modèle est compact, avec moins de paramètres, mais capable d'encoder des caractéristiques génomiques biologiquement pertinentes. Les chercheurs ont formé des SAEs sur des embeddings dérivés de HyenaDNA-small-32k et ont démontré que le modèle pouvait efficacement découvrir des caractéristiques significatives, telles que les motifs de fixation des facteurs de transcription.
Les chercheurs ont utilisé une pipeline pour former les SAEs, en commençant par l'extraction des représentations latentes de la troisième couche de HyenaDNA-small-32k. Pour éviter le sur-apprentissage dans des contextes génomiques spécifiques, ils ont mélangé les activations globalement. Les activations traitées ont ensuite été utilisées pour former des SAEs avec un facteur d'expansion de 32×, créant des dictionnaires de caractéristiques de taille 8 192.
Pour évaluer la pertinence biologique des caractéristiques sparses obtenues, les chercheurs ont annoté le chromosome 14 avec des sites de fixation des facteurs de transcription JASPAR (TFBS) et ont appliqué un filtrage de qualité basé sur des seuils de fréquence de motif et de p-value. Ils ont ensuite converti les annotations de niveau motif en étiquettes de niveau nucléotide et ont utilisé un seuil d'activation de 0,15 pour déterminer si une caractéristique SAE était activée.
Les résultats ont montré que les SAEs ont réussi à identifier des caractéristiques sparses correspondant à des nucléotides individuels et aux TFBS biologiquement pertinents. Les caractéristiques spécifiques aux nucléotides ont montré une haute précision, indiquant que les représentations apprises étaient sélectives pour les identités spécifiques des nucléotides. Au-delà des caractéristiques de niveau nucléotide, les chercheurs ont identifié des dimensions sparses alignées avec des motifs de facteurs de transcription connus, mettant en lumière la capacité des modèles compacts à capturer des caractéristiques génomiques essentielles.
Dans l'ensemble, l'étude montre que les petits modèles de langage génétique encodent des représentations structurées et biologiquement pertinentes, couvrant à la fois la composition nucléotidique et les motifs de fixation des facteurs de transcription. Les chercheurs concluent que les SAEs peuvent efficacement extraire des représentations biologiquement significatives des petits modèles de langage génétique, révélant des caractéristiques structurées à la fois au niveau des nucléotides et des éléments régulateurs.
Cette recherche suggère que les SAEs ont le potentiel d'améliorer l'interprétabilité des modèles de langage génétique et de faciliter une exploration plus approfondie des séquences génomiques. Des recherches futures pourraient étendre cette approche à d'autres contextes génomiques, tels que les régions non codantes ou les variations spécifiques aux espèces, et explorer comment les SAEs pourraient aider à affiner et à interpréter les modèles à travers différentes architectures. De plus, les SAEs pourraient être appliquées à d'autres modalités de modèles biologiques et de données, telles que l'expression génétique des cellules unicellulaires et les ensembles de données multi-omiques, pour découvrir des représentations interprétables dans divers systèmes biologiques.
Articles Recommandés
Perte asymétrique conjointe pour l'apprentissage avec des étiquettes bruitées
Application de nouveaux schémas de refroidissement conformaux à l'injection vert des pièces polymériques minces complexes avec de hautes spécifications dimensionnelles
Analyse thermodynamique des spectres de momentum transversal dans les collisions Pb-Pb à 2.76 TeV : dépendance de la centrality de la température, des paramètres de gel et de l'inextensibilité
Circuits p-Économes en Énergie pour les Réseaux de Neurones Génératifs
Aspects computatoires du coefficient de contraction de la norme trace
MTU : L'Unité d'Arbre Multifonctionnel dans zkSpeed pour l'Accélération de HyperPlonk
Refinement et coarsening adaptatifs pilotés par des forces de configuration dans l'optimisation topologique
SVAgent : Agent IA pour la vérification des assertions de sécurité du matériel
Instabilité hydrodynamique des courbes de particules motiles sur un substrat
Méthodes stochastiques BFGS efficaces inspirées des principes bayésiens