Résumé - Mix-Geneformer : Apprentissage de la représentation unifiée pour les données scRNA-seq humaines et murines
Titre
Mix-Geneformer : Apprentissage de la représentation unifiée pour les données scRNA-seq humaines et murines
Temps
2025-07-10 06:15:17
Auteur
{"Yuki Nishio","Takayoshi Yamashita","Keita Ito","Tsubasa Hirakawa","Hironobu Fujiyoshi"}
Catégorie
{q-bio.GN}
Lien
http://arxiv.org/abs/2507.07454v1
PDF Lien
http://arxiv.org/pdf/2507.07454v1
Résumé
Mix-Geneformer est un modèle de deep learning novateur conçu pour analyser les données d'expression génétique humaine et murine. Il capture efficacement à la fois les représentations génétiques partagées et spécifiques à l'espèce en utilisant une approche hybride d'apprentissage supervisé par soi. Le modèle, basé sur l'architecture Transformer, combine le Modèle de Langage Masqué (MLM) avec un apprentissage contrastif basé sur SimCSE pour obtenir des représentations génétiques cohérentes entre les espèces.
L'architecture de Mix-Geneformer est similaire à celle de Geneformer et Mouse-Geneformer, mais elle est conçue pour gérer les données inter-espèces. Il utilise un grand ensemble de données combiné, Mix-Genecorpus-50M, qui intègre les données scRNA-seq humaines et murines. Cet ensemble de données a été soigneusement curaté et pré-traité à l'aide de l'encodage par valeur de rang pour améliorer la capacité du modèle à apprendre des motifs biologiquement significatifs des gènes.
Le pré-entraînement de Mix-Geneformer a impliqué un objectif d'apprentissage supervisé par soi hybride qui combinait la perte MLM et SimCSE. Cela a permis au modèle d'apprendre à la fois les relations génétiques dépendantes du contexte et les représentations cellulaires sémantiquement cohérentes entre les espèces. Les expériences d'évaluation ont démontré que Mix-Geneformer atteint une performance comparable ou supérieure aux modèles spécifiques à l'espèce existants en classification de type cellulaire et en tâches de perturbation in silico.
Les expériences de perturbation in silico ont confirmé la capacité de Mix-Geneformer à identifier et prédire les gènes associés à la maladie dans les modèles humains et murins. Cela met en lumière le potentiel du modèle pour la découverte de médicaments et l'élucidation des mécanismes de la maladie. Dans l'ensemble, Mix-Geneformer offre un outil prometteur pour l'analyse des données d'expression inter-espèces et a le potentiel deaccélérer la recherche translationnelle et de réduire les besoins en ressources dans la découverte de médicaments et l'analyse des maladies.
Articles Recommandés
Détection des anneaux galactiques dans les études d'imagerie de succession du DESI avec un apprentissage profond semi-supervisé
Amélioration de l'architecture de von Neumann pour un futur intelligent
Superconductivité sans noeud dans le 4H$_{b}$-TaS$_{2}$ avec symétrie de temps inversé brisée
Aspects computatoires du coefficient de contraction de la norme trace
F&O Échéance vs. SIPs du premier jour : Une analyse de 22 ans des avantages de timing dans le Nifty 50 de l'Inde
FD4QC : Application de l'apprentissage automatique classique et hybride quantique pour la détection de la fraude financière Un rapport technique
Un cadre bayésien pour l'association des sources des CRUHA et l'inférence des paramètres
Solutions fortement périodiques dans un problème d'interaction fluide-structure à plusieurs couches
Étude comparative des capacités physiques d'un argon liquide et d'un scintillateur liquide à base d'eau au DUNE
Inapproximabilité de Treedepth et borne inférieure exponentielle de ETH