Resumen - Mix-Geneformer: Aprendizaje de Representación Unificado para Datos de scRNA-seq de Humanos y Ratones
Título
Mix-Geneformer: Aprendizaje de Representación Unificado para Datos de scRNA-seq de Humanos y Ratones
Tiempo
2025-07-10 06:15:17
Autor
{"Yuki Nishio","Takayoshi Yamashita","Keita Ito","Tsubasa Hirakawa","Hironobu Fujiyoshi"}
Categoría
{q-bio.GN}
Enlace
http://arxiv.org/abs/2507.07454v1
PDF Enlace
http://arxiv.org/pdf/2507.07454v1
Resumen
Mix-Geneformer es un nuevo modelo de aprendizaje profundo diseñado para analizar datos de expresión génica humana y de ratón. Efectivamente captura tanto representaciones de genes compartidas como específicas de especie utilizando un enfoque híbrido de aprendizaje auto-supervisado. El modelo, basado en la arquitectura Transformer, combina el Modelado de Lenguaje Ajustado con Mascarilla (MLM) con aprendizaje contrastivo basado en SimCSE para lograr representaciones de genes consistentes entre especies.
La arquitectura de Mix-Geneformer es similar a la de Geneformer y Mouse-Geneformer, pero está diseñada para manejar datos interspecíficos. Utiliza un conjunto de datos a gran escala combinado, Mix-Genecorpus-50M, que integra datos de scRNA-seq humanos y de ratón. Este conjunto de datos fue curado y pre-procesado con codificación de valor de clasificación para mejorar la capacidad del modelo de aprender patrones de genes biológicamente significativos.
El pre-entrenamiento de Mix-Geneformer involucró un objetivo de aprendizaje auto-supervisado híbrido que combinaba la pérdida de MLM y SimCSE. Esto permitió que el modelo aprendiera tanto relaciones de genes dependientes del contexto como representaciones celulares semánticamente consistentes entre especies. Experimentos de evaluación demostraron que Mix-Geneformer alcanza un rendimiento comparable o superior a los modelos específicos de especie existentes en tareas de clasificación de tipo celular y perturbaciones in silico.
Experimentos de perturbaciones in silico confirmaron la capacidad de Mix-Geneformer para identificar y predecir genes asociados con enfermedades tanto en modelos humanos como de ratón. Esto resalta el potencial del modelo para la descubierta de medicamentos y la elucidación de mecanismos de enfermedades. En resumen, Mix-Geneformer ofrece una herramienta prometedora para el análisis de datos de expresión interspecíficos y tiene el potencial de acelerar la investigación translacional y reducir las demandas de recursos en la descubierta de medicamentos y el análisis de enfermedades.
Artículos Recomendados
Distancia de Gromov-Hausdorff entre pares métricos cromáticos y estabilidad del six-pack
El Survey de Abundancias Químicas y Mapeo de los Grupos Abiertos: VIII. Análisis de Gradiente Químico Galáctico y Azimutal desde SDSS/MWM DR19
SIDA: Adaptación de Dominio sin Entrenamiento con Imágenes Sintéticas Driven
Conjuntos evasivos, variedades entrelazadas, y árboles de clique contenedor
Aumentando la Arquitectura de Von Neumann para un Futuro Inteligente
Marco de Espacio Fase para Redes Neurales Ópticas Cuánticas de Escala Intermedia Ruidosas
Predicción del Mortalidad en la Lista de Espera de Trasplante Cardíaco a Través del Tiempo hasta el Evento: Benchmarking con un Nuevo Conjunto de Datos Longitudinales de UNOS
La álgebra de Jacobi de rango dos
En la Extracción de Malla Cuádratica desde Mapeos de Mallas Desordenadas
Iteraciones Puntual Fijo con Aplicaciones al Descomposición Resolvente con Tamaño de Paso Variable