Resumen - Mix-Geneformer: Aprendizaje de Representación Unificado para Datos de scRNA-seq de Humanos y Ratones

Título
Mix-Geneformer: Aprendizaje de Representación Unificado para Datos de scRNA-seq de Humanos y Ratones

Tiempo
2025-07-10 06:15:17

Autor
{"Yuki Nishio","Takayoshi Yamashita","Keita Ito","Tsubasa Hirakawa","Hironobu Fujiyoshi"}

Categoría
{q-bio.GN}

Enlace
http://arxiv.org/abs/2507.07454v1

PDF Enlace
http://arxiv.org/pdf/2507.07454v1

Resumen

Mix-Geneformer es un nuevo modelo de aprendizaje profundo diseñado para analizar datos de expresión génica humana y de ratón. Efectivamente captura tanto representaciones de genes compartidas como específicas de especie utilizando un enfoque híbrido de aprendizaje auto-supervisado. El modelo, basado en la arquitectura Transformer, combina el Modelado de Lenguaje Ajustado con Mascarilla (MLM) con aprendizaje contrastivo basado en SimCSE para lograr representaciones de genes consistentes entre especies. La arquitectura de Mix-Geneformer es similar a la de Geneformer y Mouse-Geneformer, pero está diseñada para manejar datos interspecíficos. Utiliza un conjunto de datos a gran escala combinado, Mix-Genecorpus-50M, que integra datos de scRNA-seq humanos y de ratón. Este conjunto de datos fue curado y pre-procesado con codificación de valor de clasificación para mejorar la capacidad del modelo de aprender patrones de genes biológicamente significativos. El pre-entrenamiento de Mix-Geneformer involucró un objetivo de aprendizaje auto-supervisado híbrido que combinaba la pérdida de MLM y SimCSE. Esto permitió que el modelo aprendiera tanto relaciones de genes dependientes del contexto como representaciones celulares semánticamente consistentes entre especies. Experimentos de evaluación demostraron que Mix-Geneformer alcanza un rendimiento comparable o superior a los modelos específicos de especie existentes en tareas de clasificación de tipo celular y perturbaciones in silico. Experimentos de perturbaciones in silico confirmaron la capacidad de Mix-Geneformer para identificar y predecir genes asociados con enfermedades tanto en modelos humanos como de ratón. Esto resalta el potencial del modelo para la descubierta de medicamentos y la elucidación de mecanismos de enfermedades. En resumen, Mix-Geneformer ofrece una herramienta prometedora para el análisis de datos de expresión interspecíficos y tiene el potencial de acelerar la investigación translacional y reducir las demandas de recursos en la descubierta de medicamentos y el análisis de enfermedades.


Artículos Recomendados

Distancia de Gromov-Hausdorff entre pares métricos cromáticos y estabilidad del six-pack

El Survey de Abundancias Químicas y Mapeo de los Grupos Abiertos: VIII. Análisis de Gradiente Químico Galáctico y Azimutal desde SDSS/MWM DR19

SIDA: Adaptación de Dominio sin Entrenamiento con Imágenes Sintéticas Driven

Conjuntos evasivos, variedades entrelazadas, y árboles de clique contenedor

Aumentando la Arquitectura de Von Neumann para un Futuro Inteligente

Marco de Espacio Fase para Redes Neurales Ópticas Cuánticas de Escala Intermedia Ruidosas

Predicción del Mortalidad en la Lista de Espera de Trasplante Cardíaco a Través del Tiempo hasta el Evento: Benchmarking con un Nuevo Conjunto de Datos Longitudinales de UNOS

La álgebra de Jacobi de rango dos

En la Extracción de Malla Cuádratica desde Mapeos de Mallas Desordenadas

Iteraciones Puntual Fijo con Aplicaciones al Descomposición Resolvente con Tamaño de Paso Variable