Zusammenfassung - Mix-Geneformer: Unified Representation Learning für menschliche und Maus-scrNA-seq-Daten
Titel
Mix-Geneformer: Unified Representation Learning für menschliche und Maus-scrNA-seq-Daten
Zeit
2025-07-10 06:15:17
Autor
{"Yuki Nishio","Takayoshi Yamashita","Keita Ito","Tsubasa Hirakawa","Hironobu Fujiyoshi"}
Kategorie
{q-bio.GN}
Link
http://arxiv.org/abs/2507.07454v1
PDF Link
http://arxiv.org/pdf/2507.07454v1
Zusammenfassung
Mix-Geneformer ist ein neuartiges tiefes Lernmodell, das zur Analyse menschlicher und mausartiger Genausdrucksdaten entwickelt wurde. Es erfasst effektiv sowohl gemeinsame als auch art-spezifische Genrepräsentationen mithilfe eines hybriden selbstsupervisierten Lernansatzes. Das auf der Transformer-Architektur basierende Modell kombiniert Masked Language Modeling (MLM) mit SimCSE-basiertem kontrastivem Lernen, um konsistente Genrepräsentationen über Arten hinweg zu erreichen.
Die Architektur von Mix-Geneformer ist ähnlich wie die von Geneformer und Mouse-Geneformer, aber sie ist darauf ausgelegt, interspezifische Daten zu verarbeiten. Es nutzt eine groß angelegte kombinierte Datenbank, Mix-Genecorpus-50M, die menschliche und mausartige scRNA-seq-Daten integriert. Diese Datenbank wurde sorgfältig kuratiert und vorgebearbeitet, um die Fähigkeit des Modells, biologisch relevante Genmuster zu lernen, zu verbessern, indem Rank-Wert-Codierung verwendet wurde.
Die Vorab-Trainierung von Mix-Geneformer umfasste ein hybrides selbstsupervisiertes Lernziel, das MLM und SimCSE-Verluste kombinierte. Dies ermöglichte es dem Modell, sowohl kontextabhängige Gene-Beziehungen als auch semantisch konsistente Zellrepräsentationen über Arten hinweg zu lernen. Evaluationsversuche zeigten, dass Mix-Geneformer in der Zelltypklassifikation und in silico Perturbationsaufgaben Leistung erbringt, die mit oder über denen bestehender art-spezifischer Modelle vergleichbar sind.
In silico Perturbationsexperimente bestätigten die Fähigkeit von Mix-Geneformer, sowohl in menschlichen als auch in mausartigen Modellen genesimierte Gene zu identifizieren und vorherzusagen. Dies unterstreicht das Potenzial des Modells für die Drug Discovery und die Aufklärung von Krankheitsmechanismen. Insgesamt bietet Mix-Geneformer ein vielversprechendes Werkzeug für die Analyse interspezifischer Ausdrucksdaten und hat das Potenzial, die translationale Forschung zu beschleunigen und die Ressourcennachfrage in der Drug Discovery und der Krankheitsanalyse zu reduzieren.
Empfohlene Papiere
Warum Triebkraft und Sternentstehung in aktiven Galaxien unkorreliert sind
Desorption von CO aus interstellaren eisigen Teilchen durch IR-Excitation von superhydridierten PAHs
Klassenbedingte konformative Vorhersage für mehrere Eingaben durch Aggregation von p-Werten
Geheimnisse aus dem frühen Universum: Der Ringdown primordialer Schwarzer Löcher
Zweipunktfunktionen und die Vakuumdichten im Casimir-Effekt für das Proca-Feld
Grapheneuralnetzwerk-Surrogaten für den Kontakt mit deformierbaren Körpern mit notwendiger und ausreichender Kontakt detention
Exakte Lösungen für bimodale Verteilungen unter stochastischer Plasma-Irradiation in dünnen Schichten
Fristenbewusste gemeinsame Aufgabenplanung und Offloading in mobilen Edge-Computing-Systemen
Ultra3D: Effiziente und hochauflösende 3D-Generierung mit Teilerkennung
Der Emotion-Memory-Link: Haben Merkmale der Beherrschbarkeit Bedeutung für intelligente Systeme?