Zusammenfassung - Mix-Geneformer: Unified Representation Learning für menschliche und Maus-scrNA-seq-Daten

Titel
Mix-Geneformer: Unified Representation Learning für menschliche und Maus-scrNA-seq-Daten

Zeit
2025-07-10 06:15:17

Autor
{"Yuki Nishio","Takayoshi Yamashita","Keita Ito","Tsubasa Hirakawa","Hironobu Fujiyoshi"}

Kategorie
{q-bio.GN}

Link
http://arxiv.org/abs/2507.07454v1

PDF Link
http://arxiv.org/pdf/2507.07454v1

Zusammenfassung

Mix-Geneformer ist ein neuartiges tiefes Lernmodell, das zur Analyse menschlicher und mausartiger Genausdrucksdaten entwickelt wurde. Es erfasst effektiv sowohl gemeinsame als auch art-spezifische Genrepräsentationen mithilfe eines hybriden selbstsupervisierten Lernansatzes. Das auf der Transformer-Architektur basierende Modell kombiniert Masked Language Modeling (MLM) mit SimCSE-basiertem kontrastivem Lernen, um konsistente Genrepräsentationen über Arten hinweg zu erreichen. Die Architektur von Mix-Geneformer ist ähnlich wie die von Geneformer und Mouse-Geneformer, aber sie ist darauf ausgelegt, interspezifische Daten zu verarbeiten. Es nutzt eine groß angelegte kombinierte Datenbank, Mix-Genecorpus-50M, die menschliche und mausartige scRNA-seq-Daten integriert. Diese Datenbank wurde sorgfältig kuratiert und vorgebearbeitet, um die Fähigkeit des Modells, biologisch relevante Genmuster zu lernen, zu verbessern, indem Rank-Wert-Codierung verwendet wurde. Die Vorab-Trainierung von Mix-Geneformer umfasste ein hybrides selbstsupervisiertes Lernziel, das MLM und SimCSE-Verluste kombinierte. Dies ermöglichte es dem Modell, sowohl kontextabhängige Gene-Beziehungen als auch semantisch konsistente Zellrepräsentationen über Arten hinweg zu lernen. Evaluationsversuche zeigten, dass Mix-Geneformer in der Zelltypklassifikation und in silico Perturbationsaufgaben Leistung erbringt, die mit oder über denen bestehender art-spezifischer Modelle vergleichbar sind. In silico Perturbationsexperimente bestätigten die Fähigkeit von Mix-Geneformer, sowohl in menschlichen als auch in mausartigen Modellen genesimierte Gene zu identifizieren und vorherzusagen. Dies unterstreicht das Potenzial des Modells für die Drug Discovery und die Aufklärung von Krankheitsmechanismen. Insgesamt bietet Mix-Geneformer ein vielversprechendes Werkzeug für die Analyse interspezifischer Ausdrucksdaten und hat das Potenzial, die translationale Forschung zu beschleunigen und die Ressourcennachfrage in der Drug Discovery und der Krankheitsanalyse zu reduzieren.


Empfohlene Papiere

Warum Triebkraft und Sternentstehung in aktiven Galaxien unkorreliert sind

Desorption von CO aus interstellaren eisigen Teilchen durch IR-Excitation von superhydridierten PAHs

Klassenbedingte konformative Vorhersage für mehrere Eingaben durch Aggregation von p-Werten

Geheimnisse aus dem frühen Universum: Der Ringdown primordialer Schwarzer Löcher

Zweipunktfunktionen und die Vakuumdichten im Casimir-Effekt für das Proca-Feld

Grapheneuralnetzwerk-Surrogaten für den Kontakt mit deformierbaren Körpern mit notwendiger und ausreichender Kontakt detention

Exakte Lösungen für bimodale Verteilungen unter stochastischer Plasma-Irradiation in dünnen Schichten

Fristenbewusste gemeinsame Aufgabenplanung und Offloading in mobilen Edge-Computing-Systemen

Ultra3D: Effiziente und hochauflösende 3D-Generierung mit Teilerkennung

Der Emotion-Memory-Link: Haben Merkmale der Beherrschbarkeit Bedeutung für intelligente Systeme?