Zusammenfassung - Audio-Vision kontrastives Lernen für phonologische Klassenerkennung
Titel
Audio-Vision kontrastives Lernen für phonologische Klassenerkennung
Zeit
2025-07-23 16:44:22
Autor
{"Daiqi Liu","Tomás Arias-Vergara","Jana Hutter","Andreas Maier","Paula Andrea Pérez-Toro"}
Kategorie
{cs.SD,cs.CV,cs.MM,eess.AS}
Link
http://arxiv.org/abs/2507.17682v1
PDF Link
http://arxiv.org/pdf/2507.17682v1
Zusammenfassung
Diese Forschungsarbeit schlägt ein multimodales tiefes Lernrahmenwerk vor, das Echtzeit-Magnetresonanztomografie (rtMRI) und Sprachsignale kombiniert, um drei Schlüsselartikulationsdimensionen zu klassifizieren: Artikulationsweise, Artikulationsort und Lautstärke. Das Rahmenwerk wird unter Verwendung von vier Audio/Visionskonfigurationen auf dem USC-TIMIT-Dataset bewertet: unimodale rtMRI, unimodale Audiosignale, multimodale mittlere Fusion und audio-visionäre Fusion basierend auf kontrastiver Lernen.
**wesentliche Ergebnisse**:
* Der auf kontrastivem Lernen basierende Ansatz erreicht den Stand der Technik mit einem durchschnittlichen F1-Score von 0,81, was einen absoluten Anstieg von 0,23 gegenüber der unimodalen Baseline darstellt.
* Die Ergebnisse bestätigen die Effektivität des kontrastiven Repräsentationslernens für die multimodale artikulatorische Analyse.
* Das Rahmenwerk zeigt die ergänzende Natur der akustischen und visuellen Informationen in der phonologischen Klassifizierung.
* Das Modell zeigt begrenzte Fähigkeiten bei der Klassifizierung von velaren und alveolaren Kategorien, wahrscheinlich aufgrund von artikulatorischen Ähnlichkeiten und Datenungleichgewichten.
* Das Modell schneidet schlecht bei glottalen und palatinalen Kategorien ab, wahrscheinlich aufgrund ihrer subtilen oder weniger sichtbaren Natur in der rtMRI.
**Methodik**:
* Das Rahmenwerk verwendet zwei Encoder: einen Vision Transformer (ViT) für die Bildkodierung und ein Wav2Vec 2.0 Modell für die Sprachkodierung.
* Der ViT-Encoder wird für die phonologische Klassifizierungsaufgabe feinabgestimmt, während die Parameter des Wav2Vec 2.0 Modells unverändert bleiben.
* Das Rahmenwerk nutzt kontrastives Lernen, um die Ähnlichkeit zwischen den Bild- und Sprachembeddings während des Trainings zu maximieren.
* Das Modell verwendet ein klassenabgestimmtes, lernbares Gewichtungsschema, um die Klassenungleichgewichte zu mindern.
**Zukünftige Arbeiten**:
* Integration von Bereichsinteressenzentrierung (ROI) Modulen oder Aufmerksamkeitsmechanismen, um die Interpretierbarkeit und die Leistung zu verbessern.
* Erkundung spezifischer für Aufgaben angepasster Feinabstimmungsstrategien oder domänenanpassender Vorabtraining für visuelle Encoder.
* Bewertung des Rahmenwerks auf klinischen MRI-Datenbanken mit zusätzlichen Herausforderungen.
Empfohlene Papiere
Temperaturabhängige optische Antwort von Hoch-Tc YBa2Cu3O7-δ (Ybco)-Dünnschichten
Begrenzter und nicht begrenzter Chaos in klassischen Spinsystemen
Universelle Drehmodell sind universelle Approximierer im maschinellen Lernen.
Pseudoperiodische sphärische Randbedingungen: Effiziente und anisotrope 3D-Partikelsimulationen ohne Gitter Artefakte
Ein unbedingter unterer Schwellenwert für die aktive-Set-Methode in konvexer quadratischer Maximierung
Schätzende SMT-Zählung jenseits diskreter Domänen
Google-Suchwerbeanzeigen nach Dobbs v. Jackson
Die Hypothese der Serial Skalierung
MCM: Mamba-basiertes Cardiokinetik-Tracking mit sequenziellen Bildern in der MRT
Beschränkte Graph-Lie-Algebren in gerader Charakteristik