Zusammenfassung - Audio-Vision kontrastives Lernen für phonologische Klassenerkennung

Titel
Audio-Vision kontrastives Lernen für phonologische Klassenerkennung

Zeit
2025-07-23 16:44:22

Autor
{"Daiqi Liu","Tomás Arias-Vergara","Jana Hutter","Andreas Maier","Paula Andrea Pérez-Toro"}

Kategorie
{cs.SD,cs.CV,cs.MM,eess.AS}

Link
http://arxiv.org/abs/2507.17682v1

PDF Link
http://arxiv.org/pdf/2507.17682v1

Zusammenfassung

Diese Forschungsarbeit schlägt ein multimodales tiefes Lernrahmenwerk vor, das Echtzeit-Magnetresonanztomografie (rtMRI) und Sprachsignale kombiniert, um drei Schlüsselartikulationsdimensionen zu klassifizieren: Artikulationsweise, Artikulationsort und Lautstärke. Das Rahmenwerk wird unter Verwendung von vier Audio/Visionskonfigurationen auf dem USC-TIMIT-Dataset bewertet: unimodale rtMRI, unimodale Audiosignale, multimodale mittlere Fusion und audio-visionäre Fusion basierend auf kontrastiver Lernen. **wesentliche Ergebnisse**: * Der auf kontrastivem Lernen basierende Ansatz erreicht den Stand der Technik mit einem durchschnittlichen F1-Score von 0,81, was einen absoluten Anstieg von 0,23 gegenüber der unimodalen Baseline darstellt. * Die Ergebnisse bestätigen die Effektivität des kontrastiven Repräsentationslernens für die multimodale artikulatorische Analyse. * Das Rahmenwerk zeigt die ergänzende Natur der akustischen und visuellen Informationen in der phonologischen Klassifizierung. * Das Modell zeigt begrenzte Fähigkeiten bei der Klassifizierung von velaren und alveolaren Kategorien, wahrscheinlich aufgrund von artikulatorischen Ähnlichkeiten und Datenungleichgewichten. * Das Modell schneidet schlecht bei glottalen und palatinalen Kategorien ab, wahrscheinlich aufgrund ihrer subtilen oder weniger sichtbaren Natur in der rtMRI. **Methodik**: * Das Rahmenwerk verwendet zwei Encoder: einen Vision Transformer (ViT) für die Bildkodierung und ein Wav2Vec 2.0 Modell für die Sprachkodierung. * Der ViT-Encoder wird für die phonologische Klassifizierungsaufgabe feinabgestimmt, während die Parameter des Wav2Vec 2.0 Modells unverändert bleiben. * Das Rahmenwerk nutzt kontrastives Lernen, um die Ähnlichkeit zwischen den Bild- und Sprachembeddings während des Trainings zu maximieren. * Das Modell verwendet ein klassenabgestimmtes, lernbares Gewichtungsschema, um die Klassenungleichgewichte zu mindern. **Zukünftige Arbeiten**: * Integration von Bereichsinteressenzentrierung (ROI) Modulen oder Aufmerksamkeitsmechanismen, um die Interpretierbarkeit und die Leistung zu verbessern. * Erkundung spezifischer für Aufgaben angepasster Feinabstimmungsstrategien oder domänenanpassender Vorabtraining für visuelle Encoder. * Bewertung des Rahmenwerks auf klinischen MRI-Datenbanken mit zusätzlichen Herausforderungen.


Empfohlene Papiere

Temperaturabhängige optische Antwort von Hoch-Tc YBa2Cu3O7-δ (Ybco)-Dünnschichten

Begrenzter und nicht begrenzter Chaos in klassischen Spinsystemen

Universelle Drehmodell sind universelle Approximierer im maschinellen Lernen.

Pseudoperiodische sphärische Randbedingungen: Effiziente und anisotrope 3D-Partikelsimulationen ohne Gitter Artefakte

Ein unbedingter unterer Schwellenwert für die aktive-Set-Methode in konvexer quadratischer Maximierung

Schätzende SMT-Zählung jenseits diskreter Domänen

Google-Suchwerbeanzeigen nach Dobbs v. Jackson

Die Hypothese der Serial Skalierung

MCM: Mamba-basiertes Cardiokinetik-Tracking mit sequenziellen Bildern in der MRT

Beschränkte Graph-Lie-Algebren in gerader Charakteristik