Résumé - Apprentissage contrastif Audio-Vision pour la reconnaissance des classes phonologiques

Titre
Apprentissage contrastif Audio-Vision pour la reconnaissance des classes phonologiques

Temps
2025-07-23 16:44:22

Auteur
{"Daiqi Liu","Tomás Arias-Vergara","Jana Hutter","Andreas Maier","Paula Andrea Pérez-Toro"}

Catégorie
{cs.SD,cs.CV,cs.MM,eess.AS}

Lien
http://arxiv.org/abs/2507.17682v1

PDF Lien
http://arxiv.org/pdf/2507.17682v1

Résumé

Ce document de recherche propose un cadre de apprentissage profond multimodal qui combine l'imagerie par résonance magnétique en temps réel (rtMRI) et les signaux de parole pour classer trois dimensions articulatoires clés : mode d'articulation, lieu d'articulation et timbre vocal. Le cadre est évalué sur le jeu de données USC-TIMIT en utilisant quatre configurations audio/vision : rtMRI unimodal, signaux audio unimodaux, fusion multimodale intermédiaire et fusion audio-vision basée sur l'apprentissage contrastif. **Constatations clés** : * L'approche basée sur l'apprentissage contrastif atteint une performance de pointe avec une moyenne de F1-score de 0,81, représentant une augmentation absolue de 0,23 par rapport à la base unimodale. * Les résultats confirment l'efficacité de l'apprentissage de représentation contrastive pour l'analyse articulatoire multimodale. * Le cadre démontre la nature complémentaire de l'information acoustique et visuelle dans la classification phonologique. * Le modèle présente des limites dans la classification des catégories velaires et alvéolaires, probablement en raison de similarités articulatoires et d'un déséquilibre des données. * Le modèle se comporte mal sur les catégories glottales et palatales, probablement en raison de leur nature subtile ou moins visible dans l'rtMRI. **Méthodologie** : * Le cadre utilise deux encodeurs : un Vision Transformer (ViT) pour l'encodage des images et un modèle Wav2Vec 2.0 pour l'encodage des signaux de parole. * L'encodeur ViT est affiné pour la tâche de classification phonologique, tandis que les paramètres du modèle Wav2Vec 2.0 restent inchangés. * Le cadre utilise l'apprentissage contrastif pour maximiser la similarité entre les embeddings d'image et de parole pendant l'entraînement. * Le modèle utilise un schéma de pondération appris et équilibré par catégorie pour atténuer le déséquilibre des catégories. **Travaux futurs** : * Intégrer des modules de détection de zone d'intérêt (ROI) ou des mécanismes d'attention pour améliorer l'interprétabilité et la performance. * Explorer des stratégies d'affinage spécifiques à la tâche ou un pré-entraînement adaptatif au domaine pour les encodeurs visuels. * Évaluer le cadre sur des jeux de données d'IRM cliniques avec des défis supplémentaires.


Articles Recommandés

MTU : L'Unité d'Arbre Multifonctionnel dans zkSpeed pour l'Accélération de HyperPlonk

Laisser tomber ? Pas tout à fait : Aborder le problème du démarrage difficile des articles dans les recommandations séquentielles avec une initialisation basée sur le contenu

Un cadre d'inférence DNN de bout en bout pour le MPSoC neuromorphique SpiNNaker2

Étude comparative des capacités physiques d'un argon liquide et d'un scintillateur liquide à base d'eau au DUNE

Leçons issues de la piste TREC Plain Language Adaptation of Biomedical Abstracts (PLABA)

Exploration du matière sombre non froide dans un scénario d'énergie sombre dynamique avec les données DR2 du télescope DESI

Réseaux d'état écho déterministes minimaux surpassent les réservoirs aléatoires en apprenant les dynamiques chaotiques.

Clustering des vecteurs hiérarchiques : Théorie et applications

Investigation numérique de la dispersion des ondes dans les milieux granulaires : inversion à l'échelle des grains et rôle des effets de bord

Équivalence élémentaire et groupes de diffeomorphismes des variétés différentiables