Résumé - Apprentissage contrastif Audio-Vision pour la reconnaissance des classes phonologiques
Titre
Apprentissage contrastif Audio-Vision pour la reconnaissance des classes phonologiques
Temps
2025-07-23 16:44:22
Auteur
{"Daiqi Liu","Tomás Arias-Vergara","Jana Hutter","Andreas Maier","Paula Andrea Pérez-Toro"}
Catégorie
{cs.SD,cs.CV,cs.MM,eess.AS}
Lien
http://arxiv.org/abs/2507.17682v1
PDF Lien
http://arxiv.org/pdf/2507.17682v1
Résumé
Ce document de recherche propose un cadre de apprentissage profond multimodal qui combine l'imagerie par résonance magnétique en temps réel (rtMRI) et les signaux de parole pour classer trois dimensions articulatoires clés : mode d'articulation, lieu d'articulation et timbre vocal. Le cadre est évalué sur le jeu de données USC-TIMIT en utilisant quatre configurations audio/vision : rtMRI unimodal, signaux audio unimodaux, fusion multimodale intermédiaire et fusion audio-vision basée sur l'apprentissage contrastif.
**Constatations clés** :
* L'approche basée sur l'apprentissage contrastif atteint une performance de pointe avec une moyenne de F1-score de 0,81, représentant une augmentation absolue de 0,23 par rapport à la base unimodale.
* Les résultats confirment l'efficacité de l'apprentissage de représentation contrastive pour l'analyse articulatoire multimodale.
* Le cadre démontre la nature complémentaire de l'information acoustique et visuelle dans la classification phonologique.
* Le modèle présente des limites dans la classification des catégories velaires et alvéolaires, probablement en raison de similarités articulatoires et d'un déséquilibre des données.
* Le modèle se comporte mal sur les catégories glottales et palatales, probablement en raison de leur nature subtile ou moins visible dans l'rtMRI.
**Méthodologie** :
* Le cadre utilise deux encodeurs : un Vision Transformer (ViT) pour l'encodage des images et un modèle Wav2Vec 2.0 pour l'encodage des signaux de parole.
* L'encodeur ViT est affiné pour la tâche de classification phonologique, tandis que les paramètres du modèle Wav2Vec 2.0 restent inchangés.
* Le cadre utilise l'apprentissage contrastif pour maximiser la similarité entre les embeddings d'image et de parole pendant l'entraînement.
* Le modèle utilise un schéma de pondération appris et équilibré par catégorie pour atténuer le déséquilibre des catégories.
**Travaux futurs** :
* Intégrer des modules de détection de zone d'intérêt (ROI) ou des mécanismes d'attention pour améliorer l'interprétabilité et la performance.
* Explorer des stratégies d'affinage spécifiques à la tâche ou un pré-entraînement adaptatif au domaine pour les encodeurs visuels.
* Évaluer le cadre sur des jeux de données d'IRM cliniques avec des défis supplémentaires.
Articles Recommandés
MTU : L'Unité d'Arbre Multifonctionnel dans zkSpeed pour l'Accélération de HyperPlonk
Laisser tomber ? Pas tout à fait : Aborder le problème du démarrage difficile des articles dans les recommandations séquentielles avec une initialisation basée sur le contenu
Un cadre d'inférence DNN de bout en bout pour le MPSoC neuromorphique SpiNNaker2
Étude comparative des capacités physiques d'un argon liquide et d'un scintillateur liquide à base d'eau au DUNE
Leçons issues de la piste TREC Plain Language Adaptation of Biomedical Abstracts (PLABA)
Exploration du matière sombre non froide dans un scénario d'énergie sombre dynamique avec les données DR2 du télescope DESI
Réseaux d'état écho déterministes minimaux surpassent les réservoirs aléatoires en apprenant les dynamiques chaotiques.
Clustering des vecteurs hiérarchiques : Théorie et applications
Investigation numérique de la dispersion des ondes dans les milieux granulaires : inversion à l'échelle des grains et rôle des effets de bord
Équivalence élémentaire et groupes de diffeomorphismes des variétés différentiables