Resumen - Aprendizaje Contrastivo Audio-Visual para la Reconocimiento de Clases Fonológicas

Título
Aprendizaje Contrastivo Audio-Visual para la Reconocimiento de Clases Fonológicas

Tiempo
2025-07-23 16:44:22

Autor
{"Daiqi Liu","Tomás Arias-Vergara","Jana Hutter","Andreas Maier","Paula Andrea Pérez-Toro"}

Categoría
{cs.SD,cs.CV,cs.MM,eess.AS}

Enlace
http://arxiv.org/abs/2507.17682v1

PDF Enlace
http://arxiv.org/pdf/2507.17682v1

Resumen

Este documento de investigación propone un marco de aprendizaje profundo multimodal que combina imágenes de resonancia magnética en tiempo real (rtMRI) y señales de voz para clasificar tres dimensiones articulatorias clave: modo de articulación, lugar de articulación y voz. El marco se evalúa en el conjunto de datos USC-TIMIT utilizando cuatro configuraciones de audio/vision: rtMRI unimodal, señales de audio unimodal, fusión multimodal intermedia y fusión de audio-vision basada en aprendizaje contrastivo. **Hallazgos Clave**: * El enfoque basado en aprendizaje contrastivo alcanza un rendimiento de vanguardia con una puntuación promedio de F1 de 0.81, lo que representa un aumento absoluto de 0.23 sobre la línea de base unimodal. * Los resultados confirman la efectividad del aprendizaje de representación contrastiva para el análisis articulatorio multimodal. * El marco demuestra la naturaleza complementaria de la información acústica y visual en la clasificación fonológica. * El modelo muestra limitaciones en la clasificación de categorías velares y alveolares, probablemente debido a similitudes articulatorias y desequilibrio de datos. * El modelo tiene un rendimiento deficiente en la clasificación de categorías glóticas y palatinas, probablemente debido a su naturaleza sutil o menos visible en rtMRI. **Métodos**: * El marco utiliza dos encoders: un Vision Transformer (ViT) para la codificación de imágenes y un modelo Wav2Vec 2.0 para la codificación de voz. * El encodificador ViT se ajusta finamente para la tarea de clasificación fonológica, mientras que los parámetros del modelo Wav2Vec 2.0 se mantienen inmutables. * El marco emplea aprendizaje contrastivo para maximizar la similitud entre los embeddings de imagen y voz durante el entrenamiento. * El modelo utiliza un esquema de ponderación aprendible y equilibrado por clase para mitigar el desequilibrio de clases. **Trabajo Futuro**: * Incorporar módulos de detección de regiones de interés (ROI) o mecanismos de atención para mejorar la interpretabilidad y el rendimiento. * Explorar estrategias de ajuste fino específicas para tareas o preentrenamiento adaptativo al dominio para los encoders visuales. * Evaluar el marco en conjuntos de datos de MRI clínicos con desafíos adicionales.


Artículos Recomendados

En la Complejidad del Problema de Skolem en Bajas Ordenes

CASCADE: Desobfuscador de JavaScript impulsado por LLM en Google

Sumando caminos de Feynman en tiempo real de polaron de red con estados de producto de matrices

Geodesias Morse Sublineales y Percolación de Primer Paseo

¿Corriendo en CÍRCULO? Una prueba de benchmark simple para la seguridad de los interpretadores de código de LLM

Detectando Anillos Galácticos en las Encuestas de Imágenes del DESI Legacy con Aprendizaje Profundo Semi-Supervisado

Un método novedoso de optimización de topologías de múltiples espesores para equilibrar el rendimiento estructural y la fabricabilidad

Propiedades asintóticas de los ceros de la función zeta de Riemann

El problema subgrupo oculto para grupos infinitos

Las estrellas de referencia de alta velocidad radial de Gaia RVS. III. Estrellas de alta velocidad radial confirmadas y nuevas de Gaia DR3.