Resumen - RoadBench: Un Modelo de Base de Conocimiento de Visión-Lenguaje y Marco de Referencia para la Comprensión del Daño en las Carreteras

Título
RoadBench: Un Modelo de Base de Conocimiento de Visión-Lenguaje y Marco de Referencia para la Comprensión del Daño en las Carreteras

Tiempo
2025-07-23 09:34:35

Autor
{"Xi Xiao","Yunbei Zhang","Janet Wang","Lin Zhao","Yuxiang Wei","Hengjia Li","Yanshu Li","Xiao Wang","Swalpa Kumar Roy","Hao Xu","Tianyang Wang"}

Categoría
{cs.CE}

Enlace
http://arxiv.org/abs/2507.17353v1

PDF Enlace
http://arxiv.org/pdf/2507.17353v1

Resumen

El documento introduce RoadBench, el primer banco de pruebas multimodal para la comprensión de daños en carreteras, y RoadCLIP, un nuevo modelo de visión-lenguaje diseñado para este dominio. RoadBench consta de 100,000 imágenes de carreteras de alta resolución acompañadas de descripciones textuales detalladas de las condiciones del pavimento. RoadCLIP alcanza un rendimiento de vanguardia en tareas de reconocimiento de daños en carreteras, superando significativamente los métodos visuales y multimodales existentes. Contribuciones clave: * **RoadBench**: Esta base de datos empareja imágenes de alta resolución de daños en carreteras con descripciones textuales detalladas, proporcionando un contexto más rico para el entrenamiento de modelos. Es la base de datos más grande de su tipo, con 100,000 pares de imágenes-texto, que cubren diversas situaciones de daños en carreteras y condiciones ambientales. * **RoadCLIP**: Este modelo de visión-lenguaje se basa en el framework CLIP e incorpora mejoras específicas del dominio para aprender eficazmente de las imágenes de carreteras y sus descripciones. Incluye dos módulos clave: * **Codificación Posicional Consciente de Enfermedades (DaPE)**: Este módulo captura patrones espaciales de defectos en carreteras y sus ubicaciones, mejorando la capacidad del modelo para localizar áreas dañadas. * **Inyección de Conocimiento Previo Específico del Dominio**: Este mecanismo inyecta conocimiento experto sobre las categorías de daños en carreteras y sus características, mejorando la comprensión del modelo de las condiciones de la carretera. * **Experimentos**: Experimentos extensos demuestran que RoadCLIP alcanza un rendimiento superior en tareas de reconocimiento de daños en carreteras en comparación con los modelos existentes. Supera al mejor modelo puramente visual en un 19.2% en precisión de detección y en un 20.9% en puntuación F1 de clasificación. RoadBench y RoadCLIP abren el camino para una monitorización más efectiva de la infraestructura mediante el aprendizaje multimodal, estableciendo nuevos estándares para el campo y permitiendo el desarrollo de sistemas de detección de daños en carreteras más precisos y confiables.


Artículos Recomendados

La Hipótesis de Escalado Secuencial

Imágenes hiperspectrales de Mid-IR con fotones no detectados

Estados de agrupamiento Mott resistentes en el Nb$_3$Cl$_8$ estratificado frente a la rompimiento de simetría inducido por presión

Hacia el Aprendizaje de Representaciones Causales Temporales con Descomposición de Tensores

Marco de Evaluación Completo para el Estudio de los Efectos de los Filtros Faciales en la Precisión del Reconocimiento Facial

Un estudio exhaustivo sobre las señales de velocidad radial utilizando ESPRESSO: Elevando la precisión hasta el nivel de 10 cm/s

Fotogrametría de sistemas $DN$ y $\bar{D}N$

Rastreo para el complejo Du Bois

SafeWork-R1: Evolución Coevolucionada de la Seguridad e Inteligencia bajo la Ley AI-45$^{\circ}$

Control local de retroalimentación imperfecta en sistemas biofísicos no equilibrados habilitado por restricciones termodinámicas