Resumen - BetterCheck: Hacia la Protección de los Sistemas de Percepción Automotriz VLM

Título
BetterCheck: Hacia la Protección de los Sistemas de Percepción Automotriz VLM

Tiempo
2025-07-23 17:32:17

Autor
{"Malsha Ashani Mahawatta Dona","Beatriz Cabrero-Daniel","Yinan Yu","Christian Berger"}

Categoría
{cs.CV,I.4.m}

Enlace
http://arxiv.org/abs/2507.17722v1

PDF Enlace
http://arxiv.org/pdf/2507.17722v1

Resumen

Este documento investiga el uso de Modelos de Lenguaje de Visión (VLMs) en sistemas de percepción automotriz y propone un método llamado BetterCheck para mitigar las posibles alucinaciones y asegurar la seguridad. **Problema y Motivación**: Los VLMs, que combinan visión y procesamiento de lenguaje natural, han mostrado promesa en la comprensión de situaciones de tráfico complejas. Sin embargo, son propensos a las alucinaciones, donde pueden ver o describir objetos que no están realmente presentes. Esto puede ser peligroso en contextos automotrices, donde una percepción precisa es crucial. **Objetivo de la Investigación y Metodología**: El objetivo de la investigación es evaluar el rendimiento de tres VLMs de vanguardia (GPT-4o, LLaVA y MiniCPM-V) en la descripción de situaciones de tráfico y evaluar la efectividad de BetterCheck, una adaptación de la técnica de detección de alucinaciones SelfCheckGPT. Los investigadores curaron una colección de imágenes del Waymo Open Dataset y pidieron a los VLMs que describieran los objetos visibles en cada imagen. Luego, evaluaron los títulos por corrección y consistencia con las anotaciones de verdad en el suelo. **Encontrados Clave**: * **Los VLMs muestran impresionantes capacidades de comprensión de imágenes**: Todos los tres modelos tuvieron éxito generalmente en describir situaciones de tráfico, aunque GPT-4o y MiniCPM-V realizaron ligeramente mejor que LLaVA. * **Los VLMs son propensos a las alucinaciones**: Todos los modelos a veces describían objetos que no estaban presentes en la imagen, lo que indica la necesidad de mejores técnicas de detección de alucinaciones. * **BetterCheck muestra promesa**: La técnica adaptada de SelfCheckGPT, renombrada BetterCheck, fue capaz de detectar y mitigar algunas de las alucinaciones. Esto sugiere su potencial para mejorar la seguridad y la fiabilidad de los VLMs en sistemas de percepción automotriz. **Análisis y Discusión**: Los investigadores analizaron los resultados y discutieron los arbit出现jes entre diferentes métricas de rendimiento. Concluyeron que BetterCheck es un enfoque prometedor para mitigar las alucinaciones en los VLMs, aunque se necesita más investigación para mejorar su precisión y eficiencia. **Conclusión y Trabajo Futuro**: El estudio subraya el potencial de los VLMs en sistemas de percepción automotriz, pero también destaca la necesidad de técnicas robustas de detección y mitigación de alucinaciones. BetterCheck representa un paso hacia este objetivo, y los investigadores esperan que sus hallazgos contribuyan al desarrollo de vehículos autónomos más seguros y fiables. **Trabajo futuro podría incluir**: * Evaluar BetterCheck en conjuntos de datos más grandes y diversos. * Explorar diferentes técnicas de detección y mitigación de alucinaciones. * Desarrollar métodos más eficientes y escalables para integrar VLMs en sistemas de percepción automotriz.


Artículos Recomendados

Repensando en la Seguridad de HSM y TPM en la Nube: Ataques del Mundo Real y Defensas de Generación Siguiente

El Survey de Abundancias Químicas y Mapeo de los Grupos Abiertos: VIII. Análisis de Gradiente Químico Galáctico y Azimutal desde SDSS/MWM DR19

Computación neuromorfológica: Un Marco Teórico para la Escalabilidad en Tiempo, Espacio y Energía

Tipo IIB en ocho derivados: Acoplamientos Axio-Dilatón de Cinco Puntos

Simulando Evolvability como un Algoritmo de Aprendizaje: Investigaciones Empíricas sobre Sensibilidad a la Distribución, Robustez y Comprimas de Restricciones

Diseño Experimental Bayesiano Secuencial Orientado a Objetivos para el Aprendizaje Causal

Lecciones del TREC Plain Language Adaptation of Biomedical Abstracts (PLABA) track

El informe meteorológico del JWST: recuperación de variaciones de temperatura, calentamiento de auroras y cobertura de nubes estáticas en SIMP-0136

PRACtical: Actualización de contadores a nivel de subarreglo y aislamiento de recuperación a nivel de banco para la mitigación eficiente de Rowhammer

WSM: Horario de Aprendizaje Sin Decaimiento mediante Fusion de Puntos de Control para el Preentrenamiento de LLM