Zusammenfassung - RoadBench: Ein Vision-Langage-Basismodell und Benchmark für das Verständnis von Straßenbeschädigungen

Titel
RoadBench: Ein Vision-Langage-Basismodell und Benchmark für das Verständnis von Straßenbeschädigungen

Zeit
2025-07-23 09:34:35

Autor
{"Xi Xiao","Yunbei Zhang","Janet Wang","Lin Zhao","Yuxiang Wei","Hengjia Li","Yanshu Li","Xiao Wang","Swalpa Kumar Roy","Hao Xu","Tianyang Wang"}

Kategorie
{cs.CE}

Link
http://arxiv.org/abs/2507.17353v1

PDF Link
http://arxiv.org/pdf/2507.17353v1

Zusammenfassung

Das Papier stellt RoadBench, den ersten mehrmodalen Benchmark für das Verständnis von Straßenbeschädigungen, und RoadCLIP, ein neues Vision-Sprachmodell, das für diesen Bereich angepasst wurde, vor. RoadBench besteht aus 100.000 hochauflösenden Straßenbildern, die mit detaillierten textuellen Beschreibungen der Fahrbahnbedingungen gepaart sind. RoadCLIP erzielt auf Aufgaben der Erkennung von Straßenbeschädigungen den Stand der Technik und übertrifft bestehende rein visuelle und mehrmodale Methoden erheblich. Schlüsselleistungen: * **RoadBench**: Dieses Datenset paart hochauflösende Bilder von Straßenbeschädigungen mit detaillierten textuellen Beschreibungen und bietet so einen reicheren Kontext für das Modelltraining. Es ist das größte Datenset seiner Art mit 100.000 Bild-Text-Paaren und deckt eine Vielzahl von Straßenbeschädigungsszenarien und Umgebungsbedingungen ab. * **RoadCLIP**: Dieses Vision-Sprachmodell baut auf dem CLIP-Framework auf und integriert spezifische domainbezogene Verbesserungen, um effektiv aus Straßenbildern und ihren Beschreibungen zu lernen. Es umfasst zwei Schlüsselmodule: * **Krankheitsbewusstes Positionierungsencoding (DaPE)**: Dieses Modul erfasst räumliche Muster von Straßenfehlern und ihre Positionen, verbessert die Fähigkeit des Modells, Beschädigungsgebiete zu lokalisieren. * **Domain-spezifische Prioritätseinjektion**: Dieses Mechanismus injiziert Expertenwissen über Kategorien von Straßenbeschädigungen und ihre Eigenschaften, verbessert das Verständnis des Modells für Straßenbedingungen. * **Experimente**: Umfassende Experimente zeigen, dass RoadCLIP im Vergleich zu bestehenden Modellen hervorragende Ergebnisse bei der Erkennung von Straßenbeschädigungen erzielt. Es übertrifft das beste rein visuelle Modell um 19,2 % in der Erkennungsgenauigkeit und um 20,9 % im Klassifikations-F1-Score. RoadBench und RoadCLIP eröffnen den Weg zu einer effektiveren Infrastrukturüberwachung durch mehrmodales Lernen, setzen neue Maßstäbe für den Bereich und ermöglichen die Entwicklung von genaueren und zuverlässigeren Systemen zur Erkennung von Straßenbeschädigungen.


Empfohlene Papiere

Monophone aus Skalar-Portal-Dunkler Materie bei Neutrino-Experimenten

Demonstration der erhöhten Empfindlichkeit des Deuteriums gegenüber Symmetrieverletzungen, die durch die Erweiterung des Standardmodells gesteuert werden

Ein umfassendes Bewertungsframework zur Untersuchung der Auswirkungen von Gesichtsfilters auf die Genauigkeit der Gesichtserkennung

Dunkle Zustände von Elektronen in einem Quantensystem mit zwei Paaren Untergitter

Das Programm zum Röst marshmallows mit IGRINS auf Gemini South III: Tiefere Einblicke in die metallarme Atmosphäre eines Gasriesen am Übergang vom heißen zum ultraharten Jupiter-Übergang

Fristenbewusste gemeinsame Aufgabenplanung und Offloading in mobilen Edge-Computing-Systemen

Direkte numerische Simulationen des supersonischen Taylor--Green-Vortex mittels der Boltzmann-Gleichung

Prüfung kleiner Skalen ursprünglicher Kraftspectren mit durch Tensor-Skalarkräfte hervorgerufenen Gravitationswellen

Warum Triebkraft und Sternentstehung in aktiven Galaxien unkorreliert sind

Auszugsweise Übersetzung: Umzug出去: Körpereingeschlossene Mensch-AI-Zusammenarbeit