Zusammenfassung - SynC: Refinierung des künstlichen Bildbeschreibungsdatenbanksets mit ein-zu-viele-Mapping für Zero-shot-Bildbeschreibungen

Titel
SynC: Refinierung des künstlichen Bildbeschreibungsdatenbanksets mit ein-zu-viele-Mapping für Zero-shot-Bildbeschreibungen

Zeit
2025-07-24 17:53:26

Autor
{"Si-Woo Kim","MinJu Jeon","Ye-Chan Kim","Soeun Lee","Taewhan Kim","Dong-Jin Kim"}

Kategorie
{cs.CV,cs.AI,cs.CL,cs.LG}

Link
http://arxiv.org/abs/2507.18616v1

PDF Link
http://arxiv.org/pdf/2507.18616v1

Zusammenfassung

Das Papier schlägt SynC vor, ein neuer Rahmen für die Verfeinerung synthetischer Bild-Zwischenbenennungs-Datenbanken für Zero-Shot Bild-Zwischenbenennung (ZIC) vor. Die zentrale Herausforderung, die angegangen wird, ist die semantische Unausgewogenheit zwischen generierten Bildern und ihren entsprechenden Zwischenbenennungen, die das Modelltraining behindern kann. SynC verwendet eine ein-zu-viele Abbildungsstrategie, bei der jede Zwischenbenennung mehrere Kandidatenbilder aus dem vorgenerierten Bildpool abruft. Anschließend wendet es einen durch Zyklenkonsistenz inspirierten Ausrichtungs-Score an, um das beste Bild durch die Überprüfung seiner Fähigkeit, die ursprüngliche Zwischenbenennung über Bild-zu-Text-Retrieval abzurufen, auszuwählen. Dieser Ansatz identifiziert und behält gut ausgerichtete Bild-Zwischenbenennungs-Paare effektiv bei, was die Qualität der Trainingsdaten für Zero-Shot-Zwischenbenennungsmodelle verbessert. Das Papier präsentiert umfassende Evaluierungen, die die Effektivität von SynC in verschiedenen ZIC-Modellen und -Benchmarks zeigen und in mehreren Szenarien den Stand der Technik erreichen. SynC bietet eine praktische Lösung für die Kuration von verfeinerten synthetischen Daten zur Verbesserung des ZIC, indem die einzigartigen Herausforderungen der Kuration synthetischer Datenbanken für ZIC angegangen werden.


Empfohlene Papiere

Multilevel-Monte-Carlo-Sampling mit Parallel-in-Time-Integration zur Unsicherheitsquantifizierung in der Elektromaschinensimulation

Kohomologie und Erweiterungen der $C_p$-Grün-Funktoren von Lie-Typ

Ranking-Vektoren-Clustering: Theorie und Anwendungen

Entwerfen von leistungsfähigen und thermisch machbaren Multi-Chiplet-Architekturen, ermöglicht durch nicht biegsame Glas-Interposern

Der Emotion-Memory-Link: Haben Merkmale der Beherrschbarkeit Bedeutung für intelligente Systeme?

Gromov-Hausdorff-Abstand zwischen chromatischen Metrik-Paaren und Stabilität des Sechspacks

Ein unbedingter unterer Schwellenwert für die aktive-Set-Methode in konvexer quadratischer Maximierung

SeC: Fortschritt in der komplexen Videoobjektscherei durch progressiven Konzeptaufbau

Thermodynamische Analyse der transversalen Impulsspektren in Pb-Pb-Kollisionen bei 2.76 TeV: Abhängigkeit der Zentralität von der Temperatur, den Ausfrostungsparametern und der Nicht-Extensivität

Erweiterung der vereinigten Gravitation, um die Wechselwirkung zwischen Gravitonen zu berücksichtigen