Zusammenfassung - NoHumansRequired: Autonomes Mining von Tripletten für hochwertige Bildbearbeitung
Titel
NoHumansRequired: Autonomes Mining von Tripletten für hochwertige Bildbearbeitung
Zeit
2025-07-18 17:50:00
Autor
{"Maksim Kuprashevich","Grigorii Alekseenko","Irina Tolstykh","Georgii Fedorov","Bulat Suleimanov","Vladimir Dokholyan","Aleksandr Gordeev"}
Kategorie
{cs.CV,cs.AI,cs.CL,cs.LG}
Link
http://arxiv.org/abs/2507.14119v1
PDF Link
http://arxiv.org/pdf/2507.14119v1
Zusammenfassung
Das Papier stellt NoHumansRequired (NHR) vor, ein innovatives End-zu-End-System zur Extraktion hochwertiger Bildbearbeitungstripletts mithilfe nur natürlicher Sprachanweisungen. Dieses System nutzt die Kraft generativer Modelle, um vielfältige und hochgenaue Datensätze zur Schulung und Verbesserung von Bildbearbeitungsalgorithmen zu erstellen.
NHR besteht aus mehreren Schlüsselkomponenten:
1. **Modul zur Prompt-Engineering**: Dieses Modul generiert Text-zu-Bild (T2I) und Bild-zu-Bild (I2I)-Prompts basierend auf Benutzeranweisungen. Diese Prompts lenken das generative Modell dazu, Bilder mit spezifischen Bearbeitungsanweisungen zu erzeugen.
2. **Hochgenauer T2I-Generator**: Dieses Komponent nutzt ein state-of-the-art Text-zu-Bild-Modell, um hochwertige Bilder aus den T2I-Prompts zu generieren.
3. **Anweisungsgeführter Bildbearbeiter**: Dieses Modul wendet die Bearbeitungsanweisungen auf die generierten Bilder an, was zu mehreren Kandidatenbildern führt.
4. **Multi-Stufige Validierungsstapel**: Dieser Stapel stellt sicher, dass die Triplets durch das Filtern von fehlgeschlagenen Bearbeitungen und die Auswahl der besten auf Basis von Qualitätsmetriken die Qualität aufrechterhalten.
Die Hauptinnovationen von NHR umfassen:
1. **Triple-Mining-Pipeline**: Diese Pipeline extrahiert automatisch hochwertige Bildbearbeitungstripletts ohne menschliche Annotierung. Sie generiert vielfältige Kandidatenbilder und filtert fehlgeschlagene Bearbeitungen basierend auf Qualitätsmetriken.
2. **End-zu-End-System**: NHR funktioniert als vollständiges End-zu-End-System, von der Generierung von Prompts bis zur Validierung der endgültigen Triplets. Dies vereinfacht den Prozess und reduziert den Bedarf an menschlicher Intervention.
3. **Spezialisierte Validator**: NHR nutzt ein fein abgestimmtes Gemini-Modell als spezialisierten Validator, um die Qualität der generierten Bilder zu bewerten. Dieses Modell wurde auf menschlich annotierten Daten trainiert und bietet zuverlässige Qualitätsbewertungen.
4. **Techniken zur Datenvergrößerung**: NHR verwendet verschiedene Datenvergrößerungstechniken wie semantische Inversion und kompositorische Generierung, um das Datenset zu erweitern und die Vielfalt der Triplets zu verbessern.
Das Papier stellt ebenfalls das NHR-Edit-Datensatz vor, eine öffentlich verfügbare Sammlung von 358.000 hochwertigen Triplets. Dieser Datensatz kann für die Schulung und Bewertung von Bildbearbeitungsalgorithmen verwendet werden und zeigt die Effektivität des NHR-Systems.
Insgesamt stellt NHR eine bedeutende Weiterentwicklung im Bereich der Bildbearbeitung dar. Es bietet eine praktische und effiziente Methode zur Generierung hochwertiger Datensätze für die Schulung und Verbesserung von Bildbearbeitungsalgorithmen mit minimalem menschlichen Eingriff. Dieses System hat das Potenzial, die Art und Weise, wie Bildbearbeitung durchgeführt wird, zu revolutionieren, indem es sie für Benutzer zugänglicher und effizienter macht.
Empfohlene Papiere
Maschinelles Lernen-assistierte Surrogatmodellierung mit Multi-Ziel-Optimierung und Entscheidungsfindung für einen Dampfmethan-Reformierungsreaktor
Übergang von flachbandiger Supraleitfähigkeit zur konventionellen Supraleitfähigkeit
Messungskonzentration für nichtlineare zufällige Matrizen mit Anwendungen auf neuronale Netze und nicht-kommutative Polynome
Wissenschaft in Gefahr: Die dringende Notwendigkeit einer institutionellen Unterstützung für langfristige ökologische und evolutionäre Forschung in einer Ära der Datenmanipulation und Desinformation
Gleichheit ist viel schwächer als unaufhaltsame Kostenkommunikation.
Baryonifikation: Eine Alternative zu hydrodynamischen Simulationen für kosmologische Studien
Ein neuer Faktor zur Messung der Übereinstimmung zwischen kontinuierlichen Variablen
Welche Graphmusterparameter sind relevant?
Monophone aus Skalar-Portal-Dunkler Materie bei Neutrino-Experimenten
Erste Ordnungs-Contинуum-Modelle für nichtlineare dispersible Wellen in der Granularkristallgitterstruktur