Zusammenfassung - Systembericht für CCL25-Eval-Aufgabe 10: SRAG-MAV für feingranulares chinesisches Hassrede-Erkennung

Titel
Systembericht für CCL25-Eval-Aufgabe 10: SRAG-MAV für feingranulares chinesisches Hassrede-Erkennung

Zeit
2025-07-24 16:56:38

Autor
{"Jiahao Wang","Ramen Liu","Longhui Zhang","Jing Li"}

Kategorie
{cs.CL}

Link
http://arxiv.org/abs/2507.18580v1

PDF Link
http://arxiv.org/pdf/2507.18580v1

Zusammenfassung

Dieses Papier stellt einen neuen SRAG-MAV-Framework für feingranulare chinesische Hassrede-Erkennung (FGCHSR) im CCL25-Eval Task 10 vor. Das Framework integriert die Aufgabenumformung (TR), die selbst-retrieval-augmented Generation (SRAG) und die mehrfache Runde Akkumulationsabstimmung (MAV), um die Herausforderungen der FGCHSR zu bewältigen, wie die feine, kontextabhängige Natur der chinesischen Hassrede und die begrenzte Verfügbarkeit von hochwertigen annotierten Daten. Das SRAG-MAV-Framework vereinfacht die Aufgabe der Vielfach extraktion in die Dreifach extraktion, verbessert die kontextuelle Verständigung durch dynamische Retrieval inspiriert durch Retrieval-augmented Generation (RAG) und stellt stabile Ergebnisse sicher durch mehrfache Inferenz basierend auf den Prinzipien der parallelen Skalengesetze (PARSCALE). Das vorgeschlagene Framework erreicht eine Hard Score von 26.66, eine Soft Score von 48.35 und eine Durchschnittsscore von 37.505 auf dem STATE ToxiCN-Dataset und übertrifft signifikant Baselines wie GPT-4o (Durchschnittsscore 15.63) und finetuntes Qwen2.5-7B (Durchschnittsscore 35.365). Schlüsselkomponenten des SRAG-MAV-Frameworks sind: 1. Aufgabenumformung (TR): Das Framework reformuliert die Vielfach extraktion Aufgabe in eine Dreifach extraktion, reduziert die Komplexität der strukturierten Generierung und verbessert die Effizienz und Genauigkeit großer Sprachmodelle (LLMs). 2. Selbst-retrieval-augmented Generation (SRAG): Das Framework nutzt den Trainingsatz selbst als Retrieval-Korpus, nutzt semantisch ähnliche annotierte Beispiele, um die Dreifach Generierung zu leiten und kontextuell relevante Ergebnisse sicherzustellen, ohne externe Ressourcen zu benötigen. 3. Mehrfache Runde Akkumulationsabstimmung (MAV): Das Framework generiert diverse Anstöße mit SRAG-retrievierten Beispielen und wählt das optimale Dreifach Ausgabe über ein Abstimmungsmechanismus aus, um stabile und genaue Ergebnisse sicherzustellen. Die Experimente zeigen die Effektivität und Robustheit des vorgeschlagenen Frameworks, mit erheblichen Verbesserungen im Vergleich zu Baselines. Die Open-Source-Implementierung des Frameworks fördert die Wiederholbarkeit und erleichtert weitere Forschung in der Hassrede-Erkennung und anderen verwandten NLP-Domänen. Die Einschränkungen des vorgeschlagenen Frameworks umfassen die spezifische Leistung des Modells im Bereich, die Abhängigkeit von rein textbasierten Daten und die hohen Abstimmungsschwellen der MAV, die die Rechenkosten erhöhen. Zukünftige Arbeiten werden sich mit übergeordnetem Transferlernen, mehrmodalen Ansätzen und der Optimierung der Rechenleistung der MAV beschäftigen, um die Anwendbarkeit des Frameworks zu erweitern.


Empfohlene Papiere

Abwärts-selbst-reduzierbare Gesamtfunktion-Polynomhierarchie

Generative AI-getriebene hochauflösende menschliche Bewegungssimulation

Eine empirische Bernstein-Ungleichung für abhängige Daten in Hilberträumen und Anwendungen

In-situ Impedanzspektroskopietests von Li$_{4-x}$Ge$_{1-x}$P$_x$O$_4$ als potenzieller Festkörperelektrolyt für Mikro-Li-Ionenbatterien

Phasenstabilität und Transformationsvorgänge in Blei-Mischhalogen-Peroxid-Kristallen aus maschinellen Kraftfeldern

Physisch informierte Gaußsche Prozess-Infusion von Flüssigkeitsstruktur aus Streuungsdaten

Quantenfehlerminderung durch globale zufällige Fehlerkompensation für adiabatische Evolution im Schwinger-Modell

Bei der Extraktion von Quad-Meshes aus verworrenen Gitter-Preservierungskarten

GPU-geschwindigte Suchen nach langdauernden Gravitationswellen von neu geborenen Neutronensternen

Nicht einmal metastabil: Kubisches Doppel-Diamant in Diblock-Kopolymerschmelzen