概要 - CCL25-Evalタスク10用システムレポート:微細な中国語のヘイトスピーチ認識のためのSRAG-MAV
タイトル
CCL25-Evalタスク10用システムレポート:微細な中国語のヘイトスピーチ認識のためのSRAG-MAV
時間
2025-07-24 16:56:38
著者
{"Jiahao Wang","Ramen Liu","Longhui Zhang","Jing Li"}
カテゴリ
{cs.CL}
リンク
http://arxiv.org/abs/2507.18580v1
PDF リンク
http://arxiv.org/pdf/2507.18580v1
概要
この論文では、CCL25-Eval Task 10における微細な中国の仇恨スピーチ認識(FGCHSR)のための新しいSRAG-MAVフレームワークを提案しています。このフレームワークは、タスクの再定義(TR)、自己検索強化生成(SRAG)、および多段階累積投票(MAV)を統合し、FGCHSRの課題、例えば中国の仇恨スピーチの微妙で文脈依存性の性質や高品質なアノテーションデータの限られた利用可能性に対処します。
SRAG-MAVフレームワークは、クワッドプレートの抽出タスクをトリプルプラートの抽出に簡素化し、リトリーブメント強化生成(RAG)にインスパイアされた動的検索を通じて文脈理解を向上させ、並列スケーリング法(PARSCALE)の原則に基づく多段階推論により安定した出力を保証します。
提案されたフレームワークは、STATE ToxiCNデータセットでHard Scoreが26.66、Soft Scoreが48.35、Average Scoreが37.505を達成し、GPT-4o(Average Score 15.63)や微調整されたQwen2.5-7B(Average Score 35.365)などのベースラインを大幅に上回っています。
SRAG-MAVフレームワークの主要な構成要素は以下の通りです:
1. タスクの再定義(TR):フレームワークはクワッドプレートの抽出タスクをトリプルプラートの抽出に再定義し、構造化生成の複雑さを減少させ、大規模言語モデル(LLM)の効率と精度を向上させます。
2. 自己検索強化生成(SRAG):フレームワークはトレーニングセット自身を検索コーパスとして使用し、似たような意味のアノテーション例を利用してトリプル生成を導き、外部リソースを必要とせずに文脈的に関連する出力を保証します。
3. 多段階累積投票(MAV):フレームワークはSRAGで検索された例を使用して多様なプロンプトを生成し、投票機構を通じて最適なトリプル出力を選択し、安定かつ正確な結果を保証します。
実験は、提案されたフレームワークの効果と堅牢性を示し、ベースラインに対する性能の大幅な向上を示しています。フレームワークのオープンソース実装は、再現性を促進し、仇恨スピーチ検出や他の関連するNLP分野におけるさらなる研究を促進します。
提案されたフレームワークの限界は、モデルの特定の領域の性能、テキストのみのデータへの依存、およびMAVの高い投票閾値による計算コストの増加です。今後の研究では、クロスドメインの転移学習、マルチモーダルアプローチ、MAVの計算効率の最適化を探求し、フレームワークの適用範囲を拡大することを目指します。
推奨論文
進行中:フェイクチップを学習機会に変える
「提案的帰納における断面説明の複雑さ」
ブロック符号化におけるアンシラ・オーバーヘッドを削減する方法
認知戦における認証コストの非対称性:複雑性理論的枠組み
CUDA-L1: 対比強化学習を通じてCUDA最適化を向上させる
ロボットサッカーのための効率的なライン検出
チェックリストは、言語モデルの一致を促進するための報酬モデルよりも優れている
スワップと置換による文字列の一致問題
メグレズ2 技術報告
OMiSO: 神経集合状態を形成するための状態依存脳刺激の適応的最適化