この論文では、西アジアと北アフリカの言語における情報探索質問のためのトレーニングおよび評価データの不足を解消するために設計されたクエリ応答データセット、T Y D I QA–WANAを紹介しています。このデータセットは、アラビア語、ヘブライ語、ペルシア語、トルコ語を含む10つの言語バリアントで28,000の例を含んでいます。データ収集プロセスは、質問者が真に答えに対して興味を持っている情報探索質問を引き出すように設計されています。各質問は、答えが含まれているかどうかの分からない全体の記事と組み合わせられており、このタスクはモデルが大規模なテキストコンテキストを利用する能力を評価するのに適しています。
論文は、低資源言語における情報探索質問に対するモデルの評価における課題を強調しており、特に長文のLLMを扱う場合の課題に焦点を当てています。既存の評価データセットがモデルが大規模なコンテキストウィンドウを利用する能力を試すためには設計されていないと主張しています。これに対処するために、T Y D I QA–WANAはT Y D I QAのスタイルで、低く代表されていない非英語の言語バリアントの長文情報探索質問のデータセットを提供しています。
論文は、Gemini 1.5 ProとGemini 2.0 Flashの2つの大規模言語モデルの基準結果を示し、現代のLLMが入力に全体のウィキペディア記事を含めて質問に答える能力があることを示しています。結果は、言語バリアント間で性能が広範囲にわたることを示しており、モデルを多様な言語データセットで評価する重要性を強調しています。
論文は、T Y D I QA–WANAが研究コミュニティにとってどれだけ重要であるかを強調しており、低資源言語における質問応答モデルの評価と改善に非常に貴重なリソースを提供することを示しています。データセットとコードを公開することで、著者たちはこれらの言語バリアントにおけるモデルの性能の測定と改善を促進することを願っています。
要約すると、T Y D I QA–WANAは低資源言語における情報探索質問のためのトレーニングおよび評価データの必要性を解決する価値あるデータセットであり、研究コミュニティにとって非常に有価値なリソースを提供し、多様な言語バリアントの質問応答システムの進歩に寄与しています。