Résumé - TyDi QA-WANA : Un point de référence pour l'Answering par Questions de Recherche d'Information dans les Langues de l'Asie de l'Ouest et de l'Afrique du Nord

Titre
TyDi QA-WANA : Un point de référence pour l'Answering par Questions de Recherche d'Information dans les Langues de l'Asie de l'Ouest et de l'Afrique du Nord

Temps
2025-07-23 17:20:28

Auteur
{"Parker Riley","Siamak Shakeri","Waleed Ammar","Jonathan H. Clark"}

Catégorie
{cs.CL}

Lien
http://arxiv.org/abs/2507.17709v1

PDF Lien
http://arxiv.org/pdf/2507.17709v1

Résumé

Le papier présente T Y D I QA–WANA, un ensemble de données pour les questions-réponses conçu pour combler le manque de données d'entraînement et d'évaluation pour les questions de recherche d'information dans les langues de l'Asie de l'Ouest et du Nord-Afrique. L'ensemble de données comprend 28 000 exemples répartis sur 10 variétés linguistiques, y compris l'arabe, l'hébreu, le persan et les langues turques. Le processus de collecte de données a été conçu pour susciter des questions de recherche d'information où le demandeur est véritablement curieux de la réponse. Chaque question est associée à un article complet qui peut ou non contenir la réponse, rendant la tâche adaptée à l'évaluation des capacités des modèles à utiliser de grands contextes textuels. Le papier met en lumière les défis de l'évaluation des modèles sur des questions de recherche d'information dans les langues à faible ressource, en particulier lorsqu'il s'agit de longues séquences de LLM. Il argue que les ensembles de données d'évaluation existants ne sont souvent pas conçus pour tester la capacité d'un modèle à utiliser de grandes fenêtres de contexte. Pour remédier à cela, T Y D I QA–WANA fournit un ensemble de données de questions de recherche d'information à long contexte dans des variétés linguistiques sous-représentées et non anglaises, dans le style de T Y D I QA. Le papier présente des résultats de base de deux grands modèles de langage, Gemini 1.5 Pro et Gemini 2.0 Flash, démontrant que les LLM modernes sont capables de répondre aux questions en incluant un article complet Wikipedia dans l'entrée. Les résultats montrent que les performances varient considérablement entre les variétés linguistiques, soulignant l'importance de l'évaluation des modèles sur des ensembles de données linguistiques diversifiés. Le papier met en avant l'importance de T Y D I QA–WANA pour la communauté de recherche, car il fournit une ressource précieuse pour l'évaluation et l'amélioration des modèles de questions-réponses dans les langues à faible ressource. En publiant l'ensemble de données et le code, les auteurs espèrent faciliter la mesure et l'amélioration des performances des modèles dans ces variétés linguistiques. En résumé, T Y D I QA–WANA est un ensemble de données précieux qui répond au besoin de données d'entraînement et d'évaluation pour les questions de recherche d'information dans les langues à faible ressource. Il fournit une ressource précieuse pour la communauté de recherche et contribue à l'avancement des systèmes de questions-réponses dans diverses variétés linguistiques.


Articles Recommandés

Sur la complexité des équilibres corrélés optimaux dans les jeux à forme extensive

Interprétation Automatique des Plans de Profils d'Évaluation Non Destructive à l'Aide de Grands Modèles de Langue pour l'Évaluation de l'État des Ponts

Les planètes plus grandes que Neptune ont des excentricités élevées.

Hyper-u-amenabilité et hyper-finitude des relations d'équivalence arborées

Yume : Un Modèle de Génération de Mondes Interactifs

MCM : Suivi de la cinématique cardiaque basé sur le Mamba en utilisant des images séquentielles en IRM

Analyse thermodynamique des spectres de momentum transversal dans les collisions Pb-Pb à 2.76 TeV : dépendance de la centrality de la température, des paramètres de gel et de l'inextensibilité

Contrôle supérieur de la plasticité synaptique médié par les astrocytes

Logiciel de synthèse 3D guidé par une représentation intermédiaire expressive en termes de contraintes

ReCatcher : Vers le test de regression pour la génération de code des LLMs