Résumé - La Arène d'Énergie Généative (GEA) : Incorporation de la Sensibilité à l'Énergie dans les Évaluations Humaines des Grandes Modèles de Langue (GML)
Titre
La Arène d'Énergie Généative (GEA) : Incorporation de la Sensibilité à l'Énergie dans les Évaluations Humaines des Grandes Modèles de Langue (GML)
Temps
2025-07-17 17:11:14
Auteur
{"Carlos Arriaga","Gonzalo Martínez","Eneko Sendin","Javier Conde","Pedro Reviriego"}
Catégorie
{cs.AI,cs.CL}
Lien
http://arxiv.org/abs/2507.13302v1
PDF Lien
http://arxiv.org/pdf/2507.13302v1
Résumé
La Arena d'Énergie Générationnelle (GEA) est une plateforme conçue pour évaluer les modèles de langage grandeur nature (LLM) en intégrant des informations sur la consommation énergétique dans le processus d'évaluation. Cet article explore l'impact de la sensibilisation à l'énergie sur les décisions des utilisateurs lors du choix d'un LLM pour une tâche donnée.
Les auteurs affirment que bien que les méthodes d'évaluation traditionnelles comme les benchmarks automatisés aient leurs limites, l'évaluation humaine est impraticable en raison des défis de scalabilité. Ils proposent d'utiliser des arenas publiques, telles que l'arena LM populaire, où les utilisateurs peuvent évaluer librement les modèles. Cependant, ces arenas ont des limites en raison des questions non contrôlées et des profils des évaluateurs.
Pour répondre à ces problèmes, la GEA introduit des informations sur la consommation énergétique dans le processus d'évaluation. La plateforme compare des modèles de la même famille mais de tailles différentes, en s'assurant que la différence de performance est principalement due à la taille du modèle et non à d'autres facteurs. Les utilisateurs sont invités à évaluer les réponses des modèles sur la base de la qualité et à décider s'ils changeraient leur choix après avoir appris sur la consommation énergétique.
L'article présente des résultats préliminaires montrant que lorsque les utilisateurs sont informés de la consommation énergétique relative, ils tendent à préférer des modèles plus petits et plus économes en énergie. Cela suggère que pour la plupart des interactions utilisateur, le coût supplémentaire et l'énergie consommée par les modèles plus grands ne justifie pas leur utilisation.
Les auteurs soulignent que l'intégration de la sensibilisation à l'énergie dans les évaluations humaines est cruciale pour comprendre les préférences des utilisateurs et pour prendre des décisions informées concernant le développement et le déploiement des LLM. Ils reconnaissent les limites de leur étude, telles qu'un petit nombre de questions et d'utilisateurs, un nombre limité de LLM évalués et une seule langue. Cependant, ils croient que cette première étape fournit des insights précieux sur l'impact de la sensibilisation à l'énergie sur les décisions des utilisateurs.
La GEA montre le potentiel de considérer la consommation énergétique lors de l'évaluation des LLM. Cette approche pourrait influencer le développement et le déploiement des LLM, promouvant des modèles économes en énergie et des pratiques plus durables dans l'industrie de l'IA. De plus, elle met en lumière l'importance de l'intégration de divers facteurs dans les évaluations des LLM pour mieux comprendre leur performance et leur potentiel d'impact.
Articles Recommandés
SDVDiag : Une plate-forme modulaire pour le diagnostic des fonctions des véhicules connectés
Réfléchir à la sécurité des HSM et TPM dans le cloud : attaques réelles et défenses de nouvelle génération
Modèle IA Pré-Entraîné Assistant la Prise de Décision En Ligne en Présence de Variables Indépendantes Manquantes : Une Perspective Théorique
Théorie fonctionnelle de densité quantique-électrodynamique linéaire basée sur les Hamiltoniens X2C à composantes deux composantes
FormulaOne : Mesurer la profondeur de la raison algorithmique au-delà de la programmation compétitive
Classer les anneaux d'entiers de Grothendieck jusqu'au rang 5 et au-delà
Hyper-u-amenabilité et hyper-finitude des relations d'équivalence arborées
États de chaînes piégés dans la géométrie de l'horloge noire AdS$_5$ : Une voie vers le rayonnement de Hawking
ThermoRL : Apprentissage par renforcement structurément conscient pour la conception de mutations de protéines pour améliorer la thermorésistance
Pré-entraînement sur le jeu de test n'est plus tout ce qu'il faut : Une approche basée sur le débat pour les benchmarks de QAC