概要 - 大規模言語モデルが評価でどの程度「嘘をつく」か? Once-Pad-Based Frameworkの下でのベンチマークオーバーステイメントの評価
タイトル
大規模言語モデルが評価でどの程度「嘘をつく」か? Once-Pad-Based Frameworkの下でのベンチマークオーバーステイメントの評価
時間
2025-07-25 12:39:03
著者
{"Zi Liang","Liantong Yu","Shiyu Zhang","Qingqing Ye","Haibo Hu"}
カテゴリ
{cs.CL,cs.CR}
リンク
http://arxiv.org/abs/2507.19219v1
PDF リンク
http://arxiv.org/pdf/2507.19219v1
概要
この論文は、ArxivRollという新しい動的評価フレームワークを提案することで、大規模言語モデル(LLMs)の評価における過大評価の問題を探求しています。ArxivRollは、テストサンプルの汚染やバイアスの過度なトレーニングという課題を解決することを目的としており、これらがLLMsの不公平な比較や現実離れした能力評価に繋がることが多いことを克服しようとしています。 ArxivRollは以下の2つの主要な構成要素で構成されています: 1. SCP(Sequencing, Cloze, and Prediction):ArXivに新しく発表された論文を利用して、プライベートなテストケースを自動生成するシステムです。これにより、テストケースの機密性と新鮮さを確保し、LLMsがトレーニング中にそれらに出会うことを防ぎます。 2. Rugged Scores(RS):公的基準の汚染やトレーニングのバイアスの割合を測定する指標です。RSは過大評価を明確に測定し、LLMsの系統的な評価を可能にします。 ArxivRollフレームワークは、透明性や再現性に欠けたり、過大評価の明確な量化がなされていないことが多い既存の基準の限界を解決します。プライベートな基準とRSを利用することで、ArxivRollはより信頼性が高く、公正なLLMsの評価を提供します。 論文は、ArxivRollの効果をメタ評価を通じて示しています。これは、高品質なテストケースを生成し、人気のある基準と強い関連性を持つことを示しています。また、評価結果は、ArxivRollが現在のLLMsの過大評価の行動を効果的に測定できることを示しています。 全体として、ArxivRollはLLMsの評価と過大評価の問題に対処するための価値あるツールです。より信頼性が高く、公正な評価フレームワークを提供することで、ArxivRollは研究者や開発者がLLMsの実際の能力をよりよく理解し、その適用に関するより情報に基づいた決定を下すことができるよう支援します。
推奨論文
稀疏オートエンコーダを通じてCFDサローグエイトを解釈する
制約表現可能な中間表現に導かれた3Dソフトウェア合成
データシートからの自動HEMTモデル構築:多様な知能と事前知識なしの最適化を通じて
音韻分類認識のためのオーディオ・ビジョン対比学習
相関と動的因果順序を持つ量子回路
大量MIMO前処理のための適応的なユーザーごとのレート・パワートレードオフを持つ基本モデル
LoRA-PAR:効率的なLLM微調整のための柔軟なデュアルシステムLoRAパーティショニングアプローチ
非屏蔽環境で動作するMRIスキャナーに対する電磁干渉を減少させるための主題の接地
4T2R X-ReRAM CiMアレイ、変動容認型、低消費電力、大規模並列MAC操作用
「同等に有効なモデルからの任意の予測」