概要 - Agentar-DeepFinance-300K: 系統的な思考の連鎖合成最適化による大規模金融データセット

タイトル
Agentar-DeepFinance-300K: 系統的な思考の連鎖合成最適化による大規模金融データセット

時間
2025-07-17 08:40:45

著者
{"Xiaoke Zhao","Zhaowen Zhou","Lin Chen","Lihong Wang","Zhiyi Huang","Kaiyuan Zheng","Yanjun Zheng","Xiyang Du","Longfei Liao","Jiawei Liu","Xiang Qi","Bo Zhang","Peng Zhang","Zhe Li","Wei Wang"}

カテゴリ
{cs.CE}

リンク
http://arxiv.org/abs/2507.12901v1

PDF リンク
http://arxiv.org/pdf/2507.12901v1

概要

この論文では、系統的な思考の連鎖(CoT)合成フレームワークを使用して作成された大規模な金融推論データセット「Agentar-DeepFinance-300K」を紹介します。このデータセットは、これらのモデルのトレーニングと評価に包括的で挑戦的なリソースを提供することで、金融推論モデルの研究を進めることを目的としています。 ### データセットの構築 Agentar-DeepFinance-300Kは以下の多段階プロセスを通じて構築されています: 1. **シードコーパス**:実践の専門家による注釈付きの大規模な独自データセットが基盤として使用されます。 2. **多角的な知識抽出(MKE)**:このアプローチには3つの方法が含まれます: - **Q2A(直接整理)**:シードコーパスから構造化されたQAペアを抽出します。 - **A2Q(逆説的拡張)**:敵対的な答えの変体と対応する質問を生成し、知識空間を拡張します。 - **T2Q(CoT知識採掘)**:推論中に導入されたCoTから潜在的な知識ポイントを抽出します。 3. **CoTサンプリングと検証**:各QAペアに対して複数のCoTと対応する答えがサンプリングされ、厳格に検証されたペアのみが保持されます。 4. **自己修正的な書き換え(SCR)**:モデルが金タネ答えからの洞察を提供することで、答えを精査し、より挑戦的な質問を生成するようになります。 ### データセットの特徴 このデータセットは以下の点で特徴付けられます: - **系統的なCoT合成最適化**:MKEアプローチとSCRメカニズムが包括的で挑戦的な推論経路の生成を確保します。 - **多角的なメタデータアノテーション**:内容、能力、複雑さ、品質、言語、タスクタイプを含むことで、後の実験のための価値ある洞察を提供します。 - **実世界の金融専門家のアノテーション**:現実のシナリオで必要な金融能力を反映します。 ### 実験結果 実験はAgentar-DeepFinance-300Kが金融推論モデルの効果を向上させることを示しています。主要な発見事実には以下があります: - **CoTの必要性**:CoTの導入は、異なるタスクや難易度に関わらずモデルの性能を向上させますが、特に複雑な推論タスクにおいて特に効果的です。 - **CoT合成者**:推論モデルがCoT合成者としての効果は、その内在的な推論性能と常に一致しないことがあります。 - **CoTの長さ**:CoTの長さを短くすると、モデルの応答を簡潔にすることができますが、性能に悪影響を及ぼすこともあります。金融推論は長いCoTが必要です。 - **アブレーション研究**:提案されたMKEとSCRメソッドは、ベースラインアプローチよりもモデルの性能を著しく向上させます。 ### 結論 Agentar-DeepFinance-300Kは、金融推論モデルの研究を進めるための非常に価値あるリソースです。その系統的なCoT合成最適化と多角的なメタデータアノテーションは、高性能なトレーニングデータセットの構築とモデル性能の向上のための貴重な洞察を提供します。


推奨論文

HairCUP: 3D高斯アバターの髪の構成ユニバーサル事前情報

PySHRED: スパースセンシング、モデル削減、そして科学的発見のためのSHallow REcurrent Decoding用のPythonパッケージ

未来の知能のためのヴォン・ノイマンのアーキテクチャを強化する

共有量子コンピューシング環境における量子ソフトウェアセキュリティの課題

自回归時間序列のための効率的な因果発見

フォーミュラワン:競技プログラミングを超えたアルゴリズムの推理の深さを測定

AI電話調査:AIインタビュアーを用いた定量データ収集の自動化

AQUA: 水産養殖・漁業用の大規模言語モデル

データシートからの自動HEMTモデル構築:多様な知能と事前知識なしの最適化を通じて

自然言語プロンプトから生成されたLLMコードの形式確認への進展