Zusammenfassung - Agentar-DeepFinance-300K: Ein groß angelegtes Finanzdatenset durch systematische Optimierung der Kette des kausalen Denkens zur Synthese
Titel
Agentar-DeepFinance-300K: Ein groß angelegtes Finanzdatenset durch systematische Optimierung der Kette des kausalen Denkens zur Synthese
Zeit
2025-07-17 08:40:45
Autor
{"Xiaoke Zhao","Zhaowen Zhou","Lin Chen","Lihong Wang","Zhiyi Huang","Kaiyuan Zheng","Yanjun Zheng","Xiyang Du","Longfei Liao","Jiawei Liu","Xiang Qi","Bo Zhang","Peng Zhang","Zhe Li","Wei Wang"}
Kategorie
{cs.CE}
Link
http://arxiv.org/abs/2507.12901v1
PDF Link
http://arxiv.org/pdf/2507.12901v1
Zusammenfassung
Dieses Papier stellt Agentar-DeepFinance-300K vor, eine groß angelegte Datenbank für finanzielle Reasoning, die mithilfe eines systematischen Frameworks zur Synthese von Gedankengängen (CoT) erstellt wurde. Die Datenbank zielt darauf ab, die Forschung in finanziellen Reasoning-Modellen voranzutreiben, indem sie eine umfassende und anspruchsvolle Ressource für das Training und die Bewertung dieser Modelle bietet.
### Datenbankerstellung
Agentar-DeepFinance-300K wird durch einen mehrstufigen Prozess erstellt, der umfasst:
1. **Seed Corpora**: Eine große proprietäre Datenbank mit echten domain-expertischen Annotierungen dient als Grundlage.
2. **Multi-perspective Knowledge Extraction (MKE)**: Dieser Ansatz umfasst drei Methoden:
- **Q2A (Direkte Kuratierung)**: Extrahiert gut strukturierte QA-Paare aus den Seed Corpora.
- **A2Q (Kontrollierte Erweiterung)**: Generiert adversarische Antwortvarianten und zugehörige Fragen, um den Wissensraum zu erweitern.
- **T2Q (CoT Knowledge Mining)**: Extrahiert latente Kenntnispunkte aus den während des Reasonings eingeführten CoTs.
3. **CoT-Sampling und -Verifizierung**: Für jedes QA-Paar werden mehrere CoTs und zugehörige Antworten sampled, und nur rigoros verifizierte Paare werden beibehalten.
4. **Selbstkorrigierende Neuschreibung (SCR)**: Ermöglicht es dem Modell, seine Antworten durch Einblicke aus den goldenen Antworten zu verfeinern, was die Generierung anspruchsvollerer Fragen ermöglicht.
### Datenbankmerkmale
Die Datenbank zeichnet sich durch folgende Merkmale aus:
- **Systematische CoT-Syntheseoptimierung**: Der MKE-Ansatz und das SCR-Mechanismus stellen sicher, dass umfassende und anspruchsvolle Reasoning-Pfade generiert werden.
- **Multidimensionale Metadatenanotation**: Dies umfasst Inhalt, Fähigkeit, Komplexität, Qualität, Sprache und Aufgabenart, was wertvolle Einblicke für nachfolgende Experimente bietet.
- **Echte finanzielle Expertenanotationen**: Reflektiert die finanziellen Fähigkeiten, die in realen Szenarien erforderlich sind.
### Experimenteller Befund
Experimente zeigen die Effektivität von Agentar-DeepFinance-300K bei der Verbesserung finanzieller Reasoning-Modelle. Wesentliche Ergebnisse umfassen:
- **Notwendigkeit von CoT**: Die Integration von CoT verbessert die Modellleistung konsistent über verschiedene Aufgaben und Schwierigkeitsgrade hinweg, insbesondere in komplexen Reasoning-Aufgaben.
- **CoT-Synthesizer**: Die Effektivität eines Reasoning-Modells als CoT-Synthesizer stimmt nicht immer mit seiner intrinsischen Reasoning-Leistung überein.
- **CoT-Länge**: Die Verringerung der CoT-Länge kann zu kürzeren Modellantworten führen, kann jedoch auch die Leistung beeinträchtigen. FinanzReasoning erfordert lange CoTs.
- **Abbaustudie**: Die vorgeschlagenen MKE- und SCR-Methoden verbessern die Modellleistung erheblich im Vergleich zu Baseline-Ansätzen.
### Schlussfolgerung
Agentar-DeepFinance-300K ist eine wertvolle Ressource für die Weiterentwicklung der Forschung in finanziellen Reasoning-Modellen. Seine systematische CoT-Syntheseoptimierung und die multidimensionale Metadatenanotation bieten wertvolle Einblicke für die Erstellung hochleistungsfähiger Trainingsdatenbanken und die Verbesserung der Modellleistung.
Empfohlene Papiere
Von Feedback zu Checklisten: Fundierte Bewertung von künstlich generierten klinischen Notizen
Synthetische MC über biologische Botenstoffe: Therapeutische Modulation des Darm-Hirn-Achses
Die Empfindlichkeit von Flüssigkristalldetektoren für CP-Violation durch atmosphärische Neutrinos
Eine Klasse von Nakayama-Algebren mit einer Braid-Gruppen-Aktion auf τ-ausnahmehaften Sequenzen
Holografische Aufzeichnung des Quantenphasenübergangs im ultravioletten Bereich
SafeWork-R1: Ko-evolvierende Sicherheit und Intelligenz unter dem AI-45$^{\circ}$-Gesetz
Ein umfassendes Bewertungsframework zur Untersuchung der Auswirkungen von Gesichtsfilters auf die Genauigkeit der Gesichtserkennung
Metrische Rekonstruktion und der Hamiltonian für exzentrische, präzessierende Binäre im Limit einer kleinen Massenverhältnisse
Schritt-3 ist groß, aber erschwinglich: Ko-Design von Modell-Systemen für kosteneffizientes Decodieren
$k$-PCA für (nicht-quadratische) Euclidische Abstände: Polynomzeitnahe Approximation