Résumé - Agentar-DeepFinance-300K : Un grand ensemble de données financières via une optimisation systématique de la synthèse de la chaîne de pensée
Titre
Agentar-DeepFinance-300K : Un grand ensemble de données financières via une optimisation systématique de la synthèse de la chaîne de pensée
Temps
2025-07-17 08:40:45
Auteur
{"Xiaoke Zhao","Zhaowen Zhou","Lin Chen","Lihong Wang","Zhiyi Huang","Kaiyuan Zheng","Yanjun Zheng","Xiyang Du","Longfei Liao","Jiawei Liu","Xiang Qi","Bo Zhang","Peng Zhang","Zhe Li","Wei Wang"}
Catégorie
{cs.CE}
Lien
http://arxiv.org/abs/2507.12901v1
PDF Lien
http://arxiv.org/pdf/2507.12901v1
Résumé
Ce document présente Agentar-DeepFinance-300K, un grand ensemble de données pour la raison financière créé en utilisant un cadre de synthèse systématique de la chaîne de pensée (CoT). Cet ensemble de données vise à faire avancer la recherche sur les modèles de raison financière en fournissant une ressource complète et délicate pour l'entraînement et l'évaluation de ces modèles.
### Construction de l'ensemble de données
Agentar-DeepFinance-300K est construit par un processus en plusieurs étapes impliquant :
1. **Corpus de départ** : Un grand ensemble de données propriétaire avec des annotations d'experts réels est utilisé comme base.
2. **Extraction de connaissances à multiples perspectives (MKE)** : Cette approche inclut trois méthodes :
- **Q2A (Curation directe)** : Extraît des paires QA bien structurées à partir des corpus de départ.
- **A2Q (Augmentation counterfactuelle)** : Génère des variantes d'answers adverses et les questions correspondantes pour élargir l'espace des connaissances.
- **T2Q (Mining de connaissances CoT)** : Extraît des points de connaissances latents des CoTs introduits pendant la raison.
3. **Échantillonnage et vérification de CoT** : Plusieurs CoTs et réponses correspondantes sont échantillonnés pour chaque paire QA, et seules les paires rigoureusement vérifiées sont conservées.
4. **Rédaction auto-corrective (SCR)** : Permet au modèle de raffiner ses réponses en fournissant des insights des réponses golden, permettant la génération de questions plus délicates.
### Caractéristiques de l'ensemble de données
L'ensemble de données est caractérisé par :
- **Optimisation systématique de la synthèse CoT** : L'approche MKE et le mécanisme SCR assurent la génération de trajectoires de raison complètes et délicates.
- **Annotation de métadonnées multidimensionnelles** : Cela inclut le contenu, la capacité, la complexité, la qualité, la langue et le type de tâche, fournissant des insights précieux pour les expériences ultérieures.
- **Annotations d'experts financiers réels** : Réflète les capacités financières nécessaires dans les scénarios réels.
### Résultats expérimentaux
Les expériences montrent l'efficacité d'Agentar-DeepFinance-300K pour améliorer les modèles de raison financière. Les découvertes clés incluent :
- **Nécessité de CoT** : L'intégration de CoT améliore constamment la performance des modèles sur différentes tâches et difficultés, en particulier dans les tâches de raison complexes.
- **Synthétiseur CoT** : L'efficacité d'un modèle de raison comme synthétiseur CoT n'est pas toujours alignée avec sa performance de raison intrinsèque.
- **Longueur de CoT** : Réduire la longueur de CoT peut conduire à des réponses du modèle plus concises mais peut également nuire à la performance. La raison financière nécessite de longs CoT.
- **Étude d'ablation** : Les méthodes MKE et SCR proposées améliorent considérablement la performance des modèles par rapport aux approches de base.
### Conclusion
Agentar-DeepFinance-300K est une ressource précieuse pour faire avancer la recherche sur les modèles de raison financière. Son optimisation systématique de la synthèse CoT et son annotation de métadonnées multidimensionnelles fournissent des insights précieux pour la construction de datasets d'entraînement de haute performance et l'amélioration de la performance des modèles.
Articles Recommandés
Instabilité dans les processus de vieillissement d'Ostwald
Exploration des statistiques quantiques pour les neutrinos de Dirac et de Majorana à l'aide des techniques de spinor-helicité
Apprentissage des équations de champ de phase couplées Allen-Cahn et Cahn-Hilliard à l'aide de l'opérateur neural informé par la physique (PINO)
Hess-MC2 : Monte Carlo en séquence à la puissance deux utilisant des informations de Hessian et des propositions de second ordre
4T2R X-ReRAM CiM Array pour une opération MAC massivement parallèle tolérante aux variations et à faible consommation d'énergie
L'Impact des coups de naissance sur les binaries de trous noirs
Le groupe de galaxies SPT-CL J0356-5337 avec z=1.03 : nouvelle analyse de lentille forte avec HST et MUSE
U-Net à attention adaptative et résiduelle pour la segmentation de structures courbes dans la microscopie de fluorescence et les images biomédicales
Extraction de maillages quadrillés à partir de grilles encombrées en préservant les cartes
ThinkAct : Raisonnement par Vision-Langage-Action via la Planification Latente Visuelle Renforcée