Resumen - Agentar-DeepFinance-300K: Un Gran Conjunto de Datos Financieros mediante Optimización Sistemática de Síntesis de Cadena de Pensamiento

Título
Agentar-DeepFinance-300K: Un Gran Conjunto de Datos Financieros mediante Optimización Sistemática de Síntesis de Cadena de Pensamiento

Tiempo
2025-07-17 08:40:45

Autor
{"Xiaoke Zhao","Zhaowen Zhou","Lin Chen","Lihong Wang","Zhiyi Huang","Kaiyuan Zheng","Yanjun Zheng","Xiyang Du","Longfei Liao","Jiawei Liu","Xiang Qi","Bo Zhang","Peng Zhang","Zhe Li","Wei Wang"}

Categoría
{cs.CE}

Enlace
http://arxiv.org/abs/2507.12901v1

PDF Enlace
http://arxiv.org/pdf/2507.12901v1

Resumen

Este documento introduce Agentar-DeepFinance-300K, un conjunto de datos a gran escala de razonamiento financiero creado utilizando un marco de síntesis de cadena de pensamiento (CoT) sistemático. El conjunto de datos tiene como objetivo avanzar en la investigación de los modelos de razonamiento financiero proporcionando un recurso completo y desafiante para entrenar y evaluar estos modelos. ### Construcción del conjunto de datos Agentar-DeepFinance-300K se construye mediante un proceso de múltiples pasos que involucra: 1. **Corpus de semilla**: Se utiliza un gran conjunto de datos propietario con anotaciones de expertos del dominio real como base. 2. **Extracción de conocimiento desde múltiples perspectivas (MKE)**: Este enfoque incluye tres métodos: - **Q2A (Curación Directa)**: Extrae pares de preguntas y respuestas bien estructurados del corpus de semilla. - **A2Q (Aumentación de contrarias)**: Genera variantes de respuestas adversarias y preguntas correspondientes para expandir el espacio de conocimiento. - **T2Q (Extracción de conocimiento de CoT)**: Extrae puntos de conocimiento latentes de las cadenas de pensamiento (CoT) introducidas durante el razonamiento. 3. **Muestreo y verificación de CoT**: Se muestrean múltiples CoT y respuestas correspondientes para cada par de preguntas y respuestas, y solo se retienen pares rigurosamente verificados. 4. **Reescritura autorrectiva (SCR)**: Permite que el modelo refina sus respuestas proporcionando insights de las respuestas doradas, permitiendo la generación de preguntas más desafiantes. ### Características del conjunto de datos El conjunto de datos se caracteriza por su: - **Optimización sistemática de la síntesis de CoT**: El enfoque MKE y el mecanismo SCR aseguran la generación de trayectorias de razonamiento comprehensivas y desafiantes. - **Anotación de metadatos multidimensionales**: Esto incluye contenido, habilidad, complejidad, calidad, lenguaje y tipo de tarea, proporcionando valiosas insucciones para los experimentos posteriores. - **Anotaciones de expertos financieros del mundo real**: Refleja las capacidades financieras requeridas en escenarios del mundo real. ### Resultados experimentales Los experimentos demuestran la efectividad de Agentar-DeepFinance-300K en la mejora de los modelos de razonamiento financiero. Los hallazgos clave incluyen: - **Necesidad de CoT**: La incorporación de CoT mejora consistentemente el rendimiento del modelo en diferentes tareas y dificultades, especialmente en tareas de razonamiento complejo. - **CoT sintetizador**: La efectividad de un modelo de razonamiento como sintetizador de CoT no siempre coincide con su rendimiento intrínseco de razonamiento. - **Longitud de CoT**: Reducir la longitud de CoT puede resultar en respuestas del modelo más concisas pero también puede perjudicar el rendimiento. El razonamiento financiero requiere largas cadenas de pensamiento. - **Estudio de abstracción**: Los métodos MKE y SCR propuestos mejoran significativamente el rendimiento del modelo en comparación con los enfoques de base. ### Conclusión Agentar-DeepFinance-300K es un recurso valioso para avanzar en la investigación de los modelos de razonamiento financiero. Su optimización sistemática de la síntesis de CoT y la anotación de metadatos multidimensionales proporcionan insucciones valiosas para la construcción de conjuntos de datos de entrenamiento de alto rendimiento y la mejora del rendimiento del modelo.


Artículos Recomendados

CRAFT: Marco basado en genética consciente de la latencia y el costo para la ubicación de nodos en entornos de Edge-Fog

Las estrellas de referencia de alta velocidad radial de Gaia RVS. III. Estrellas de alta velocidad radial confirmadas y nuevas de Gaia DR3.

En la Extracción de Malla Cuádratica desde Mapeos de Mallas Desordenadas

Espectroscopia de enfriamiento para bosones de Lieb-Liniger en presencia de trampa armónica

Invariantes de álgebras de corrientes torcidas y subálgebras Poisson-comutativas relacionadas

Aportes no holomórficos en GMSB con mensajeros adjuntos

El impacto de la mezcla de lenguas en la razón de los modelos de lenguaje bilingües

Un modelo semi-analítico para los efectos de las perturbaciones de grano de materia oscura borrosa en el movimiento orbital

Reducción Tukey generalizada entre conjuntos directos $\sigma$-dirigidos

Aprender campos electromagnéticos basados en funciones de base de elemento finito