Resumen - Agentar-DeepFinance-300K: Un Gran Conjunto de Datos Financieros mediante Optimización Sistemática de Síntesis de Cadena de Pensamiento
Título
Agentar-DeepFinance-300K: Un Gran Conjunto de Datos Financieros mediante Optimización Sistemática de Síntesis de Cadena de Pensamiento
Tiempo
2025-07-17 08:40:45
Autor
{"Xiaoke Zhao","Zhaowen Zhou","Lin Chen","Lihong Wang","Zhiyi Huang","Kaiyuan Zheng","Yanjun Zheng","Xiyang Du","Longfei Liao","Jiawei Liu","Xiang Qi","Bo Zhang","Peng Zhang","Zhe Li","Wei Wang"}
Categoría
{cs.CE}
Enlace
http://arxiv.org/abs/2507.12901v1
PDF Enlace
http://arxiv.org/pdf/2507.12901v1
Resumen
Este documento introduce Agentar-DeepFinance-300K, un conjunto de datos a gran escala de razonamiento financiero creado utilizando un marco de síntesis de cadena de pensamiento (CoT) sistemático. El conjunto de datos tiene como objetivo avanzar en la investigación de los modelos de razonamiento financiero proporcionando un recurso completo y desafiante para entrenar y evaluar estos modelos.
### Construcción del conjunto de datos
Agentar-DeepFinance-300K se construye mediante un proceso de múltiples pasos que involucra:
1. **Corpus de semilla**: Se utiliza un gran conjunto de datos propietario con anotaciones de expertos del dominio real como base.
2. **Extracción de conocimiento desde múltiples perspectivas (MKE)**: Este enfoque incluye tres métodos:
- **Q2A (Curación Directa)**: Extrae pares de preguntas y respuestas bien estructurados del corpus de semilla.
- **A2Q (Aumentación de contrarias)**: Genera variantes de respuestas adversarias y preguntas correspondientes para expandir el espacio de conocimiento.
- **T2Q (Extracción de conocimiento de CoT)**: Extrae puntos de conocimiento latentes de las cadenas de pensamiento (CoT) introducidas durante el razonamiento.
3. **Muestreo y verificación de CoT**: Se muestrean múltiples CoT y respuestas correspondientes para cada par de preguntas y respuestas, y solo se retienen pares rigurosamente verificados.
4. **Reescritura autorrectiva (SCR)**: Permite que el modelo refina sus respuestas proporcionando insights de las respuestas doradas, permitiendo la generación de preguntas más desafiantes.
### Características del conjunto de datos
El conjunto de datos se caracteriza por su:
- **Optimización sistemática de la síntesis de CoT**: El enfoque MKE y el mecanismo SCR aseguran la generación de trayectorias de razonamiento comprehensivas y desafiantes.
- **Anotación de metadatos multidimensionales**: Esto incluye contenido, habilidad, complejidad, calidad, lenguaje y tipo de tarea, proporcionando valiosas insucciones para los experimentos posteriores.
- **Anotaciones de expertos financieros del mundo real**: Refleja las capacidades financieras requeridas en escenarios del mundo real.
### Resultados experimentales
Los experimentos demuestran la efectividad de Agentar-DeepFinance-300K en la mejora de los modelos de razonamiento financiero. Los hallazgos clave incluyen:
- **Necesidad de CoT**: La incorporación de CoT mejora consistentemente el rendimiento del modelo en diferentes tareas y dificultades, especialmente en tareas de razonamiento complejo.
- **CoT sintetizador**: La efectividad de un modelo de razonamiento como sintetizador de CoT no siempre coincide con su rendimiento intrínseco de razonamiento.
- **Longitud de CoT**: Reducir la longitud de CoT puede resultar en respuestas del modelo más concisas pero también puede perjudicar el rendimiento. El razonamiento financiero requiere largas cadenas de pensamiento.
- **Estudio de abstracción**: Los métodos MKE y SCR propuestos mejoran significativamente el rendimiento del modelo en comparación con los enfoques de base.
### Conclusión
Agentar-DeepFinance-300K es un recurso valioso para avanzar en la investigación de los modelos de razonamiento financiero. Su optimización sistemática de la síntesis de CoT y la anotación de metadatos multidimensionales proporcionan insucciones valiosas para la construcción de conjuntos de datos de entrenamiento de alto rendimiento y la mejora del rendimiento del modelo.
Artículos Recomendados
CRAFT: Marco basado en genética consciente de la latencia y el costo para la ubicación de nodos en entornos de Edge-Fog
Las estrellas de referencia de alta velocidad radial de Gaia RVS. III. Estrellas de alta velocidad radial confirmadas y nuevas de Gaia DR3.
En la Extracción de Malla Cuádratica desde Mapeos de Mallas Desordenadas
Espectroscopia de enfriamiento para bosones de Lieb-Liniger en presencia de trampa armónica
Invariantes de álgebras de corrientes torcidas y subálgebras Poisson-comutativas relacionadas
Aportes no holomórficos en GMSB con mensajeros adjuntos
El impacto de la mezcla de lenguas en la razón de los modelos de lenguaje bilingües
Un modelo semi-analítico para los efectos de las perturbaciones de grano de materia oscura borrosa en el movimiento orbital
Reducción Tukey generalizada entre conjuntos directos $\sigma$-dirigidos
Aprender campos electromagnéticos basados en funciones de base de elemento finito