Resumen - AQuilt: Tejido de Lógica y Autoinspección en la Síntesis de Datos de Bajo Costo y Alta Relevancia para LLMs Especialistas
Título
AQuilt: Tejido de Lógica y Autoinspección en la Síntesis de Datos de Bajo Costo y Alta Relevancia para LLMs Especialistas
Tiempo
2025-07-24 17:03:27
Autor
{"Xiaopeng Ke","Hexuan Deng","Xuebo Liu","Jun Rao","Zhenxi Song","Jun Yu","Min Zhang"}
Categoría
{cs.CL,cs.AI}
Enlace
http://arxiv.org/abs/2507.18584v1
PDF Enlace
http://arxiv.org/pdf/2507.18584v1
Resumen
Este documento introduce AQuilt, un marco para generar datos específicos del dominio de alta calidad a partir de datos sin etiquetar. Aborda las limitaciones de los métodos de síntesis de datos existentes, que a menudo dependen de modelos de gran lenguaje (LLMs) costosos o sufren de limitaciones en el rendimiento.
AQuilt logra esto mediante la incorporación de los siguientes componentes clave:
* **Construcción de Datos**: AQuilt construye un conjunto de datos diverso de diversas fuentes, incluyendo noticias, enciclopedias, reseñas y dominios especializados. Esto asegura que se capture una amplia gama de conocimientos específicos del dominio.
* **Lógica e Inspección**: AQuilt incorpora lógica e inspección para mejorar la capacidad de razonamiento del modelo y asegurar la calidad de los datos sintetizados. Esto incluye generar lógica para el razonamiento y entrenar un modelo para autoinspeccionar la calidad de los datos generados.
* **Tipo de Tarea**: AQuilt introduce una función de tipo de tarea personalizable, permitiendo que el marco genere datos para una amplia gama de tareas, incluyendo QA abierta, QA cerrada, generación de texto, resumen de texto, clasificación de texto y comprensión del lenguaje natural.
El marco genera un conjunto de datos bilingüe de alta calidad (chino e inglés) que contiene 703k ejemplos. Este conjunto de datos se utiliza para entrenar un modelo de síntesis de datos de bajo costo y alta relevancia.
### Beneficios Clave:
* **Económico**: AQuilt utiliza modelos más pequeños y evita los costos altos asociados con los grandes LLMs, lo que lo hace más accesible.
* **Datos de Alta Calidad**: La incorporación de lógica e inspección asegura la generación de datos específicos del dominio de alta calidad.
* **Generalización Inter-Tarea**: La función de tipo de tarea personalizable permite que AQuilt genere datos para una amplia gama de tareas, mejorando las capacidades de generalización.
### Evaluación:
Los experimentos demuestran que AQuilt supera a los métodos de síntesis de datos existentes como Bonito en términos de rendimiento y costo-efectividad. Logra un rendimiento comparable al de DeepSeek-V3 mientras requiere solo el 17% del costo de producción.
### Conclusión:
AQuilt es un marco valioso para generar datos específicos del dominio de alta calidad a partir de datos sin etiquetar. Su costo-efectividad, outputs de alta calidad y capacidades de generalización inter-tarea lo hacen una solución prometedora para entrenar LLMs especializados y mejorar las tareas específicas del dominio.
Artículos Recomendados
Mesofases de onda corta en los estados fundamentales de partículas suavizadas en el núcleo en dos dimensiones
RADAR: Análisis basado en radio para la asociación dinámica y reconocimiento de pseudónimos en VANETs
Observables en Exceso Revelan la No Reciprocidad en la Covarianza Integrada
Cuantificación restringida para distribuciones discretas
Un modelo semi-analítico para los efectos de las perturbaciones de grano de materia oscura borrosa en el movimiento orbital
Hacia la inferencia conservadora en redes credales utilizando funciones de credibilidad: el caso de las cadenas credales
Estados oscuros de los electrones en un sistema cuántico con dos pares de subrejillas
Efectos de la dificultad de la tarea y la experiencia musical en la realidad virtual: Observaciones de la carga cognitiva y la precisión de la tarea en un videojuego de ejercicios rítmicos
Marco de Evaluación Completo para el Estudio de los Efectos de los Filtros Faciales en la Precisión del Reconocimiento Facial
SIDA: Adaptación de Dominio sin Entrenamiento con Imágenes Sintéticas Driven