Résumé - AQuilt : Tricoter la logique et l'auto-inspection dans la synthèse de données à bas coût, haute pertinence pour les LLM spécialisés

Titre
AQuilt : Tricoter la logique et l'auto-inspection dans la synthèse de données à bas coût, haute pertinence pour les LLM spécialisés

Temps
2025-07-24 17:03:27

Auteur
{"Xiaopeng Ke","Hexuan Deng","Xuebo Liu","Jun Rao","Zhenxi Song","Jun Yu","Min Zhang"}

Catégorie
{cs.CL,cs.AI}

Lien
http://arxiv.org/abs/2507.18584v1

PDF Lien
http://arxiv.org/pdf/2507.18584v1

Résumé

Ce document présente AQuilt, un cadre pour générer des données spécifiques à un domaine de haute qualité à partir de données non étiquetées. Il aborde les limitations des méthodes de synthèse de données existantes, qui dépendent souvent de modèles de langage grandeur nature coûteux (LLM) ou souffrent de limitations de performance. AQuilt atteint cela en intégrant les composants clés suivants : * **Construction de données** : AQuilt construit un ensemble de données diversifié à partir de différentes sources, y compris les nouvelles, les encyclopédies, les avis et les domaines spécialisés. Cela assure la capture d'une large gamme de connaissances spécifiques au domaine. * **Logique et inspection** : AQuilt incorpore la logique et l'inspection pour améliorer la raison du modèle et garantir la qualité des données générées. Cela inclut la génération de logique pour la raison et l'entraînement d'un modèle pour inspecter la qualité des données générées. * **Type de tâche** : AQuilt introduit une fonction de type de tâche personnalisable, permettant au cadre de générer des données pour une large gamme de tâches, y compris les QA ouverts, les QA fermés, la génération de texte, la résumé de texte, la classification de texte et la compréhension naturelle du langage. Le cadre génère un ensemble de données bilingue (chinois et anglais) de haute qualité contenant 703 000 exemples. Cet ensemble de données est utilisé pour entraîner un modèle de synthèse de données à faible coût et de haute pertinence. ### Avantages clés : * **Coût-efficace** : AQuilt utilise des modèles plus petits et évite les coûts élevés associés aux LLM grandeur nature, le rendant plus accessible. * **Données de haute qualité** : L'intégration de la logique et de l'inspection garantit la génération de données spécifiques au domaine de haute qualité. * **Généralisation inter-tâche** : La fonction de type de tâche personnalisable permet à AQuilt de générer des données pour une large gamme de tâches, améliorant les capacités de généralisation. ### Évaluation : Les expériences montrent que AQuilt surpasse les méthodes de synthèse de données existantes comme Bonito en termes de performance et de coût-efficacité. Il atteint une performance comparable à DeepSeek-V3 tout en nécessitant seulement 17 % du coût de production. ### Conclusion : AQuilt est un cadre précieux pour générer des données spécifiques au domaine de haute qualité à partir de données non étiquetées. Son coût-efficacité, ses résultats de haute qualité et ses capacités de généralisation inter-tâche en font une solution prometteuse pour entraîner des LLM spécialisés et améliorer les tâches spécifiques au domaine.


Articles Recommandés

Interpréter les substituts de CFD par des auto-encodeurs sparses

Le lentille gravitationnelle produit rarement des outliers à haute masse dans la population des systèmes binaires compacts.

Expansion des sous-ensembles normaux des éléments d'ordre impair dans les groupes finis

FormulaOne : Mesurer la profondeur de la raison algorithmique au-delà de la programmation compétitive

Pas même métastable : double diamant cubique dans les fondus de copolymères en blocs bicarbones.

Optimisation du portefeuille à objectifs multiples par descente de gradient

Spectroscopie de refroidissement pour les bosons de Lieb-Liniger en présence de piégeage harmonique

Décomposition en domaine temporel basée sur la dissipativité pour le contrôle optimal des EDP hyperboliques

Détection et classification d'objets en temps réel à l'aide de YOLO pour les FPGAs de bord

Présentations exactes et approximatives des fonctions booléennes dans la base de De Morgan