Résumé - RealBench : Comparaison de modèles de génération de Verilog avec des conceptions de puces IP du monde réel

Titre

RealBench : Comparaison de modèles de génération de Verilog avec des conceptions de puces IP du monde réel

Temps

2025-07-22 03:29:23

Auteur

{"Pengwei Jin","Di Huang","Chongxiao Li","Shuyao Cheng","Yang Zhao","Xinyao Zheng","Jiaguo Zhu","Shuyi Xing","Bohan Dou","Rui Zhang","Zidong Du","Qi Guo","Xing Hu"}

Catégorie

{cs.LG,cs.AR}

Lien
http://arxiv.org/abs/2507.16200v1

PDF Lien
http://arxiv.org/pdf/2507.16200v1

Résumé

L'article présente RealBench, un nouveau point de référence pour la génération de Verilog conçu pour évaluer les performances des Modèles de Langue Grands (LLM) dans des flux de travail de conception réels. Les benchmarks existants simplifient souvent les tâches et ne captent pas la complexité des conceptions réelles, ce qui conduit à des évaluations inexactes des capacités des LLM. RealBench vise à remédier à ces limitations en simulant des scénarios de codage Verilog qui ressemblent étroitement aux flux de travail réels. **Caractéristiques clés de RealBench** : * **Conceptions complexes et structurées** : RealBench inclut des conceptions d'IP cores open-source, telles qu'un encodeur/décodeur AES, un contrôleur de carte SD et un noyau CPU. Ces conceptions comportent un grand nombre de lignes de code et des structures hiérarchiques complexes, ce qui挑战 LLMs' Verilog generation capabilities. * **Spécifications multimodales, détaillées et formatées** : Les spécifications incluent des descriptions fonctionnelles détaillées, des diagrammes et d'autres détails essentiels à l'implémentation tels que les interfaces et les contraintes. Cela permet aux LLM de mieux comprendre les exigences de conception et de générer du code Verilog précis. * **Processus de vérification rigoureux** : RealBench utilise des ensembles de tests avec une couverture de lignes de 100 % et un flux de travail de vérification formelle pour garantir la correctitude du code Verilog généré. * **Tâches à deux niveaux** : RealBench offre des tâches à la fois au niveau du module et au niveau du système, permettant une évaluation complète des capacités des LLM. **Résultats d'évaluation** : Les auteurs ont évalué divers LLM et agents sur RealBench et ont constaté que même les modèles les mieux performants ont du mal avec les flux de travail de conception réels. Par exemple, le modèle actuel le plus performant, o1-preview, a atteint seulement 13,3 % de pass@1 sur les tâches au niveau du module et 0 % sur les tâches au niveau du système. **Conclusions clés** : * La vérification formelle est nécessaire pour garantir la fiabilité des résultats. * Les LLM ont du mal avec les tâches complexes, en particulier celles impliquant des instanciations de sous-modules et des FSM. * Les LLM multimodaux montrent des avantages potentiels par rapport aux modèles textuels. * Un agent de débogage simple peut améliorer la correctitude du code généré. ** Directions potentielles pour la recherche future** : * Développer des méthodes de vérification formelle plus efficaces pour les grandes conceptions. * Créer des LLM avec des capacités de raisonnement meilleures, en particulier pour les tâches complexes. * Explorer le potentiel des LLM multimodaux pour la génération de Verilog. * Développer des agents de débogage meilleurs pour améliorer la qualité du code généré. **Dans l'ensemble, RealBench fournit un outil précieux pour évaluer les performances des LLM dans la génération de Verilog et met en lumière le besoin de recherches supplémentaires pour améliorer leurs capacités dans les flux de travail de conception réels**.

Articles Recommandés

Exacte rénormalisation pour les fréquences de patch dans les systèmes d'inflation

3DGauCIM : Accélération du splatting gaussien statique/dynamique 3D via CIM numérique pour le rendu en temps réel haute fréquence des bords

Inference de Structure Liquide Informatif en Physique à l'aide de Processus Gaussiens à partir de Données de Diffusion

Leçons issues de la piste TREC Plain Language Adaptation of Biomedical Abstracts (PLABA)

Hess-MC2 : Monte Carlo en séquence à la puissance deux utilisant des informations de Hessian et des propositions de second ordre

Une nouvelle preuve de théorèmes de type Liouville pour une classe d'équations elliptiques semi-linéaires

Complexes simpliciaux déterministes

Un modèle fondamental pour le précodage MIMO massif avec un compromis de débit-énergie adaptatif par utilisateur

Encodeurs de magnitude de signe explicites permettent des multiplicateurs à faible consommation d'énergie

Un contrôleur de recherche d'extrême sans modèle avec application à la traçabilité d'une réaction chimique non linéaire