Resumen - RealBench: Comparación de modelos de generación de Verilog con diseños de IP del mundo real

Título
RealBench: Comparación de modelos de generación de Verilog con diseños de IP del mundo real

Tiempo
2025-07-22 03:29:23

Autor
{"Pengwei Jin","Di Huang","Chongxiao Li","Shuyao Cheng","Yang Zhao","Xinyao Zheng","Jiaguo Zhu","Shuyi Xing","Bohan Dou","Rui Zhang","Zidong Du","Qi Guo","Xing Hu"}

Categoría
{cs.LG,cs.AR}

Enlace
http://arxiv.org/abs/2507.16200v1

PDF Enlace
http://arxiv.org/pdf/2507.16200v1

Resumen

El artículo presenta RealBench, un nuevo benchmark de generación de Verilog diseñado para evaluar el rendimiento de los Modelos de Lenguaje Grandes (LLMs) en flujos de trabajo de diseño en el mundo real. Los benchmarks existentes a menudo simplifican las tareas y fallan en capturar la complejidad de los diseños del mundo real, lo que lleva a evaluaciones inexactas de las capacidades de los LLMs. RealBench busca abordar estas limitaciones mediante la simulación de escenarios de codificación en Verilog que se asemejan estrechamente a los flujos de trabajo del mundo real. **Características Clave de RealBench**: * **Diseños Complejos y Estructurados**: RealBench incluye diseños de núcleos de IP de código abierto, como un codificador/descodificador AES, un controlador de tarjeta SD y un núcleo CPU. Estos diseños tienen un gran número de líneas de código y estructuras jerárquicas complejas, lo que desafía las capacidades de generación de Verilog de los LLMs. * **Especificaciones Multimodales, Detalladas y Formateadas**: Las especificaciones incluyen descripciones funcionales detalladas, diagramas y otros detalles esenciales de implementación como interfaces y restricciones. Esto permite a los LLMs comprender mejor los requisitos de diseño y generar código Verilog preciso. * **Proceso de Verificación Rigurosa**: RealBench utiliza testbenches con cobertura de línea del 100% y un flujo de trabajo de verificación formal para asegurar la corrección del código Verilog generado. * **Tareas de Dos Niveles**: RealBench ofrece tareas tanto a nivel de módulo como a nivel de sistema, permitiendo una evaluación completa de las capacidades de los LLMs. **Resultados de Evaluación**: Los autores evaluaron varios LLMs y agentes en RealBench y encontraron que incluso los modelos mejor desempeñados luchan con los flujos de trabajo de diseño del mundo real. Por ejemplo, el modelo actual mejor, o1-preview, alcanzó solo un 13.3% de pass@1 en tareas a nivel de módulo y 0% en tareas a nivel de sistema. **Encontrados Clave**: * La verificación formal es necesaria para asegurar la fiabilidad de los resultados. * Los LLMs luchan con tareas complejas, especialmente aquellas que involucran instancias de submódulos y FSMs. * Los LLMs multimodales muestran ventajas potenciales sobre los modelos solo de texto. * Un agente de depuración simple puede mejorar la corrección del código generado. **Direcciones Potenciales para la Investigación Futura**: * Desarrollar métodos de verificación formal más eficientes para grandes diseños. * Crear LLMs con mejores capacidades de razonamiento, especialmente para tareas complejas. * Explorar el potencial de los LLMs multimodales para la generación de Verilog. * Desarrollar mejores agentes de depuración para mejorar la calidad del código generado. **En resumen, RealBench proporciona una herramienta valiosa para evaluar el rendimiento de los LLMs en la generación de Verilog y resalta la necesidad de realizar investigaciones adicionales para mejorar sus capacidades en flujos de trabajo de diseño del mundo real**.


Artículos Recomendados

Descenso Bayesiano en Doble Nivel

Componentes conectados del espacio de representaciones de tipo conservador

Explorando la estadística cuántica de los neutrinos de Dirac y Majorana utilizando técnicas de spinor-helicidad

Nuevas propiedades del inverso generalizado del núcleo-EP ponderado en álgebras de Banach

Teorema de Fagin para Máquinas de Turing de Semirrecta

Sobre la controlabilidad nula local de un sistema de Burgers viscoso en tiempo finito

Teoría cuántica del trampa óptica magnética

A3D-MoE: Aceleración de Grandes Modelos de Lenguaje con Mezcla de Expertos mediante Integración Heterogénea 3D

Orbitas de curvas racionales suaves en superficies de Enriques

Tolerancia a fallos personalizada basada en algoritmos para capas de atención en Transformadores