El benchmark CIRCLE evalúa las vulnerabilidades de ciberseguridad de los modelos de lenguaje grandes (LLM) con integración de intérpretes de código. Se centra en identificar riesgos relacionados con el agotamiento de recursos de CPU, memoria y disco. El benchmark utiliza una taxonomía de riesgos exhaustiva con variantes de comandos binarios (mala y benigna) y un harness de evaluación automatizada de múltiples proveedores.
Los hallazgos clave de la evaluación de siete LLM comerciales (OpenAI y Google) revelan vulnerabilidades significativas e incoherentes. Por ejemplo, o4-mini de OpenAI rechaza solicitudes riesgosas con una frecuencia mayor que GPT-4.1. El estudio subraya la necesidad de benchmarks específicos de ciberseguridad para intérpretes, herramientas de mitigación y estándares industriales para asegurar la implementación segura de integraciones de intérpretes de LLM. El conjunto de datos del benchmark y el código de evaluación se publican públicamente para fomentar más investigación.
El benchmark CIRCLE aborda un hueco crítico en la evaluación de ataques de agotamiento de recursos centrados en intérpretes en LLM. Proporciona una taxonomía de riesgos completa, un harness de evaluación automatizado y accesibilidad de código abierto. Los hallazgos resaltan la necesidad de medidas mejoradas de ciberseguridad en LLM con integración de intérpretes de código.