Resumen - ¿Corriendo en CÍRCULO? Una prueba de benchmark simple para la seguridad de los interpretadores de código de LLM

Título
¿Corriendo en CÍRCULO? Una prueba de benchmark simple para la seguridad de los interpretadores de código de LLM

Tiempo
2025-07-25 16:06:16

Autor
{"Gabriel Chua"}

Categoría
{cs.CR,cs.AI}

Enlace
http://arxiv.org/abs/2507.19399v1

PDF Enlace
http://arxiv.org/pdf/2507.19399v1

Resumen

El benchmark CIRCLE evalúa las vulnerabilidades de ciberseguridad de los modelos de lenguaje grandes (LLM) con integración de intérpretes de código. Se centra en identificar riesgos relacionados con el agotamiento de recursos de CPU, memoria y disco. El benchmark utiliza una taxonomía de riesgos exhaustiva con variantes de comandos binarios (mala y benigna) y un harness de evaluación automatizada de múltiples proveedores. Los hallazgos clave de la evaluación de siete LLM comerciales (OpenAI y Google) revelan vulnerabilidades significativas e incoherentes. Por ejemplo, o4-mini de OpenAI rechaza solicitudes riesgosas con una frecuencia mayor que GPT-4.1. El estudio subraya la necesidad de benchmarks específicos de ciberseguridad para intérpretes, herramientas de mitigación y estándares industriales para asegurar la implementación segura de integraciones de intérpretes de LLM. El conjunto de datos del benchmark y el código de evaluación se publican públicamente para fomentar más investigación. El benchmark CIRCLE aborda un hueco crítico en la evaluación de ataques de agotamiento de recursos centrados en intérpretes en LLM. Proporciona una taxonomía de riesgos completa, un harness de evaluación automatizado y accesibilidad de código abierto. Los hallazgos resaltan la necesidad de medidas mejoradas de ciberseguridad en LLM con integración de intérpretes de código.


Artículos Recomendados

Coincidencia de Puntuación de Fisher para Pronósticos y Inferencias Basados en Simulación

Un nuevo coeficiente para medir el acuerdo entre variables continuas

Superlubricidad del Borofeno: Propiedades Tribológicas en Comparación con el hBN

El preentrenamiento en el conjunto de prueba ya no es todo lo que necesitas: Un enfoque impulsado por debates para las métricas de QA

Marco de Evaluación Completo para el Estudio de los Efectos de los Filtros Faciales en la Precisión del Reconocimiento Facial

Pedir según el tamaño de los discos en un canal estrecho

El cúmulo de merger SPT-CL J0356-5337 con z=1.03: Nuevo análisis de lente gravitacional con HST y MUSE

El muonio como sondeo de defectos puntuales en diamante de tipo Ib

Búsqueda acelerada por GPU de ondas gravitatorias de larga duración procedentes de estrellas neutrones recién nacidas

El efecto de la plasticidad de la fibra en la formación de dominios en compuestos biológicos blandos -- Parte I: un análisis de bifurcación