Le benchmark CIRCLE évalue les vulnérabilités de cybersécurité des modèles de langage grandement évolués (MLGE) intégrant des interpréteurs de code. Il se concentre sur l'identification des risques liés à l'épuisement des ressources CPU, mémoire et disque. Le benchmark utilise une taxonomie de risque complète avec des variantes de prompt double (malveillant et benign) et un harnais d'évaluation automatisé multi-fournisseurs.
Les constatations clés de l'évaluation de sept MLGE commerciaux (OpenAI et Google) révèlent des vulnérabilités significatives et incohérentes. Par exemple, o4-mini d'OpenAI refuse correctement les demandes à risque à un taux plus élevé que GPT-4.1. L'étude met en avant la nécessité de benchmarks de cybersécurité spécifiques aux interpréteurs, d'outils de mitigation et de normes industrielles pour garantir un déploiement sécurisé des intégrations d'interpréteurs MLGE. Les jeux de données du benchmark et le code d'évaluation sont publiés publiquement pour encourager la recherche further.
Le benchmark CIRCLE remplit un lacune critique dans l'évaluation des attaques de type épuisement de ressources centrées sur les interpréteurs dans les MLGE. Il fournit une taxonomie de risque complète, un harnais d'évaluation automatisé et un accès open-source. Les résultats mettent en lumière la nécessité d'améliorer les mesures de cybersécurité dans les MLGE intégrant des interpréteurs de code.