Zusammenfassung - Laufen im KREIS? Ein einfaches Benchmark für die Sicherheit von LLM-Code-Interpreten
Titel
Laufen im KREIS? Ein einfaches Benchmark für die Sicherheit von LLM-Code-Interpreten
Zeit
2025-07-25 16:06:16
Autor
{"Gabriel Chua"}
Kategorie
{cs.CR,cs.AI}
Link
http://arxiv.org/abs/2507.19399v1
PDF Link
http://arxiv.org/pdf/2507.19399v1
Zusammenfassung
Der CIRCLE-Benchmark bewertet die Cybersicherheitslücken großer Sprachmodelle (LLMs) mit integrierten Code-Interpreten. Er konzentriert sich darauf, Risiken im Zusammenhang mit CPU, Speicher und Ausnutzung von Festplattenressourcen zu identifizieren. Der Benchmark nutzt eine umfassende Risikotaxonomie mit doppelten Prompt-Varianten (bösartig und harmlos) und ein automatisiertes, mehrfachen Anbietern zugewiesenes Bewertungswerkzeug.
Kernelemente aus der Bewertung von sieben kommerziellen LLMs (OpenAI und Google) offenbaren erhebliche und unzureichend konsistente Lücken. Zum Beispiel lehnt OpenAI's o4-mini risikoreiche Anfragen mit höherer Wahrscheinlichkeit als GPT-4.1 ab. Die Studie betont die Notwendigkeit spezifischer Cybersicherheitsbenchmarks für Interpreter, Abhilfemaßnahmen und Branchenstandards, um die sichere Implementierung von LLM-Interpreter-Integrationen zu gewährleisten. Das Benchmark-Datenset und die Bewertungscode werden öffentlich freigegeben, um weitere Forschung zu fördern.
Der CIRCLE-Benchmark schließt eine kritische Lücke bei der Bewertung von Interpreter-zentrierten Ressourcen-Ausnutzungsangriffen in LLMs. Er bietet eine umfassende Risikotaxonomie, ein automatisiertes Bewertungswerkzeug und offenen Zugang. Die Ergebnisse betonen die Notwendigkeit verbesserten Cybersicherheitsmaßnahmen in LLMs mit integrierten Code-Interpreten.
Empfohlene Papiere
Variablen Min-Cut Max-Flow-Bounds und Algorithmen im endlichen Regime
Thermodynamische Analyse der transversalen Impulsspektren in Pb-Pb-Kollisionen bei 2.76 TeV: Abhängigkeit der Zentralität von der Temperatur, den Ausfrostungsparametern und der Nicht-Extensivität
Gemeinsamer asymmetrischer Verlust für das Lernen mit ruhelosen Labels
MC$^2$A: Erleichterung des Algorithmus-Hardware-Co-Designs zur effizienten Beschleunigung von Markov-Chain-Monte-Carlo-Verfahren
Individueller, auf Algorithmen basierter Fehler-Toleranzmechanismus für Aufmerksamkeits-Schichten in Transformern
DR.EHR: Dichtes Retrieval für elektronische Gesundheitsakten mit Wissensinjektion und synthetischen Daten
SIDA: synthetische Bildgestützte Zero-shot Domänenanpassung
Die Untersuchung von ultrahochenergetischen Neutrinos mit der IceCube-Gen2-In-Wasser-Radioanordnung
Schärferer untere Schranken für Single-Source Personalisierten PageRank
Auszugsweise Übersetzung: Umzug出去: Körpereingeschlossene Mensch-AI-Zusammenarbeit