Zusammenfassung - Laufen im KREIS? Ein einfaches Benchmark für die Sicherheit von LLM-Code-Interpreten

Titel
Laufen im KREIS? Ein einfaches Benchmark für die Sicherheit von LLM-Code-Interpreten

Zeit
2025-07-25 16:06:16

Autor
{"Gabriel Chua"}

Kategorie
{cs.CR,cs.AI}

Link
http://arxiv.org/abs/2507.19399v1

PDF Link
http://arxiv.org/pdf/2507.19399v1

Zusammenfassung

Der CIRCLE-Benchmark bewertet die Cybersicherheitslücken großer Sprachmodelle (LLMs) mit integrierten Code-Interpreten. Er konzentriert sich darauf, Risiken im Zusammenhang mit CPU, Speicher und Ausnutzung von Festplattenressourcen zu identifizieren. Der Benchmark nutzt eine umfassende Risikotaxonomie mit doppelten Prompt-Varianten (bösartig und harmlos) und ein automatisiertes, mehrfachen Anbietern zugewiesenes Bewertungswerkzeug. Kernelemente aus der Bewertung von sieben kommerziellen LLMs (OpenAI und Google) offenbaren erhebliche und unzureichend konsistente Lücken. Zum Beispiel lehnt OpenAI's o4-mini risikoreiche Anfragen mit höherer Wahrscheinlichkeit als GPT-4.1 ab. Die Studie betont die Notwendigkeit spezifischer Cybersicherheitsbenchmarks für Interpreter, Abhilfemaßnahmen und Branchenstandards, um die sichere Implementierung von LLM-Interpreter-Integrationen zu gewährleisten. Das Benchmark-Datenset und die Bewertungscode werden öffentlich freigegeben, um weitere Forschung zu fördern. Der CIRCLE-Benchmark schließt eine kritische Lücke bei der Bewertung von Interpreter-zentrierten Ressourcen-Ausnutzungsangriffen in LLMs. Er bietet eine umfassende Risikotaxonomie, ein automatisiertes Bewertungswerkzeug und offenen Zugang. Die Ergebnisse betonen die Notwendigkeit verbesserten Cybersicherheitsmaßnahmen in LLMs mit integrierten Code-Interpreten.


Empfohlene Papiere

Variablen Min-Cut Max-Flow-Bounds und Algorithmen im endlichen Regime

Thermodynamische Analyse der transversalen Impulsspektren in Pb-Pb-Kollisionen bei 2.76 TeV: Abhängigkeit der Zentralität von der Temperatur, den Ausfrostungsparametern und der Nicht-Extensivität

Gemeinsamer asymmetrischer Verlust für das Lernen mit ruhelosen Labels

MC$^2$A: Erleichterung des Algorithmus-Hardware-Co-Designs zur effizienten Beschleunigung von Markov-Chain-Monte-Carlo-Verfahren

Individueller, auf Algorithmen basierter Fehler-Toleranzmechanismus für Aufmerksamkeits-Schichten in Transformern

DR.EHR: Dichtes Retrieval für elektronische Gesundheitsakten mit Wissensinjektion und synthetischen Daten

SIDA: synthetische Bildgestützte Zero-shot Domänenanpassung

Die Untersuchung von ultrahochenergetischen Neutrinos mit der IceCube-Gen2-In-Wasser-Radioanordnung

Schärferer untere Schranken für Single-Source Personalisierten PageRank

Auszugsweise Übersetzung: Umzug出去: Körpereingeschlossene Mensch-AI-Zusammenarbeit