概要 - CIRCLEでランニング？LLMコードインタプリタのセキュリティのためのシンプルなベンチマーク

タイトル

CIRCLEでランニング？LLMコードインタプリタのセキュリティのためのシンプルなベンチマーク

時間

2025-07-25 16:06:16

著者

{"Gabriel Chua"}

カテゴリ

{cs.CR,cs.AI}

リンク
http://arxiv.org/abs/2507.19399v1

PDF リンク
http://arxiv.org/pdf/2507.19399v1

概要

CIRCLEベンチマークは、統合されたコードインタプリタを持つ大規模言語モデル（LLM）のサイバーセキュリティ脆弱性を評価します。それは、CPU、メモリ、ディスクリソースの枯渇に関連するリスクを特定することに焦点を当てています。ベンチマークは、二つのパターン（悪意あるものと無害なもの）を持つ包括的なリスク分類法と、自動化された複数のプロバイダ評価ハーネスを使用しています。評価から得られた七つの商用LLM（OpenAIとGoogle）の主要な結論は、著しいかつ一貫しない脆弱性を示しています。例えば、OpenAIのo4-miniは、GPT-4.1よりもリスクのあるリクエストをより高い率で拒否します。この研究は、インタプリタ特別なサイバーセキュリティベンチマーク、緩和ツール、業界基準の必要性を強調し、LLMインタプリタ統合の安全なデプロイメントを確保するために必要です。ベンチマークデータセットと評価コードは、さらなる研究を促進するために公開されています。 CIRCLEベンチマークは、LLMにおけるインタプリタ中心的なリソース枯渇攻撃を評価する重要なギャップを埋めます。それは包括的なリスク分類法、自動化された評価ハーネス、オープンソースのアクセスを提供します。この研究の結果は、統合されたコードインタプリタを持つLLMにおけるサイバーセキュリティ対策の向上が必要であることを示しています。

推奨論文

ThermoRL: 蛋白質変異設計のための構造意識型強化学習による熱安定性の向上

AI電話調査：AIインタビュアーを用いた定量データ収集の自動化

群のFourier解析を通じて拡張歩行の擬似乱数性

欠損した共変量下での事前訓練AIモデルを用いたオンライン決定支援：理論的視点

SpiNNaker2神経モーフィックMPSoCのためのエンドツーエンドDNN推論フレームワーク

大規模な言語モデルの大量トレーニングを通じてイベント予測を進める：課題、解決策、及び広範な影響

TokenSmith: 大規模な言語モデルのトレーニングと可視化のためのデータ編集、検索、検証を簡素化

TRPrompt: テキストベースの報酬からクエリ意識的なプロンプト最適化をブートストラップする

DNNベースのHSIセグメンテーション用FPGAベースのSoCのための最適化：実践的なアプローチ

機械学習支援のタンパク質工学のためのベストプラクティス