概要 - セキュア・タグ・オブ・ウォー(SecTOW):マルチモーダルモデルのセキュリティのための強化学習を用いた反復的な防衛攻撃トレーニング

タイトル
セキュア・タグ・オブ・ウォー(SecTOW):マルチモーダルモデルのセキュリティのための強化学習を用いた反復的な防衛攻撃トレーニング

時間
2025-07-29 17:39:48

著者
{"Muzhi Dai","Shixuan Liu","Zhiyuan Zhao","Junyu Gao","Hao Sun","Xuelong Li"}

カテゴリ
{cs.CR,cs.AI}

リンク
http://arxiv.org/abs/2507.22037v1

PDF リンク
http://arxiv.org/pdf/2507.22037v1

概要

この論文では、多様な大規模言語モデル(MLLM)のセキュリティを強化するための革新的な反復的な防衛攻撃トレーニング方法である「セキュア・トug-of-War(SecTOW)」を提案しています。このアプローチは、セキュリティ制約を回避し、MLLMから意図しない応答を引き出すことができる不安全な画像-クエリペアの問題に対処しています。SecTOWは、以下の2つのモジュールで構成されています:防衛者と補助的な攻撃者、両方とも強化学習(GRPO)を使用して反復的にトレーニングされています。 **SecTOWの主要な構成要素**: * **防衛者と攻撃者**: * 防衛者は、有害な画像-クエリペアを識別し拒否するように訓練されたMLLMです。 * 攻撃者は、防衛者の脆弱性を利用するための脱獄データを生成するもう一つのMLLMです。 * **反復的なトレーニングプロセス**: * 攻撃者が防衛者の脆弱性を特定し、新しい脱獄データを生成します。 * 防衛者はこのデータを使用して防衛を向上させます。 * このプロセスは反復的に行われ、攻撃者が常に新しい脆弱性を探し、防衛者が防衛を継続的に強化します。 * **報酬メカニズム**: * 防衛者と攻撃者両方に対して設計された報酬メカニズムは、特定の行動を促進します。 * 防衛者は有害な入力を正しく識別し拒否した場合に報酬を受け取ります。 * 攻撃者は防衛者に挑戦する効果的な脱獄データを生成した場合に報酬を受け取ります。 * **品質監視メカニズム**: * このメカニズムは、攻撃者が生成する脱獄データの品質と多様性を確保します。 * これにより、攻撃者が低品質または繰り返しのパターンを生成するのを防ぎます。 * **データ拡張**: * 攻撃者は、既存のデータを精査し、画像を使用したプロンプトで新しい脱獄データを生成します。 * これにより、防衛者のトレーニングセットを拡張し、モデルが攻撃に対してより堅牢になります。 **SecTOWの利点**: * **セキュリティの向上**:SecTOWは、脱獄攻撃に対する効果的な防衛により、MLLMのセキュリティを大幅に向上させます。 * **バランスの取れた一般的な性能**:セキュリティを向上させる一方で、SecTOWはMLLMの一般的な性能も維持します。 * **効率的なデータ利用**:強化学習と報酬メカニズムの使用により、合成データの効率的な利用が可能になり、手動でアノテーションされたデータへの依存を減少させます。 * **品質管理**:品質監視メカニズムにより、脱獄データの品質と多様性が確保され、より効果的なトレーニングが可能になります。 **実験と結果**: 論文では、様々な基準に対する実験結果を紹介し、SecTOWの効果を示しています。結果は、SecTOWが攻撃成功率(ASR)を大幅に低下させつつ、一般的な基準での高精度を維持することを示しています。これにより、SecTOWがセキュリティと一般的な性能のバランスを取る効果を示しています。 **結論**: SecTOWは、MLLMのセキュリティを強化するための革新的で効果的なアプローチです。反復的な防衛攻撃トレーニングと強化学習を使用することで、SecTOWは脱獄攻撃に関連するリスクを効果的に軽減し、MLLMが実際のアプリケーションで信頼性と信頼性を確保するのを助けます。


推奨論文

乱雑なグリッドから四角メッシュの抽出を保護する地図

大規模言語モデルが評価でどの程度「嘘をつく」か? Once-Pad-Based Frameworkの下でのベンチマークオーバーステイメントの評価

SpiNNaker2神経モーフィックMPSoCのためのエンドツーエンドDNN推論フレームワーク

低次のSkolem問題の複雑さについて

時砂並べ:新しい並列ソートアルゴリズムとその実装

画像とテキストの連携強化のための学習可能なリトリーブと放射線報告書生成のための融合

亀裂部の間に落ちる:分断された脆い亀裂前縁におけるエネルギー貯蔵

色度メトリック対のGromov-Hausdorff距離と六パックの安定性

AQUA: 水産養殖・漁業用の大規模言語モデル

「強化学習を通じて大規模言語モデルによる推論駆動型逆合成予測」