概要 - SafeWork-R1: AI-45°法のもとでの共生進化する安全と知能

タイトル
SafeWork-R1: AI-45°法のもとでの共生進化する安全と知能

時間
2025-07-24 16:49:19

著者
{"Shanghai AI Lab",:,"Yicheng Bao","Guanxu Chen","Mingkang Chen","Yunhao Chen","Chiyu Chen","Lingjie Chen","Sirui Chen","Xinquan Chen","Jie Cheng","Yu Cheng","Dengke Deng","Yizhuo Ding","Dan Ding","Xiaoshan Ding","Yi Ding","Zhichen Dong","Lingxiao Du","Yuyu Fan","Xinshun Feng","Yanwei Fu","Yuxuan Gao","Ruijun Ge","Tianle Gu","Lujun Gui","Jiaxuan Guo","Qianxi He","Yuenan Hou","Xuhao Hu","Hong Huang","Kaichen Huang","Shiyang Huang","Yuxian Jiang","Shanzhe Lei","Jie Li","Lijun Li","Hao Li","Juncheng Li","Xiangtian Li","Yafu Li","Lingyu Li","Xueyan Li","Haotian Liang","Dongrui Liu","Qihua Liu","Zhixuan Liu","Bangwei Liu","Huacan Liu","Yuexiao Liu","Zongkai Liu","Chaochao Lu","Yudong Lu","Xiaoya Lu","Zhenghao Lu","Qitan Lv","Caoyuan Ma","Jiachen Ma","Xiaoya Ma","Zhongtian Ma","Lingyu Meng","Ziqi Miao","Yazhe Niu","Yuezhang Peng","Yuan Pu","Han Qi","Chen Qian","Xingge Qiao","Jingjing Qu","Jiashu Qu","Wanying Qu","Wenwen Qu","Xiaoye Qu","Qihan Ren","Qingnan Ren","Qingyu Ren","Jing Shao","Wenqi Shao","Shuai Shao","Dongxing Shi","Xin Song","Xinhao Song","Yan Teng","Xuan Tong","Yingchun Wang","Xuhong Wang","Shujie Wang","Xin Wang","Yige Wang","Yixu Wang","Yuanfu Wang","Futing Wang","Ruofan Wang","Wenjie Wang","Yajie Wang","Muhao Wei","Xiaoyu Wen","Fenghua Weng","Yuqi Wu","Yingtong Xiong","Xingcheng Xu","Chao Yang","Yue Yang","Yang Yao","Yulei Ye","Zhenyun Yin","Yi Yu","Bo Zhang","Qiaosheng Zhang","Jinxuan Zhang","Yexin Zhang","Yinqiang Zheng","Hefeng Zhou","Zhanhui Zhou","Pengyu Zhu","Qingzi Zhu","Yubo Zhu","Bowen Zhou"}

カテゴリ
{cs.AI,cs.CL,cs.CV}

リンク
http://arxiv.org/abs/2507.18576v1

PDF リンク
http://arxiv.org/pdf/2507.18576v1

概要

上海人工知能研究所は、能力と安全性の共進化を示す最先端の多様な推論モデルであるSafeWork-R1を開発しました。このモデルは、多様な原則に基づく検証ツールをサポートする大規模で進化型の安全性指向の強化学習のポストトレーニングを取り入れるSafeLadderフレームワークを使用して構築されています。 **SafeWork-R1の主要な特徴**: * **本質的な安全性の意識**:従来のアライメント方法が単に人間の好みを学習するのとは異なり、SafeWork-R1は内在的な安全性の推論と自己反省能力を発展させ、安全性の「あらら」瞬間を引き起こします。 * **安全性の性能向上**:SafeWork-R1は、一般的能力を損なわずに、安全性に関連する基準においてベースモデルのQwen2.5-VL-72Bに対して平均46.54%の改善を達成します。 * **最先端の安全性の性能**:SafeWork-R1は、GPT-4.1やClaude Opus 4などの主要な独自モデルと比較して、優れた安全性の性能を提供します。 * **堅牢な信頼性**:モデルには二つの異なる推論時の介入方法と、ステップレベルの検証を強制する熟考的な検索メカニズムが組み込まれています。 * **一般化**:SafeWork-R1-InternVL3-78B、SafeWork-R1-DeepSeek-70B、SafeWork-R1-Qwen2.5VL-7Bは、安全性と能力が相乗的に進化することを示し、SafeLadderフレームワークの一般化を強調します。 **SafeLadderフレームワーク**: SafeLadderフレームワークは、多様なLLMに安全性を本質的な機能として内包するために設計されています。以下の主要な段階を含む構造化され進化型の強化学習パラダイムを使用しています。 * **CoT監督された微調整(SFT)**:モデルに長連鎖推論能力を提供します。 * **M3-RL**:多様なモード、多任務、多目的の強化学習フレームワークで、安全性、価値、知識、一般的能力を進化的にアライメントします。 * **安全性と効率の高い強化学習**:モデルの推論の深さを調整し、過度な思考を避け、効率的な安全性の推論を促進します。 * **熟考的な検索強化学習**:モデルが外部の情報源を利用して信頼性の高い答えを得ることを可能にし、内部の知識を使用して外部のノイズ情報をフィルタリングします。 **推論時の介入**: * **原則に基づく価値モデルによる自動介入**:価値モデルを使用して、倫理的および安全性の基準に一致する自動的なスクリーニングとガイドを提供します。 * **ヒューマンインザループ介入**:LLMの誤りを修正し、ユーザーの好みに一致するように推論の連鎖を直接編集および調整する機能を提供します。 **評価結果**: SafeWork-R1は、安全性、価値のアライメント、一般推論を含むさまざまな基準において優れた性能を示します。多くの場合、ベースモデルや主要な独自モデルを上回り、その効果と一般化を示しています。 **結論**: SafeWork-R1は、堅牢で信頼性が高く、信頼できる汎用AIの構築に向けた重要な一歩です。SafeLadderフレームワークとその関連検証ツールは、幅広い分野に適用できる安全性と能力を持つ安全で能力のあるLLMを開発するための貴重なツールを提供します。


推奨論文

ツイートを用いた混合専門家による説明可能な株価予測の学習

NoHumansRequired: 自動化高品質画像編集トリプルミニング

セキュリティテンソルとしてのクロスモーダルブリッジ:LVLMにおけるテキストアライドセキュリティを視覚に拡張

「大規模言語モデルを使用して、社会生態系における複数の人間の視点をシミュレートする」

多変量金融時系列予測のための時系列基盤モデル

「ボリューム成長変換を用いてRLゲームの層化空間構造を探求する」

視覚と言語のトレーニングは分類学的知識の展開を助けますが、それを根本的に変えるものではありません

PurpCode: より安全なコード生成のための推論

無絡みの光子によるベール不平等の違反

テストセットでの事前学習はもはや全てではありません:QAベンチマークに対する議論駆動のアプローチ