Zusammenfassung - SafeWork-R1: Ko-evolvierende Sicherheit und Intelligenz unter dem AI-45$^{\circ}$-Gesetz
Titel
SafeWork-R1: Ko-evolvierende Sicherheit und Intelligenz unter dem AI-45$^{\circ}$-Gesetz
Zeit
2025-07-24 16:49:19
Autor
{"Shanghai AI Lab",:,"Yicheng Bao","Guanxu Chen","Mingkang Chen","Yunhao Chen","Chiyu Chen","Lingjie Chen","Sirui Chen","Xinquan Chen","Jie Cheng","Yu Cheng","Dengke Deng","Yizhuo Ding","Dan Ding","Xiaoshan Ding","Yi Ding","Zhichen Dong","Lingxiao Du","Yuyu Fan","Xinshun Feng","Yanwei Fu","Yuxuan Gao","Ruijun Ge","Tianle Gu","Lujun Gui","Jiaxuan Guo","Qianxi He","Yuenan Hou","Xuhao Hu","Hong Huang","Kaichen Huang","Shiyang Huang","Yuxian Jiang","Shanzhe Lei","Jie Li","Lijun Li","Hao Li","Juncheng Li","Xiangtian Li","Yafu Li","Lingyu Li","Xueyan Li","Haotian Liang","Dongrui Liu","Qihua Liu","Zhixuan Liu","Bangwei Liu","Huacan Liu","Yuexiao Liu","Zongkai Liu","Chaochao Lu","Yudong Lu","Xiaoya Lu","Zhenghao Lu","Qitan Lv","Caoyuan Ma","Jiachen Ma","Xiaoya Ma","Zhongtian Ma","Lingyu Meng","Ziqi Miao","Yazhe Niu","Yuezhang Peng","Yuan Pu","Han Qi","Chen Qian","Xingge Qiao","Jingjing Qu","Jiashu Qu","Wanying Qu","Wenwen Qu","Xiaoye Qu","Qihan Ren","Qingnan Ren","Qingyu Ren","Jing Shao","Wenqi Shao","Shuai Shao","Dongxing Shi","Xin Song","Xinhao Song","Yan Teng","Xuan Tong","Yingchun Wang","Xuhong Wang","Shujie Wang","Xin Wang","Yige Wang","Yixu Wang","Yuanfu Wang","Futing Wang","Ruofan Wang","Wenjie Wang","Yajie Wang","Muhao Wei","Xiaoyu Wen","Fenghua Weng","Yuqi Wu","Yingtong Xiong","Xingcheng Xu","Chao Yang","Yue Yang","Yang Yao","Yulei Ye","Zhenyun Yin","Yi Yu","Bo Zhang","Qiaosheng Zhang","Jinxuan Zhang","Yexin Zhang","Yinqiang Zheng","Hefeng Zhou","Zhanhui Zhou","Pengyu Zhu","Qingzi Zhu","Yubo Zhu","Bowen Zhou"}
Kategorie
{cs.AI,cs.CL,cs.CV}
Link
http://arxiv.org/abs/2507.18576v1
PDF Link
http://arxiv.org/pdf/2507.18576v1
Zusammenfassung
Das Shanghai Artificial Intelligence Laboratory hat SafeWork-R1 entwickelt, ein innovatives multimodales Reasoning-Modell, das die Ko-Evolution von Fähigkeiten und Sicherheit zeigt. Dieses Modell wird mit dem SafeLadder-Framework erstellt, das groß angelegtes, fortschrittliches, sicherheitsorientiertes Reinenforcement Learning nach der Trainingsphase umfasst, unterstützt durch eine Reihe mehrprincipled Verifier.
**Schlüsselmerkmale von SafeWork-R1**:
* **Intrinsische Sicherheitsmentalität**: Im Gegensatz zu früheren Alignment-Methoden, die einfach menschliche Präferenzen lernen, entwickelt SafeWork-R1 intrinsische Sicherheitsreasoning- und Selbstreflexionsfähigkeiten, die zu sicherheitsbezogenen "Aha"-Momenten führen.
* **Verbesserte Sicherheitsleistung**: SafeWork-R1 erzielt im Durchschnitt eine Verbesserung von 46,54% über sein Basismodell Qwen2.5-VL-72B auf sicherheitsbezogenen Benchmarks, ohne die allgemeinen Fähigkeiten zu beeinträchtigen.
* **State-of-the-Art Sicherheitsleistung**: SafeWork-R1 bietet eine überlegene Sicherheitsleistung im Vergleich zu führenden proprietären Modellen wie GPT-4.1 und Claude Opus 4.
* **Robuste Zuverlässigkeit**: Das Modell integriert zwei verschiedene Interventionsmethoden zur Laufzeit und ein deliberatives Suchmechanismus, der auf Schrittniveau Verifikation durchsetzt.
* **Generalisierbarkeit**: SafeWork-R1-InternVL3-78B, SafeWork-R1-DeepSeek-70B und SafeWork-R1-Qwen2.5VL-7B zeigen, dass Sicherheit und Fähigkeiten synergetisch ko-evolvieren können, was die Generalisierbarkeit des SafeLadder-Frameworks unterstreicht.
**SafeLadder Framework**:
Das SafeLadder-Framework ist darauf ausgelegt, Sicherheit als nativen Fähigkeit innerhalb multimodaler LLMs zu internisieren. Es nutzt ein strukturiertes und fortschrittliches Reinenforcement Learning Paradigma mit folgenden Schlüsselphasen:
* **CoT Supervised Fine-Tuning (SFT)**: Ausstattung des Modells mit langkettigen Reasoning-Fähigkeiten.
* **M3-RL**: Ein multimodales, multitaskiges und multiobjektives Reinenforcement Learning Framework, das kontinuierlich Sicherheit, Wert, Wissen und allgemeine Fähigkeiten ausrichtet.
* **Safe-and-Efficient RL**: Feinabstimmung der Reasoning-Tiefe des Modells, um Überdenken zu vermeiden und effizientes Sicherheitsreasoning zu fördern.
* **Deliberative Search RL**: Erlaubt dem Modell, externe Quellen für zuverlässige Antworten zu nutzen, während es internes Wissen verwendet, um externen Lärm zu filtern.
**Intervention zur Laufzeit**:
* **Automatisierte Intervention durch prinzipielle Value-Model-Leitung**: Nutzt Value-Modelle zur automatisierten Überprüfung und Leitung, um Übereinstimmung mit ethischen und sicherheitsrelevanten Standards zu gewährleisten.
* **Intervention des Menschen im Zyklus**: Erlaubt direkte Bearbeitung und Feinabstimmung des Chain-of-Thought, um Fehler von LLM zu korrigieren und mit den Präferenzen der Benutzer in Einklang zu bringen.
**Evaluierungsergebnisse**:
SafeWork-R1 zeigt starke Leistung bei verschiedenen Benchmarks, einschließlich Sicherheit, Wertausrichtung und allgemeiner Reasoning. Es übertrifft in vielen Fällen sein Basismodell und führende proprietäre Modelle, was seine Effektivität und Generalisierbarkeit zeigt.
**Schlussfolgerung**:
SafeWork-R1 stellt einen bedeutenden Schritt in Richtung des Aufbaus robuster, zuverlässiger und vertrauenswürdiger allgemeinsprachlicher KI dar. Das SafeLadder-Framework und seine damit verbundenen Verifier bieten ein wertvolles Werkzeug für die Entwicklung sicherer und leistungsfähiger LLMs, die in einer breiten Palette von Bereichen angewendet werden können.
Empfohlene Papiere
Gleichheit ist viel schwächer als unaufhaltsame Kostenkommunikation.
Beschreibung der p-Simulation zwischen Theorien
Physisch informierte Gaußsche Prozess-Infusion von Flüssigkeitsstruktur aus Streuungsdaten
In Richtung formale Verifikation von Code, der durch natürliche Sprachanweisungen von LLM generiert wird
Bodenabstimmung zur Verringerung elektromagnetischer Störungen für in ungeschirmten Umgebungen arbeitende MRT-Geräte
Multiobjekt-Portfoliounterhaltung über Gradientenabstieg
Allgemeinisierte Clusteralgorithmen für die Potts-Lattizengauge-Theorie
Individueller, auf Algorithmen basierter Fehler-Toleranzmechanismus für Aufmerksamkeits-Schichten in Transformern
Maschinelles Lernen-assistierte Surrogatmodellierung mit Multi-Ziel-Optimierung und Entscheidungsfindung für einen Dampfmethan-Reformierungsreaktor
Amplitude Walk in schnellem Timing: Die Rolle von doppelten Schwellenwerten