Résumé - SafeWork-R1 : Évolution conjointe de la sécurité et de l'intelligence sous la loi AI-45°

Titre
SafeWork-R1 : Évolution conjointe de la sécurité et de l'intelligence sous la loi AI-45°

Temps
2025-07-24 16:49:19

Auteur
{"Shanghai AI Lab",:,"Yicheng Bao","Guanxu Chen","Mingkang Chen","Yunhao Chen","Chiyu Chen","Lingjie Chen","Sirui Chen","Xinquan Chen","Jie Cheng","Yu Cheng","Dengke Deng","Yizhuo Ding","Dan Ding","Xiaoshan Ding","Yi Ding","Zhichen Dong","Lingxiao Du","Yuyu Fan","Xinshun Feng","Yanwei Fu","Yuxuan Gao","Ruijun Ge","Tianle Gu","Lujun Gui","Jiaxuan Guo","Qianxi He","Yuenan Hou","Xuhao Hu","Hong Huang","Kaichen Huang","Shiyang Huang","Yuxian Jiang","Shanzhe Lei","Jie Li","Lijun Li","Hao Li","Juncheng Li","Xiangtian Li","Yafu Li","Lingyu Li","Xueyan Li","Haotian Liang","Dongrui Liu","Qihua Liu","Zhixuan Liu","Bangwei Liu","Huacan Liu","Yuexiao Liu","Zongkai Liu","Chaochao Lu","Yudong Lu","Xiaoya Lu","Zhenghao Lu","Qitan Lv","Caoyuan Ma","Jiachen Ma","Xiaoya Ma","Zhongtian Ma","Lingyu Meng","Ziqi Miao","Yazhe Niu","Yuezhang Peng","Yuan Pu","Han Qi","Chen Qian","Xingge Qiao","Jingjing Qu","Jiashu Qu","Wanying Qu","Wenwen Qu","Xiaoye Qu","Qihan Ren","Qingnan Ren","Qingyu Ren","Jing Shao","Wenqi Shao","Shuai Shao","Dongxing Shi","Xin Song","Xinhao Song","Yan Teng","Xuan Tong","Yingchun Wang","Xuhong Wang","Shujie Wang","Xin Wang","Yige Wang","Yixu Wang","Yuanfu Wang","Futing Wang","Ruofan Wang","Wenjie Wang","Yajie Wang","Muhao Wei","Xiaoyu Wen","Fenghua Weng","Yuqi Wu","Yingtong Xiong","Xingcheng Xu","Chao Yang","Yue Yang","Yang Yao","Yulei Ye","Zhenyun Yin","Yi Yu","Bo Zhang","Qiaosheng Zhang","Jinxuan Zhang","Yexin Zhang","Yinqiang Zheng","Hefeng Zhou","Zhanhui Zhou","Pengyu Zhu","Qingzi Zhu","Yubo Zhu","Bowen Zhou"}

Catégorie
{cs.AI,cs.CL,cs.CV}

Lien
http://arxiv.org/abs/2507.18576v1

PDF Lien
http://arxiv.org/pdf/2507.18576v1

Résumé

Le Laboratoire d'Intelligence Artificielle de Shanghai a développé SafeWork-R1, un modèle de raisonnement multimodal de pointe qui montre la cocévolution des capacités et de la sécurité. Ce modèle est construit à l'aide du cadre SafeLadder, qui intègre un apprentissage par renforcement post-formation axé sur la sécurité à grande échelle et progressif, soutenu par une suite d'validateurs basés sur plusieurs principes. **Caractéristiques clés de SafeWork-R1** : * **Esprit de sécurité intrinsèque** : Contrairement aux méthodes d'alignement précédentes qui apprennent simplement les préférences humaines, SafeWork-R1 développe des capacités de raisonnement et de réflexion sur soi intrinsèques, menant à des "moments d'éclat" en matière de sécurité. * **Amélioration de la performance en matière de sécurité** : SafeWork-R1 atteint une amélioration moyenne de 46,54 % par rapport à son modèle de base Qwen2.5-VL-72B sur les critères liés à la sécurité sans compromettre les capacités générales. * **Performance en matière de sécurité de pointe** : SafeWork-R1 délivre une performance en matière de sécurité supérieure à celle des modèles propriétaires de premier plan tels que GPT-4.1 et Claude Opus 4. * **Fiabilité robuste** : Le modèle intègre deux méthodes distinctes d'intervention au moment de l'inférence et un mécanisme de recherche délibérée, imposant une vérification au niveau des étapes. * **Generalisabilité** : SafeWork-R1-InternVL3-78B, SafeWork-R1-DeepSeek-70B et SafeWork-R1-Qwen2.5VL-7B montrent que sécurité et capacité peuvent coévoluer de manière synergétique, soulignant la généralisabilité du cadre SafeLadder. **Cadre SafeLadder** : Le cadre SafeLadder est conçu pour intégrer la sécurité en tant que capacité native dans les LLM multimodaux. Il utilise un paradigme structuré et progressif d'apprentissage par renforcement avec les étapes clés suivantes : * **Ajustement fin (SFT) supervisé par CoT** : Équipe le modèle de capacités de raisonnement à longue chaîne. * **M3-RL** : Un cadre d'apprentissage par renforcement multimodal, multitâche et multiobjectif qui aligne progressivement la sécurité, la valeur, la connaissance et les capacités générales. * **Apprentissage par renforcement sûr et efficace** : Affine la profondeur de raisonnement du modèle pour éviter le surpensée et promouvoir un raisonnement en matière de sécurité efficace. * **Apprentissage par renforcement de recherche délibérée** : Permet au modèle de tirer parti des sources externes pour des réponses fiables tout en utilisant des connaissances internes pour filtrer les informations de bruit externes. **Intervention au moment de l'inférence** : * **Intervention automatisée via la guidance du modèle de valeur par principe** : Utilise des modèles de valeur pour un contrôle et une orientation automatisés pour assurer l'alignement avec les normes éthiques et de sécurité. * **Intervention en boucle humaine** : Permet des modifications directes et un affinement du Chain-of-Thought pour corriger les erreurs des LLM et s'aligner sur les préférences de l'utilisateur. **Résultats d'évaluation** : SafeWork-R1 démontre une forte performance sur divers critères, y compris la sécurité, l'alignement de la valeur et le raisonnement général. Il dépasse son modèle de base et les modèles propriétaires de premier plan dans de nombreux cas, démontrant son efficacité et sa généralisabilité. **Conclusion** : SafeWork-R1 représente une étape significative vers la construction d'une IA générale robuste, fiable et fiable. Le cadre SafeLadder et ses validateurs associés fournissent un outil précieux pour développer des LLM sûrs et capables qui peuvent être appliqués à un large éventail de domaines.


Articles Recommandés

Double Duty : Architecture FPGA pour permettre l'utilisation concurrente de chaînes de LUT et d'additionneurs

Boudes inférieures plus strictes pour le Personalized PageRank de source unique

Déséquilibre dans l'Équilibre : Équilibrage des Concepts En Ligne dans les Modèles de Génération

La Arène d'Énergie Généative (GEA) : Incorporation de la Sensibilité à l'Énergie dans les Évaluations Humaines des Grandes Modèles de Langue (GML)

Les planètes plus grandes que Neptune ont des excentricités élevées.

Dynamique spinne-only du modèle non-reciproque multi-espèces de Dicke

SVAgent : Agent IA pour la vérification des assertions de sécurité du matériel

Classer les anneaux d'entiers de Grothendieck jusqu'au rang 5 et au-delà

Manifolds with kinks et le comportement asymptotique de l'opérateur laplacien graphique avec noyau gaussien

Solutions Exactes pour les Distributions Bimodales sous Irradiation Stochastique de Plasma dans les Films Minces