Resumen - SafeWork-R1: Evolución Coevolucionada de la Seguridad e Inteligencia bajo la Ley AI-45$^{\circ}$
Título
SafeWork-R1: Evolución Coevolucionada de la Seguridad e Inteligencia bajo la Ley AI-45$^{\circ}$
Tiempo
2025-07-24 16:49:19
Autor
{"Shanghai AI Lab",:,"Yicheng Bao","Guanxu Chen","Mingkang Chen","Yunhao Chen","Chiyu Chen","Lingjie Chen","Sirui Chen","Xinquan Chen","Jie Cheng","Yu Cheng","Dengke Deng","Yizhuo Ding","Dan Ding","Xiaoshan Ding","Yi Ding","Zhichen Dong","Lingxiao Du","Yuyu Fan","Xinshun Feng","Yanwei Fu","Yuxuan Gao","Ruijun Ge","Tianle Gu","Lujun Gui","Jiaxuan Guo","Qianxi He","Yuenan Hou","Xuhao Hu","Hong Huang","Kaichen Huang","Shiyang Huang","Yuxian Jiang","Shanzhe Lei","Jie Li","Lijun Li","Hao Li","Juncheng Li","Xiangtian Li","Yafu Li","Lingyu Li","Xueyan Li","Haotian Liang","Dongrui Liu","Qihua Liu","Zhixuan Liu","Bangwei Liu","Huacan Liu","Yuexiao Liu","Zongkai Liu","Chaochao Lu","Yudong Lu","Xiaoya Lu","Zhenghao Lu","Qitan Lv","Caoyuan Ma","Jiachen Ma","Xiaoya Ma","Zhongtian Ma","Lingyu Meng","Ziqi Miao","Yazhe Niu","Yuezhang Peng","Yuan Pu","Han Qi","Chen Qian","Xingge Qiao","Jingjing Qu","Jiashu Qu","Wanying Qu","Wenwen Qu","Xiaoye Qu","Qihan Ren","Qingnan Ren","Qingyu Ren","Jing Shao","Wenqi Shao","Shuai Shao","Dongxing Shi","Xin Song","Xinhao Song","Yan Teng","Xuan Tong","Yingchun Wang","Xuhong Wang","Shujie Wang","Xin Wang","Yige Wang","Yixu Wang","Yuanfu Wang","Futing Wang","Ruofan Wang","Wenjie Wang","Yajie Wang","Muhao Wei","Xiaoyu Wen","Fenghua Weng","Yuqi Wu","Yingtong Xiong","Xingcheng Xu","Chao Yang","Yue Yang","Yang Yao","Yulei Ye","Zhenyun Yin","Yi Yu","Bo Zhang","Qiaosheng Zhang","Jinxuan Zhang","Yexin Zhang","Yinqiang Zheng","Hefeng Zhou","Zhanhui Zhou","Pengyu Zhu","Qingzi Zhu","Yubo Zhu","Bowen Zhou"}
Categoría
{cs.AI,cs.CL,cs.CV}
Enlace
http://arxiv.org/abs/2507.18576v1
PDF Enlace
http://arxiv.org/pdf/2507.18576v1
Resumen
El Laboratorio de Inteligencia Artificial de Shanghai ha desarrollado SafeWork-R1, un modelo de razonamiento multimodal de vanguardia que muestra la coevolución de capacidades y seguridad. Este modelo se construye utilizando el marco SafeLadder, que incorpora un aprendizaje reforzado post-entrenamiento orientado a la seguridad a gran escala y progresivo, apoyado por una suite de verificadores de múltiples principios.
**Características Clave de SafeWork-R1**:
* **Actitud de Seguridad Intrínseca**: A diferencia de los métodos de alineación anteriores que simplemente aprenden las preferencias humanas, SafeWork-R1 desarrolla razonamiento de seguridad intrínseca y la capacidad de reflexión sobre sí mismo, lo que lleva a momentos de "¡aha!" de seguridad.
* **Mejora de Rendimiento de Seguridad**: SafeWork-R1 logra una mejora promedio del 46.54% sobre su modelo base Qwen2.5-VL-72B en benchmarks relacionados con la seguridad sin comprometer sus capacidades generales.
* **Rendimiento de Seguridad de vanguardia**: SafeWork-R1 ofrece un rendimiento superior en seguridad en comparación con modelos de propiedad intelectual líderes como GPT-4.1 y Claude Opus 4.
* **Robustez y Fiabilidad**: El modelo incorpora dos métodos de intervención en tiempo de inferencia distintos y un mecanismo de búsqueda deliberativa, que impone verificación a nivel de paso.
* **Generalización**: SafeWork-R1-InternVL3-78B, SafeWork-R1-DeepSeek-70B y SafeWork-R1-Qwen2.5VL-7B demuestran que la seguridad y la capacidad pueden coevolucionar sinérgicamente, destacando la generalización del marco SafeLadder.
**Marco SafeLadder**:
El marco SafeLadder está diseñado para interiorizar la seguridad como una capacidad nativa dentro de los LLM multimodales. Utiliza un paradigma de aprendizaje reforzado estructurado y progresivo con los siguientes etapas clave:
* **CoT Supervised Fine-Tuning (SFT)**: Equipa al modelo con capacidades de razonamiento de cadena larga.
* **M3-RL**: Un marco de aprendizaje reforzado multimodal, multitarea y multiobjetivo que alinea progresivamente la seguridad, el valor, el conocimiento y las capacidades generales.
* **Aprendizaje Reforzado Seguro y Eficiente**: Refina la profundidad del razonamiento del modelo para evitar el pensamiento excesivo y promueve un razonamiento de seguridad eficiente.
* **Aprendizaje Reforzado de Búsqueda Deliberativa**: Permite que el modelo utilice fuentes externas para obtener respuestas confiables mientras utiliza el conocimiento interno para filtrar información de ruido externo.
**Intervención en Tiempo de Inferencia**:
* **Intervención Automatizada a través de la Guía del Modelo de Valor Principlista**: Utiliza modelos de valor para la pantalla y la guía automatizada para asegurar la alineación con estándares éticos y de seguridad.
* **Intervención con Participación Humana**: Permite la edición y refinamiento directo de la Cadena de Pensamiento para corregir errores de LLM y alinearse con las preferencias del usuario.
**Resultados de Evaluación**:
SafeWork-R1 demuestra un fuerte rendimiento en varios benchmarks, incluyendo seguridad, alineación de valor y razonamiento general. Sobra a su modelo base y a modelos de propiedad intelectual líderes en muchos casos, demostrando su efectividad y generalización.
**Conclusión**:
SafeWork-R1 representa un paso significativo hacia la construcción de una IA general-purpose robusta, confiable y fiable. El marco SafeLadder y sus verificadores asociados proporcionan una herramienta valiosa para desarrollar LLM seguras y capaces que pueden aplicarse en una amplia gama de dominios.
Artículos Recomendados
Un Marco de Inferencia de DNN de extremo a extremo para el MPSoC neuromórfico SpiNNaker2
Detección y clasificación de objetos en tiempo real utilizando YOLO para FPGAs de borde
Clasificación de la Hora: Un nuevo algoritmo de clasificación paralela y su implementación
Propiedades asintóticas de los ceros de la función zeta de Riemann
Estabilidad de la levitación magnética rotativa
Conteo Aproximado de SMT en Dominios más Allá del Discreto
Módulos interferométricos monolíticos para posicionamiento de coordenadas multi-axes con precisión subnanométrica
Materiales no convencionales para la detección de materia oscura ligera
NNQS-AFQMC: Estados cuánticos de red neuronal mejorados para Monte Carlo cuántico fermiónico
Transiciones de fase mágicas en fermiones gaussianos monitoreados