Resumen - Predicción de retro-síntesis impulsada por la lógica con modelos de lenguaje grandes a través del aprendizaje por refuerzo
Título
Predicción de retro-síntesis impulsada por la lógica con modelos de lenguaje grandes a través del aprendizaje por refuerzo
Tiempo
2025-07-23 12:13:06
Autor
{"Situo Zhang","Hanqi Li","Lu Chen","Zihan Zhao","Xuanze Lin","Zichen Zhu","Bo Chen","Xin Chen","Kai Yu"}
Categoría
{cs.CE,cs.AI,physics.chem-ph}
Enlace
http://arxiv.org/abs/2507.17448v1
PDF Enlace
http://arxiv.org/pdf/2507.17448v1
Resumen
El documento presenta RETRO DFM-R, un modelo de gran lenguaje impulsado por la razón (LLM) diseñado específicamente para la retrosíntesis química. La retrosíntesis es un proceso crucial en la síntesis orgánica y la descubrimiento de fármacos, donde el objetivo es descomponer una molécula objetivo en precursores factibles, permitiendo a los químicos diseñar rutas sintéticas eficientes.
Los métodos existentes para la retrosíntesis a menudo sufren de limitaciones en ambas aplicabilidad y explicabilidad. Los modelos basados en gráficos y secuencia a secuencia tradicionales carecen de conocimiento químico generalizado, lo que lleva a una precisión inconstante y dificultad en la explicación. RETRO DFM-R aborda estos desafíos aprovechando las capacidades de razonamiento de los LLM y el aprendizaje reforzado.
Características clave de RETRO DFM-R:
* **LLM impulsado por la razón**: RETRO DFM-R integra el conocimiento del dominio químico con capacidades de razonamiento avanzadas para proporcionar predicciones de retrosíntesis precisas y explicables. Emula la lógica paso a paso de los químicos expertos, analizando sistemáticamente la estructura molecular e identificando desconexiones de retrosíntesis posibles.
* **Pipeline de entrenamiento**: El modelo se entrena utilizando un pipeline en tres etapas:
1. **Preentrenamiento continuo**: El modelo se preentrena en un conjunto de datos que contiene pares de conversión de nombres SMILES-IUPAC y predicciones de retrosíntesis, enriqueciendo su conocimiento específico del dominio.
2. **Difusión de razonamiento de arranque frío**: El modelo se entrena adicionalmente utilizando difusión condicional basada en respuestas, aprovechando un modelo de razonamiento general del dominio para generar trazas de razonamiento de alta calidad e inicializar las capacidades de razonamiento del modelo.
3. **Aprendizaje reforzado**: El modelo se entrena utilizando el algoritmo DAPO con recompensas verificables, mejorando así la precisión y promoviendo un razonamiento sólido.
* **Entrenamiento de conversión SMILES-IUPAC**: RETRO DFM-R emplea un entrenamiento定向 de conversión SMILES-IUPAC para cerrar la brecha entre el conocimiento químico en texto y las representaciones SMILES, que son esenciales para las moléculas de entrada y salida en los LLM.
* **Explicabilidad**: El modelo proporciona justificaciones claras y detalladas para sus decisiones sintéticas, permitiendo a los químicos entender el proceso de pensamiento del modelo y obtener conocimientos operativos.
Resultados de la evaluación:
* RETRO DFM-R supera significativamente a los métodos de vanguardia en el benchmark USPTO-50K, alcanzando una precisión top-1 del 65,0%.
* Las evaluaciones humanas a ciegas validan la factibilidad química y la utilidad práctica de las predicciones de RETRO DFM-R.
* RETRO DFM-R predice rutas de retrosíntesis multietapa reportadas en la literatura tanto para moléculas de fármacos reales como para materiales perovskitas.
* El proceso de razonamiento explícito del modelo proporciona insucciones interpretables por el hombre, aumentando la confianza y el valor práctico en aplicaciones de retrosíntesis en el mundo real.
En resumen, RETRO DFM-R demuestra el potencial de los LLM impulsados por la razón para mejorar la precisión y la explicabilidad de las predicciones de retrosíntesis, ofreciendo una herramienta valiosa para los químicos en la descubrimiento de fármacos y la ciencia de los materiales.
Artículos Recomendados
Sistemas dinámicos en el toro relacionados con ecuaciones generales de Heun: áreas de bloqueo de fase y rompimiento de estrechamiento
Sobre la Interacción de la Comprimibilidad y la Robustez Adversaria
SeC: Avanzando en la Segmentación de Objetos Vídeos Complejos mediante la Construcción Progresiva de Conceptos
Escala sin invariancia conformal desde deformaciones integrables de TFTs de coset
Optimización a gran escala de portafolios con enfriamiento variacional neuronal
Tipo IIB en ocho derivados: Acoplamientos Axio-Dilatón de Cinco Puntos
Funciones cuadradas y estimaciones variacionales para operadores de Ritt en $L^1$
4T2R X-ReRAM CiM Array para Operación MAC Muy Paralela, Resistente a la Variación y de Baja Potencia
Una formulación estabilizada de dos pasos para las ecuaciones de Maxwell en el dominio del tiempo.
Cohomología y Extensiones de los Funtores $C_p$-Verdes de Tipo Lie