Resumen - Predicción de retro-síntesis impulsada por la lógica con modelos de lenguaje grandes a través del aprendizaje por refuerzo

Título
Predicción de retro-síntesis impulsada por la lógica con modelos de lenguaje grandes a través del aprendizaje por refuerzo

Tiempo
2025-07-23 12:13:06

Autor
{"Situo Zhang","Hanqi Li","Lu Chen","Zihan Zhao","Xuanze Lin","Zichen Zhu","Bo Chen","Xin Chen","Kai Yu"}

Categoría
{cs.CE,cs.AI,physics.chem-ph}

Enlace
http://arxiv.org/abs/2507.17448v1

PDF Enlace
http://arxiv.org/pdf/2507.17448v1

Resumen

El documento presenta RETRO DFM-R, un modelo de gran lenguaje impulsado por la razón (LLM) diseñado específicamente para la retrosíntesis química. La retrosíntesis es un proceso crucial en la síntesis orgánica y la descubrimiento de fármacos, donde el objetivo es descomponer una molécula objetivo en precursores factibles, permitiendo a los químicos diseñar rutas sintéticas eficientes. Los métodos existentes para la retrosíntesis a menudo sufren de limitaciones en ambas aplicabilidad y explicabilidad. Los modelos basados en gráficos y secuencia a secuencia tradicionales carecen de conocimiento químico generalizado, lo que lleva a una precisión inconstante y dificultad en la explicación. RETRO DFM-R aborda estos desafíos aprovechando las capacidades de razonamiento de los LLM y el aprendizaje reforzado. Características clave de RETRO DFM-R: * **LLM impulsado por la razón**: RETRO DFM-R integra el conocimiento del dominio químico con capacidades de razonamiento avanzadas para proporcionar predicciones de retrosíntesis precisas y explicables. Emula la lógica paso a paso de los químicos expertos, analizando sistemáticamente la estructura molecular e identificando desconexiones de retrosíntesis posibles. * **Pipeline de entrenamiento**: El modelo se entrena utilizando un pipeline en tres etapas: 1. **Preentrenamiento continuo**: El modelo se preentrena en un conjunto de datos que contiene pares de conversión de nombres SMILES-IUPAC y predicciones de retrosíntesis, enriqueciendo su conocimiento específico del dominio. 2. **Difusión de razonamiento de arranque frío**: El modelo se entrena adicionalmente utilizando difusión condicional basada en respuestas, aprovechando un modelo de razonamiento general del dominio para generar trazas de razonamiento de alta calidad e inicializar las capacidades de razonamiento del modelo. 3. **Aprendizaje reforzado**: El modelo se entrena utilizando el algoritmo DAPO con recompensas verificables, mejorando así la precisión y promoviendo un razonamiento sólido. * **Entrenamiento de conversión SMILES-IUPAC**: RETRO DFM-R emplea un entrenamiento定向 de conversión SMILES-IUPAC para cerrar la brecha entre el conocimiento químico en texto y las representaciones SMILES, que son esenciales para las moléculas de entrada y salida en los LLM. * **Explicabilidad**: El modelo proporciona justificaciones claras y detalladas para sus decisiones sintéticas, permitiendo a los químicos entender el proceso de pensamiento del modelo y obtener conocimientos operativos. Resultados de la evaluación: * RETRO DFM-R supera significativamente a los métodos de vanguardia en el benchmark USPTO-50K, alcanzando una precisión top-1 del 65,0%. * Las evaluaciones humanas a ciegas validan la factibilidad química y la utilidad práctica de las predicciones de RETRO DFM-R. * RETRO DFM-R predice rutas de retrosíntesis multietapa reportadas en la literatura tanto para moléculas de fármacos reales como para materiales perovskitas. * El proceso de razonamiento explícito del modelo proporciona insucciones interpretables por el hombre, aumentando la confianza y el valor práctico en aplicaciones de retrosíntesis en el mundo real. En resumen, RETRO DFM-R demuestra el potencial de los LLM impulsados por la razón para mejorar la precisión y la explicabilidad de las predicciones de retrosíntesis, ofreciendo una herramienta valiosa para los químicos en la descubrimiento de fármacos y la ciencia de los materiales.


Artículos Recomendados

Sistemas dinámicos en el toro relacionados con ecuaciones generales de Heun: áreas de bloqueo de fase y rompimiento de estrechamiento

Sobre la Interacción de la Comprimibilidad y la Robustez Adversaria

SeC: Avanzando en la Segmentación de Objetos Vídeos Complejos mediante la Construcción Progresiva de Conceptos

Escala sin invariancia conformal desde deformaciones integrables de TFTs de coset

Optimización a gran escala de portafolios con enfriamiento variacional neuronal

Tipo IIB en ocho derivados: Acoplamientos Axio-Dilatón de Cinco Puntos

Funciones cuadradas y estimaciones variacionales para operadores de Ritt en $L^1$

4T2R X-ReRAM CiM Array para Operación MAC Muy Paralela, Resistente a la Variación y de Baja Potencia

Una formulación estabilizada de dos pasos para las ecuaciones de Maxwell en el dominio del tiempo.

Cohomología y Extensiones de los Funtores $C_p$-Verdes de Tipo Lie