Résumé - Prédiction de rétro-synthèse impulsée par la raison avec des modèles de grande langue via l'apprentissage par renforcement

Titre
Prédiction de rétro-synthèse impulsée par la raison avec des modèles de grande langue via l'apprentissage par renforcement

Temps
2025-07-23 12:13:06

Auteur
{"Situo Zhang","Hanqi Li","Lu Chen","Zihan Zhao","Xuanze Lin","Zichen Zhu","Bo Chen","Xin Chen","Kai Yu"}

Catégorie
{cs.CE,cs.AI,physics.chem-ph}

Lien
http://arxiv.org/abs/2507.17448v1

PDF Lien
http://arxiv.org/pdf/2507.17448v1

Résumé

Le papier présente RETRO DFM-R, un modèle de grande langue motivé par le raisonnement (LLM) conçu spécifiquement pour la rétro-synthèse chimique. La rétro-synthèse est un processus crucial dans la synthèse organique et la découverte de médicaments, où l'objectif est de décomposer une molécule cible en précurseurs可行, permettant aux chimistes de concevoir des voies synthétiques efficaces. Les méthodes existantes pour la rétro-synthèse souffrent souvent de limitations tant en termes d'applicabilité que d'explicabilité. Les modèles traditionnels basés sur les graphes et les modèles séquence à séquence manquent de connaissances chimiques généralisées, ce qui entraîne une précision inconstante et des difficultés d'explication. RETRO DFM-R répond à ces défis en exploitant les capacités de raisonnement des LLM et l'apprentissage par renforcement. Principales fonctionnalités de RETRO DFM-R : * **LLM motivé par le raisonnement** : RETRO DFM-R intègre les connaissances du domaine chimique avec des capacités de raisonnement avancées pour fournir des prédictions rétrosynthétiques précises et explicables. Il imite la logique progressive des chimistes expérimentés, analysant systématiquement la structure moléculaire et identifiant des dissociations rétrosynthétiques plausibles. * **Pipe de formation** : Le modèle est formé en utilisant une pipe en trois étapes : 1. **Pré-formation continue** : Le modèle est pré-formé sur un jeu de données contenant des paires de conversion SMILES-IUPAC et des prédictions de rétro-synthèse, enrichissant ses connaissances spécifiques au domaine. 2. **Distillation de raisonnement à froid** : Le modèle est davantage formé en utilisant une distillation conditionnée par les réponses, exploitant un modèle de raisonnement général pour générer des traces de raisonnement de haute qualité et initialiser les capacités de raisonnement du modèle. 3. **Apprentissage par renforcement** : Le modèle est formé en utilisant l'algorithme DAPO avec des récompenses vérifiables, améliorant ainsi la précision et promouvant un raisonnement sain. * **Formation à la conversion SMILES-IUPAC** : RETRO DFM-R utilise une formation ciblée à la conversion SMILES-IUPAC pour combler le fossé entre les connaissances chimiques en texte et les représentations SMILES, qui sont essentielles pour les molécules d'entrée et de sortie dans les LLM. * **Explicabilité** : Le modèle fournit des justifications claires et détaillées pour ses décisions synthétiques, permettant aux chimistes de comprendre le processus de pensée du modèle et de tirer des insights opérationnels. Résultats d'évaluation : * RETRO DFM-R surpasse significativement les méthodes les plus avancées sur le benchmark USPTO-50K, atteignant une précision top-1 de 65,0%. * Des évaluations humaines à double aveugle valident la plausibilité chimique et l'utilité pratique des prédictions de RETRO DFM-R. * RETRO DFM-R prédit correctement les voies rétrosynthétiques multisteps rapportées dans la littérature pour des molécules de médicaments réels et des matériaux perovskites. * Le processus de raisonnement explicite du modèle fournit des insights interprétables par l'homme, améliorant ainsi la confiance et la valeur pratique dans les applications réelles de rétro-synthèse. En général, RETRO DFM-R démontre le potentiel des LLM motivés par le raisonnement pour améliorer la précision et l'explicabilité des prédictions rétrosynthétiques, offrant un outil précieux aux chimistes dans la découverte de médicaments et la science des matériaux.


Articles Recommandés

Théorie de Hida supérieure pour les courbes modulaires de Drinfeld

Simulations numériques directes de la vortice Taylor--Green supersonique par l'équation de Boltzmann

Amélioration de l'intensité des courants photogalvaniques dans une cavité plasmonique van der Waals par l'effet Purcell

Heures de Réunion Attendues Supérieures pour des Agents Stochastiques Interdépendants

Bootstrapping du point critique quantique le plus simple déconfiné

Observable des arbres de couverture aléatoires dans un environnement aléatoire

Modélisation des incertitudes sur le fond de bosons Z dans le contexte des mesures de haute précision de la masse du boson W

Déséquilibre dans l'Équilibre : Équilibrage des Concepts En Ligne dans les Modèles de Génération

VideoITG : Compréhension multimodale de vidéos avec ancrage temporel instructif

Quels paramètres de motif de graphes sont comptés ?