Zusammenfassung - Begründungsgetriebene Retrosynthesevorhersage mit großen Sprachmodellen durch Reinforcement Learning
Titel
Begründungsgetriebene Retrosynthesevorhersage mit großen Sprachmodellen durch Reinforcement Learning
Zeit
2025-07-23 12:13:06
Autor
{"Situo Zhang","Hanqi Li","Lu Chen","Zihan Zhao","Xuanze Lin","Zichen Zhu","Bo Chen","Xin Chen","Kai Yu"}
Kategorie
{cs.CE,cs.AI,physics.chem-ph}
Link
http://arxiv.org/abs/2507.17448v1
PDF Link
http://arxiv.org/pdf/2507.17448v1
Zusammenfassung
Das Papier stellt RETRO DFM-R vor, ein durch Reasoning angetriebenes großes Sprachmodell (LLM), das speziell für chemische Retrosynthese entwickelt wurde. Retrosynthese ist ein entscheidender Prozess in der organischen Synthese und der Arzneimittelforschung, bei dem das Ziel darin besteht, eine Zielmolekül in mögliche Vorläufer zu zerlegen, was Chemikern ermöglicht, effiziente Syntheseweisen zu gestalten.
Bestehende Methoden für die Retrosynthese leiden oft unter Einschränkungen in Anwendbarkeit und Erklärungsfähigkeit. Traditionelle graphbasierte und Sequenz-zu-Sequenz-Modelle verfügen über keine allgemeine chemische Kenntnis, was zu inkonsequenter Genauigkeit und Schwierigkeiten bei der Erklärung führt. RETRO DFM-R löst diese Herausforderungen durch die Nutzung der Reasoning-Fähigkeiten von LLMs und des Reinforcement Learnings.
Schlüsselmerkmale von RETRO DFM-R:
* **Durch Reasoning angetriebenes LLM**: RETRO DFM-R integriert chemische Fachkenntnisse mit fortgeschrittenen Reasoning-Fähigkeiten, um genaue und erklärbare Retrosynthesevorhersagen zu liefern. Es emuliert die schrittweise Logik von Expertenchemikern, analysiert systematisch die Molekülstruktur und identifiziert plausible Retrosyntheseabbrüche.
* **Trainingspipeline**: Das Modell wird mit einer dreistufigen Pipeline trainiert:
1. **Kontinuierliches Vortraining**: Das Modell wird auf einem Datensatz vortrainiert, der SMILES-IUPAC-Namenkonversionspaare und Retrosynthesevorhersagen enthält, um seine spezialisierte Kenntnis zu bereichern.
2. **Kaltstart-Reasoning-Distillation**: Das Modell wird weiter mit answer-conditioned Distillation trainiert, wobei ein allgemeines Bereichs-Reasoning-Modell genutzt wird, um hochwertige Reasoning-Trace zu generieren und die Reasoning-Fähigkeiten des Modells zu initialisieren.
3. **Reinforcement Learning**: Das Modell wird mit dem DAPO-Algorithmus und verifizierbaren Belohnungen trainiert, um die Genauigkeit weiter zu verbessern und sounde Reasoning zu fördern.
* **SMILES-IUPAC-Konvertierungstraining**: RETRO DFM-R nutzt gezieltes SMILES-IUPAC-Konvertierungstraining, um die Lücke zwischen chemischen Kenntnissen in Text und SMILES-Repräsentationen zu überbrücken, die für Eingabe- und Ausgabemoleküle in LLMs entscheidend sind.
* **Erklärungsfähigkeit**: Das Modell liefert klare und detaillierte Rationales für seine synthetischen Entscheidungen, was Chemikern ermöglicht, den Gedankenprozess des Modells zu verstehen und praktische Einblicke zu gewinnen.
Evaluierungsergebnisse:
* RETRO DFM-R übertrifft den aktuellen Stand der Technik auf dem USPTO-50K-Benchmark erheblich und erreicht eine Top-1-Genauigkeit von 65,0 %.
* Blindbewertungen durch Menschen bestätigen die chemische Plausibilität und praktische Nützlichkeit der Vorhersagen von RETRO DFM-R.
* RETRO DFM-R kann multistufige Retrosyntheseweisen vorhersehen, die in der Literatur berichtet wurden, sowohl für reale Arzneimittelmoleküle als auch für Perowskitmaterialien.
* Der explizite Reasoning-Prozess des Modells liefert menscheninterpretierbare Einblicke, was das Vertrauen und die praktische Bedeutung in realen Retrosyntheseanwendungen erhöht.
Insgesamt zeigt RETRO DFM-R das Potenzial von durch Reasoning angetriebenen LLMs, die Genauigkeit und Erklärungsfähigkeit von Retrosynthesevorhersagen zu verbessern und bietet ein wertvolles Werkzeug für Chemiker in der Arzneimittelforschung und Materialwissenschaft.
Empfohlene Papiere
Kompilatorische-statistische Kompromisse aus NP-Hardness
Lehre aus dem TREC Plain Language Adaptation of Biomedical Abstracts (PLABA) Track
Synthetische MC über biologische Botenstoffe: Therapeutische Modulation des Darm-Hirn-Achses
Spektrum des X-SHOOTER von Komet C/2025 N1: Einblicke in einen fernen interstellaren Besucher
Höhere Ordnungskontrolle der Synaptischen Plastizität durch Astrozytenmediation
Clo-HDnn: Ein kontinuierlicher On-Device-Learning-Accelerator mit energiesparendem Hyperdimensional Computing über progressive Suche, der 4,66 TFLOPS/W und 3,78 TOPS/W erreicht
Robuste Lindbladian-Schätzung für Quantendynamik
RADAR: eine auf Radio basierende Analyse für dynamische Assoziation und Erkennung von Pseudonymen in VANETs
Ultra3D: Effiziente und hochauflösende 3D-Generierung mit Teilerkennung
Das versteckte Untergruppenproblem für unendliche Gruppen