Zusammenfassung - Rubriken als Belohnungen: Verstärkungslernen jenseits überprüfbarer Domänen

Titel
Rubriken als Belohnungen: Verstärkungslernen jenseits überprüfbarer Domänen

Zeit
2025-07-23 17:57:55

Autor
{"Anisha Gunjal","Anthony Wang","Elaine Lau","Vaskar Nath","Bing Liu","Sean Hendryx"}

Kategorie
{cs.LG,cs.AI,cs.CL}

Link
http://arxiv.org/abs/2507.17746v1

PDF Link
http://arxiv.org/pdf/2507.17746v1

Zusammenfassung

Das Papier "Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains" stellt ein neues Framework namens Rubrics as Rewards (RaR) vor, das zur Schulung von Sprachmodellen mit interpretierbaren Belohnungssignalen verwendet wird. Dieses Ansatz behebt die Limitationen bestehender Reinforcement Learning-Methoden, die auf verifizierbaren Belohnungen (RLVR) und belohnungsorientierten Reward-Modellen (RaR) angewiesen sind. **Schwerpunkte in der Reinforcement Learning**: * **Verifizierbare Belohnungen (RLVR)**: RLVR erfordert eine eindeutige, unmissverständliche Grundtatsache für jede Aufgabe, die in realen Szenarien oft schwer zu erlangen ist. Dies macht es schwierig, zuverlässige Belohnungssignale für nach der Schulung befindliche Sprachmodelle zu definieren. * **Belohnungsorientierte Reward-Modelle (RaR)**: RaR-Methoden setzen auf undurchsichtige Belohnungsfunktionen, die schwer zu interpretieren und anfällig für falsche Korrelationen sind. Sie erfordern auch große Mengen an paarweisen Vergleichen, was sie brüchig und kostspielig macht. **Rubrics as Rewards (RaR)**: RaR führt ein Framework ein, das strukturierte, Checkliste-artige Rubriken als interpretierbare Belohnungssignale für on-policy Training mit Generative Reward Prediction Optimization (GRPO) verwendet. Rubriken bieten eine Mittelposition zwischen binären Korrektheits-Signalen und groben Präferenz-Rangordnungen, indem sie "was eine gute Antwort ausmacht" in greifbare, von Menschen interpretierbare Kriterien zerlegt. **Kernbeiträge**: 1. **Rubrics as Rewards (RaR)**: Ein on-policy Reinforcement Learning-Framework, das Checkliste-artige Rubriken verwendet, um mehrkriterien-Aufgaben zu überwachen, was stabile Schulung und verbesserte Leistung sowohl in der Reasoning- als auch in realen Domänen ermöglicht. 2. **Rubrik-Generierung**: Ein Ansatz zur Generierung von Rubriken mithilfe großer Sprachmodelle (LLMs), der durch Expertenguidance und Referenzantworten gelenkt wird. 3. **Experimente**: Bewertung von RaR in zwei Reasoning-Domänen (Medizin und Wissenschaft) mithilfe der Datensätze RaR-Medicine-20k und RaR-Science-20k. RaR übertrifft starke Baselines und erzielt bemerkenswerte Verbesserungen in der Genauigkeit in verschiedenen Domänen. 4. **Generalisierung**: RaR ermöglicht es kleineren Richter-Modellen, eine bessere Ausrichtung auf menschliche Präferenzen zu erreichen und robuste Leistung über verschiedene Modellgrößen hinweg aufrechtzuerhalten. **Rubrik-Generierung**: Das Papier schlägt einen Ansatz zur Rubrik-Generierung vor, der LLMs als Experten-Proxies verwendet, um Rubriken zu generieren, während er gleichzeitig die folgenden Wünsche erfüllt: * **Basis in Expertenguidance-Referenzantworten**: Rubriken basieren auf Referenzantworten, die von menschlichen Experten oder stärkeren LLMs produziert werden, um wesentliche Fakten, Schlussfolgerungen und Schlussfolgerungsschritte zu erfassen, die für die Richtigkeit erforderlich sind. * **Komplette Abdeckung**: Rubriken sind darauf ausgelegt, mehrere Qualitätsdimensionen zu spannen, einschließlich faktischer Genauigkeit, logischer Struktur, Vollständigkeit, Stil und häufigen Fehlern. * **Semantische Gewichtung**: Jedes Kriterium wird mit einem kategorischen Wichtigkeitslevel (z.B. Notwendig, Wichtig, Optional, Fehlerquelle) gekennzeichnet, das seinen relativen Prioritätsgrad in der endgültigen Belohnung widerspiegelt. **Experimente**: Das Papier bewertet RaR in zwei Reasoning-Domänen (Medizin und Wissenschaft) mithilfe der Datensätze RaR-Medicine-20k und RaR-Science-20k. Die Ergebnisse zeigen, dass RaR starke Baselines übertrifft und bemerkenswerte Verbesserungen in der Genauigkeit in verschiedenen Domänen erzielt. Darüber hinaus untersucht das Papier den Einfluss der Rubrikgestaltung und der LLM-Expertise auf die Rubrikqualität und die nachfolgende Leistung. **Schlussfolgerung**: Rubrics as Rewards (RaR) bietet eine vielversprechende Methode zur Schulung von Sprachmodellen mit interpretierbaren Belohnungssignalen. Dieses Framework behebt die Limitationen bestehender Reinforcement Learning-Methoden und bietet eine flexible Lösung für die spezifizierung zuverlässiger und skalierbarer Belohnungen in realen Szenarien.


Empfohlene Papiere

MOFCO: Mobility- und Migration-bewusstes Task-Offloading in dreischichtigen Fog-Computing-Umgebungen

Eine Klasse von Nakayama-Algebren mit einer Braid-Gruppen-Aktion auf τ-ausnahmehaften Sequenzen

Axiale symmetrische zweitordentliche Störungen rotierender Hauptreihensternen

Direkte numerische Simulationen des supersonischen Taylor--Green-Vortex mittels der Boltzmann-Gleichung

Übermäßige Beobachtbare offenbaren Nicht-Wechselseitigkeit in integrierten Kovarianzen

Lineare-Response-Quanten-Elektrodynamische Dichtefunktionaltheorie basierend auf zwei-Komponenten-X2C-Hamiltonien

NoHumansRequired: Autonomes Mining von Tripletten für hochwertige Bildbearbeitung

Zielorientiertes sequentielles bayesianisches experimentelles Design für kausale Lernen

Aktivierung der Cybersicherheitserziehung durch Digitale Zwillinge und generative künstliche Intelligenz

Lehre aus dem TREC Plain Language Adaptation of Biomedical Abstracts (PLABA) Track