Zusammenfassung - Rubriken als Belohnungen: Verstärkungslernen jenseits überprüfbarer Domänen
Titel
Rubriken als Belohnungen: Verstärkungslernen jenseits überprüfbarer Domänen
Zeit
2025-07-23 17:57:55
Autor
{"Anisha Gunjal","Anthony Wang","Elaine Lau","Vaskar Nath","Bing Liu","Sean Hendryx"}
Kategorie
{cs.LG,cs.AI,cs.CL}
Link
http://arxiv.org/abs/2507.17746v1
PDF Link
http://arxiv.org/pdf/2507.17746v1
Zusammenfassung
Das Papier "Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains" stellt ein neues Framework namens Rubrics as Rewards (RaR) vor, das zur Schulung von Sprachmodellen mit interpretierbaren Belohnungssignalen verwendet wird. Dieses Ansatz behebt die Limitationen bestehender Reinforcement Learning-Methoden, die auf verifizierbaren Belohnungen (RLVR) und belohnungsorientierten Reward-Modellen (RaR) angewiesen sind.
**Schwerpunkte in der Reinforcement Learning**:
* **Verifizierbare Belohnungen (RLVR)**: RLVR erfordert eine eindeutige, unmissverständliche Grundtatsache für jede Aufgabe, die in realen Szenarien oft schwer zu erlangen ist. Dies macht es schwierig, zuverlässige Belohnungssignale für nach der Schulung befindliche Sprachmodelle zu definieren.
* **Belohnungsorientierte Reward-Modelle (RaR)**: RaR-Methoden setzen auf undurchsichtige Belohnungsfunktionen, die schwer zu interpretieren und anfällig für falsche Korrelationen sind. Sie erfordern auch große Mengen an paarweisen Vergleichen, was sie brüchig und kostspielig macht.
**Rubrics as Rewards (RaR)**:
RaR führt ein Framework ein, das strukturierte, Checkliste-artige Rubriken als interpretierbare Belohnungssignale für on-policy Training mit Generative Reward Prediction Optimization (GRPO) verwendet. Rubriken bieten eine Mittelposition zwischen binären Korrektheits-Signalen und groben Präferenz-Rangordnungen, indem sie "was eine gute Antwort ausmacht" in greifbare, von Menschen interpretierbare Kriterien zerlegt.
**Kernbeiträge**:
1. **Rubrics as Rewards (RaR)**: Ein on-policy Reinforcement Learning-Framework, das Checkliste-artige Rubriken verwendet, um mehrkriterien-Aufgaben zu überwachen, was stabile Schulung und verbesserte Leistung sowohl in der Reasoning- als auch in realen Domänen ermöglicht.
2. **Rubrik-Generierung**: Ein Ansatz zur Generierung von Rubriken mithilfe großer Sprachmodelle (LLMs), der durch Expertenguidance und Referenzantworten gelenkt wird.
3. **Experimente**: Bewertung von RaR in zwei Reasoning-Domänen (Medizin und Wissenschaft) mithilfe der Datensätze RaR-Medicine-20k und RaR-Science-20k. RaR übertrifft starke Baselines und erzielt bemerkenswerte Verbesserungen in der Genauigkeit in verschiedenen Domänen.
4. **Generalisierung**: RaR ermöglicht es kleineren Richter-Modellen, eine bessere Ausrichtung auf menschliche Präferenzen zu erreichen und robuste Leistung über verschiedene Modellgrößen hinweg aufrechtzuerhalten.
**Rubrik-Generierung**:
Das Papier schlägt einen Ansatz zur Rubrik-Generierung vor, der LLMs als Experten-Proxies verwendet, um Rubriken zu generieren, während er gleichzeitig die folgenden Wünsche erfüllt:
* **Basis in Expertenguidance-Referenzantworten**: Rubriken basieren auf Referenzantworten, die von menschlichen Experten oder stärkeren LLMs produziert werden, um wesentliche Fakten, Schlussfolgerungen und Schlussfolgerungsschritte zu erfassen, die für die Richtigkeit erforderlich sind.
* **Komplette Abdeckung**: Rubriken sind darauf ausgelegt, mehrere Qualitätsdimensionen zu spannen, einschließlich faktischer Genauigkeit, logischer Struktur, Vollständigkeit, Stil und häufigen Fehlern.
* **Semantische Gewichtung**: Jedes Kriterium wird mit einem kategorischen Wichtigkeitslevel (z.B. Notwendig, Wichtig, Optional, Fehlerquelle) gekennzeichnet, das seinen relativen Prioritätsgrad in der endgültigen Belohnung widerspiegelt.
**Experimente**:
Das Papier bewertet RaR in zwei Reasoning-Domänen (Medizin und Wissenschaft) mithilfe der Datensätze RaR-Medicine-20k und RaR-Science-20k. Die Ergebnisse zeigen, dass RaR starke Baselines übertrifft und bemerkenswerte Verbesserungen in der Genauigkeit in verschiedenen Domänen erzielt. Darüber hinaus untersucht das Papier den Einfluss der Rubrikgestaltung und der LLM-Expertise auf die Rubrikqualität und die nachfolgende Leistung.
**Schlussfolgerung**:
Rubrics as Rewards (RaR) bietet eine vielversprechende Methode zur Schulung von Sprachmodellen mit interpretierbaren Belohnungssignalen. Dieses Framework behebt die Limitationen bestehender Reinforcement Learning-Methoden und bietet eine flexible Lösung für die spezifizierung zuverlässiger und skalierbarer Belohnungen in realen Szenarien.
Empfohlene Papiere
MOFCO: Mobility- und Migration-bewusstes Task-Offloading in dreischichtigen Fog-Computing-Umgebungen
Eine Klasse von Nakayama-Algebren mit einer Braid-Gruppen-Aktion auf τ-ausnahmehaften Sequenzen
Axiale symmetrische zweitordentliche Störungen rotierender Hauptreihensternen
Direkte numerische Simulationen des supersonischen Taylor--Green-Vortex mittels der Boltzmann-Gleichung
Übermäßige Beobachtbare offenbaren Nicht-Wechselseitigkeit in integrierten Kovarianzen
Lineare-Response-Quanten-Elektrodynamische Dichtefunktionaltheorie basierend auf zwei-Komponenten-X2C-Hamiltonien
NoHumansRequired: Autonomes Mining von Tripletten für hochwertige Bildbearbeitung
Zielorientiertes sequentielles bayesianisches experimentelles Design für kausale Lernen
Aktivierung der Cybersicherheitserziehung durch Digitale Zwillinge und generative künstliche Intelligenz
Lehre aus dem TREC Plain Language Adaptation of Biomedical Abstracts (PLABA) Track