Andrej Karpathy, ehemaliger OpenAI-Forscher und KI-Pionier, hat in einem Tweet kürzlich auf ein grundlegendes Problem in der KI-Entwicklung hingewiesen, über das aus meiner Sicht viel zu wenig gesprochen wird: Die Schwächen des Reinforcement Learning from Human Feedback (RLHF). Damit bringt er das Dilemma in der KI-Forschung hoffentlich wieder ins Rampenlicht.

Wie können wir Systeme entwickeln, die nicht nur menschenähnliche Texte produzieren, sondern echtes Verständnis und Problemlösungsfähigkeiten demonstrieren? Und wie können wir diese Fähigkeiten objektiv und zuverlässig messen?

Diese Fragen zu beantworten, wird entscheidend sein für die nächste Generation von KI-Systemen – Systeme, die nicht nur imitieren, sondern wirklich verstehen und denken können.

Das RLHF-Dilemma

RLHF, oft als Schlüssel zum Erfolg von Chatbots wie ChatGPT gepriesen, steht schon länger in der Kritik von KI-Forschern. Das Problem: Es fehlt an wirklich objektiven Kriterien und einem generalisierbaren Trainingsziel.

Zum Hintergrund: RLHF steht für Reinforcement Learning from Human Feedback und beschreibt eine Trainingsmethode für KI-Modelle, insbesondere für große Sprachmodelle (LLMs), die menschliches Feedback nutzt, um das Verhalten des Modells zu verbessern.

Das Grundprinzip hinter RLHF ist ziemlich einfach: Das Modell wird belohnt, wenn es Antworten generiert, die Menschen als gut bewerten und im Gegenzug wird es „bestraft“, wenn seine Ausgaben als unerwünscht eingestuft werden.

Auf Basis menschlicher Bewertung wird in der Regel ein separates Belohnungsmodell trainiert, das menschliche Präferenzen vorhersagen soll. Anschließend kann das ursprüngliche LLM wird mit Hilfe des Belohnungsmodells optimiert werden.

Das hat durchaus seine Vorteile, beispielsweise ermöglicht es die Anpassung von KI-Verhalten an menschliche Präferenzen und kann unerwünschtes Verhalten reduzieren (z.B. Toxizität, Voreingenommenheit, etc. aber es basiert letztlich auf subjektiven menschlichen Urteilen Einzelner, die voreingenommen sein können.

Zudem werden unglaublich große Mengen an menschlichem Feedback benötigt, was in der Praxis zum Einsatz des Reward-Modells führt, welches die tiefe menschliche Erfahrung nur unzureichend vorhersagen kann. Zudem kommt es schnell zu einer Überanspassung und das LLM kann lernen, das Belohnungssystem „auszutricksen“, statt wirklich besser zu werden

Karpathy vergleicht in seinem Tweet RLHF mit dem Training von DeepMinds AlphaGo, um das Problem verständlicher zu erklären:

AlphaGo lernte durch echtes Reinforcement Learning Spiele zu gewinnen, also dadurch, automatisiert, immer wieder „gegen sich selbst“ zu spielen und dabei ein klares Trainingsziel zu verfolgen, nämlich zu gewinnen.

Dies ist bei RLHF nie möglich, denn hier optimiert man auf subjektiven menschlichen Bewertungen, also mehr einen Vibe anstatt objektiver Kriterien und bräuchte zudem eine schier unendliche Schar an menschlichen Feedback-Geber:innen.

Neue Ansätze für besseres KI-Training

Es wäre doch mal eine Idee, das Basismodell mit einem Datensatz zu trainieren, der ausschließlich faktisch korrekte Aussagen enthält. Dies könnte die Grundlage für zuverlässigere und weniger halluzinierende Modelle schaffen.

Ich frage mich schon länger, ob sauberere Trainingsdaten die Grundmodelle nicht schon besser machen würden.

Außerdem müssen wir objektivere Methoden zur Bewertung von KI-Leistungen entwickeln, statt sich auf menschliche Bewertungen zu verlassen!

Aber um Dinge wie Faktenüberprüfung zu automatisieren, brächten wir erstmal zuverlässige, automatisierte Systeme zur Verifizierung von Modellantworten gegen verifizierte Datenbanken. Hier kommen dann wieder fehleranfällige LLMs zum Einsatz und damit beißt sich die Katze in den Schwanz!

Ebenso wenig lässt sich die Logische Konsistenz einfach Berechnen. Wie könnte eine Bewertung der internen Kohärenz von Antworten über mehrere verwandte Fragen hinweg aussehen, in der weder Menschen, noch LLMs zum Einsatz kommen?

Noch komplexer wird es dann bei der Beurteilung echter Problemlösungsfähigkeit. Bei der Messung der Fähigkeit, komplexe Aufgaben in mehreren Schritten zu lösen, könnte man sicherlich Benchmarks mit einigen Tests erstellen, die aber dann schnell als Teil der Trainingsdaten in die Modelle einfließen und keine Aussagekraft über echte Generalisierung des Modells erlauben.

Self-Exploration als Weg aus den lokalen Maxima

In einem aktuellen Paper beschreiben Forscher:innen der Northwestern University und Microsoft einen Ansatz, den sie Self-Exploring Language Models nennen, einen interessanten neuen Ansatz zur Verbesserung des RLHF-Prozesses für große Sprachmodelle.

Das Paper löst also nicht das Grundproblem von RLHF, aber adressiert ein wichtiges Problem von RLHF: Die effiziente Erkundung des riesigen Raums möglicher Sprachausgaben. Also unabhängig davon, wer oder wie wir die Ergebnisse bewerten, stellt sich immernoch die Frage: „Wie können wir sicherstellen, dass Modelle systematisch den gesamten möglichen Ausgaberaum erkunden, um das bestmögliche Ergebnis zu finden?“

Es baut dabei auf bestehenden Methoden wie DPO (Direct Preference Optimization) auf und versucht, deren Schwächen zu überwinden. Die Autoren führen hierfür einen neuen Algorithmus namens SELM (Self-Exploring Language Models) ein. SELM verwendet ein zweistufiges Optimierungsziel, das „optimistisch“ auf potenziell hochwertige Antworten ausgerichtet ist. Dies soll eine aktivere Erkundung von Bereichen außerhalb der Trainingsverteilung ermöglichen und es ermöglichen, lokale Maxima zu überwinden.

SELM eliminiert dabei die Notwendigkeit eines separaten Reward Models (RM) und reduziert die undifferenzierte Bevorzugung ungesehener Extrapolationen, ein bekanntes Problem bei DPO. Der Ansatz verspricht also eine effizientere Erkundung des Antwort-Raums. SELM verwendet dazu ein bilevel (zweistufiges) Optimierungsproblem. Die Grundidee ist, nicht nur die Belohnung zu maximieren, sondern auch aktiv nach potenziell hohen Belohnungen in unerforschten Bereichen zu suchen. Der Algorithmus fügt einen „Optimismus-Term“ zur Zielfunktion hinzu. Dieser Term bevorzugt Antworten, die möglicherweise hohe Belohnungen in bisher unerforschten Bereichen erzielen könnten.

Statt ein separates Reward Model (RM) zu verwenden, wird die Belohnungsfunktion direkt durch das Sprachmodell selbst parametrisiert. Dies eliminiert die Notwendigkeit eines externen RMs.

SELM aktualisiert das Modell iterativ. In jeder Iteration:
a) Generiert das Modell Antworten auf Prompts.
b) Diese Antworten werden bewertet (durch Menschen oder ein AI-System).
c) Das Modell wird basierend auf diesem Feedback und dem optimistischen Explorationsziel aktualisiert.

Anders als bei zufälligem Sampling wird das Modell ermutigt, Antworten zu generieren, die möglicherweise hohe Belohnungen in bisher wenig erforschten Bereichen des Antwortspektrums erzielen könnten.

Der Ansatz zielt darauf ab, die übermäßige Bevorzugung von ungesehenen, aber möglicherweise irrelevanten Extrapolationen zu reduzieren – ein bekanntes Problem bei DPO. Durch die gezielte Exploration kann SELM effizienter diverse und hochwertige Antworten generieren, was den Trainingsprozess beschleunigt und verbessert.

Konkret läuft der Prozess etwa so ab:

Das Modell generiert eine Antwort auf einen Prompt.
Statt nur die erwartete Belohnung zu maximieren, wird auch berücksichtigt, wie „neuartig“ oder „unerforschte“ diese Antwort ist.
Die generierte Antwort wird bewertet.
Das Modell wird aktualisiert, wobei sowohl die erhaltene Bewertung als auch das Potenzial für zukünftige hohe Belohnungen in ähnlichen, bisher unerforschten Antwortbereichen berücksichtigt werden.
Dieser Prozess wird wiederholt, wobei das Modell kontinuierlich ermutigt wird, den Antwort-Raum breiter zu erkunden, anstatt sich nur auf bekannte „sichere“ Antworten zu verlassen.

Dieser Ansatz ermöglicht es dem Modell, aktiv neue Arten von Antworten zu erkunden und zu lernen, während es gleichzeitig die Qualität der Antworten basierend auf dem erhaltenen Feedback verbessert. Es ist ein Balanceakt zwischen Exploration (Erkundung neuer Möglichkeiten) und Exploitation (Nutzung des bereits Gelernten).

In ersten Tests konnten bereits signifikante Leistungssteigerungen bei Instruction-Following-Benchmarks wie MT-Bench und AlpacaEval 2.0 erzielt werden, sowie Verbesserungen bei verschiedenen akademischen Benchmarks.

Wenn sich die Methode bewährt, könnte sie zu besser ausgerichteten und vielseitigeren LLMs führen. Der Ansatz könnte auch die Effizienz des Trainingsprozesses verbessern, was angesichts der hohen Kosten für das Training großer Modelle bedeutsam ist.

Allerdings ist noch unklar, wie gut dieser Ansatz auf noch größere Modelle skaliert und wie sich die Methode in Bezug auf ethische Überlegungen und Sicherheitsaspekte verhält.

Insgesamt scheint dieses Paper einen vielversprechenden neuen Ansatz zur Verbesserung von RLHF zu präsentieren, der einige der Hauptherausforderungen im Bereich des Alignments von LLMs adressiert. Es wird interessant sein zu sehen, wie sich diese Methode in der breiteren Forschungsgemeinschaft bewährt und ob sie in der Praxis bei der Entwicklung zukünftiger LLMs Anwendung findet.

LLM-Evaluation: Ein Schritt vorwärts, aber noch nicht am Ziel

Hugging Faces CTO Philipp Schmids Ansatz zur LLM-Evaluation, wie er ihn in seinem Blogpost beschreibt, bietet einige clevere und praktische Lösungen für die Herausforderungen bei der Bewertung von Sprachmodellen. Dennoch zeigt er auch, wie tief verwurzelt die Probleme sind.

Der Fokus auf eine unkomplizierte Evaluationsmethode macht sie leicht implementierbar und skalierbar. Die Verwendung von additiven Scores und vordefinierten Evaluationsschritten bietet eine gewisse Konsistenz und die Einbeziehung von Beispielen kann die Bewertung besser an menschliche Präferenzen anpassen.

Aber die Schwächen von RLHF, insbesondere die Subjektivität bleibt erhalten, denn auch wenn ein LLM als „Richter“ eingesetzt wird, basiert dessen Urteil letztlich auf subjektiven Kriterien, die von Menschen definiert wurden. Wir verwenden ein LLM, um ein anderes LLM zu bewerten, was zu einer Art „Echokammer“ führen kann, in der die Schwächen und Verzerrungen des bewertenden Modells die Evaluation beeinflussen. Die Bewertung basiert immer noch auf oberflächlichen Merkmalen und „Vibes“ statt auf einem tiefgreifenden Verständnis des Inhalts!

Leider keine Lösung für das Grundproblem

Der Ansatz umgeht das zentrale Problem, das wir diskutiert haben – den Mangel an wirklich objektiven Kriterien für die Leistung von LLMs in offenen Domänen. Schmids Methode ist vielleicht ein Schritt in Richtung praktischer, skalierbarer Evaluationen und kann durchaus nützlich sein für schnelle, iterative Verbesserungen von LLM-Anwendungen, eine konsistente Qualitätskontrolle in produktiven Umgebungen und Vergleiche zwischen verschiedenen Modellversionen oder -konfigurationen.

Allerdings müssen wir weiterhin nach Lösungen für die grundlegenderen Herausforderungen suchen!

Das Problem der Skalierbarkeit des menschlichen Feedbacks wird derzeit in der Regel durch „Gespräche mit sich selbst“ gelöst, also das Modell soll seine eigenen Ausgaben analysieren und verbessern oder verschiedene Instanzen des Modells überprüfen gegenseitig ihre Antworten.

Theoretisch wäre sogar eine Art evolutionäres Training möglich, welches Modellvarianten für weiteres Training bevorzugt, die konsistentere und korrektere Antworten geben.

Dafür braucht es jedoch zunächst wirklich objektive Kriterien, beispielsweise für:

Informationsgehalt: Quantifizierung des tatsächlichen Informationsgehalts in Modellantworten.
Anwendbarkeit: Messung, wie gut Menschen die Antworten des Modells in realen Situationen umsetzen können.
Kreative Problemlösung: Bewertung der Fähigkeit, neuartige Lösungen für unbekannte Probleme zu generieren.
Ethische Konsistenz: Überprüfung der Einhaltung ethischer Richtlinien über verschiedene Szenarien hinweg.
Metakognitive Fähigkeiten: Beurteilung der Fähigkeit des Modells, die Grenzen seines eigenen Wissens zu erkennen und zu kommunizieren.

Diese Kritik an RLHF ist nicht neu, aber sie unterstreicht die Notwendigkeit innovativer Ansätze im KI-Training. Die Kombination aus saubereren Trainingsdaten, objektiveren Bewertungsmethoden und fortgeschrittenen Self-Training-Techniken könnte der Schlüssel zu einer neuen Generation von KI-Systemen sein. Diese Systeme wären nicht nur leistungsfähiger, sondern auch zuverlässiger und ethisch vertretbarer. Die Herausforderung bleibt groß, aber die potenziellen Belohnungen sind es wert.

Fazit und Ausblick

Wir brauchen Bewertungskriterien, die weniger auf subjektiven menschlichen Urteilen und mehr auf messbaren, reproduzierbaren Ergebnissen basieren. Evaluation sollte stärker auf spezifisches Fachwissen in verschiedenen Bereichen zurückgreifen, um die Korrektheit und Nützlichkeit von Antworten besser beurteilen zu können. Statt einer einzelnen Punktzahl sollten wir multiple Dimensionen der Leistung betrachten – von faktischer Korrektheit über logische Konsistenz bis hin zu ethischen Aspekten.

Wir brauchen Methoden, die nicht nur bewerten, sondern auch deterministisch erklären können, warum eine bestimmte Ausgabe als gut oder schlecht eingestuft wird. Zudem brauchen wir vollkommen neue Tests, die nicht nur Textgenerierung, sondern echtes Problemlösen und Reasoning bewerten.