KI-Modelle mit weniger Rechenleistung entwickeln: Neues Trainingsverfahren senkt Kosten

Die Entwicklung von KI-Modellen mit logischem Denkvermögen stellt Unternehmen vor enorme Herausforderungen – insbesondere in puncto Rechenleistung und Budget. Während große Konzerne problemlos auf High-End-Grafikprozessoren setzen können, scheitern viele Teams an den schieren Anforderungen klassischer Trainingsverfahren. Eine jüngst veröffentlichte Studie von Forschern bei JD.com und mehreren Universitäten präsentiert nun einen innovativen Ansatz, der diese Lücke schließt. Das neue Verfahren namens Reinforcement Learning with Verifiable Rewards with Self-Distillation (RLSD) verspricht eine Reduzierung des Rechenaufwands um bis zu 50 % und ermöglicht damit auch kleineren Teams den Aufbau maßgeschneiderter KI-Agenten.

Warum klassische Trainingsmethoden an Grenzen stoßen

Die gängige Praxis zur Schulung von KI-Modellen mit logischen Fähigkeiten basiert häufig auf Reinforcement Learning with Verifiable Rewards (RLVR). Hier durchläuft das Modell wiederholte Versuche, um durch Trial-and-Error zu lernen. Ein externer Bewerter überprüft abschließend die Richtigkeit der Antwort und vergibt eine binäre Bewertung – etwa eine 1 für korrekte Resultate und eine 0 für Fehler. Diese Methode birgt jedoch ein zentrales Problem: Das Feedback ist extrem spärlich, da die gesamte logische Kette einer Antwort nur in einer einzigen Bewertung resultiert.

Chenxu Yang, Mitautor der Studie und Forscher bei JD.com, erklärt gegenüber VentureBeat: „Standardverfahren wie GRPO leiden unter einem Signal-Dichte-Problem. Eine mehrere tausend Token umfassende logische Abfolge erhält lediglich ein einziges binäres Feedback. Alle Tokens in dieser Abfolge – ob sie nun entscheidend für die Lösung waren oder nur Füllwörter – werden gleich behandelt.“ Diese undifferenzierte Rückmeldung verhindert, dass das Modell lernt, welche konkreten Schritte zum Erfolg oder Misserfolg führen.

Eine Alternative bietet das On-Policy Distillation (OPD), bei dem ein kleineres „Schüler“-Modell mit einem größeren „Lehrer“-Modell trainiert wird. Der Schüler vergleicht seine Antworten Token für Token mit denen des Lehrers und erhält so detaillierte Rückmeldungen zur gesamten logischen Abfolge. Allerdings erfordert dieses Verfahren einen permanenten Betrieb des leistungsstarken Lehrer-Modells, was den GPU-Bedarf fast verdoppelt. Zudem sind Schüler und Lehrer auf identische Vokabularstrukturen angewiesen – eine Einschränkung, die viele unternehmensrelevante Szenarien wie mehrsprachige Anwendungen ausschließt.

Selbst-Distillation: Naheliegend, aber mit versteckten Fallstricken

Die On-Policy Self-Distillation (OPSD) schien zunächst die ideale Lösung zu sein, um die Nachteile beider Verfahren zu umgehen. Hier übernimmt dasselbe Modell sowohl die Rolle des Schülers als auch die des Lehrers. Während der Schüler mit einer Standard-Anfrage trainiert, erhält der „Lehrer“ als Lehrer-Zugang eine verifizierte, schrittweise Lösung. Anschließend bewertet der informierte Lehrer-Teil des Modells die Antworten des Schülers und liefert detailliertes Feedback pro Token.

Für Unternehmen klingt OPSD nach einem Traum: Sie kombiniert die präzise Rückmeldung von OPD mit der Recheneffizienz von RLVR – und das ohne externen Lehrer. Doch die Praxis zeigt: OPSD leidet unter dem Phänomen der „privilegierten Informationslecks“.

Yang erläutert: „Das Trainingsziel ist strukturell schlecht gestellt. Es besteht eine unaufhebbaren Informationslücke zwischen Schüler und Lehrer. Der Schüler soll die vollständige Ausgabeverteilung des Lehrers imitieren – basierend auf privilegiertem Kontext, der in der Realität nicht verfügbar ist.“ Dadurch lernt das Modell nicht die zugrundeliegende Logik, sondern reproduziert stattdessen exakte Formulierungen oder Schritte aus der verborgenen Lösung. Die Folge: Zwar zeigt das Modell anfänglich rasante Fortschritte, doch mit der Zeit stagniert oder verschlechtert sich seine Leistung.

RLSD: Präzision durch Trennung von Richtung und Stärke

Die Forscher hinter RLSD identifizierten den entscheidenden Unterschied zwischen den Anforderungen an Trainingsfeedback: Während die Richtung der Parameteranpassung (ob ein Verhalten verstärkt oder bestraft werden soll) zuverlässig sein muss, profitiert die Stärke der Anpassung (wie stark ein bestimmter Schritt belohnt oder bestraft wird) von detaillierter, dichter Rückmeldung.

RLSD trennt diese beiden Aspekte konsequent voneinander. Die verifizierbare Umweltbewertung aus RLVR bestimmt zunächst die Lernrichtung – das Modell erhält nur dann eine Verstärkung, wenn die finale Antwort objektiv korrekt ist. Der „Lehrer“ im System verliert jedoch seine Fähigkeit, die Antwortgenerierung vorzugeben. Stattdessen nutzt RLSD dessen Token-für-Token-Bewertungen ausschließlich, um die Stärke der Anpassung zu steuern. Die Gesamtreinforcement wird dabei proportional auf die einzelnen Schritte der logischen Abfolge verteilt.

Diese Trennung ermöglicht es Unternehmen, maßgeschneiderte KI-Agenten mit deutlich geringeren Rechenressourcen zu entwickeln. Die Methode eliminiert die Notwendigkeit permanenter Lehrer-Modelle und vermeidet gleichzeitig die Fallstricke der Selbst-Distillation. Erste Experimente zeigen, dass RLSD-Modelle nicht nur kosteneffizienter, sondern auch robuster und präziser in ihren logischen Schlussfolgerungen sind als herkömmliche Ansätze.

Ein Meilenstein für unternehmensspezifische KI-Entwicklung

Die Einführung von RLSD markiert einen Wendepunkt für Unternehmen, die bisher aufgrund hoher Infrastrukturkosten auf maßgeschneiderte KI-Lösungen verzichten mussten. Durch die Kombination bewährter und neuartiger Trainingsprinzipien gelingt es, die technische und finanzielle Hürde deutlich zu senken – ohne Kompromisse bei der Qualität einzugehen. Mit dieser Methode könnten zukünftig nicht nur Tech-Giganten, sondern auch Mittelständler und Startups von präzisen, unternehmensspezifischen KI-Agenten profitieren. Die nächste Herausforderung wird darin bestehen, RLSD in verschiedenen Domänen und Sprachen zu validieren – ein Schritt, der bereits in der Studie skizziert wird.

KI-Zusammenfassung

JD.com ve akademisyenler tarafından geliştirilen RLSD yöntemi, şirketlerin özel akıl yürütme modellerini %80 daha az hesaplama gücüyle oluşturmasını sağlıyor. Nasıl çalıştığını ve avantajlarını keşfedin.

KI-Modelle mit weniger Rechenleistung entwickeln: Neues Trainingsverfahren senkt Kosten

Warum klassische Trainingsmethoden an Grenzen stoßen

Selbst-Distillation: Naheliegend, aber mit versteckten Fallstricken

RLSD: Präzision durch Trennung von Richtung und Stärke

Ein Meilenstein für unternehmensspezifische KI-Entwicklung

Kommentare

Netomi sammelt 110 Millionen Dollar: Warum Accenture und Adobe auf KI für Kundenservice setzen

Amazon und OpenAI: Eine neue Ära in der KI-Cloud

Warum hybride Abrufsysteme 2026 die RAG-Architektur in Unternehmen revolutionieren