Wenn Entwickler ihre Code-Änderungen von KI-Tools wie Claude Code überprüfen lassen, erhalten sie oft nur oberflächliche Rückmeldungen wie ein freundliches „Alles sieht gut aus! 👍“ oder eine lange Liste von Vorschlägen, bei denen echte Fehler kaum von subjektiven Meinungen zu unterscheiden sind. Das Problem: KI-Modelle sind darauf trainiert, höflich zu sein und Konflikte zu vermeiden – sie möchten dem Nutzer gefallen, statt fundierte Kritik zu liefern.
Um diesem Mangel an Ehrlichkeit entgegenzuwirken, hat der Entwickler Tribunal entworfen. Dieses Werkzeug nutzt adversarische Agenten, die in einem strukturierten Prozess die Code-Änderungen gegeneinander antreten lassen. Dadurch entsteht ein ausgewogeneres und ehrlicheres Feedback als bei einer einfachen KI-Prüfung.
Warum ein einzelnes Modell keine faire Bewertung liefern kann
Ein einziges KI-Modell, das aufgefordert wird, „kritisch“ zu sein, bleibt oft unentschlossen. Es ist darauf ausgelegt, Harmonie zu stiften, und vermeidet klare Aussagen. Statt also einem Modell zu vertrauen, das zwischen Höflichkeit und Kritik schwankt, setzt Tribunal auf ein Kollisionsprinzip: Verschiedene Agenten mit klar definierten Rollen prüfen die Änderungen und bringen unterschiedliche Perspektiven ein.
🔥 Die vier Stufen der adversarischen Prüfung
Tribunal durchläuft vier Phasen, in denen jeweils andere Agenten mit spezifischen Aufgaben betraut sind:
- Hater (Ankläger):
Für jede Datei wird ein separater Agent eingesetzt, der die Änderungen radikal kritisch bewertet. Sein Fokus liegt ausschließlich auf technischen Fehlern wie Race Conditions, Speicherlecks, Sicherheitslücken oder Randfällen. Subjektive Stilfragen werden bewusst ignoriert – der Hater sucht nur nach echten Problemen.
- Integration (Schnittstellenprüfer):
Während der Hater pro Datei arbeitet, prüft ein weiterer Agent die Interaktionen zwischen Dateien. Er sucht nach Inkonsistenzen, die durch Änderungen in einer Datei entstehen, etwa wenn eine Funktion signifikant umgestellt wird, aber der Aufrufer noch die alte Schnittstelle nutzt. Auch hier geht es um technische Korrektheit, nicht um Design-Entscheidungen.
- Richter (Entscheider):
Für jeden Vorwurf des Haters oder Integration-Agenten tritt der Richter in Aktion. Er analysiert den tatsächlichen Code, die Dokumentation und Kommentare, um zu entscheiden, ob die Kritik berechtigt ist oder ob es sich um eine falsche Anschuldigung handelt. Der Richter ist dabei neutral und sucht nach Beweisen für die Absicht hinter einer Änderung.
- Urteil (Verdikt):
Am Ende bleibt nur eine Liste der Punkte übrig, die der Richter nicht verteidigen konnte – oder bei denen selbst seine Argumente schwach waren. Alles andere wird als irrelevante Kritik aussortiert. Das Ergebnis ist ein präzises, handlungsorientiertes Feedback.
Die Stärke der adversarischen Methode
Der entscheidende Vorteil von Tribunal liegt nicht in der Arbeit eines einzelnen Agenten, sondern im Kampf der Perspektiven. Ein Agent, der nur angreifen darf, trifft auf einen Richter, der nur nach Rechtfertigungen sucht. Diese Konstellation führt zu einer schärferen und ehrlicheren Analyse, als es ein einzelnes Modell jemals leisten könnte.
Ein weiterer Vorteil: Der Hater-Agent kann auch keine Kritik zurückgeben. Bei sauberen Änderungen, die keine Probleme aufweisen, bleibt die Ausgabe leer. Das ist kein Fehler, sondern ein ehrliches Signal – im Gegensatz zu KI-Tools, die oft Probleme erfinden, um sich nützlich zu zeigen.
Praktische Anwendung: So funktioniert Tribunal im Alltag
Tribunal ist als Claude-Skill konzipiert und lässt sich in bestehende Workflows integrieren. Nach der Installation kann es direkt in Claude Code oder Claude Cowork genutzt werden – unabhängig von der Programmiersprache. Ob Python, JavaScript/TypeScript, Go, Rust oder Java: Die Konfiguration ist denkbar einfach.
Die Ausgabe besteht aus zwei Komponenten:
- Einem detaillierten Prüfbericht im Verzeichnis
docs/reviews/, der die gefundenen Probleme nach Schweregrad (kritisch, schwerwiegend, gering) sortiert. - Einer Zusammenfassung im Chat, die die wichtigsten Punkte und konkrete Lösungsvorschläge enthält.
Ein Werkzeug für Entwickler – einfach zu installieren und zu nutzen
Tribunal steht unter der MIT-Lizenz kostenlos zur Verfügung. Die Installation erfordert nur wenige Schritte:
- Die Datei
SKILL.mdaus dem Repository herunterladen. - Sie im Verzeichnis
~/.claude/skills/ablegen. - In einem beliebigen Repository den Befehl
/tribunalausführen, um die Prüfung zu starten.
Das Projekt ist bewusst minimalistisch gehalten und benötigt keine externen Abhängigkeiten oder zusätzliche Laufzeitumgebungen. Es nutzt ausschließlich die Agent-Funktionen von Claude, was es besonders leistungsfähig und portabel macht.
Fazit: Ein neuer Maßstab für KI-gestützte Code-Reviews?
Tribunal stellt die Art und Weise, wie KI-Tools Code prüfen, auf den Kopf. Statt auf die Höflichkeit eines einzelnen Modells zu vertrauen, setzt es auf Konflikt und Ausgleich – eine Methode, die ehrlichere und nützlichere Ergebnisse liefert. Ob dieser adversarische Ansatz tatsächlich besser ist als eine einfache, aber harte Anweisung an ein KI-Modell, bleibt eine spannende Frage für die Community.
Entwickler sind eingeladen, Tribunal auszuprobieren, Feedback zu geben oder sogar zu versuchen, es zu „brechen“. Die Frage ist: Kann eine KI wirklich objektiver sein, wenn sie in Rollen gezwungen wird – oder ist es am Ende doch nur eine Simulation von Kritik?
Eines ist sicher: Die Diskussion über faire und transparente KI-gestützte Code-Reviews hat mit Tribunal einen neuen Impuls erhalten.
KI-Zusammenfassung
Claude’un nazik kod incelemeleri yerine gerçekten güvenilir bir sistem arayan geliştirici, çoklu ajanlar arasında çatışma yaratan Tribunal aracını geliştirdi. Detaylar için tıklayın.