KI-Agenten lernen durch Fragestrategien: Wie KI mit „Schiff ahoi!“ intelligenter wird

Eine Gruppe von Forscherinnen und Forschern des Massachusetts Institute of Technology (MIT) und der Harvard University hat eine innovative Methode entwickelt, um künstliche Intelligenz (KI) darin zu trainieren, bessere Fragen zu stellen. Ihr Ansatz basiert auf einem klassischen Kinderspiel: „Schiff ahoi!“. Doch statt mit Bleistift und Papier wird die KI nun in einer digitalen Version des Spiels eingesetzt, um ihre Fähigkeit zu verbessern, in unsicheren Umgebungen – etwa in der Medizin oder wissenschaftlichen Forschung – gezielte Fragen zu formulieren.

KI als Kapitän und Beobachter: Ein Spiel mit strategischer Fragestellung

Im Mittelpunkt der Studie steht das Konzept der „informativen Fragen“. KI-Agenten werden dabei in die Rollen von „Kapitän“ und „Beobachter“ aufgeteilt. Der Kapitän stellt Fragen, um den Standort versteckter Schiffe auf einem Raster zu ermitteln, während der Beobachter auf diese Fragen mit „Ja“ oder „Nein“ antwortet. Der Clou: Die Forscherinnen und Forscher nutzten reale Spielverläufe von über 40 menschlichen Teilnehmenden, um daraus einen Datensatz namens „BattleshipQA“ zu erstellen. Dieser diente als Benchmark für die Leistungsfähigkeit verschiedener Sprachmodelle.

Die Tests umfassten sowohl hochmoderne Modelle wie GPT-5 als auch kleinere Systeme wie Llama 4 Scout. Ohne vorheriges Training zeigte sich, dass große Sprachmodelle das Spiel zwar in weniger Zügen als Menschen gewinnen konnten, kleinere Modelle jedoch deutlich weniger rational agierten. Der Hauptgrund: Viele Modelle waren schlicht nicht in der Lage, sinnvolle Fragen zu stellen, die relevante Informationen preisgeben.

Monte-Carlo-Strategie: Wie KI durch Wahrscheinlichkeiten lernt, besser zu fragen

Um dieses Problem zu lösen, implementierten die Forschenden eine Monte-Carlo-Inferenzstrategie. Diese Methode bewertet die Wahrscheinlichkeit verschiedener Antwortmöglichkeiten basierend auf den Rückmeldungen des Beobachters. Jede mögliche Position eines Schiffes wird dabei wie ein Partikel in einer Simulation behandelt – einige Partikel „pumpen sich auf“, wenn sie mit den Antworten übereinstimmen, während andere „schrumpfen“, wenn sie nicht passen. Dieser adaptive Prozess ermöglicht es der KI, gezieltere und informativere Fragen zu stellen.

Die Ergebnisse waren beeindruckend. Llama 4 Scout, ein vergleichsweise kleines Modell, verbesserte seine Gewinnquote von ursprünglich 8 Prozent auf 82 Prozent – und das bei nur etwa 1 Prozent der Rechenleistung eines großen Modells wie GPT-5. Selbst das fortschrittliche GPT-5 konnte von der neuen Strategie profitieren, indem es durch präzisere Fragen schneller zum Ziel gelangte.

Code als Brücke: Wie Python KI-Agenten zu präziseren Antworten verhilft

Doch nicht nur die Fragestellung der KI wurde optimiert – auch die Antwortqualität ließ sich deutlich steigern. Die Forschenden nutzten die Programmiersprache Python, um Fragen automatisch in exakte Anweisungen umzuwandeln. Eine Frage wie „Befindet sich ein Schiff in Spalte 1, das sich über zwei Reihen erstreckt?“ wird dabei in einen Code-Befehl übersetzt, der den Beobachter anweist, die angegebene Fläche zu durchsuchen und die Breite des virtuellen Schiffes zu überprüfen.

Diese Methode führte zu einer deutlichen Verbesserung der Antwortgenauigkeit. Das Modell GPT-4o-mini steigerte seine Leistung um fast 30 Prozent, während selbst das leistungsstarke Claude 4 Opus eine Verbesserung von etwa acht Prozent verzeichnete. Jacob Andreas, Seniorautor der Studie und Associate Professor am MIT, betont die Bedeutung dieser Technik: „Bisher lag der Fokus darauf, dass Sprachmodelle komplexe Fragen beantworten können. Unser Ansatz zeigt, dass sie durch den Einsatz von ‚Weltmodellen‘ auch lernen können, bessere Fragen zu stellen – und damit effizienter zu forschen.“

Von „Schiff ahoi!“ zu „Wer bin ich?“: Die Methode auf dem Prüfstand

Die Effektivität der neuen Strategie wurde nicht nur in „Schiff ahoi!“ getestet, sondern auch in anderen Denkspielen wie „Wer bin ich?“. Hier musste die KI aus 100 möglichen Charakteren den richtigen erraten, indem sie gezielte Ja/Nein-Fragen stellte. Auch hier zeigte sich eine deutliche Leistungssteigerung: Llama 4 Scout verbesserte seine Erfolgsquote von 30 auf über 72 Prozent, während GPT-4o von 62 auf 90 Prozent sprang. Selbst GPT-5, das als Beobachter fungierte, profitierte von der präziseren Fragestellung der anderen Modelle.

Ausblick: KI-Agenten für komplexe Herausforderungen in Medizin und Forschung

Die Ergebnisse der Studie deuten auf ein vielversprechendes Potenzial hin. Gabriel Grand, Hauptautor und PhD-Student am MIT, erklärt: „Moderne Sprachmodelle sind darauf ausgelegt, komplexe Fragen zu beantworten. Doch die Fähigkeit, selbstständig sinnvolle Fragen zu stellen, war bisher weniger ausgeprägt. Unsere Arbeit zeigt, dass KI-Agenten durch den Zugang zu einem ‚Weltmodell‘ nicht nur bessere Fragen stellen, sondern auch effizienter Entdeckungen machen können.“

Die Methode könnte künftig in Bereichen wie der medizinischen Diagnostik oder wissenschaftlichen Forschung eingesetzt werden, wo KI-Systeme in unsicheren Umgebungen agieren müssen. Die Kombination aus strategischer Fragestellung und automatisierter Code-Erzeugung könnte dabei helfen, bisher ungelöste Probleme effizienter anzugehen. Die Forschenden planen bereits, ihre Methode auf weitere Anwendungsfälle wie Programmierung oder mathematische Problemlösung zu übertragen.

Wird die KI bald nicht nur Antworten geben, sondern auch die richtigen Fragen stellen? Die Weichen dafür sind gestellt.

KI-Zusammenfassung

MIT ve Harvard araştırmacıları, dil modellerinin belirsiz ortamlarda daha etkili sorgulama yapmasını sağlamak için 'Battleship' oyununu yeniden tasarladı. Küçük modellerin bile büyük başarılara imza attığı bu çalışma hakkında detaylar.

KI-Agenten lernen durch Fragestrategien: Wie KI mit „Schiff ahoi!“ intelligenter wird

KI als Kapitän und Beobachter: Ein Spiel mit strategischer Fragestellung

Monte-Carlo-Strategie: Wie KI durch Wahrscheinlichkeiten lernt, besser zu fragen

Code als Brücke: Wie Python KI-Agenten zu präziseren Antworten verhilft

Von „Schiff ahoi!“ zu „Wer bin ich?“: Die Methode auf dem Prüfstand

Ausblick: KI-Agenten für komplexe Herausforderungen in Medizin und Forschung

Kommentare

Tod Machover erhält George Peabody-Medaille für Musik und Technologie

KI-Modelle lernen Diagramme lesen: Neues Datenset von MIT verbessert Chart-Verständnis

MIT baut Quantenlabor in Massachusetts – Warum das für Innovation und Wirtschaft entscheidend ist