Yapay Zekâ Ajanlarına 'Battleship' Oyunu ile Daha İyi Soru Sormayı Öğretmek

2026 yılında yapay zekâ (YZ) ajanlarına olan ilgi rekor seviyelere ulaştı. Müşteri hizmetleri ya da yazılım geliştirme gibi alanlarda yarı otonom olarak çalışabilen bu sistemler, genellikle dil modellerinden (LM) destek alıyor. Ancak tıbbi teşhis ya da bilimsel keşif gibi yüksek riskli ortamlarda, YZ ajanlarının geniş bir çözüm yelpazesinde sorgulama yapabilmesi gerekiyor — ki bu da dil modellerinin zorlandığı bir alan.

MIT’in Bilgisayar Bilimi ve Yapay Zekâ Laboratuvarı (CSAIL) ile Harvard Üniversitesi Mühendislik ve Uygulamalı Bilimler Okulu (SEAS) araştırmacıları, dil modellerinin bu zorluklara nasıl yanıt verdiğini anlamak için klasik bir tahmin oyunu olan 'Battleship’i yeniden tasarladı. Araştırmacılar, oyunu doğal dilde soru-cevap temelli bir deney setine dönüştürerek, YZ ajanlarının bilgiye ulaşma yeteneklerini test etti.

Oyun, Veri ve Dil Modellerinin Sınırlarını Aşma Çabası

Araştırmacılar, 'İşbirlikçi Battleship' adı verilen bir versiyonunda oyuncuları ikili ekiplere böldü: bir 'kaptan' gizlenen gemilerin yerini tahmin etmek için sorular sorarken, diğer oyuncu 'gözcü' rolünü üstlenerek bu sorulara gerçek zamanlı yanıtlar verdi. Öncelikle 40’tan fazla insan katılımcıyla oynanan oyun, hem soruların hem de evet-hayır yanıtlarının kaydedildiği 'BattleshipQA' adlı bir veri setine dönüştü. Bu veri, hem en gelişmiş dil modellerinden (örneğin GPT-5) hem de daha küçük sistemlerden (örneğin Llama 4 Scout) oluşan modellerin performansını ölçmek için kullanıldı.

Modeller önceden eğitilmeden teste tabi tutulduğunda, en iyi dil modellerinin insanları oyun başına ortalama hamlede yenebildiği ortaya çıktı. Ancak daha küçük modeller, insanların rasyonalitesine kıyasla oldukça zayıf kaldı. Ana sorun, çoğu modelin faydalı sorular üretmekte zorlanmasıydı. Araştırmacılar, bu eksikliği gidermek için her modelde Monte Carlo çıkarım stratejisini uyguladı. Bu strateji, her yanıtla birlikte olası seçeneklerin doğruluk olasılığını dikkatlice ölçerek modellerin daha bilgilendirici sorular sormasını sağladı.

Küçük Modellerden Büyük Başarı: Llama 4 Scout’un Dönüşümü

Monte Carlo stratejisiyle donatılan modeller, insan oyuncuları oyun başına ortalama hamlede yenmeyi başardı. Bu iyileştirme, özellikle küçük bir model olan Llama 4 Scout üzerinde çarpıcı sonuçlar doğurdu. Doğal stratejilerle sadece %8 oranında insanları yenme başarısı gösteren model, çıkarım stratejisinin uygulanmasıyla insanlara karşı %82’lik bir galibiyet oranına ulaştı. Ayrıca, bu yöntem sayesinde model, GPT-5 gibi öncü bir modele kıyasla %1 civarında maliyetle daha yüksek bir performans sergiledi.

Araştırmacılar, soruları yanıtlayan modellerin de performansını artırdı. GPT-5 gibi büyük modeller, gemilerin yerini doğru bir şekilde tespit ederek oyun süresini kısaltırken, daha küçük sistemler genellikle yanıtlarında hatalar yapıyordu. Bu sorunu çözmek için modeller, yanıtlarını doğrulamak için kod üreten bir sisteme geçirildi. Örneğin, bir geminin belirli bir sütunda olup olmadığını sorgularken, model ilgili alanı tarayan bir komut üretti. Bu yaklaşım, modellerin yanıt doğruluğunu ortalama %15 artırdı. Örneğin, GPT-4o-mini neredeyse %30’luk bir performans artışı yaşarken, Claude 4 Opus da yaklaşık %8 puan kazandı.

MIT doktora öğrencisi ve CSAIL araştırmacısı Gabriel Grand SM ’23, konuyla ilgili yaptığı açıklamada şunları söyledi:

Günümüzün dil modelleri genellikle karmaşık soruları yanıtlamaya odaklanmış durumda, ancak kendi kendilerine iyi sorular sormayı öğrenip öğrenmedikleri net değil. Çalışmamız, soru sormanın bilgilendirici olmasının dünyayı tahmin etme ve simüle etme yeteneğine bağlı olduğunu gösteriyor. Bir 'dünya modeli' erişimi sağladığımızda, ajanlar daha iyi sorular soruyor ve keşiflerini çok daha verimli hale getiriyor.

Başka Oyunlarda da Başarı: 'Guess Who?’ Testi

Araştırmacılar, bu yaklaşımın diğer oyunlarda da işe yarayıp yaramadığını test etmek için 'Guess Who?’ adlı bir başka masa oyununu denedi. Oyunda, modeller 100 seçenek arasından gizlenen karakteri tahmin etmek zorundaydı. Llama 4 Scout’un başarı oranı %30’dan %72’nin üzerine çıktı. Benzer şekilde, GPT-4o %62’den %90’a yükseldi. Her oyunda GPT-5, yanıtların mümkün olduğunca doğru olmasını sağlamak için gözcü rolünü üstlendi.

Ancak araştırmacılar, modellerin hâlâ iyileştirilmesi gereken alanlar olduğunu vurguluyor. Örneğin, modellerden bazıları soruları çok genel ya da belirsiz şekilde yanıtlayabiliyor. Yine de bu çalışma, dil modellerinin sorgulama yeteneklerini geliştirmenin mümkün olduğunu ve bu sayede bilimsel keşiflerden kodlama problemlerine kadar birçok alanda daha etkili çözümler üretebileceklerini gösteriyor.

MIT Elektrik Mühendisliği ve Bilgisayar Bilimi Doçenti ve CSAIL araştırmacısı Jacob Andreas, konuyla ilgili şunları ekledi:

Otomatik biçimlendirme stratejilerinin başarısının ardından, dil modellerinin kod üreterek çözümlerini doğrulamasını gördük. Bu çalışmanın en heyecan verici yanı, bu teknikleri kullanarak modellerin daha iyi sorgulama yetenekleriyle sonuçta daha iyi çözümler üretmesinin önünü açması. Bilimsel alanlardan kodlama ve matematik problemlerine kadar birçok alanda bu yaklaşımı ölçeklendirmeyi dört gözle bekliyoruz.

Yapay zeka özeti

MIT ve Harvard araştırmacıları, dil modellerinin belirsiz ortamlarda daha etkili sorgulama yapmasını sağlamak için 'Battleship' oyununu yeniden tasarladı. Küçük modellerin bile büyük başarılara imza attığı bu çalışma hakkında detaylar.

Etiketler

#yapay zeka ajanları #dil modelleri #gpt-5 #monte carlo çıkarımı #battleship oyunu #soru sorma yeteneği #llama 4 scout #ai sorgulama stratejileri

Yapay Zekâ Ajanlarına 'Battleship' Oyunu ile Daha İyi Soru Sormayı Öğretmek

Oyun, Veri ve Dil Modellerinin Sınırlarını Aşma Çabası

Küçük Modellerden Büyük Başarı: Llama 4 Scout’un Dönüşümü

Başka Oyunlarda da Başarı: 'Guess Who?’ Testi

Yorumlar

Müzik ve Teknolojiye Katkılarından Dolayı George Peabody Madalyası

MIT'den Yapay Zekaya: Grafikleri Doğru Yorumlamayı Öğreten Veri Kümesi

MIT liderliğinde Massachusetts’te kuantum teknolojileri için yeni laboratuvar kurulacak