iToverDose/Girişim· 14 MAYIS 2026 · 00:03

Yapay Zeka IQ Nedir ve Önde Gelen Modellerin Sıralaması Nasıl Değerlendiriliyor?

Yapay zeka dünyasında devrim niteliğinde bir proje olan AI IQ, insan IQ’suna benzer bir ölçüm sistemiyle önde gelen dil modellerini karşılaştırıyor. Peki bu sistem nasıl çalışıyor ve hangi modeller şu anda en tepede yer alıyor?

VentureBeat3 dk okuma0 Yorumlar

İnsan zekasının en tartışmalı ölçütlerinden biri olan IQ testi, artık yapay zekayı da değerlendirmek için kullanılıyor. AI IQ adlı girişim, dünyanın en güçlü dil modellerini standart bir zeka katsayısıyla sıralayarak, yapay zeka dünyasını daha anlaşılır hale getirmeyi hedefliyor. Peki bu proje nasıl ortaya çıktı ve hangi yöntemlerle çalışıyor?

AI IQ: Yapay Zekanın Zeka Seviyesini Ölçmek İçin Yeni Bir Yaklaşım

AI IQ, Princeton mezunu mühendis ve girişimci Ryan Shea tarafından geliştirilen bir proje. Shea, aynı zamanda blockchain platformu Stacks’in kurucu ortağı olarak tanınıyor ve OpenSea, Lattice, Anchorage gibi birçok unicorn girişimin erken yatırımcısı arasında yer alıyor. AI IQ’nin arkasındaki fikir, yapay zeka modellerinin performansını insan zekasını ölçmeye benzer bir şekilde değerlendirmek.

Proje, 50’den fazla önde gelen dil modelini analiz ederek, her birine bir IQ puanı atıyor. Bu puanlar, dört ana yetenek alanına göre hesaplanıyor: soyut akıl yürütme, matematiksel yetenek, programlama becerisi ve akademik bilgi. Her bir alanın puanı, modelin o konudaki performansına dayanarak belirleniyor. Örneğin, soyut akıl yürütme yeteneği ARC-AGI-1 ve ARC-AGI-2 gibi zorlu testlerle ölçülürken, matematiksel yetenek FrontierMath, AIME ve ProofBench gibi benchmarklarla değerlendiriliyor. Programlama becerileri Terminal-Bench 2.0, SWE-Bench Verified ve SciCode ile test edilirken, akademik bilgi Humanity’s Last Exam, CritPt ve GPQA Diamond gibi sınavlarla ölçülüyor.

Her bir benchmark puanı, zorluk seviyesine göre ayarlanmış bir IQ skalasına dönüştürülüyor. Bu yaklaşım, daha kolay ve manipülasyona açık testlerin puanlarını 100’ün altında tutarken, zorlu ve manipülasyona daha dirençli testlere daha yüksek puan aralıkları tanıyor. Ayrıca, eğer bir modelin tüm dört alanda da puanı yoksa, sistem puanı aşağıya çekiyor — yani eksik veri modelin puanını yükseltmek yerine düşürüyor. AI IQ ekibi, "Her hesaplanan IQ, dört alanın ortalaması olduğu için eksik veriler modelin puanını olumlu yönde etkilemiyor" diyor.

OpenAI ve Anthropic Modelleri Önde, Peki Fark Ne Kadar?

AI IQ’nin Mayıs 2026 itibarıyla yayınladığı verilere göre, OpenAI’nin en yeni modeli GPT-5.5, 136 IQ puanıyla listenin başında yer alıyor. Onu sırasıyla GPT-5.4 (131), Anthropic’in Opus 4.7’si (132) ve Opus 4.6’sı (129) takip ediyor. Google’ın Gemini 3.1 Pro modeli de 131 puanıyla zirvede yer alan diğer modeller arasında yer alıyor. Bu yakın puanlar, yapay zeka modelleri arasındaki performans farkının giderek daraldığını gösteriyor.

Ancak, bu sıkışık liderlik tablosu AI IQ’nin özel bir yorumu değil. Visual Capitalist adlı veri görselleştirme platformu da TrackingAI’nin Mensa tabanlı sıralamasından yola çıkarak benzer bir sonuca ulaşmış. Bu sıralamaya göre, Grok-4.20 Expert Mode ve GPT-5.4 Pro eşit puanlarla listenin başında yer alırken, Gemini 3.1 Pro da 141 puanıyla onların hemen arkasında bulunuyor.

AI IQ’nin verilerine göre, liderlik kümesinin altında kalan modeller arasında Çin merkezli laboratuvarlardan çıkan Kimi K2.6, GLM-5, DeepSeek-V3.2, Qwen3.6 ve MiniMax-M2.7 gibi isimler 112 ila 118 aralığında puanlar topluyor. Bu durum, şirketlerin en iyi modeli her görev için kullanmaya gerek duymadığı, daha uygun maliyetli seçeneklere yöneldiği bir ortamın doğduğunu gösteriyor. X platformunda bir kullanıcı, "Bu veriler, Sonnet 4.6’nın Opus 4.6’ya göre çok daha verimli ve dayanıklı olduğunu doğruluyor" yorumunda bulundu.

Eleştiriler ve Tartışmalar: Bir Sayı Her Şeyi Açıklayabilir mi?

AI IQ’nin yaklaşımı, yapay zeka dünyasında hem övgü hem de eleştiri topladı. Bir yandan, teknoloji yorumcusu Thibaut Mélen gibi isimler, modellerin ilerlemesini bu şekilde görselleştirmenin anlaşılması kolay olduğunu savunuyor. Mélen, X platformunda yaptığı paylaşımda, "Bu çok kullanışlı. Modellerin ilerlemesini devasa bir liderlik tablosundan ziyade bu şekilde haritada görmek çok daha kolay" dedi.

Benzer şekilde, iş stratejisti Brian Vellmure da kişisel deneyimleriyle örtüşen veriler sunduğunu belirterek AI IQ’yi destekledi. Ancak, karşıt görüşler de oldukça güçlü. AI Deeply adlı bir yapay zeka yorumlama hesabı, "Bu saçmalık. AI çok karmaşık ve düzensiz. Harita, gerçek arazinin bire bir kopyası değil" diyerek tek bir sayıyla zekayı ölçmenin tehlikeli bir basitleştirme olduğunu vurguladı.

Araştırmacılar, dil modellerinin yeteneklerinin çok yönlü ve düzensiz olduğunu belirterek, tek bir IQ puanının tüm bu çeşitliliği yansıtamayacağını savunuyor. Özellikle, modelin bazı görevlerde olağanüstü performans gösterirken diğerlerinde zayıf kalmasının, tek bir sayıya indirgenmesinin yanıltıcı olabileceğine dikkat çekiliyor.

AI IQ’nin ortaya koyduğu bu yenilikçi yaklaşım, yapay zeka dünyasında bir tartışma başlatmış durumda. Bir yandan modellerin performansını daha anlaşılır hale getirirken, diğer yandan da zeka ölçümünün ne kadar karmaşık ve çok boyutlu olduğunu gözler önüne seriyor. Gelecekte, bu tür ölçüm sistemlerinin daha da gelişmesi ve yapay zeka modellerinin gerçek yeteneklerini daha doğru bir şekilde yansıtması bekleniyor. Yapay zeka dünyasının bu yeni IQ yolculuğu, teknoloji dünyasında yeni fırsatlar ve tartışmalar yaratmaya devam edecek.

Yapay zeka özeti

Yapay zeka modellerini insan IQ’suna benzer bir sistemle ölçen AI IQ projesi hakkında detaylar. OpenAI ve Anthropic’in liderlik sıralaması ve bu ölçüm sisteminin avantajlarıyla eleştirileri.

Yorumlar

00
YORUM BIRAK
ID #6C8TFR

0 / 1200 KARAKTER

İnsan doğrulaması

5 + 4 = ?

Editör onayı sonrası yayına girer

Moderasyon · Spam koruması aktif

Henüz onaylı yorum yok. İlk yorumu sen bırak.