iToverDose/Girişim· 17 HAZIRAN 2026 · 04:02

Weibo’dan 3 milyar parametreli VibeThinker-3B: AI dünyasını sarsan devrim mi?

Weibo’nun dokuz kişilik araştırma ekibi, sadece 3 milyar parametreye sahip VibeThinker-3B dil modelinin devasa rakiplerini geride bırakabileceğini iddia ediyor. Peki bu iddia ne kadar gerçekçi ve AI standartlarımızın ne kadar güvenilir olduğunu sorgulatan gelişme nedir?

VentureBeat3 dk okuma0 Yorumlar

Weibo’nun dokuz araştırmacısından oluşan ekibi, pazartesi günü yayınladıkları 14 sayfalık teknik raporda dikkatleri üzerine çekti. Sina Weibo’nun mikroblog platformuyla tanınan şirket, sadece 3 milyar parametreye sahip basit bir yapay zeka modelinin, devasa rakiplerinin performansını geride bırakabileceğini öne sürdü. Bu rakipler arasında Google DeepMind, OpenAI, Anthropic ve DeepSeek’in yüzlerce kat daha büyük modelleri yer alıyor.

3 milyar parametreyle devleri sollayan model: VibeThinker-3B’nin sırrı ne?

VibeThinker-3B adı verilen model, Amerikan Davetli Matematik Sınavı (AIME) 2026’da 94.3 puan aldı. Bu puan, 671 milyar parametreye sahip DeepSeek V3.2 modeliyle aynı seviyede bulunurken, Google’ın en gelişmiş sistemi olan Gemini 3 Pro’nun 91.7 puanının da üzerinde yer aldı. Ekibin Claim-Level Reliability Assessment adı verilen test zamanı ölçeklendirme tekniğini kullanmasıyla modelin puanı 97.1’e yükseldi.

Bu sonuçlar, sadece birkaç milyar parametreyle çalışan bir modelin, devasa rakiplerini geride bırakabileceğini gösterse de, sektördeki tepkiler ikiye bölündü. Bazı uzmanlar bu gelişmeyi bilimsel bir atılım olarak değerlendirirken, diğerleri AI benchmark’larının artık güvenilirliğini yitirdiğine dair endişelerini dile getirdi.

X platformunda @orcus108 adlı kullanıcı, "AI dünyasında neler oluyor? 3 milyar parametreli bir model, Claude Opus 4.5’in kodlama benchmark puanlarını yakaladı… Bu bir devrim mi yoksa benchmark’lar mı bozuldu?" ifadelerini kullanarak tepkilerini paylaştı. Bu paylaşım 161 binden fazla görüntülenme aldı.

AI’nın ölçekleme yasalarını sorgulatan performans verileri

VibeThinker-3B’nin sunduğu sonuçlar, modern AI dünyasının temel varsayımlarını sorgulatıyor. Model, sadece 3 milyar parametreye sahip olmasına rağmen, matematik ve kodlama gibi doğrulanabilir muhakeme gerektiren alanlarda olağanüstü başarılar elde etti.

Matematik alanında model, AIME 2025’te 91.4, AIME 2026’da 94.3, Harvard-MIT Matematik Turnuvası (HMMT) 2025’te 89.3 ve Brown Üniversitesi Matematik Olimpiyatı (BruMO) 2025’te 93.8 puan aldı. Uluslararası Matematik Olimpiyatı (IMO) düzeyindeki soruların yer aldığı IMO-AnswerBench’te ise 76.4 puana ulaştı. Kodlama alanında ise LiveCodeBench v6’da Pass@1 olarak 80.2 ve LeetCode haftalık yarışmalarında %96.1 kabul oranı elde etti. Talimat takibi alanında da IFEval’de 93.4 puan aldı.

Karşılaştırma yapmak gerekirse, DeepSeek V3.2 modeli 671 milyar, Zhipu AI’nın GLM-5’i 744 milyar ve Moonshot AI’nın Kimi K2.5’i 1 trilyonun üzerinde parametreye sahip. VibeThinker-3B ise sadece bir dizüstü bilgisayarda çalışabilecek kadar küçük bir yapıya sahip.

Araştırmacılar, Parametric Compression-Coverage Hipotezi adıyla yeni bir teori öne sürüyor. Bu teoriye göre, AI yeteneklerinin farklı türleri model boyutuyla farklı ilişkiler gösteriyor. Doğrulanabilir muhakeme yetenekleri, parametre yoğunluğu yüksek olan yetenekler olarak tanımlanırken, genel alan bilgisi ise parametre genişlemesine ihtiyaç duyan bir yetenek olarak nitelendiriliyor. Ekip, bu ayrımı doğrulamak için GPQA-Diamond adlı lisansüstü düzeyde bilim bilgisi testi uyguladı. VibeThinker-3B bu testte 70.2 puan alırken, Gemini 3 Pro 91.9 ve Claude Opus 4.5 87.0 puan aldı. Araştırmacılar, bu sonucun hipotezlerini desteklediğini belirtti.

Dört aşamalı eğitim hattıyla verimlilik odaklı model geliştirme

VibeThinker-3B, sıfırdan inşa edilmedi. Alibaba’nın Qwen ekibinden Qwen2.5-Coder-3B adlı kompakt bir temel modelin üzerine, Weibo AI araştırmacıları tarafından geliştirilen özel bir post-eğitim süreci uygulandı. Bu süreç, Spec-Enhanced Multi-Task Learning (SEM-TL) adı verilen dört aşamalı bir eğitim hattından oluşuyor.

  • Aşama 1: Ön eğitim verilerinin arındırılması – Model, matematiksel ve kodlama odaklı verilerle zenginleştirildi.
  • Aşama 2: Özel görevlere yönelik ince ayar – Model, matematiksel akıl yürütme ve kodlama yeteneklerini geliştirmek için optimize edildi.
  • Aşama 3: Güvenilirlik odaklı doğrulama – Claim-Level Reliability Assessment adı verilen teknik, modelin yanıtlarının doğruluğunu artırmak için kullanıldı.
  • Aşama 4: Ölçeklendirme ve optimizasyon – Modelin performansı, test zamanı ölçeklendirme teknikleriyle daha da iyileştirildi.

Araştırmacılar, bu süreç sayesinde modelin verimliliğinin arttığını ve daha az parametreyle daha yüksek performans elde edildiğini vurguladı.

AI’nın geleceği: Daha küçük modeller mi, yoksa daha büyük veriler mi?

VibeThinker-3B’nin başarısı, AI endüstrisinin yıllardır benimsediği ölçekleme yasalarını sorgulatıyor. Geleneksel olarak, daha büyük modellerin daha iyi performans gösterdiği varsayılırken, Weibo’nun geliştirdiği model bu varsayımı altüst ediyor. Peki bu gelişme, AI dünyasının geleceğini nasıl şekillendirecek?

Uzmanlar, bu tür modellerin enerji verimliliği ve erişilebilirliği açısından büyük bir potansiyel taşıdığını belirtiyor. Daha az parametreye sahip modeller, daha düşük maliyetlerle geliştirilebilir ve daha geniş kitlelere ulaşabilir. Ancak, genel alan bilgisi ve karmaşık mantık gerektiren görevlerde hala geride kalmaları, bu modellerin tam anlamıyla birer genel amaçlı AI olmadığını gösteriyor.

Bu gelişme, AI araştırmalarında yeni bir dönemin başlangıcı olabilir. Ölçekleme yasalarının sorgulanması ve daha verimli modellerin geliştirilmesi, sektördeki dengeleri değiştirebilir. Ancak, benchmark’ların güvenilirliği ve AI’nın gerçek yetenekleri hakkında daha derin bir tartışmayı da beraberinde getiriyor. Gelecekte, bu tür gelişmelerin nasıl şekilleneceğini ve AI’nın gerçek potansiyelinin ne olduğunu hep birlikte göreceğiz.

Yapay zeka özeti

Weibo’nun dokuz kişilik araştırma ekibi, sadece 3 milyar parametreye sahip VibeThinker-3B modeliyle AI dünyasına bomba gibi düştü. Peki bu model nasıl devleri geride bıraktı ve AI benchmark’larının güvenilirliği ne kadar?

Yorumlar

00
YORUM BIRAK
ID #TX4BUC

0 / 1200 KARAKTER

İnsan doğrulaması

4 + 4 = ?

Editör onayı sonrası yayına girer

Moderasyon · Spam koruması aktif

Henüz onaylı yorum yok. İlk yorumu sen bırak.