ZAYA1-8B: AMD MI300’lar ile eğitilen yeni nesil verimli AI modeli

Günümüzde yapay zeka alanında lider konumdaki şirketler OpenAI ve Anthropic, daha büyük ve güçlü modeller geliştirmek için hesaplama gücüne odaklanırken, Palo Alto merkezli Zyphra gibi daha az bilinen girişimler farklı bir yol izliyor. Bu yol, daha küçük, verimli ve açık kaynaklı modellerin geliştirilmesini içeriyor.

Geçtiğimiz hafta Zyphra, ZAYA1-8B adı verilen yeni bir akıl yürütme (reasoning) modelini tanıttı. Sadece 8 milyar toplam parametreye sahip olan bu modelin yalnızca 760 milyonu aktif kullanılıyor. Bu rakamlar, trilyonlarca parametreye sahip modellere kıyasla oldukça mütevazı görünse de, üçüncü taraf benchmark testlerinde GPT-5-High ve DeepSeek-V3.2 gibi devleri geride bırakıyor.

ZAYA1-8B, Apache 2.0 lisansı altında ücretsiz olarak kullanılabilir durumda ve Hugging Face üzerinden indirilebiliyor. Ayrıca, Zyphra’nın bulut tabanlı hizmeti üzerinden de doğrudan test edilebiliyor. Modelin eğitildiği donanım ise herkesin dikkatini çekiyor: AMD Instinct MI300 serisi GPU’lar. Nvidia’nın hakimiyetini sorgulayan bu hamle, AMD’nin AI hesaplama alanındaki varlığını güçlendiriyor.

AMD’nin MI300 serisiyle eğitilen ilk büyük model

ZAYA1-8B’nin başarısının ardında yatan en önemli faktörlerden biri, eğitiminde kullanılan donanım. AMD Instinct MI300X GPU’ları, yaklaşık üç yıl önce piyasaya sürüldü ve o zamandan beri Nvidia’nın liderliğine meydan okuyor. Zyphra’nın bu GPU’ları tercih etmesi, AI modeli geliştiricilerinin Nvidia’nın tekelinden kurtulabileceğinin de bir göstergesi.

Zyphra, modelin verimliliğini artırmak için "tam yığın yenilik" yaklaşımını benimsedi. Bu yaklaşım, mimari, ön eğitim ve pekiştirme öğrenmesi (RL) gibi çeşitli alanlarda yapılan geliştirmeleri içeriyor.

MoE++ mimarisi: Standart Transformer’lardan farklılaşma

ZAYA1-8B, Zyphra’nın MoE++ mimarisi üzerine inşa edildi. Bu mimari, standart Transformer temelli büyük dil modellerinden önemli farklılıklar taşıyor. Üç temel yenilik içeriyor:

Sıkıştırılmış Konvolüsyonel Dikkat (CCA): Standart dikkat mekanizmaları, bağlam penceresi büyüdükçe bellek sorunları yaşar. CCA ise dizi karıştırmayı sıkıştırılmış latent alanda gerçekleştirerek, KV-cache boyutunu tam çoklu dikkat mekanizmasına kıyasla 8 kat azaltıyor. Bu sayede uzun bağlamlı akıl yürütme daha verimli hale geliyor.

ZAYA1 MLP Yönlendiricisi: Çoğu MoE modeli, hangi "uzmanların" hangi token’ları işleyeceğine karar vermek için doğrusal bir yönlendirici kullanır. Zyphra ise bunu daha ifade edici bir çok katmanlı perceptron (MLP) tabanlı tasarımla değiştirdi. Eğitim sırasındaki kararlılığı sağlamak için klasik kontrol teorisinden esinlenen PID dengeleyicilerine benzer bir yöntem kullanıldı.

Öğrenilmiş Artık Ölçekleme: Modelin 40 katmanı boyunca veri akışı derinleştikçe "artık normun" büyümesini kontrol ederek, gradyan kaybolması veya patlamasını önlüyor. Bu işlem neredeyse hiç ek hesaplama maliyeti yaratmıyor.

Akıl yürütmeyi önceliklendiren eğitim süreci

ZAYA1-8B’nin en büyük avantajlarından biri, akıl yürütmenin modelin eğitiminin başından itibaren entegre edilmiş olması. Geleneksel yöntemlerde bu özellik genellikle sonradan eklenirken, Zyphra akıl yürütmeyi ilk adımdan itibaren temel aldı.

Modelin ön eğitiminde 4K’lık bir bağlam penceresi kullanılıyor. Ancak uzun zincirleme akıl yürütme (CoT) izleri bu sınırı aşabiliyor. Zyphra, bu sorunu Cevap Koruyucu Kırpma (AP-Trimming) adı verilen bir yöntemle çözüyor.

AP-Trimming, bir film editörünün uzun bir sahneyi kısaltmasına benzer şekilde çalışıyor. Editör sahnenin sonunu (çözümü) ya da tamamını kesmek yerine, karakterin monoloğunun "orta kısmını" çıkarırken problemi ve çözümü koruyor. Bu sayede model, tam iç mantık belleğe sığmasa bile problem ve çözüm arasındaki ilişkiyi öğrenebiliyor.

Markovian RSA: Test süresi hesaplamada devrim

ZAYA1-8B’nin en dikkat çekici özelliği, Markovian RSA adı verilen yeni bir test süresi hesaplama yöntemi. Geleneksel olarak, bir modelin "daha fazla düşünmesini" sağlamak için daha uzun zincirleme akıl yürütme üretmesine izin verilir. Ancak bu durum, modelin odağını kaybetmesine ve "bağlam şişmesine" yol açabilir.

Markovian RSA ise bu sorunu çözmek için "düşünme derinliği" ile "bağlam boyutu" arasındaki bağı koparıyor. Süreç, bilimsel hakem değerlendirme sürecine benzetilebilir:

Model, paralel olarak birden fazla akıl yürütme izi (aday) üretir.
Bu izlerin yalnızca "kuyruklarını" (son birkaç bin token) çıkarır.
Bu kuyruklar, örneklenerek yeni bir "toplama istemi" içinde modele sunulur ve farklı yaklaşımların birleştirilerek daha iyi bir çözüme ulaşılması istenir.

Bu yöntem sayesinde model, bağlam penceresinin asla taşmamasına rağmen süresiz olarak akıl yürütebiliyor. Uygulamada, yalnızca 700 milyon aktif parametreye sahip olan ZAYA1-8B, AIME '25 testinde %91.9’luk bir başarı oranı elde ederek, aktif parametre sayısı kendisinin 30 ila 50 katı olan modellerle aynı seviyeye ulaşıyor.

Küçük model, büyük potansiyel: Yerel kullanım için ideal

ZAYA1-8B’nin sadece 8.4 milyar toplam parametreye sahip olması, onu yerel cihazlara ve uç uygulamalara mükemmel şekilde uygun hale getiriyor. Geleneksel olarak yalnızca büyük bulut tabanlı modellerde bulunan yüksek düzeyde akıl yürütme yeteneklerini, şirketler artık yerel donanımlarına veya uç cihazlarına taşıyabiliyor.

Bu "yerel öncelikli" yaklaşım, veri yerleşimi, gecikme süresi ve sürekli API bağımlılığının yüksek maliyetleri gibi yaygın kurumsal sorunlara da çözüm sunuyor. ZAYA1-8B’nin sunduğu bu esneklik, AI modellerinin gelecekteki dağıtım şekillerini de yeniden şekillendirebilir.

Benchmark sonuçları: Küçük model, büyük performans

Zyphra, ZAYA1-8B’yi "sınıfının en iyisi" olarak konumlandırıyor. Model, hem akademik hem de endüstriyel benchmark testlerinde beklenenin üzerinde sonuçlar elde ediyor. Bu da onu, hesaplama kaynaklarını verimli kullanmak isteyen geliştiriciler için cazip bir seçenek haline getiriyor.

AI dünyası, büyük modellerden verimli modellere doğru kayarken, ZAYA1-8B bu geçişin önemli bir temsilcisi olarak öne çıkıyor. Hem donanım hem de yazılım yeniliklerini bir araya getiren bu model, gelecekteki AI uygulamalarının nasıl şekilleneceğine dair önemli ipuçları sunuyor.

Yapay zeka özeti

8 milyar parametreye rağmen yalnızca 760 milyon aktif parametreyle çalışan ZAYA1-8B, AMD Instinct MI300 GPU’larıyla eğitildi. Ücretsiz ve yerel kullanım için ideal.

Etiketler

#açık kaynaklı ai #yerel ai #yapay zekâ modeli #moe mimarisi #zaya1-8b #amd instict mi300 #ai hesaplama #verimli ai

ZAYA1-8B: AMD MI300’lar ile eğitilen yeni nesil verimli AI modeli

AMD’nin MI300 serisiyle eğitilen ilk büyük model

MoE++ mimarisi: Standart Transformer’lardan farklılaşma

Akıl yürütmeyi önceliklendiren eğitim süreci

Markovian RSA: Test süresi hesaplamada devrim

Küçük model, büyük potansiyel: Yerel kullanım için ideal

Benchmark sonuçları: Küçük model, büyük performans

Yorumlar

Veritabanı Geliştirmeyi Kolaylaştıracak Sıfır Geçişli Postgres Sanal Ortamları

Elon Musk’un OpenAI’yi çocuklarına devretmeyi düşündüğü ortaya çıktı

Akıllı Cihazlar İçin 26 Milyon Parametreli Fonksiyon Çağırma Modeli: Needle