Apple’ın M5 Max çipiyle çalışan MacBook Pro modelleri, yapay zeka uygulamalarında giderek daha fazla tercih ediliyor. Bu cihazlarda yer alan yüksek performanslı Neural Engine ve gelişmiş bellek mimarisi, özellikle uzun bağlamlı büyük dil modellerinin (LLM) çalıştırılmasında yeni olanaklar sunuyor. Geçtiğimiz günlerde yayınlanan bir dizi test, TurboQuant adlı optimize edilmiş K/V (anahtar/değer) önbellekleme yönteminin performans ve kalite üzerindeki etkilerini mercek altına aldı. Bugün, bu testlerin ikinci bölümünde yer alan perpleksite, KL ayrışımı ve asimetrik K/V kombinasyonları detaylı bir şekilde inceleniyor.
Performans ve Kalite Ölçümlerinde Yeni Veriler
Geçen haftaki ilk testlerde, q8_0 ve diğer sıkıştırma yöntemlerinin performans karşılaştırmaları yapılmıştı. Ancak kullanıcılardan gelen talepler doğrultusunda, perpleksite ve KL ayrışımı gibi kalite metrikleri de eklendi. Bu metrikler, modelin ürettiği çıktının ne kadar güvenilir olduğunu ölçmek için kullanılıyor. Testler, wikitext-2-raw veri seti üzerinde, 4096 bağlam boyutu kullanılarak gerçekleştirildi. Bu boyut, K/V önbelleğinin doluluğunu artırarak sıkıştırmanın etkilerini daha net ortaya koyuyor.
q8_0 ile Elde Edilen Sonuçlar
- Perpleksite (PPL): 5.7433 ± 0.0355
- KL ayrışımı (KL divergence): 0.0016 ± 0.0001
- En iyi token uyumu (Top-1 token agreement): %98.64 ± 0.03
Bu sonuçlar, q8_0 sıkıştırma yönteminin f16 (ondalık hassasiyet) kadar güvenilir çıktılar ürettiğini gösteriyor. Perpleksitedeki fark sadece -0.0005 olarak ölçülürken, KL ayrışımı da oldukça düşük kaldı. Bu da demek oluyor ki, q8_0, M5 Max üzerinde neredeyse hiç kalite kaybına neden olmadan kullanılabiliyor.
turbo3 ve turbo4 ile Elde Edilen Sonuçlar
Turbo3 ve turbo4, daha yüksek sıkıştırma oranları sunan yöntemler olarak öne çıkıyor. Ancak bu sıkıştırmanın kalite üzerinde bazı etkileri olduğu görülüyor:
- turbo3:
- Perpleksite: 5.8092 ± 0.0360 (yaklaşık %1 artış)
- KL ayrışımı: 0.0199 ± 0.0002
- En iyi token uyumu: %93.93 ± 0.06
- turbo4:
- Perpleksite: 5.7810 ± 0.0359
- KL ayrışımı: 0.0131 ± 0.0003
- En iyi token uyumu: %95.28 ± 0.06
Bu sonuçlar, sıkıştırma oranı arttıkça kalite kaybının da arttığını gösteriyor. turbo4, turbo3’e göre daha iyi sonuçlar sunarken, q8_0 kadar güvenilir değil. Yine de, sıkıştırma avantajları nedeniyle bazı kullanım senaryolarında tercih edilebilir.
Asimetrik K/V Kombinasyonlarının Performansı
K/V önbelleğinin anahtar (K) ve değer (V) bölümlerinin farklı sıkıştırma seviyelerinde kullanılması, performansı önemli ölçüde etkileyebiliyor. Özellikle anahtarların hassasiyeti, çıktı kalitesinde büyük rol oynuyor. Bu nedenle, asimetrik kombinasyonların performansını ölçmek için üç farklı yapı test edildi:
- q8_0 K / turbo4 V
- q8_0 K / turbo3 V
- f16 K / turbo4 V
q8_0 K / turbo4 V: Uzun Bağlam İçin En İyi Seçenek
Bu kombinasyon, uzun bağlamlı uygulamalarda mükemmel performans sunuyor. Örneğin:
- 256K bağlamda dekodlama hızı: 27.1 token/saniye
- Prefill hızı: 128 token/saniye
- 512K bağlamda çalışabilme yeteneği (simetrik q8_0’ın hata verdiği durumda)
Bu kombinasyon, q8_0 seviyesinde kalite sunarken, turbo4 seviyesinde bellek kullanımı sağlıyor. Yani, hem performans hem de bellek verimliliği açısından ideal bir denge sunuyor.
q8_0 K / turbo3 V: Daha Düşük Performans
Bu kombinasyon da uzun bağlamlı uygulamalarda kullanılabiliyor, ancak dekodlama hızı daha düşük:
- 256K bağlamda dekodlama hızı: 25.0 token/saniye
- Prefill hızı: 126 token/saniye (q8_0/turbo4’e oldukça yakın)
Bu kombinasyonun performansı, turbo4’e göre daha düşük olsa da, bazı senaryolarda tercih edilebilir.
f16 K / turbo4 V: Kaçınılması Gereken Kombinasyon
Bu kombinasyon, Metal FlashAttention çekirdeğinin hızlı yolunu kullanamadığı için ciddi performans kayıplarına neden oluyor:
- 8K bağlamda yavaşlama: 34 kat daha yavaş
- 32K bağlamda yavaşlama: 65 kat daha yavaş
- 128K bağlamda yavaşlama: 78 kat daha yavaş
Bu nedenle, f16 K / turbo4 V kombinasyonundan kaçınılması gerekiyor.
Gelecek İçin Öneriler
Bu testler, TurboQuant ve asimetrik K/V kombinasyonlarının performans ve kalite üzerindeki etkilerini net bir şekilde ortaya koyuyor. M5 Max üzerinde çalışan MacBook Pro kullanıcılarının, özellikle uzun bağlamlı uygulamalar için q8_0 K / turbo4 V kombinasyonunu tercih etmeleri öneriliyor. Bu kombinasyon, hem performans hem de bellek verimliliği açısından en iyi dengeyi sunuyor. Gelecekte yapılacak testlerde, daha derin bağlamlarda (örneğin 128K ve üzeri) performans ve kalite ölçümlerinin yapılması planlanıyor. Bu sayede, K/V önbellekleme stratejilerinin uzun vadeli etkileri daha iyi anlaşılabilecek.
Yapay zeka özeti
Apple’ın M5 Max çipi üzerinde TurboQuant ile yapılan testler, K/V önbellekleme stratejilerinin performans ve kalite üzerindeki etkilerini ortaya koyuyor.