Yapay zekâ dünyasında, en gelişmiş modeller genellikle veri merkezlerine dayalı varsayımlar üzerine inşa edilir: büyük GPU’lar, yüksek bellek bant genişliği ve güvenilir ağ erişimi. Peki ya fiziksel sistemler tam tersini gerektiriyorsa?
General Instinct’in kurucuları Guanming ve Bill, robotik projelerinde karşılaştıkları bu sorunun peşine düştüler. Yıllar süren araştırma ve geliştirme sonucunda, sınır modellerinin (frontier models) bile kenar cihazlarda verimli bir şekilde çalıştırılabileceği bir yöntem geliştirdiler. Bu yaklaşım, hem donanım kısıtlamalarını aşmayı hem de yapay zekâ performansını korumayı hedefliyor.
Yerleşik Donanımlarda Sınır Modelleri: Mevcut Durum ve Zorluklar
Yapay zekâ modellerinin çoğu, veri merkezlerinde optimize edilmiş olarak tasarlanıyor. Oysa robotik sistemler, IoT cihazları ya da mobil platformlar genellikle sınırlı bellek, düşük hesaplama gücü ve kesintili ağ bağlantısı gibi kısıtlara sahip. Bu durum, en gelişmiş modellerin bile pratik kullanımını engelliyor.
General Instinct’in çözümü, modellerin sadece gerekli bileşenlerini koruyarak boyutlarını küçültmek ve performans kaybını minimize etmek üzerine odaklanıyor. Bu sayede, Qwen3.5-122B-A10B gibi devasa modellere rağmen, yerleşik cihazlarda verimli çalışabilen çözümler sunuluyor.
InstinctRazor ile Model Sıkıştırma: Teknik Detaylar
Geliştirilen InstinctRazor aracı, karmaşık modellerin yerleşik donanımlara uyarlanmasını kolaylaştırıyor. Projenin en dikkat çekici başarısı, 245 GB’lık bir BF16 MoE modelinin (Qwen3.5-122B-A10B) 48 GiB GGUF formatına sıkıştırılması oldu. Bu sıkıştırma işlemi sırasında, modelin sürekli aktif olan bileşenleri (yönlendirici, normlar, Gated-DeltaNet/SSM katmanları, görüntü yolu vb.) korunurken, yönlendirilen uzmanlar (experts) daha agresif bir şekilde nicemlendirildi.
Model sıkıştırma sürecinde kullanılan temel adımlar:
- Aktif bileşenlerin korunması
- Uzmanların nicemlenmesi
- Politika tabanlı distilasyon ile kayıp performansın telafi edilmesiSonuç olarak ortaya çıkan model, Gemma-4-26B-A4B gibi daha küçük modellere göre MMLU-Pro ve GPQA-D gibi benchmark testlerinde daha yüksek performans gösterdi. Bu başarı, yapay zekâ modellerinin yerleşik cihazlarda da yüksek verimlilikle çalışabileceğini kanıtlıyor.
Küçük GPU’lar için Optimize Edilmiş Çözüm
General Instinct’in sunduğu bir diğer yenilik ise "küçük GPU" konfigürasyonu. Bu yapıda, uzmanlar sistem RAM’inden akış halinde yükleniyor. 8k bağlam penceresinde, tepe VRAM kullanımı yalnızca 7.6–8 GB arasında kalıyor. Bu da modellerin orta ölçekli grafik işlemcilerde bile rahatça çalıştırılabilmesini sağlıyor.
# Küçük GPU konfigürasyonunda önerilen çalıştırma komutu
model.run(mode="streaming", context_window=8192, vram_limit=8)Gelecekteki Uygulamalar: Robotik ve Ötesi
General Instinct’in hedefi, yapay zekâ modellerini sadece veri merkezlerinde değil, robotlar, otonom sistemler ve diğer yerleşik cihazlarda da kullanılabilir hale getirmek. Bu yaklaşımın en büyük avantajı, modellerin internet bağlantısına ihtiyaç duymadan, gerçek zamanlı olarak çalışabilmesi.
Ekip, özellikle robotik ve otonom sistemler üzerinde çalışan geliştiricilerden geri bildirim almak istiyor. Hangi modellerin yerel olarak çalıştırılmaya çalışıldığı ve karşılaşılan en büyük zorlukların neler olduğunu öğrenmek, gelecekteki iyileştirmeler için kritik önem taşıyor.
Yerleşik yapay zekâ alanındaki bu yenilikler, teknoloji dünyasında yeni bir dönemin başlangıcı olabilir. Geliştiriciler ve araştırmacılar, artık sınır modellerini sadece veri merkezlerinde değil, her yerde çalıştırabilecek araçlara sahip olacaklar. Bu da yapay zekâ uygulamalarının yaygınlaşmasını ve daha erişilebilir hale gelmesini sağlayabilir.
Yapay zeka özeti
General Instinct’in InstinctRazor’u ile Qwen3.5-122B-A10B gibi dev modelleri 48 GB’a sıkıştırın. Robotik ve yerleşik sistemlerde yapay zekâ uygulamalarını kolaylaştıran yenilikleri keşfedin.


