Bulut tabanlı yapay zekâ ajanlarının maliyetini düşürmek için önerilen standart reçete basittir: karmaşık planlama için güçlü bir model, uygulama içinse yerel olarak çalıştırılan ucuz modeller kullanmak. Bu yaklaşımın mantığı, yerel modellerin token maliyetinin sıfır olmasından kaynaklanır. Ancak gerçek dünya verileri, bu reçetenin her zaman işe yaramadığını ortaya koyuyor.
Yeni bir araştırma, opsiyonel olarak “ücretsiz” kabul edilen bu stratejinin, aslında en pahalı bulut maliyetine yol açabileceğini gösteriyor. Deneyler sırasında, Opus 4.7’nin planlama görevini üstlendiği ve Qwen 3.5-9B’in yerel olarak çalıştırıldığı kombinasyon, hem tek başına Opus’a hem de diğer hibrit modellere kıyasla daha yüksek maliyetlere sebep oldu. Elde edilen sonuçlar, yalnızca 40 deneme üzerinden ölçülmüş olsa da, bulut maliyetleri konusunda dikkate alınması gereken önemli bir paradoksu ortaya koyuyor.
Maliyet Paradoksu: Ücretsiz Çalıştırıcı Neden En Pahalısı Oldu?
Araştırmanın yazarı, Opus 4.7’nin planlama modeli olarak kullanıldığı ve Qwen 3.5-9B’in yerel ortamda çalıştırıldığı dördüncü bir konfigürasyonu, opsiyonel olarak “ücretsiz” olarak tanımlıyordu. Nedeni, yerel modelin token maliyetinin sıfır olmasıydı. Ancak yapılan 40 denemede, bu kombinasyonun hem tek başına Opus’a hem de Opus ile daha ucuz bir modelin (Haiku 4.5) birlikte kullanıldığı senaryoya kıyasla daha yüksek maliyetlere yol açtığı gözlemlendi.
Deneylerde kullanılan dört farklı konfigürasyon şu şekildeydi:
- Opus 4.7 (solo): Tüm görevleri tek başına gerçekleştiren güçlü model.
- Opus 4.7 + Qwen 3.5-9B (yerel): Opus planlama ve doğrulama yaparken, Qwen yerel ortamda uygulamayı gerçekleştiriyor.
- Opus 4.7 + Haiku 4.5 (bulut): Opus planlama ve doğrulama yaparken, Haiku uygulamayı gerçekleştiriyor.
- Haiku 4.5 (solo): Tüm görevleri tek başına gerçekleştiren ucuz model.
Her bir konfigürasyon, str_replace_editor ve bash araçlarıyla donatılmıştı. Opus tabanlı kombinasyonlarda ayrıca delegate_to_executor aracı da bulunuyordu. Tüm denemelerde Anthropic’in prompt önbellekleme özelliği etkinleştirilmişti ve sistem mesajları ile araç tanımları önbelleğe alınıyordu.
Gerçek Veriler: Hangi Konfigürasyon En İyi?
Deneylerde üç farklı görev kullanıldı:
- T1 — Hata düzeltme: AST üzerinden 25 hata enjekte edildi (10 mypy, 10 ruff, 5 pytest hatası). Ajanın tüm hataları gidererek testleri geçmesi gerekiyordu.
- T2 — Refaktör:
get_params_from_functionfonksiyonununtyper/utils.pydosyasından yeni bir moda (typer/_param_extractor.py) taşınması ve tüm ithalatlarda gerekli güncellemelerin yapılması. - T3 — Yeni özellik ekleme:
get_version_bannerfonksiyonunun eklenmesi ve SHA-256 parmak izi doğrulamasının gerçekleştirilmesi.
Her görev için başarılı olan denemelerin ortanca süre, iterasyon sayısı ve maliyet değerleri şu şekildeydi:
| Konfigürasyon | Görev | Başarı Oranı | Süre (saniye) | Maliyet (USD) | |---------------|-------|--------------|---------------|---------------| | Opus solo | T1 | 100% | 253 | 1.74 | | Opus solo | T2 | 75% | 233 | 1.11 | | Opus solo | T3 | 100% | 69 | 0.17 | | Opus + Qwen | T1 | 75% | 484 | 2.27 | | Opus + Qwen | T2 | 100% | 443 | 1.38 | | Opus + Qwen | T3 | 100% | 348 | 0.42 | | Opus + Haiku | T1 | 100% | 400 | 1.67 | | Opus + Haiku | T2 | 100% | 275 | 0.92 | | Opus + Haiku | T3 | 100% | 145 | 0.38 | | Haiku solo | T1 | 75% | 758 | 0.30 | | Haiku solo | T2 | 75% | 507 | 0.23 | | Haiku solo | T3 | 100% | 208 | 0.08 |
Tablodan da görüldüğü gibi, Opus + Qwen kombinasyonu, her üç görevde de en yüksek maliyete sahip oldu. Qwen’in token maliyeti olmamasına rağmen, Opus’un prompt önbelleğini yeniden okuması nedeniyle toplam maliyet arttı. Örneğin, T3 görevinde Opus’un yalnız çalıştırılması 0.17 USD olurken, Opus + Qwen kombinasyonu 0.42 USD’ye ulaştı.
Nedenler: Prompt Önbelleği Yeniden Okumaları
Araştırmada, Opus’un girdi ve önbellek okuma token sayısı da ölçüldü. Sonuçlar, Opus + Qwen kombinasyonunun, yalnız Opus’a kıyasla token tüketimini önemli ölçüde artırdığını gösterdi:
- T1: 534,586 (Opus solo) vs 733,142 (Opus + Qwen)
- T2: 226,474 (Opus solo) vs 313,914 (Opus + Qwen)
- T3: 13,320 (Opus solo) vs 62,864 (Opus + Qwen)
Bu farkın kaynağı, Qwen’in görev tamamlandığında geri gönderdiği özet mesajıdır. Bu mesaj, Anthropic’in prompt önbellekleme sistemi tarafından kaydedilir ve Opus tarafından her seferinde yeniden okunur. Her okuma işlemi, cache_read olarak faturalandırılır ve maliyetin artmasına neden olur. Qwen’in token maliyeti sıfır olsa da, Opus’un bu özetleri sürekli okuması, toplam maliyeti artırır.
Doğru Yaklaşım: Maliyeti Kontrol Etmek
Araştırma sonuçları, basit reçetelerin her zaman işe yaramadığını gösteriyor. Maliyetleri optimize etmek için yalnızca model seçimlerine değil, aynı zamanda kullanılan araçların ve protokollerin nasıl etkileşime girdiğine de dikkat etmek gerekiyor. Opus + Haiku kombinasyonu, hem maliyet hem de başarı oranı açısından daha dengeli bir seçenek olarak öne çıkıyor. Haiku’nun tek başına kullanılması ise en ucuz seçenek olsa da, başarısızlık oranının yüksek olması nedeniyle riskli bulunuyor.
Bulut tabanlı yapay zekâ ajanlarının maliyetlerini yönetmek karmaşık bir süreç olabilir. Bu nedenle, her proje için en uygun konfigürasyonun dikkatlice değerlendirilmesi ve test edilmesi önem taşıyor. Gelecekteki araştırmalar, farklı kombinasyonların ve protokollerin nasıl optimize edilebileceğine odaklanabilir.
Bu makalenin verileri, Zenodo ve GitHub üzerinden erişilebilir durumda. Ayrıntılı analiz ve kodlara bu platformlardan ulaşabilirsiniz.
Yapay zeka özeti
Yerel modellerin token maliyeti sıfır olsa da, bulut tabanlı planlama modellerinin prompt önbellek okumaları nedeniyle toplam maliyet artabiliyor. Opus 4.7 + Qwen 3.5-9B kombinasyonunun neden en pahalı seçenek olduğunu araştırdık.