Anthropic’in Claude modellerinde performans düşüklüğü yaşandı: Neler oldu?

Yaklaşık üç aydır, geliştiriciler ve yapay zeka meraklıları Anthropic’in lider yapay zeka modellerinin performansında tuhaf bir gerileme yaşandığını bildiriyorlardı. Bu kullanıcılar, GitHub, X ve Reddit platformlarında modelin artık karmaşık görevleri çözerken eskisi kadar derin ve güvenilir olmadığını, hatta "token israfı" yaşadığını öne sürerek "yapay zeka enflasyonu" terimini kullanmaya başladılar.

Kullanıcıların öne sürdüğü bu iddialar, modelin "araştırma odaklı" yaklaşımından, daha tembel bir "düzenleme odaklı" stile kaydığını ve artık karmaşık mühendislik projelerinde güvenilir olmadığını gösteriyordu. Anthropic bu iddialara ilk etapta karşı çıksa da, hem önde gelen kullanıcıların hem de üçüncü parti benchmark testlerinin sonuçları, modelin performansında gerçek bir düşüş olduğunu doğruladı.

Anthropic, bugün yaptığı resmi açıklamada, bu kalite sorunlarının arkasında yatan üç teknik değişikliği detaylandırdı. Şirket, "Model ağırlıklarında herhangi bir gerileme olmadığını" vurgulayarak, "API ve çıkarım katmanının etkilenmediğini" belirtti.

Performans düşüşüne dair kanıtlar neleri gösterdi?

Sorunlar, Nisan 2026’nın başlarında daha da belirgin hale geldi. AMD’nin AI grubunda kıdemli direktör olarak görev yapan Stella Laurenzo, GitHub üzerinde 6.852 adet Claude Code oturumunu ve 234 binden fazla araç çağrısını analiz etti. Bu incelemede, modelin akıl yürütme derinliğinin önemli ölçüde azaldığını ve "en basit çözümü" tercih etme eğiliminde olduğunu ortaya koydu.

Bu teknik bulgular, üçüncü parti benchmark testleriyle de desteklendi. BridgeMind tarafından yapılan bir değerlendirmede, Claude Opus 4.6 modelinin doğruluk oranının %83,3’ten %68,3’e düştüğü ve sıralamadaki yerinin 2’den 10’a gerilediği bildirildi. Bazı araştırmacılar, bu karşılaştırmaların farklı test kapsamlarından kaynaklandığını öne sürerek bu sonuçlara karşı çıktılar. Bununla birlikte, modelin "daha aptal" hale geldiği algısı hızla yayıldı. Kullanıcılar ayrıca, token limitlerinin beklenenden daha hızlı tükendiğine dair şikayetlerde bulundu. Bu durum, Anthropic’in talebi yönetmek amacıyla kasıtlı olarak performansı düşürdüğü yönündeki spekülasyonlara yol açtı.

Performans düşüşünün arkasındaki teknik nedenler

Anthropic’in yaptığı teknik incelemede, model ağırlıklarında herhangi bir değişiklik olmadığı, ancak modeli çevreleyen "kullanım altyapısındaki" (harness) üç farklı değişikliğin performansı olumsuz etkilediği ortaya çıktı:

Varsayılan Akıl Yürütme Çabası Değişikliği: 4 Mart tarihinde Anthropic, kullanıcı arayüzünde yaşanan gecikmeleri azaltmak amacıyla Claude Code için varsayılan akıl yürütme çabasını yüksek seviyeden orta seviyeye düşürdü. Bu değişiklik, arayüzün model düşünürken "donmuş" görünmesini engellemeyi hedefliyordu. Ancak karmaşık görevlerde modelin performansında belirgin bir düşüş yaşandı.

Önbellekleme Hatası: 26 Mart tarihinde yayınlanan bir optimizasyon güncellemesi, boşta kalan oturumlardaki "düşünme" geçmişini temizlemek üzere tasarlanmıştı. Ancak bu güncellemede ciddi bir hata vardı: Eski düşünme geçmişini bir saatten sonra temizlemek yerine, her yeni adımdan sonra temizliyordu. Bu durum, modelin "kısa süreli hafızasını" kaybetmesine ve tekrarlayıcı ya da unutkan davranmasına neden oldu.

Sistem İstemi Sınırlaması: 16 Nisan tarihinde Anthropic, Opus 4.7 modelinde aracı çağrılar arasındaki metinleri 25 kelimenin altında ve nihai yanıtları 100 kelimenin altında tutacak şekilde sistem istemine yeni kısıtlamalar ekledi. Bu değişiklik, modelin yanıtlarının daha az "geveze" olmasını sağlamayı amaçlıyordu. Ancak yapılan değerlendirmelerde kodlama kalitesinde %3’lük bir düşüş yaşandığı görüldü.

Etkiler ve gelecek koruma önlemleri

Bu kalite sorunları sadece Claude Code CLI aracını değil, aynı zamanda Claude Agent SDK ve Claude Cowork araçlarını da etkiledi. Claude API bu sorundan muaf kaldı.

Anthropic, yapılan değişikliklerin modelin "daha az zeki" görünmesine yol açtığını kabul etti. Şirket, kullanıcı güvenini yeniden kazanmak ve gelecekte benzer sorunların yaşanmasını önlemek amacıyla bir dizi operasyonel değişikliğe gitti:

Dahili Kullanım Yükümlülüğü: Tüm Anthropic çalışanlarının, kamuya açık Claude Code sürümlerini kullanmaları zorunlu hale getirildi. Bu sayede iç kullanım ve dış kullanım arasındaki farklar minimize edilecek.

Geliştirilmiş Değerlendirme Setleri: Şirket, her sistem istemi değişikliği için daha geniş bir değerlendirme seti ve "ablasyon" testi uygulayarak, spesifik talimatların etkisini izole edecek.

Daha Sıkı Denetimler: Yeni araçlar geliştirildi; sistem istemi değişikliklerinin kolayca denetlenebilmesi ve model spesifik değişikliklerin yalnızca hedef modellere uygulanması sağlandı.

Kullanıcı Tazminatı: Yaşanan token israfı ve performans sorunları nedeniyle Anthropic, 23 Nisan itibarıyla tüm kullanıcıların token limitlerini sıfırladı.

Anthropic, gelecekteki ürün kararlarını daha şeffaf bir şekilde paylaşmak ve geliştirici topluluğuyla daha yakın bir iletişim kurmak amacıyla yeni kurulan @ClaudeDevs X hesabı ve GitHub forumlarını aktif olarak kullanmayı planlıyor.

Bu gelişmeler, yapay zeka modellerinin geliştirilmesi ve dağıtımında karşılaşılan zorlukların ne kadar karmaşık olabileceğini bir kez daha gözler önüne seriyor. Kullanıcı güveninin yeniden inşa edilmesi için şirketlerin sadece teknolojik yeniliklere değil, aynı zamanda operasyonel şeffaflığa da odaklanmaları gerekiyor.

Yapay zeka özeti

Anthropic reveals causes of Claude AI degradation and implements changes to resolve performance issues and maintain user trust

Etiketler

#anthropic #claude ai #anthropic claude #anthropic claude performans düşüşü #claude modelleri teknik hata #yapay zeka modeli kalite sorunları #claude code performans incelemesi #ai modeli gerileme nedenleri #claude ki #ki leistungsabfall #ai shrinkflation #ai performance #transparency #user trust

Anthropic’in Claude modellerinde performans düşüklüğü yaşandı: Neler oldu?

Performans düşüşüne dair kanıtlar neleri gösterdi?

Performans düşüşünün arkasındaki teknik nedenler

Etkiler ve gelecek koruma önlemleri

Yorumlar

Spotify’dan Yapay Zeka Sanatçılara Karşı Doğrulanmış Sanatçı rozeti

Müşteri Hizmetlerinde AI Devrimi: Netomi 110 Milyon Dolar Yatırım Aldı

AWS'ın OpenAI hamlesi: Bulut savaşlarında yeni bir dönem başlıyor