Bir kod taşıma aracının görevini tamamladığını bildirmesi, ancak birkaç dosyanın derlenmediğini fark etmek uzun bir süreyi alabilir. Bu durum modelin başarısızlığı değil, ajanın görevi bitirmeden durmaya karar vermesinin sonucudur. Üretimdeki AI ajanlarının zorlandığı nokta da tam burada ortaya çıkıyor: modellerin yetenekleri yeterli olsa da, ajanlar görevlerini tamamlamadan önce kendi kendilerine "yeter" diyebiliyor.
LangChain, Google ve OpenAI gibi platformlar bu sorunu çözmek için farklı yöntemler sunarken, Anthropic yeni bir yaklaşımla devreye giriyor. Claude Code’un `/goals` özelliği, ajanların görev yürütme ve görev değerlendirme süreçlerini resmen ayırarak, projelerinizin tamamlanma durumunu daha güvenilir şekilde doğrulamanıza olanak tanıyor.
AI ajanlarında 'bitir' kararını kim veriyor?
Kodlama ajanları genellikle şu döngüyü takip eder: dosyaları okur, komutları çalıştırır, kodu düzenler ve ardından görevin tamamlanıp tamamlanmadığını kontrol eder. Bu döngü sırasında ajan, kendi yürüttüğü adımları değerlendirmek zorunda kalır — ki bu da hatalara yol açabilir.
Anthropic’in /goals sistemi, bu sürece ikinci bir katman ekleyerek durumu değiştiriyor. Kullanıcı bir hedef tanımladıktan sonra Claude Code, her adımın ardından görev tamamlanma durumunu bağımsız bir değerlendirme modeliyle kontrol ediyor. Böylece ajan, kendi kendine "yeter" demeden önce üçüncü bir tarafın onayını almış oluyor.
Varsayılan olarak Haiku modelini kullanan bu değerlendirme sistemi, görevin tamamlanıp tamamlanmadığını sadece iki kararla belirliyor:
- Hepsi tamamlandı mı? (örneğin, tüm testler başarılı oldu mu?)
- Koşullar karşılanıyor mu? (örneğin, lint adımları temiz mi?)
Eğer herhangi bir koşul karşılanmıyorsa, ajan görevini sürdürmeye devam ediyor. Bu sayede, modellerin kendi kendilerini yanıltma riski ortadan kalkıyor.
Rekabetin yoğunlaştığı değerlendirme modelleri
OpenAI, LangGraph ve Google’ın Agent Development Kit (ADK) gibi platformlar da benzer sorunları ele alıyor, ancak yaklaşımları farklılık gösteriyor:
- OpenAI: Modelin kendi kararına bırakıyor, ancak kullanıcıların kendi değerlendirme sistemlerini entegre etmelerine izin veriyor.
- LangGraph & Google ADK: Bağımsız değerlendirme için geliştiricilerin "eleştirmen düğümünü" tanımlamasını ve sonlandırma mantığını kodlamasını gerektiriyor.
- Anthropic /goals: Değerlendirmeyi varsayılan olarak entegre ediyor ve geliştiricilerin sadece hedef koşullarını belirtmesini sağlıyor.
Google ADK, LoopAgent kullanarak benzer bir değerlendirme sistemi sunarken, geliştiricilerin bu mantığı manuel olarak oluşturması gerekiyor. Anthropic’in yaklaşımının avantajı ise bu süreci varsayılan olarak sunması ve ek sistemlere ihtiyaç duymaması.
İşletmeler için güvenilirlik ve basitleştirme
Kurumsal BT ekipleri için /goals gibi yerleşik değerlendirme sistemleri, üçüncü taraf izleme araçlarına olan bağımlılığı azaltıyor. Bu da karmaşık araç zincirlerinin yönetimini kolaylaştırıyor ve post-mortem analizlere olan ihtiyacı azaltıyor.
Bu yaklaşım, özellikle uzun süreli ve kendi kendini iyileştiren ajanlar için önem kazanıyor. Değerlendirici modeller ve doğrulama sistemleri, sadece kodlama ajanlarında değil, aynı zamanda çok modlu görevlerde de kullanılmaya başlandı. Meta’nın yakın zamanda tanıttığı HyperAgents gibi projeler, ajanların kendi performanslarını ölçebilecekleri sistemleri araştırıyor.
Uzman görüşü: Ayrımın mantığı nedir?
Sprinklr’ın Çözümler Direktörü Sean Brownell, ajanın yaptığı işi değerlendirmesinin mantıksız olduğunu vurguluyor: "Modelin kendi yaptığı işi değerlendirmesi güvenilir değildir. Temelde, bir öğrencinin kendi ödevini notlandırmasına benzer bir durum söz konusu."
Brownell, bu ayrımın özellikle belirlenmiş bir son duruma sahip deterministik görevler için (örneğin kod taşıma, test paketlerini düzeltme) etkili olduğunu belirtiyor. Ancak tasarım kararı gerektiren daha karmaşık görevlerde, nihai onayın bir insan tarafından verilmesi gerektiğini ekliyor:
"Bu döngü çalışıyor. Yapıcı ile yargıcı ayırmak, sağlam bir tasarım ilkesi çünkü modeller kendi ödevlerini değerlendiremez. Ancak Anthropic’in yaklaşımı benzersiz değil — diğer büyük AI laboratuvarları da benzer komutları neredeyse aynı zamanda yayınladı. İlginç olan, 'bitirildi' kararını kimin vereceği konusunda farklı yaklaşımlara sahip olmaları."
Gelecekteki AI ajanları için ne anlam taşıyor?
Claude Code’un /goals sistemi, ajan tabanlı sistemlerin daha denetlenebilir ve güvenilir hale gelmesine katkıda bulunuyor. Bu durum, özellikle regülasyonların sıkı olduğu sektörlerde ve üretim ortamlarında AI kullanımını daha da yaygınlaştırabilir.
AI ajanları geliştikçe, değerlendirme ve doğrulama sistemlerinin entegrasyonu giderek standart hale gelecek. Bu sayede, projelerinizin tamamlandığından emin olmak sadece bir modelin kendi kararına bırakılmayacak — sistemin tüm adımları bağımsız olarak doğrulayabilecek.
İster küçük bir geliştirme ekibi olun, ister büyük bir şirkette çalışan bir BT yöneticisi, ajanlarınızın görevlerini güvenilir bir şekilde tamamladığından emin olmanın zamanı geldi.
Yapay zeka özeti
Claude Code’un yeni /goals sistemiyle AI ajanlarının görevleri erkenden bitirmesi nasıl engelleniyor? Değerlendirme modeli ayrımı, işletmeler için ne anlam taşıyor? Ayrıntıları okuyun.

