AI ajanlarının güvenilirliği üzerine çalışan ekiplerin en çok karşılaştığı sorunlardan biri, üretimdeki bir hatayı araştırırken yaşanan kâbus senaryosudur: "Olay neydi ve nasıl oldu?" sorusuna yanıt bulmak neredeyse imkânsız hale gelir. SafeRun adlı güvenilirlik altyapısı projesinin arkasındaki ekibin keşfettiği üzere, bu sorunun çözümü yeniden oynatma (Replay) yeteneğinde gizli.
AI ajanlarında güvenilirlik sorunu: İzleri takip etmek neden yeterli değil?
LangSmith, Langfuse ve benzeri gözlem araçları, AI ajanlarının üretimdeki davranışlarını kaydetme konusunda oldukça başarılı. Bu araçlar, bir aracın ne yaptığını ayrıntılı olarak gösterebiliyor. Ancak, "ne yaptığını" bilmek, "nasıl yaptığını" anlamaktan çok farklı. Bir aracın bir hatayı nasıl ürettiğini yeniden inşa etmek neredeyse imkânsız hale geliyor. Loglar düz, karar zinciri arasındaki ara adımlar eksik, araç çağrılarının parametreleri belirsiz ve modelin karar süreciyle ilgili hiçbir ipucu bulunmuyorsa, mühendisler haftalarca süren araştırmalar yapmak zorunda kalıyor.
Mühendislerin karşılaştığı tipik bir senaryo şudur: Bir AI aracı üretimde yanlış bir Stripe işlemi gerçekleştirdiğinde, sorunu araştırmaya başlayan ekip, loglarda sadece "4.500 dolarlık bir iade işlemi" ibaresini görüyor. İşlemin neden yanlış olduğunu anlamak içinse, modelin karar sürecini adım adım yeniden inşa etmek gerekiyor. Bu süreçte, modelin planlama adımında is_refund: false olarak kaydedilmişken, sonradan bu boolean değerinin nasıl değiştiği ortaya çıkıyor. Yeniden oynatma yeteneği olmadan, bu sorunun kökenini bulmak imkânsız hale geliyor.
Yeniden oynatma (Replay): Güvenilirliğin temel taşı
SafeRun ekibi, AI ajanlarının güvenilirliğini sağlamak için dört aşamalı bir döngü öneriyor: Yeniden oynat → Anla → Kural oluştur → Önle. Bu döngüde ilk adım olan yeniden oynatma, diğer tüm adımların temelini oluşturuyor. Bir hatayı yeniden üretemiyorsanız, nedenini anlamanız, kural oluşturmanız ya da gelecekteki hataları önlemeniz neredeyse imkânsız hale geliyor.
Yeniden oynatma yeteneği, AI aracının karar sürecini adım adım yeniden inşa etmeyi sağlıyor. Bu sayede, modelin hangi verileri kullandığını, hangi kararları aldığını ve hangi araçları çağırdığını net bir şekilde görebiliyorsunuz. Örneğin, Stripe örneğinde olduğu gibi, modelin bir boolean değeri yanlışlıkla değiştirdiğini ve bunun sonucunda yanlış bir işlem gerçekleştirdiğini tespit edebiliyorsunuz. Bu bilgiler ışığında, hem kök nedeni hem de gelecekte benzer hataların nasıl önleneceğini belirleyebiliyorsunuz.
SafeRun’ın yol haritası: Yeniden oynatmadan koruma mekanizmalarına
SafeRun’ın geliştirme süreci, yeniden oynatma yeteneğinin üzerine inşa edilmiş altı ana aşamadan oluşuyor:
- Sıfırıncı Aşama: Altı farklı hata simülasyonu içeren çalışan bir prototip oluşturuldu. Bu simülasyonlar arasında Stripe boolean problemi de yer alıyor.
- Birinci Aşama: Replays verilerinin kalıcı olarak saklanmasını sağlayan bir Supabase altyapısı kuruldu. Bu sayede, sayfa yenilemesi, tarayıcı kapatılması ya da hesap değiştirilmesi durumunda bile yeniden oynatmalar kaybolmuyor.
- İkinci Aşama: Karar anında bağlam yakalama yeteneği eklendi. Bu, API çağrılarının 50 milisaniyenin altında yanıt vermesini sağlayan bir yapıya sahip.
- Üçüncü Aşama: Python ve TypeScript SDK’ları yayınlandı. Üç satırlık bir kurulumla herhangi bir aracı koruma altına alabiliyorsunuz.
- Dördüncü Aşama: Niyet koruma mekanizması eklendi. Bu sayede, doğru şekle sahip ancak yanlış niyete sahip araç çağrıları yakalanabiliyor. Örneğin, bir ödeme yerine iadeyi tetiklemek gibi durumlar önleniyor.
- Beşinci Aşama: Çok kullanıcılı yapıya geçildi. Proje bazlı API anahtarları, ortam ayrımı (geliştirme, test, üretim) ve yeniden oynatma verilerinin gizliliğini sağlayan yapılar eklendi.
Bu aşamaların her biri, yeniden oynatma yeteneğinin üzerine inşa edilmiş durumda. Her yeni özellik, AI ajanlarının güvenilirliğini artırmak için bir adım daha öne çıkarıyor.
Gelecek adımlar: Üretimdeki ekiplerden geri bildirimler
SafeRun ekibi, şu anda üretimdeki ilk tasarım ortaklarını onboarding sürecine alıyor. Bu ortaklıklar, gerçek paranın hareket ettiği, gerçek müşteri verilerinin değiştirildiği ve gerçek müşterilerle etkileşimde bulunulan AI ajanlarını çalıştıran ekiplerden oluşuyor. Bu ekiplerle yapılan işbirliği, SafeRun’ın güvenilirliğini ve kullanım kolaylığını artırmak için kritik önem taşıyor. Eğer AI ajanlarınızı üretimde çalıştırıyorsanız ve bu alanda karşılaştığınız zorlukları paylaşmak istiyorsanız, SafeRun ekibiyle iletişime geçebilirsiniz.
Yapay zeka özeti
AI ajanlarınız üretimde hatalar yaptığında, logları incelemek yetmez. Bir hatayı yeniden üretmek için Replay yeteneğine ihtiyacınız var. Güvenilirlik altyapısının temeli burada yatıyor.