Şirketler, ajanları oluşturup dağıtmakta bir problemle karşılaşıyor: mühendislerin bir ajanın hata yaptığını keşfetmesi uzun sürüyor ve bu sorun devam ediyor. LangSmith, LangChain'in izleme ve değerlendirme platformu, bu sorunu daha yönetilebilir hale getirmek için yeni bir khảyı kamu beta sürümünde piyasaya sürdü. LangSmith Engine, üretim hatalarını otomatik olarak tespit ediyor, kök nedenlerini canlı kod tabanına karşı teşhis ediyor, bir düzeltme taslağı hazırlıyor ve gerilemeyi önlemektedir. Tüm bunları tek bir otomatik geçişte yapıyor.
LangSmith Engine Hatalara Bakıyor
LangChain, bir blog gönderisinde, tipik ajan geliştirme döngüsünün, ajanın neler yaptığını anlamak için izleme ile başladığını, ardından boşlukları belirleme,.prompt'ları ve araçları değiştirme ve temel gerçeğe dayalı veri kümeleri oluşturma adımlarının geldiğini söyledi. Geliştiriciler daha sonra deneyler चलıyor ve üretim öncesi gerilemeleri kontrol ediyor. Ancak müşteriler souvent üretim izleme sırasında hatalı modellerin ortaya çıkmaması, hata tekrarının zor görülmesi ve üretim sırasında aynı sorunu yakalayabilecek hedefli bir değerlendiricinin olmaması gibi sorunlarla karşılaşıyor.
LangSmith Engine, üretim izlemeleri için birden fazla sinyal türünü izliyor: "açık hatalar, çevrimiçi değerlendirme hataları, izleme anormallikleri, negatif kullanıcı geri bildirimi ve ajanın cevaplamadığı sorular gibi alışılmadık davranışlar". Ardından canlı kod tabanını okur, suçluyu bulur ve bir çekme isteği taslağı hazırlar ve bu özel hata modeli için bir özelleştirilmiş değerlendirici önerir. İnsan, onay adımında devreye girer.
Model Sağlayıcılar Platforma Değerlendiricileri Getiriyor
LangSmith Engine, üretim hatalarını otomatik olarak tespit ediyor ve düzeltilmesini sağlarken, büyük sağlayıcılar da platformlarında gözlemlenebilirlik araçları sunmaya başlıyor. Bu, şirketlerin LangSmith Engine'i mevcut iş akışlarına eklemek yerine uçtan uca bir platform kullanmayı tercih etmelerine neden olabilir. Anthropic'in Claude Managed Agents, ajan dağıtımı, değerlendirme ve orkestrasyonu tek bir pakette birleştiriyor. OpenAI'nin Frontier'ı, empresa ajanları oluşturmak, yönetmek ve değerlendirmek için benzer bir uçtan uca platform sunuyor - ancak her ikisi de şirketlerin tek bir satıcıya bağlı kalma konusunda endişeleri nedeniyle soru işaretleri yaratıyor.
Ancak uzmanlar, herkesin değerlendirme ve gözlemlenebilirliği tamamen bir platforma getirmek istemediğini belirtiyor. Workwise Solutions'ın kurucu ortağı ve baş danışmanı Leigh Coney, VentureBeat'e üçüncü taraf gözlemlenebilirliğinin birçok şirket için varsayılan olduğunu söyledi. "Bir fonla çalışıyorum ve analiz için Claude'u, ayrı bir iş akışı için de GPT'yi kullanıyoruz. Gözlemlenebilirlik her sağlayıcının araçlarında yaşıyorsa, artık birbirleriyle konuşamayan iki sistemimiz vardır. Uygunluk ekibimiz birleşik bir denetim izi üretemez." diye konuştu. True Fit'in CEO'su ve kurucu ortağı Jessica Arredondo Murphy, bağımsız platformların şirketlere "uzun vadeli soru"ya cevap vermeleri gerektiğini belirtti. "Şirketler, birinci taraf model sağlayıcı araçlarına birleştirme konusunda fazla hızlı ilerlemiyor. Gördüğüm şey, ekiplerin hızlı bağlanmak ve ilk aşamadaki hata ayıklama için birinci taraf araçlarını kullanması, ancak üretim güvenilirliği, yönetim ve uzun vadeli esneklik konusunda endişe duyduklarında, gözlemlenebilirlik ve değerlendirme için daha tarafsız bir katmana başvurdukları." dedi.
LangSmith Engine, kamu beta sürümünde mevcut. Ekipler, bir izleme projesini bağlayabilir, isteğe bağlı olarak depoyu bağlayabilir ve Engine, üretim izlemelerinden otomatik olarak sorunları belirlemeye başlayabilir.
Gelecek yıllarda, şirketlerin ajanları oluşturma ve dağıtma şekillerinin değişmesi bekleniyor. LangSmith Engine gibi araçlar, bu değişimin önemli bir parçası olacak.
Yapay zeka özeti
LangSmith Engine, üretim hatalarını otomatik olarak tespit ediyor ve düzeltilmesini sağlıyor. Şirketlerin ajan oluşturma ve dağıtma süreçlerini daha verimli hale getirmek için tasarlandı.


