iToverDose/Yazılım· 24 NISAN 2026 · 08:00

İnsan Engelinin Aşılması: AI Ajan İş Akışlarında Yeni Bir Dönem

AI ajan çerçevelerinin majority professional işleri değil, yalnızca web'de çalışabiliyor. Ancak yeni bir yaklaşım ile bu sorun aşılabiliyor.

DEV Community3 dk okuma0 Yorumlar

AI ajan çerçevelerinin большинluğu web'de çalışabiliyor. URL açabilir, HTML okuyabilir, bir düğmeyi tıklayabilir, bir formu doldurabilir. Bu, tarayıcıların iç yapılarını iyi tanımlanmış protokoller aracılığıyla açıklaması sayesinde mümkün oluyor — Chrome DevTools Protocol (CDP), DOM API'leri, JavaScript enjeksiyonu.

Ancak buradaki sorun: majority profesyonel işler web'de değil.

CAD mühendisleri SolidWorks'de çalışır. Video editörleri DaVinci Resolve'da çalışır. Veri analistleri Excel, özel BI panelleri ve terminal oturumları arasında geçiş yapar. Sistem yöneticileri yerel yapılandırma panellerini gezinir. Tasarımcılar Figma'nın masaüstü uygulamasını, Photoshop'u, Blender'ı kullanır.

Bu uygulamaların hiçbiri bir DOM açıklamaz. Hiçbiri CDP konuşmaz. Ve "AI otomasyon" ekosisteminin majority bu uygulamalara erişemez.

Bu makale, GUI otomasyonunun üç ana teknik yaklaşımını inceliyor, vizyon-yalnız yaklaşımın neden tarayıcı sınırını aşmak için önemli olduğunu açıklıyor ve çapraz-uygulama benchmark'lerinde ölçülen sonuçlara bakıyor.

GUI Otomasyonuna Üç Yaklaşım

Yaklaşım 1: CDP ve HTML Parsing

Chrome DevTools Protocol, Chromium tabanlı tarayıcılara programatik erişim sağlar. Bunu kullanarak:

  • DOM ağacını sorgulayabilirsiniz
  • Sayfa bağlamında JavaScript çalıştırabilirsiniz
  • Ağ isteklerini yakalayabilirsiniz
  • DOM elementi düzeyinde tıklatma ve klavye girişi simüle edebilirsiniz

Playwright, Puppeteer ve çoğu tarayıcı tabanlı AI ajanı bu yaklaşımı kullanır. Bu yaklaşım, kendi alanında kesin, hızlı ve güvenilir.

Güçlü Yönleri:

  • Piksel-perfect element hedefleme via CSS seçicileri
  • Gizli elementlere, gölgeli DOM, iframe içeriklerine erişim
  • Sayfa durumunu programatik olarak okuyabilir ve değiştirebilirsiniz
  • Düşük gecikme (ekran yakalama gerekmez)

Sınırlamaları:

  • Sadece tarayıcı. CDP, Chromium dışında mevcut değil. Firefox kısmi bir eşdeğere sahip; Safari'nin ise sınırlı.
  • Site-spesifik kırılganlık. CSS seçicileri, web siteleri işaretlemesini güncellediğinde bozulur.
  • SPA karmaşıklığı. Çağdaş tek sayfa uygulamaları, dinamikRendering, lazy yükleme ve sanal kaydırma ile zaman bağımlılıkları oluşturur.
  • Otomasyon önleyici önlemler. Birçok site, CDP tabanlı otomasyonu bot algılama, CAPTCHAs ve davranışsal analiz aracılığıyla aktif olarak tespit eder ve engeller.

Tarayıcı tabanlı görevler için CDP doğru araçtır. Ancak "AI otomasyonu"nu "tarayıcı otomasyonu" olarak çerçevelemek, majority masaüstünü etkilemez.

Yaklaşım 2: Erişilebilirlik API'leri

İşletim sistemleri, UI elementlerinin rollerini, etiketlerini ve durumlarını açıklayan bir ağacı ortaya koyan erişilebilirlik API'leri sağlar. Ekran okuyucular bu API'leri kullanır. Otomasyon çerçeveleri de kullanabilir.

Güçlü Yönleri:

  • Yerel uygulamalar üzerinde çalışır, yalnızca tarayıcı değil
  • Anlamsal bilgiler (düğme etiketleri, metin alanı değerleri, onay kutusu durumları)
  • Standart, platforma özgü (bir kez platform API'sini işlediğinizde, tüm uygulamalar üzerinde çalışır)
  • Görsel işleme gerektirmez — başsız sistemlerde bile çalışır

Sınırlamaları:

  • Tutarsız uygulama. Uygulama geliştiricileri erişilebilirlik desteğini farklı derecelerde uygular.
  • Özel kontroller görünmez. Render edilen canvastalar (oyunlar, CAD görünümü, video zaman çizelgesi, özel rendering ile terminal emülatörleri) iç öğeleri için erişilebilirlik ağacı girişlerine sahip değildir.
  • Platform parçalanması. Her işletim sistemi kendi API'sine, veri modeline ve tuhaflıklarına sahiptir.
  • Performans yükü. Karmaşık uygulamaların tam erişilebilirlik ağacını sorgulamak yavaş olabilir.

Erişilebilirlik API'leri gerçekten faydalı ve otomasyon alanında değer verilen bir araç. Ancak bir temel kapsam açığı vardır: yalnızca geliştiricilerin açıkça ortaya koyduğu şeyleri görebilirler ve birçok arayüz — özellikle özel rendering ile profesyonel araçlar — tam olarak erişilebilir değildir.

Yaklaşım 3: Vizyon-Yalnız Anlama

Üçüncü yaklaşım, uygulamanın iç temsilini tamamen atlar. DOM ağacı veya erişilebilirlik API'lerini sorgulamak yerine, ajan ekran上的 pikselleri — ham pikselleri — görür ve ne gördüğünü anlamaya çalışır.

Bu, insanların bilgisayarlarla etkileşim kurma şekli. HTML'yi parse etmek için "Gönder" düğmesini bulmaya çalışmayız. Düğme gibi görünen bir dikdörtgeni görür, etiketini okur ve tıklatırız.

Güçlü Yönleri:

  • Evrensel kapsam. İnsan tarafından görülebilen her şey, ajan tarafından da görülebilir. Yerel uygulamalar, web uygulamaları, terminaller, oyunlar, uzaktan masaüstü, sanal makineler — hepsi aynı.
  • Uygulama işbirliği gerekmez. Ajan, kancalar, API'ler veya özel erişim gerektirmez. Ekran yakalama, bir standart işletim sistemi özelliğidir.
  • UI değişikliklerine karşı dayanıklı. Bir düğme, sol kenar çubuğundan üst çubuğa taşındığında hala bir düğme gibi görünür. Görsel anlama, koordinat-tabanlı veya seçici-tabanlı hedeflemeye göre temelde daha dayanıklı.
  • Çapraz-platform. Ekran yakalamaları, işletim sisteminden bağımsız.

Sınırlamaları:

  • Kapasiteli vizyon modelleri gerektirir. Ajan, yoğun UI'leri, küçük metinleri okuyabilen, benzer görünen elementleri ayırt edebilen ve uzaysal ilişkileri anlayan güçlü bir vizyon modeli gerektirir.
  • Daha yüksek işlem maliyeti. Tam bir ekran yakalamasını bir vizyon modeli aracılığıyla işlemek, DOM ağacını sorgulamaktan daha pahalıdır.

AI ajan iş akışlarında insan engelinin aşılması, vizyon-yalnız yaklaşımın gücünü ortaya koyuyor. Yeni bir dönem, daha evrensel ve daha dayanıklı otomasyon çözümleri ile şekilleniyor.

Yapay zeka özeti

AI ajan iş akışlarında insan engelinin aşılması, vizyon-yalnız yaklaşım ile mümkün. Evrensel kapsam, UI değişikliklerine karşı dayanıklılık ve çapraz-platform desteği sunan bu yaklaşım, geleceğin otomasyon çözümlerini şekillendiriyor.

Yorumlar

00
YORUM BIRAK
ID #G4NG9A

0 / 1200 KARAKTER

İnsan doğrulaması

8 + 4 = ?

Editör onayı sonrası yayına girer

Moderasyon · Spam koruması aktif

Henüz onaylı yorum yok. İlk yorumu sen bırak.