Veri tabanlarında 10.000 tabloyu yönetmek: AI ajanları için doğru sorguların sırrı

Veri analitiğinde kullanılan milyonlarca SQL sorgusu, aslında şirketlerin en değerli varlıklarından biri olan doğrulanmış iş zekası deposudur. Fakat AI ajanları bu sorguları doğrudan kullanmak yerine, sadece veritabanı şemalarına bakarak karar vermeye çalıştığında, sonuçlar çoğu zaman hayal kırıklığıyla sonuçlanıyordu. DataHub’un dün açıkladığı Context Intelligence katmanı, bu sorunu kökten çözmek için yılların analiz sorgularını semantik bir bilgi tabanına dönüştürüyor.

AI ajanları için neden sorguların geçmişi şemadan daha değerli?

DataHub’un kurucu ortağı ve CTO’su Shirshanka Das, geçtiğimiz 11 yıl boyunca LinkedIn’de veri altyapısını yönetmiş bir isim. Das ve ekibi, 2020 yılında DataHub’u açık kaynak olarak yayınladıklarında, asıl hedef veriye erişimi kolaylaştırmak ve verinin doğru kullanımını garanti altına almaktı. Proje başlangıçta veri soy ağaçlarının (data lineage) anlaşılması için tasarlanmıştı; yani veri akışının izlenmesi, uyumluluk denetimleri ve yeni çalışanların eğitimi gibi kritik süreçlere destek olmak içindi.

Ancak yıllar içinde DataHub’un kullanım alanı genişledi. Bugün PostgreSQL, MySQL, Oracle, Snowflake ve Google BigQuery gibi 100’den fazla veri kaynağına bağlanabilen platform, dünya çapında 3.000’in üzerinde üretim ortamında kullanılıyor. Bu da Context Intelligence’ın temelini oluşturuyor: on yıllık sorgulama geçmişi, artık AI ajanlarının doğru kararlar almasına yardımcı oluyor.

"Tüketim katmanı insanlardan ajanlara geçtiğinde, sorguların geçmişini kullanmak kritik hale geliyor," diyen Das, bu değişimin altını çiziyor.

Sorguların 'altın’ olanlarını ayıklamak: Gürültüden sinyale geçiş

Veritabanı sorgulama kayıtları, AI ajanları için doğrudan kullanılamayacak kadar gürültülü bir veri kaynağıdır. Context Intelligence, bu kayıtları analiz ederken sadece ‘altın sorguları’ (high-quality analyst queries) filtreliyor. Bu sorgular, şirketlerin yıllardır kullandığı, doğrulanmış iş mantığını temsil eden sorgular.

Ardından, bu sorguların desenlerini analiz ederek semantik demirlemeler (semantic anchors) adı verilen yapılar oluşturuyor. Bu demirlemeler, ajanların SQL oluşturma sürecinde rehberlik ediyor. Das, bu süreci ‘metni SQL’e çevirmek’ olarak tanımlıyor.

Doğal dilden SQL’e geçişte ilk adım: Ajanlar, kullanıcının doğal dildeki isteğini alır.
Semantik endeksin kullanılması: Context Intelligence, bu isteği karşılayacak en uygun sorguların yer aldığı semantik endeksle eşleştirir.
Doğru tabloların seçilmesi: Ajan, sadece ilgili veri tablolarını seçerek SQL oluşturur.

Bu sayede, ajanlar %65’in üzerinde olan hata oranlarını neredeyse sıfıra indiriyor.

Miro’nun 10.000 Snowflake tablosunda AI ajanlarını çalıştırması

Miro’nun veri platformu ürün yöneticisi Ronald Angel, şirketin DataHub’u kullanmaya başlamasının ardından AI ajanlarını doğrudan Snowflake’e yönlendirdiğinde karşılaştıkları sorunu şöyle anlatıyor:

"Doğal dil sorgularını doğrudan Snowflake’e göndermek, yanıtların %65’ten fazlasının yanlış çıkmasına neden oldu. Binlerce tabloyu doğrudan ajanlara açmak, yönlendirmeyi imkansız hale getirdi."

Miro, bu sorunu veri ürünleri (data products) yaklaşımıyla çözdü. Ajanların sadece belirli veri varlıklarına erişmesini sağlayan bu sistemde, DataHub’un MCP (Model Context Protocol) katmanı, kullanıcı isteklerini doğru veri varlıklarına yönlendiriyor. Ardından Snowflake’in kendi MCP’si SQL oluşturma işini devralıyor.

Angel’a göre, bu sistem veri meta verilerini, varlık ilişkilerini, sorgulama geçmişini ve iş zekası amacını bir araya getiriyor. Böylece ajanlar, sadece şemaya bakmak yerine doğru sorguyu oluşturmak için gerekli bağlamı elde ediyor.

DataHub’un diğer veri sağlayıcılarıyla entegrasyonu: Pinecone, Oracle, Redis ve Microsoft

Context Intelligence, yalnızca DataHub’a özgü bir çözüm değil. Pinecone, Oracle, Redis ve Microsoft gibi şirketler de bağlam belleği (context memory) ve veri yönetimi konusunda benzer yaklaşımlar geliştiriyorlar.

Pinecone, vektör veri tabanı olarak öne çıkarken, ajanların bağlamsal belleğini güçlendiriyor.
Oracle, veri ve AI yığınını birleştirerek ajanlara tek bir kaynak sunmayı hedefliyor.
Redis, bağlam mimarilerini RAG (Retrieval-Augmented Generation) çağını geride bırakarak yeniden tanımlıyor.
Microsoft Fabric IQ, ajanların farklı veri versiyonları arasında koordinasyon sağlamasına yardımcı oluyor.

DataHub ise bu ekosistemin veri soy ağaçlarını ve sorgulama geçmişini temel alan bir katmanı olarak öne çıkıyor. Bu sayede, ajanlar sadece doğru veriye ulaşmakla kalmıyor, aynı zamanda doğrulanmış iş zekasını da kullanabiliyor.

Gelecekte veri ve AI’nın birleşimi: Şirketler neden bu geçişi yapmalı?

AI ajanlarının şirketlerdeki rolü hızla genişliyor. Fakat bu ajanların doğru kararlar alabilmesi, sadece büyük dil modellerine değil, aynı zamanda veriye erişim ve bağlam sağlama yeteneklerine bağlı.

Context Intelligence gibi çözümler, şirketlere yılların analiz sorgularını AI’nın kullanımına sunarak, hem hataları minimize ediyor hem de verimliliği artırıyor. Gelecekte, bu tür bağlamsal katmanların veri yönetimi ve AI entegrasyonunda standart hale gelmesi bekleniyor.

Veri dünyasının geleceği, artık sadece daha fazla veri toplamak değil, aynı zamanda doğru veriyi doğru zamanda doğru bağlamda sunmak üzerine kuruluyor.

Yapay zeka özeti

AI ajanları veri tabanlarında %65 hata yapıyordu. DataHub’un Context Intelligence katmanı, yıllık SQL sorgularını analiz ederek ajanlara rehberlik eden semantik bir endeks sunuyor ve hataları minimize ediyor.

Etiketler

#ai ajanlar #veri yönetimi #veri entegrasyonu #sql sorguları #datahub context intelligence #ai hata oranları #veri soy ağacı #snowflake veri tabanı

Veri tabanlarında 10.000 tabloyu yönetmek: AI ajanları için doğru sorguların sırrı

AI ajanları için neden sorguların geçmişi şemadan daha değerli?

Sorguların 'altın’ olanlarını ayıklamak: Gürültüden sinyale geçiş

Miro’nun 10.000 Snowflake tablosunda AI ajanlarını çalıştırması

DataHub’un diğer veri sağlayıcılarıyla entegrasyonu: Pinecone, Oracle, Redis ve Microsoft

Gelecekte veri ve AI’nın birleşimi: Şirketler neden bu geçişi yapmalı?

Yorumlar

Ktx: Veri ajanlarınızın doğruluğunu artıran açık kaynaklı yapılandırma katmanı

Figma Make artık kod üretiyor: Tasarımcılar yazılımcılara nasıl yardımcı oluyor?

Bağlantı İçinde Kontrol: Veri Egemenliğinin Kritik Altyapıyı Nasıl Yeniden Yazdığı