iToverDose/Yazılım· 19 MAYIS 2026 · 12:13

YouTube İçeriğini Sesle Sorgulayın: Kişisel AI Asistanı Nasıl Yapılır?

Günde binlerce video yüklenen YouTube’daki bilgileri sesle sorgulayabileceğiniz bir AI asistanı geliştirmek mümkün. İşte çoklu ajan akışları ve ses AI’si ile nasıl yapıldığına dair adım adım rehber.

DEV Community4 dk okuma0 Yorumlar

YouTube, internetin en büyük bilgi kaynaklarından biri haline geldi. AI araştırmalarından start-up röportajlarına, teknik eğitimlerden sektör analizlerine kadar binlerce içerik her gün yükleniyor. Ancak yüzlerce kanala abone olan kullanıcılar için bu içeriğin tamamını manuel olarak tüketmek neredeyse imkansız hale geldi.

Bu soruna çözüm olarak, abone olduğunuz YouTube kanallarını tarayan, videoların metinlerini çıkaran, içeriği özetleyen ve kullanıcı sorularını sesli olarak yanıtlayan bir AI destekli YouTube zekâ asistanı geliştirdim. Sistem, ses AI’si, çoklu ajan orkestrasyonu, metin anlama ve büyük dil modellerini bir araya getiriyor. Böylece YouTube’u etkileşimli bir konuşma sistemi haline getiriyor.

Sesli Etkileşimle YouTube’u Konuşturun

Projenin temel amacı, uzun videoları tek tek izlemek yerine kullanıcıların doğal ses komutlarıyla anında yanıt almasını sağlamak. Örneğin, kullanıcılar aşağıdaki gibi sorular sorabiliyor:

  • “Bu hafta AI yaratıcıları OpenAI hakkında ne dedi?”
  • “Son Lex Fridman podcastini özetle.”

AI sistemi, abone olunan kanalları otomatik olarak tarıyor, ilgili videoları belirliyor, metinleri çıkarıyor ve büyük dil modelleriyle işleyerek sesli yanıtlar üretiyor. Böylece YouTube, kişisel bir araştırma asistanına dönüşüyor.

Çoklu Ajan Akışının Arkasındaki Mimarisi

Sistem, her bileşenin özel bir görevi yerine getirdiği çok aşamalı bir AI hattı olarak tasarlandı. Akış şu şekilde ilerliyor:

  1. Sesli giriş alınır.
  2. Webhook tetikleyici devreye girer.
  3. İlk AI ajanı (Arama + Orkestrasyon) kullanıcı niyetini anlar ve iş akışını yönetir.
  4. YouTube API’leriyle iletişime geçilir.
  5. Videoların metinleri çıkarılır.
  6. İkinci AI ajanı (Özetleme + Soru-Cevap) içeriği işler.
  7. Yanıt biçimlendirilir.
  8. Sesli çıktı üretilir.

Tüm bu süreç, ElevenLabs ses AI’si aracılığıyla kullanıcılarla doğal bir konuşma ortamı sunuyor.

ElevenLabs ile Ses AI Entegrasyonu

Kullanıcı etkileşimi, ElevenLabs ses AI’si ile başlıyor. Bu bileşen, kullanıcı ile sistem arasındaki konuşma arayüzü görevi görüyor. Kullanıcı sesli bir komut verdiğinde, ElevenLabs komutu metne dönüştürüyor ve otomatik akışı tetiklemek için bir webhook aracılığıyla sisteme gönderiyor.

Örneğin, kullanıcı “Son AI videomu özetle” dediğinde, ses AI’si bunu metne çeviriyor ve yapılandırılmış bir istek olarak akışa iletiyor. Webhook, tüm sistemin giriş noktası olarak görev yapıyor. İşlem tamamlandığında, AI tarafından üretilen yanıt yeniden ElevenLabs’e gönderiliyor ve bu yanıt doğal ses olarak kullanıcıya ulaştırılıyor. Böylece kullanıcılar YouTube içeriğiyle konuşabilir hale geliyor.

Webhook Tetikleyici Sistemi

Webhook düğümü, sesli asistan tarafından gelen gerçek zamanlı istekleri alıyor. Bu düğüm, kullanıcı sorgularını anında kabul ediyor ve ardından akışın işlem sürecini başlatıyor. Tipik bir istek aşağıdaki gibi yapılandırılıyor:

{
  "query": "Son zamanlarda AI yaratıklar AGI hakkında ne tartıştı?"
}

Bu sorgu, ilk AI ajanına iletilerek işlenmeye başlıyor.

AI Ajan 1 – Arama ve Orkestrasyon Katmanı

İlk AI ajanı, sistemin orkestrasyon katmanı olarak çalışıyor. Kullanıcı sorgusunu anlayarak iş akışının nasıl ilerleyeceğine karar veriyor. Bu ajan, aşağıdaki araç ve API’lerle entegre çalışıyor:

  • Google’ın Gemini AI modeli
  • YouTube API istekleri
  • Arama yardımcı programları
  • Meta veri alma araçları

Ajanın başlıca görevleri şunlar:

  • Kullanıcı niyetini anlamak
  • İlgili konuları belirlemek
  • Abone olunan kanalları aramak
  • Uygun videoları seçmek
  • İleri işlemler için yapılandırılmış çıktılar üretmek

Örneğin, kullanıcı “AI ajanları hakkında abone olduğum kanallar ne diyor?” diye sorduğunda, ajan aşağıdakileri belirliyor:

  • Konu: “AI ajanları”
  • İlgili abone olunan kanallar
  • Son videolar
  • Uygun video kimlikleri

Bu modüler yaklaşım, veri alma ve orkestrasyonu derin akıl yürütmeden ayırarak sistemin ölçeklenebilirliğini artırıyor ve yanlış bilgilerin oluşma riskini azaltıyor.

YouTube API Entegrasyonu

İlk ajan sorguyu anladıktan sonra, sistem YouTube API’leriyle iletişime geçiyor. API’ler aşağıdaki verileri getirmek için kullanılıyor:

  • Abone olunan kanallar
  • Son yüklenen videolar
  • Video meta verileri
  • Arama sonuçları
  • Video kimlikleri

Bu sayede sistem, tüm YouTube platformu yerine sadece kullanıcının abone olduğu kanalları tarıyor. Akış, kullanıcının sorgusuna en uygun videoları dinamik olarak belirliyor.

JSON Ayrıştırma ve Yapılandırılmış Veri İşleme

İlk AI ajanının akıl yürütme süreci tamamlandıktan sonra, üretilen çıktı JSON formatında yapılandırılıyor. Tipik bir çıktı aşağıdaki gibi olabiliyor:

{
  "videoId": "abc123",
  "title": "AI Ajanlarının Geleceği",
  "channel": "AI Açıklanıyor"
}

Ayrıştırma katmanı, aşağıdaki önemli alanları çıkarıyor:

  • Video kimlikleri
  • Başlıklar
  • Metin referansları
  • Meta veriler

Bu yapılandırılmış format, aşağı akış bileşenlerinin bilgileri verimli ve güvenilir bir şekilde işlemesini sağlıyor.

Metin Çıkarma Sistemi

İş akışının en kritik bileşenlerinden biri, metin çıkarma sistemi. Bu sistem, YouTube videolarının altyazılarını veya açıklamalarını almak için harici bir API’yi kullanıyor. Bu adım, konuşulan içeriği makine tarafından okunabilir metne dönüştürüyor.

Örneğin, sistem aşağıdaki gibi bir metin alabiliyor:

Bugün otonom AI ajanlarının geleceği hakkında konuşacağız...

Bu metin, dil modelinin temel bilgi kaynağı haline geliyor. AI artık ham videoları değil, yapılandırılmış metinsel içeriği işliyor. Bu sayede hem özetleme hem de soru-cevap süreçleri çok daha verimli hale geliyor.

AI Ajan 2 – Metin Zekası ve Akıl Yürütme

İkinci AI ajanı, metinlerden anlam çıkarma ve akıl yürütme görevini üstleniyor. Bu ajan, kullanıcının sorgusuna en uygun yanıtı üretebilmek için aşağıdaki adımları izliyor:

  • Metinleri parçalara ayırma
  • Anahtar bilgileri tanımlama
  • İçeriği özetleme
  • Soruları yanıtlama

Sonuç olarak, kullanıcılar doğal bir diyalog ortamında, YouTube videolarından doğrudan yanıt alabiliyor. Bu sistem, gelecekte içerik tüketimini sonsuza dek değiştirecek bir adım olarak görülüyor.

Geleceğe Yönelik Bakış

AI teknolojilerinin hızla gelişmesiyle birlikte, sesli ve etkileşimli içerik tüketimi giderek yaygınlaşıyor. Bu proje, kişiselleştirilmiş bilgi erişimini sesli sorgularla mümkün kılan bir ilk adım olarak karşımıza çıkıyor. Gelecekte, benzer sistemlerin daha da gelişerek kullanıcı deneyimini tamamen dönüştürmesi bekleniyor. Siz de bu akıllı sistemleri kullanarak YouTube’daki bilgileri daha verimli bir şekilde keşfedebilirsiniz.

Yapay zeka özeti

Abone olduğunuz YouTube kanallarını sesli sorgulayın! AI destekli çoklu ajan sistemiyle videoları özetleyin, cevap alın ve içerik tüketimini kolaylaştırın.

Yorumlar

00
YORUM BIRAK
ID #MNY75C

0 / 1200 KARAKTER

İnsan doğrulaması

3 + 6 = ?

Editör onayı sonrası yayına girer

Moderasyon · Spam koruması aktif

Henüz onaylı yorum yok. İlk yorumu sen bırak.