YouTube, internetin en büyük bilgi kaynaklarından biri haline geldi. AI araştırmalarından start-up röportajlarına, teknik eğitimlerden sektör analizlerine kadar binlerce içerik her gün yükleniyor. Ancak yüzlerce kanala abone olan kullanıcılar için bu içeriğin tamamını manuel olarak tüketmek neredeyse imkansız hale geldi.
Bu soruna çözüm olarak, abone olduğunuz YouTube kanallarını tarayan, videoların metinlerini çıkaran, içeriği özetleyen ve kullanıcı sorularını sesli olarak yanıtlayan bir AI destekli YouTube zekâ asistanı geliştirdim. Sistem, ses AI’si, çoklu ajan orkestrasyonu, metin anlama ve büyük dil modellerini bir araya getiriyor. Böylece YouTube’u etkileşimli bir konuşma sistemi haline getiriyor.
Sesli Etkileşimle YouTube’u Konuşturun
Projenin temel amacı, uzun videoları tek tek izlemek yerine kullanıcıların doğal ses komutlarıyla anında yanıt almasını sağlamak. Örneğin, kullanıcılar aşağıdaki gibi sorular sorabiliyor:
- “Bu hafta AI yaratıcıları OpenAI hakkında ne dedi?”
- “Son Lex Fridman podcastini özetle.”
AI sistemi, abone olunan kanalları otomatik olarak tarıyor, ilgili videoları belirliyor, metinleri çıkarıyor ve büyük dil modelleriyle işleyerek sesli yanıtlar üretiyor. Böylece YouTube, kişisel bir araştırma asistanına dönüşüyor.
Çoklu Ajan Akışının Arkasındaki Mimarisi
Sistem, her bileşenin özel bir görevi yerine getirdiği çok aşamalı bir AI hattı olarak tasarlandı. Akış şu şekilde ilerliyor:
- Sesli giriş alınır.
- Webhook tetikleyici devreye girer.
- İlk AI ajanı (Arama + Orkestrasyon) kullanıcı niyetini anlar ve iş akışını yönetir.
- YouTube API’leriyle iletişime geçilir.
- Videoların metinleri çıkarılır.
- İkinci AI ajanı (Özetleme + Soru-Cevap) içeriği işler.
- Yanıt biçimlendirilir.
- Sesli çıktı üretilir.
Tüm bu süreç, ElevenLabs ses AI’si aracılığıyla kullanıcılarla doğal bir konuşma ortamı sunuyor.
ElevenLabs ile Ses AI Entegrasyonu
Kullanıcı etkileşimi, ElevenLabs ses AI’si ile başlıyor. Bu bileşen, kullanıcı ile sistem arasındaki konuşma arayüzü görevi görüyor. Kullanıcı sesli bir komut verdiğinde, ElevenLabs komutu metne dönüştürüyor ve otomatik akışı tetiklemek için bir webhook aracılığıyla sisteme gönderiyor.
Örneğin, kullanıcı “Son AI videomu özetle” dediğinde, ses AI’si bunu metne çeviriyor ve yapılandırılmış bir istek olarak akışa iletiyor. Webhook, tüm sistemin giriş noktası olarak görev yapıyor. İşlem tamamlandığında, AI tarafından üretilen yanıt yeniden ElevenLabs’e gönderiliyor ve bu yanıt doğal ses olarak kullanıcıya ulaştırılıyor. Böylece kullanıcılar YouTube içeriğiyle konuşabilir hale geliyor.
Webhook Tetikleyici Sistemi
Webhook düğümü, sesli asistan tarafından gelen gerçek zamanlı istekleri alıyor. Bu düğüm, kullanıcı sorgularını anında kabul ediyor ve ardından akışın işlem sürecini başlatıyor. Tipik bir istek aşağıdaki gibi yapılandırılıyor:
{
"query": "Son zamanlarda AI yaratıklar AGI hakkında ne tartıştı?"
}Bu sorgu, ilk AI ajanına iletilerek işlenmeye başlıyor.
AI Ajan 1 – Arama ve Orkestrasyon Katmanı
İlk AI ajanı, sistemin orkestrasyon katmanı olarak çalışıyor. Kullanıcı sorgusunu anlayarak iş akışının nasıl ilerleyeceğine karar veriyor. Bu ajan, aşağıdaki araç ve API’lerle entegre çalışıyor:
- Google’ın Gemini AI modeli
- YouTube API istekleri
- Arama yardımcı programları
- Meta veri alma araçları
Ajanın başlıca görevleri şunlar:
- Kullanıcı niyetini anlamak
- İlgili konuları belirlemek
- Abone olunan kanalları aramak
- Uygun videoları seçmek
- İleri işlemler için yapılandırılmış çıktılar üretmek
Örneğin, kullanıcı “AI ajanları hakkında abone olduğum kanallar ne diyor?” diye sorduğunda, ajan aşağıdakileri belirliyor:
- Konu: “AI ajanları”
- İlgili abone olunan kanallar
- Son videolar
- Uygun video kimlikleri
Bu modüler yaklaşım, veri alma ve orkestrasyonu derin akıl yürütmeden ayırarak sistemin ölçeklenebilirliğini artırıyor ve yanlış bilgilerin oluşma riskini azaltıyor.
YouTube API Entegrasyonu
İlk ajan sorguyu anladıktan sonra, sistem YouTube API’leriyle iletişime geçiyor. API’ler aşağıdaki verileri getirmek için kullanılıyor:
- Abone olunan kanallar
- Son yüklenen videolar
- Video meta verileri
- Arama sonuçları
- Video kimlikleri
Bu sayede sistem, tüm YouTube platformu yerine sadece kullanıcının abone olduğu kanalları tarıyor. Akış, kullanıcının sorgusuna en uygun videoları dinamik olarak belirliyor.
JSON Ayrıştırma ve Yapılandırılmış Veri İşleme
İlk AI ajanının akıl yürütme süreci tamamlandıktan sonra, üretilen çıktı JSON formatında yapılandırılıyor. Tipik bir çıktı aşağıdaki gibi olabiliyor:
{
"videoId": "abc123",
"title": "AI Ajanlarının Geleceği",
"channel": "AI Açıklanıyor"
}Ayrıştırma katmanı, aşağıdaki önemli alanları çıkarıyor:
- Video kimlikleri
- Başlıklar
- Metin referansları
- Meta veriler
Bu yapılandırılmış format, aşağı akış bileşenlerinin bilgileri verimli ve güvenilir bir şekilde işlemesini sağlıyor.
Metin Çıkarma Sistemi
İş akışının en kritik bileşenlerinden biri, metin çıkarma sistemi. Bu sistem, YouTube videolarının altyazılarını veya açıklamalarını almak için harici bir API’yi kullanıyor. Bu adım, konuşulan içeriği makine tarafından okunabilir metne dönüştürüyor.
Örneğin, sistem aşağıdaki gibi bir metin alabiliyor:
Bugün otonom AI ajanlarının geleceği hakkında konuşacağız...Bu metin, dil modelinin temel bilgi kaynağı haline geliyor. AI artık ham videoları değil, yapılandırılmış metinsel içeriği işliyor. Bu sayede hem özetleme hem de soru-cevap süreçleri çok daha verimli hale geliyor.
AI Ajan 2 – Metin Zekası ve Akıl Yürütme
İkinci AI ajanı, metinlerden anlam çıkarma ve akıl yürütme görevini üstleniyor. Bu ajan, kullanıcının sorgusuna en uygun yanıtı üretebilmek için aşağıdaki adımları izliyor:
- Metinleri parçalara ayırma
- Anahtar bilgileri tanımlama
- İçeriği özetleme
- Soruları yanıtlama
Sonuç olarak, kullanıcılar doğal bir diyalog ortamında, YouTube videolarından doğrudan yanıt alabiliyor. Bu sistem, gelecekte içerik tüketimini sonsuza dek değiştirecek bir adım olarak görülüyor.
Geleceğe Yönelik Bakış
AI teknolojilerinin hızla gelişmesiyle birlikte, sesli ve etkileşimli içerik tüketimi giderek yaygınlaşıyor. Bu proje, kişiselleştirilmiş bilgi erişimini sesli sorgularla mümkün kılan bir ilk adım olarak karşımıza çıkıyor. Gelecekte, benzer sistemlerin daha da gelişerek kullanıcı deneyimini tamamen dönüştürmesi bekleniyor. Siz de bu akıllı sistemleri kullanarak YouTube’daki bilgileri daha verimli bir şekilde keşfedebilirsiniz.
Yapay zeka özeti
Abone olduğunuz YouTube kanallarını sesli sorgulayın! AI destekli çoklu ajan sistemiyle videoları özetleyin, cevap alın ve içerik tüketimini kolaylaştırın.