iToverDose/Girişim· 12 MAYIS 2026 · 00:00

Gerçek Zamanlı AI Ses ve Video Konuşmaları

Thinking Machines, yeni 'etkileşim modelleri' ile gerçek zamanlı AI ses ve video konuşmaları için bir ön gösterim sunuyor.

VentureBeat2 dk okuma0 Yorumlar

AI, 'sırada bekleyen' sohbet dönemini geride bırakıyor mu? AI modellerini düzenli olarak kullanan herkes, temel etkileşim modunun metin, görüntü, ses ve video için aynı olduğunu bilir. Ancak AI, doğal etkileşim gerektiren işleri gerçekten üstlenmek isterse, insan girişlerine daha akıcı ve doğal bir şekilde yanıt vermelidir.

Thinking Machines, eski OpenAI baş teknoloji sorumlusu Mira Murati ve eski OpenAI araştırmacısı ve kurucu John Schulman tarafından kuruldu. Şirket, 'etkileşim modelleri' adı verilen yeni bir sistem sınıfını tanıttı. Bu sistem, etkileşimi model mimarisinin birincil vatandaşı olarak ele alır ve üçüncü taraf benchmark'lerinde etkileyici kazançlar elde etti.

Tam Duplex Eş Zamanlı Giriş/Çıkış İşlemesi

Thinking Machines'ın açıklamasının merkezinde, AI'nin zaman ve varlık algısında temel bir değişim var. Cari sınır modelleri genellikle gerçekliği tek bir threads'de deneyimler; kullanıcı girişini bitirmesini bekler ve algıları yanıt üretirken donar.

Thinking Machines araştırmacıları, mevcut durumu AI arayüzlerine insanları 'çarpıtmak' zorunda bırakan bir sınırlama olarak tanımladı. Bu 'işbirliği tıkanıklığını' çözmek için standart alternatif token dizisini terk ettiler.

Çift Model Sistemi

Araştırma ön izlemesi, TML-Interaction-Small adlı bir modeli tanıttı. Bu model, 276 milyar parametrelik bir Mixture-of-Experts (MoE) modelidir. Gerçek zamanlı etkileşim, derin akıl yürütmeyle often çelişen gần anlık yanıt süreleri gerektirir. Bu nedenle şirket, iki parçalı bir sistem tasarladı:

  • Etkileşim Modeli: Kullanıcı ile sürekli bir alışveriş içinde kalır, diyalog yönetimini, varlığı ve anlık geri bildirimleri işler.
  • Arka Plan Modeli: Bir_asyncronous ajan, sürdürülen akıl yürütme, web gezintisi veya karmaşık araç çağrilerini işler ve sonuçları etkileşim modeline aktarır.

Bu setup, AI'nin canlı çeviri veya bir UI grafik oluştururken kullanıcı geri bildirimi dinlemeye devam etmesini sağlar.

Önemli Benchmark'lerde Diğer Önde Gelen AI Laboratuvarlarının Hızlı Etkileşim Modellerine Karşı

Şirket, etkileşim kalitesini ölçmek için FD-bench benchmark'ini kullandı. Sonuçlar, TML-Interaction-Small'in mevcut gerçek zamanlı sistemleri önemli ölçüde geride bıraktığını gösteriyor.

TML-Interaction-Small, diğer modellere kıyasla daha düşük gecikme süreleri ve daha yüksek etkileşim kalitesi elde etti. Ayrıca, RepCount-A ve ProactiveVideoQA gibi özel testlerde başarılı oldu.

Potansiyel Olarak Büyük Bir Kazanç

Eğer modeller empresa sektörüne sunulursa, Thinking Machines'ın etkileşim modelleri, işletmelerin AI'yi iş akışlarına entegre etme şeklini temel olarak değiştirecektir. Yerel bir etkileşim modeli, standart çok modelli modellerle mümkün olmayan veya çok kırılgan olan beberapa empresa yeteneğini sağlar.

Yapay zeka özeti

Thinking Machines, yeni 'etkileşim modelleri' ile gerçek zamanlı AI ses ve video konuşmaları için bir ön gösterim sunuyor.

Yorumlar

00
YORUM BIRAK
ID #SNXOXC

0 / 1200 KARAKTER

İnsan doğrulaması

2 + 5 = ?

Editör onayı sonrası yayına girer

Moderasyon · Spam koruması aktif

Henüz onaylı yorum yok. İlk yorumu sen bırak.