Endüstriyel bir fabrikada çalışan bir işçi, geçen gece yarı montajlı bir bileşeni bıraktığı depolama rafını hatırlayabilir ve sabah geri döndüğünde hemen o noktaya ulaşabilir. Ancak aynı yeteneği robotlar için tasarlamak oldukça zorlu bir süreçtir. MIT araştırmacıları, robotların hem zaman hem de mekânsal bilgiyi bir arada kullanarak detaylı çevre modelleri oluşturmasını ve hatırlamasını sağlayan uzun vadeli bir bellek çerçevesi geliştirdi.
Bu yenilik sayesinde, gelecekte bir fabrikada çalışan kişi, gece başladığı montaj işlemine devam eden bileşeni robot yardımcıya teslim ederek "Dün gece başladığımız parçayı getir" gibi doğal dil komutları verebilecek. Sistem, robotun uzun süreli keşifleri sırasında topladığı zengin çevresel tanımları ve gelişmiş harita temsilini bir araya getirerek, karmaşık sorgulara gerçek zamanlı olarak yanıt verebiliyor.
Robotların İnsan Gibi Düşünmesi İçin Yeni Bir Dil Modeli
MIT Havacılık ve Uzay Mühendisliği Bölümü’nde doçent olan ve Laboratuvar for Information and Decision Systems (LIDS) ile MIT SPARK Laboratuvarı’nın direktörlüğünü yürüten Luca Carlone, bu çalışmanın önemini şu sözlerle açıklıyor:
Robotların insanlarla yan yana çalışabilmesi ve daha iyi etkileşime girebilmesi için aynı dili konuşmaları gerekiyor. Robotun, zamanı ve mekânı insanlar gibi anlaması ve sorgulaması şart. Geliştirdiğimiz yöntem, geleneksel haritaları dil tabanlı bir haritaya dönüştürerek robotun bu bilgiye kolayca erişmesini ve düşünmesini sağlıyor.
Carlone’un ekibiyle birlikte çalışan makalenin baş yazarı MIT yüksek lisans öğrencisi Nicolas Gorlo ve eski MIT araştırmacısı Lukas Schmid (şimdi Almanya’daki Nuremberg Teknoloji Üniversitesi’nde profesör), bu araştırmanın bilgisayarla görme ve robotik haritalama alanlarını birleştirdiğini vurguluyor. Bilgisayarla görme sistemleri, nesneleri detaylı olarak tanımlayabilse de genellikle tek seferde sadece bir açıklamayı işleyebiliyor. Robotik haritalama çerçeveleri ise geniş alanların 3D haritalarını oluşturabiliyor, ancak nesnelerin detaylı tanımlarını eksik bırakabiliyor ya da hesaplama maliyeti yüksek olabiliyor.
DAAAM: Gerçek Zamanlı ve Ölçeklenebilir Bellek Sistemi
MIT araştırmacıları, bu iki yaklaşımın en iyi yönlerini bir araya getiren Describe Anything, Anywhere, Anytime, at Any Moment (DAAAM) adlı bir yöntem geliştirdi. Robot, çevresini keşfederken karşılaştığı nesneleri zengin tanımlarla donatıyor. Örneğin, MIT kampüsündeki bir binanın Stata Center olduğunu ve mimari tarzını, bir bisiklet parkında beş bisiklet olduğunu ve bunlardan birinin lastiğinin patlak olduğunu robot kaydedebiliyor.
Bu bilgiler, 3D harita üzerinde mekânsal olarak gruplandırılarak depolanıyor. Böylece robot, "Stata Center dışındaki bisiklet parkında patlak lastiği olan kırmızı bisiklet" gibi karmaşık sorgulara yanıt verebiliyor. Mevcut sistemlerin, birkaç nesneyi tanımlamak için birkaç saniye harcadığı düşünüldüğünde, DAAAM’in gerçek zamanlı performans için on kat daha hızlı olduğunu söylemek mümkün.
Verimliliği Artıran Optimizasyon Teknikleri
DAAAM’in hızlı çalışmasını sağlayan en önemli unsur, yakın nesneleri gruplandırarak çoklu nesne tanımlarını paralel olarak işlemesi. Robotun keşif sırasında topladığı görüntülerden en net olanları seçerek, aynı anda birçok nesneyi tanımlayabiliyor. Bu sayede hesaplama süresi önemli ölçüde azalıyor.
Gorlo, sistemi şu şekilde açıklıyor:
Her nesneyi sadece bir kez tanımladığımız için sistem, çok geniş alanlarda bile gerçek zamanlı olarak çalışabiliyor. Nesneleri bölgeler halinde gruplandırarak, kullanıcıların nesneler ve konumlar hakkında çok çeşitli sorgular yapmasına olanak tanıyor.
Doğru Yanıtlar İçin Akıllı Araç Çağrıları
Sistem, oluşturduğu bellek deposundan bilgiyi hızlıca çekebilmek için büyük dil modellerini (LLM) kullanıyor. Bu modeller, farklı sorgulara göre özel araçları devreye sokarak, yanıtların doğruluğunu artırıyor. Örneğin, bir kullanıcı robotun yakınında gördüğü bir heykel hakkında bilgi istediğinde, sistem "heykel" kelimesine dayalı semantik arama veya binanın konumuna göre bilgi getirme gibi farklı yöntemleri kullanabiliyor.
Yapılan testlerde DAAAM, diğer yöntemlere kıyasla soru türüne göre %21 ila %53 daha doğru yanıtlar verdi. Araştırmacılar şimdi sistemi, çevrede gerçekleşen önemli olayları da kaydedebilecek şekilde genişletmeyi planlıyor. Gelecekte, bu teknoloji hem fabrika ortamlarında hem de artırılmış gerçeklik sistemlerinde devrim yaratabilir.
Gelecekteki Uygulamalar ve Sınırlar
MIT ekibinin şu anda üzerinde çalıştığı bir diğer konuysa, robotun çevresindeki olayları kayıt altına alabilmesi. Örneğin, bir binanın kapısının kırık olduğunu ya da bir alanın temizlenmesi gerektiğini tespit edebilecek sistemler geliştirmek, bakım ekiplerine büyük kolaylık sağlayabilir.
Ayrıca, bu teknolojinin ulaşım ve şehir planlama gibi alanlarda da kullanılması mümkün. Örneğin, yoğun bir kampüste kaybolan bir öğrenciye yol tarif eden bir robot, geçmiş verilerden yola çıkarak en hızlı rota önerilerinde bulunabilir.
Bu gelişme, robotik ve yapay zekâ alanında önemli bir adım olarak değerlendiriliyor. İnsanların doğal dille ifade ettiği sorgulara yanıt verebilen robotlar, gelecekte endüstriyel üretimden günlük yaşamımıza kadar birçok alanda yer alabilir. MIT’nin bu yenilikçi yaklaşımı, yapay zekâ ve robotik arasındaki uçurumu kapatmaya bir adım daha yaklaştırıyor.
Yapay zeka özeti
MIT araştırmacıları, robotların karmaşık ortamlarda uzun vadeli bellek oluşturmasını sağlayan DAAAM adlı bir sistem geliştirdi. Bu teknoloji, fabrikalarda ve artırılmış gerçeklik uygulamalarında devrim yaratabilir.