AI destekli görüntü oluşturmak heyecan verici gibi görünse de, her yeniden deneme aslında görüntüyü baştan inşa etmek anlamına gelir. Örneğin, "figürü sola kaydır ve kamyonu kaldır" komutunu verdiğinizde model, tüm sahneyi yeniden şekillendirir: ışıklandırmayı, binaların geometrisini hatta karın dokusunu bile değiştirir. Orijinal tohum verisiyle sabitlenmeyen her unsur baştan oluşturulur. Oysa fotoğrafçılar ya da konsept sanatçıları bu şekilde çalışmaz. Onlar katmanlar üzerinde oynar, unsurları yerinden oynatır ve gerektiğinde değiştirirler.
İşte ben de bu yaklaşımı benimsemek için Melius adlı platformda yeni bir yöntem geliştirdim. Bu yöntemle, herhangi bir görüntüyü katmanlarına ayırıp, istediğiniz gibi yeniden düzenleyebilir ve nihai kompozisyonu oluşturabilirsiniz.
Tek bir bakışta Melius pipeline’ı
Melius’un sunduğu arayüzde çalışan bu sistemde her şey tek bir tuval üzerinde gerçekleşiyor. Öncelikle, analizör adı verilen bir büyük dil modeli (LLM) girdi olarak aldığı görüntüyü inceleyerek, arka plan, orta plan, ön plan ve dört farklı unsur olmak üzere yedi katman adayı için bir JSON yapısı oluşturuyor. Ardından, her katmana özel ayırma komutunu çıkarmak için yedi paralel çalışan çıkarım modeli devreye giriyor. NanoBanana Pro düğümleri ise her katmanı krom yeşili zemin üzerinde, orijinal konum, ölçek ve ışıklandırmayı koruyarak yeniden oluşturuyor. Daha sonra, krom yeşili temizleme düğümleri devreye girerek fonun temizlenmesini sağlıyor. Son olarak, NanoBanana Pro geçişiyle tüm yedi saydam katman bir araya getirilerek, ışıklandırması tutarlı olan nihai kompozisyon oluşturuluyor. Bu sayede, istediğiniz katmanı hareket ettirebilir, ölçeklendirebilir ya da değiştirebilirsiniz — tüm bunlar nihai render işleminden önce gerçekleşiyor.
Neden bu yöntem önemli?
Geleneksel tek geçişli görüntü oluşturma yöntemleri, görüntüyü bölünemez bir bütün olarak kabul eder. İçerik doldurma (inpainting) ya da referans koşullandırma gibi teknikler kısmi çözümler sunsa da model, örtülen bölgeleri tamamen yeniden yaratmak zorunda kalır. Örneğin, bir kamyonu hareket ettirdiğinizde, altında kalan kar dokusu baştan yaratılır. Bunun yerine, orijinal görüntüyü bir taslak olarak kabul edip onu katmanlara ayırmak ve nihai kompozisyonu sadece son adımda oluşturmak çok daha akıllıca bir yaklaşımdır.
Ancak bunun için gerçek bir pipeline’a ihtiyaç var. Bir düğüm grafiği (node graph), bu pipeline için mükemmel bir yapı sunar. Neyse ki, Melius’un sunduğu tuval sistemi tam da bu ihtiyacı karşılıyor.
Detaylı iş akışını keşfedin
Eğer bu yöntemin tüm adımlarını, kullanılan komutları ve sistemin nasıl çalıştığını merak ediyorsanız, Scopeful Pro üzerindeki ayrıntılı kılavuzumu inceleyebilirsiniz. Burada, her düğümün işlevi, sistem komutları (analizör ve evrensel çıkarım şablonu), yaptığım ilk hatalardan ve ikinci versiyon için planladıklarımdan bahsediyorum. Eğer komutlara, düğüm düğüm iş akışına ya da tuvale doğrudan erişim istiyorsanız, aşağıdaki bağlantıya göz atabilirsiniz:
- Her düğümün yapılandırması
- Sistem komutlarının tam metni
- İlk denemelerde yapılan hatalardan dersler
- İkinci versiyon için planlanan iyileştirmeler
Bu yöntemin nasıl çalıştığını daha iyi anlamak için, 14 saniyelik video demosuna da X hesabım üzerinden ulaşabilirsiniz: @igorgridel.
Yapay zeka özeti
AI ile oluşturulan görüntüleri katmanlara ayırarak yeniden düzenleyin. Melius’un sunduğu bu yenilikçi yöntemle unsurları dilediğiniz gibi hareket ettirin ve nihai kompozisyonu oluşturun.