Google araştırmacıları, yalnızca tek bir fotoğraftan, konuşan, jest yapan ve hareket eden insanların gerçekçi videolarını oluşturabilen yeni bir yapay zeka sistemi geliştirdi.
VLOGGER adı verilen teknoloji, şaşırtıcı derecede gerçekçi görüntüleri sentezlemek için gelişmiş makine öğrenimi modellerine dayanıyor.
Bir dizi potansiyel uygulamanın önünü açıyor. Ancak aynı zamanda da derin sahtekarlıklar ve yanlış bilgilerle ilgili endişeleri artırıyor.
İlginizi Çekebilir: Apple, Samsung ve Google’a meydan okuyor
İçindekiler
Teknolojinin kötüye kullanılma potansiyeli de mevcut
“VLOGGER: Somutlaştırılmış Avatar Sentezi için Multimodal Difüzyon” başlıklı bir araştırma makalesinde açıklanan yapay zeka modeli için belirtelim.
Girdi olarak bir kişinin fotoğrafını ve bir ses klibini çekebilir. Ardından da, sözcükleri konuşan kişiyi gösteren, sesle eşleşen bir video yayınlayabilir. Videolar bazı yapaylıklar nedeniyle mükemmel değil ancak hareketsiz görüntüleri canlandırma yeteneğinde önemli bir sıçramayı temsil ediyor.
Google Araştırma’dan Enric Corona liderliğindeki araştırmacılar, yeni sonuca ulaşmak için yayılma modelleri adı verilen bir tür makine öğrenimi modelinden yararlandı.
Difüzyon modelleri için belirtelim. Son zamanlarda metin açıklamalarından oldukça gerçekçi görüntüler oluşturma konusunda dikkate değer bir performans göstermiştir.
Ekip, bunları video alanına genişleterek, yeni ve geniş bir veri kümesi üzerinde eğitim vererek, fotoğraflara son derece ikna edici bir şekilde hayat verebilecek bir yapay zeka sistemi oluşturmayı başardı.
Makale, VLOGGER’ın yalnızca ses parçasını değiştirerek videoları otomatik olarak diğer dillere kopyalama, bir videodaki eksik kareleri sorunsuz bir şekilde düzenleyip doldurma ve tek bir fotoğraftan bir kişinin tam videolarını oluşturma yeteneğini gösteriyor.
Google, VLOGGER’ı insanlarla konuşma, jestler ve göz teması yoluyla doğal bir şekilde etkileşim kurabilen “somutlaşmış konuşma araçlarına” doğru bir adım olarak görüyor.
Yazarlar, “VLOGGER sunumlar, eğitim, anlatım, düşük bant genişliğine sahip çevrim içi iletişim için bağımsız bir çözüm olarak ve yalnızca metinden oluşan insan-bilgisayar etkileşimi için bir arayüz olarak kullanılabilir” diye belirtti.
Bununla birlikte teknolojinin kötüye kullanılma potansiyeli de var. Örneğin deepfake (bir videodaki kişinin başka birinin benzeriyle değiştirildiği sentetik medya) oluşturma gibi.
Yapay zeka tarafından oluşturulan bu videolar daha gerçekçi hale geldikçe ve oluşturulması daha kolay hale geldikçe, yanlış bilgilendirme ve dijital sahtecilikle ilgili zorluklar daha da kötüleşebilir.
Etkileyici olsa da, VLOGGER’ın hala sınırlamaları var. Oluşturulan videolar nispeten kısadır.
Statik bir arka plana sahiptir. Bireyler 3 boyutlu bir ortamda hareket etmez. Tavırları ve konuşma kalıpları gerçekçi olsa da henüz gerçek insanlarınkinden ayırt edilemez değil.
VLOGGER ileriye doğru atılmış önemli bir adım
Yine de VLOGGER ileriye doğru atılmış önemli bir adımı temsil ediyor.
Daha fazla ilerlemeyle birlikte, yapay zeka tarafından üretilen bu tür medyanın her yerde yaygınlaşması muhtemeldir.
Yakında bizimle bir videoda konuşan kişinin gerçek mi yoksa bir bilgisayar programı tarafından mı oluşturulduğunu anlamanın zor olduğu bir dünyada yaşayabiliriz.
VLOGGER bu geleceğe dair erken bir bakış sunuyor. Bu, yapay zekada kaydedilen hızlı ilerlemenin güçlü bir göstergesi ve gerçek ile sahte olanı ayırt etmede karşılaşacağımız zorlukların arttığının bir işareti.