Çin’in ilk yapay zeka çizgi film serisinin piyasaya sürülmesinin ardından Alibaba’nın Akıllı Bilgi İşlem Enstitüsü, Emote Portrait Alive’ın kısaltması olan “EMO” adlı çığır açan bir yapay zeka sistemini tanıttı.
Bu yenilikçi sistem, statik portre fotoğraflarını canlandırarak bunları konuşma ve şarkı söyleme videolarında şaşırtıcı bir gerçeklikle hayata geçirme yeteneğine sahip.
İlginizi Çekebilir: Yapay zekalı çocuk ‘Tong Tong’, insani duygular gösterebiliyor!
İçindekiler
EMO ses dalga formlarını doğrudan video karelerine dönüştürüyor
EMO, ara 3D modellere veya yüz işaretlerine olan ihtiyacı ortadan kaldırarak doğrudan sesten videoya sentez yaklaşımını kullanıyor.
Bu öncü teknik için belirtelim. Sağlanan ses kaydındaki nüansları yakından taklit eden akıcı ve etkileyici yüz hareketleri ve baş pozlarının yaratılmasına olanak tanıyor.
3 boyutlu yüz modellerine veya şekillerin karışımına dayanan önceki yöntemlerin aksine, EMO ses dalga formlarını doğrudan video karelerine dönüştürüyor.
Bunu yaparak, doğal konuşmayla ilişkili ince hareketleri ve bireysel yüz özelliklerini yakalayarak ses odaklı konuşan kafa videosu oluşturmada yeni bir standart belirliyor.
Sistemin temeli için ekleyelim. Gerçekçi sentetik görüntüler üretmesiyle bilinen güçlü bir yapay zeka tekniği olan yayılma modelinde yatıyor.
Çeşitli medyalardan alınan 250 saatten fazla seçilmiş konuşan kafa videolarından oluşan geniş bir veri kümesi üzerinde eğitilen EMO, benzersiz kalite ve ifade gücü sunmak üzere titizlikle geliştirildi.
Araştırma makalesinde özetlenen deneysel sonuçlar, EMO’nun mevcut metodolojilere göre üstünlüğünü ortaya koymaktadır. Video kalitesi, kimliğin korunması ve ifade gücü gibi önemli ölçümlerde rakiplerinden daha iyi performans gösteriyor.
Uygulama tarafından oluşturulan videolar doğal ve duygusal
Bir kullanıcı çalışması ayrıca EMO tarafından oluşturulan videoların doğallığını ve duygusallığını da doğrulamaktadır.
EMO, sohbet videolarının ötesinde, şarkı söyleyen portreleri canlandırma konusundaki ustalığı da ortaya koyuyor. Ağız şekillerini ve yüz ifadelerini vokallerle senkronize etme yeteneği sayesinde, mevcut endüstri standartlarını aşan olağanüstü gerçekçilik ve ifade gücüne sahip şarkı videoları oluşturuyor.
Aynı zamanda yetenekleri için belirtelim. Rap yapmayı da kapsıyor ve yaratıcı potansiyelini daha da genişletiyor.
EMO’nun statik portreleri canlandırma yeteneği inkar edilemez derecede etkileyicidir. Kişiselleştirilmiş içerik oluşturma için de yeni yollar sunuyor.
Bununla birlikte, Singapur Başbakanı Lee Hsien Loong’un kriptoyu tanıtması gibi yanlış bilgilerin yayılması ve hatta 2024 ABD Başkanlık Seçiminde görüldüğü gibi seçimleri etkilemek de dahil olmak üzere kötüye kullanım potansiyeli çok önemli bir husustur.
Belirtelim ki, her güçlü teknolojide olduğu gibi, olası zararların azaltılması ve EMO’nun iyilik için bir güç olarak kalmasının sağlanması için sorumlu geliştirme ve korumalar şarttır.
Alibaba’nın EMO’su yapay zeka animasyon teknolojisinde kayda değer bir ilerlemeyi temsil ediyor
Alibaba‘nın EMO’su yapay zeka animasyon teknolojisinde önemli bir ilerlemeyi temsil ediyor. Statik görüntülere hayat verme, gerçekçi konuşma ve şarkı söyleme videoları üretme yeteneği, çeşitli uygulamalar için büyük umut vaat ediyor.
Bununla birlikte, herhangi bir dönüştürücü teknolojide olduğu gibi, sorumlu inovasyonun sağlanması için etik sonuçların dikkatli bir şekilde değerlendirilmesi çok önemlidir.