Yeni AI modeli Sora tanıtıldı!

Yayınlanma: 16.02.2024 15:55

Heyecan verici AI sohbet robotu ChatGPT ile dünyayı şaşkına çeviren OpenAI, başka bir yaratımla geri döndü. Sam Altman liderliğindeki yapay zeka girişimi, metin komutlarına dayalı olarak hiper gerçekçi bir dakikalık videolar oluşturabilen yeni bir yazılımı tanıttı. Sora adı verilen yazılım şu anda kırmızı ekip oluşturma aşamasında ve şirket sistemdeki kusurları tespit etmeye çalışıyor.

OpenAI’nin ayrıca model hakkında geri bildirim toplamak için görsel sanatçılar, tasarımcılar ve film yapımcılarıyla birlikte çalıştığı bildiriliyor.

OpenAI CEO’su Sam Altman, şirketin video oluşturma modeli Sora’yı tanıtmak için X hesabını kullandı. Altman, yeni yapay zeka modelinin verimliliğini ve görsel yeteneklerini sergilemek için profilinde bir dizi video paylaşmaya devam etti.

Model şu anda kırmızı ekip aşamasındayken OpenAI, daha geniş lansmanına ilişkin herhangi bir bilgi paylaşmadı.

İlginizi Çekebilir: OpenAI çalışması, yapay zekanın şaşırtıcı rolünü ortaya koyuyor

Sora, belirli hareket türlerine, konu ve arka planın doğru ayrıntılarına sahip çok sayıda karakterden oluşan karmaşık sahneler oluşturabiliyor

Sora

OpenAI’ye göre model, “görsel kaliteyi ve kullanıcının isteğine bağlılığı koruyarak” bir dakikalık videolar üreten bir metinden videoya modelidir. OpenAI, Sora’nın belirli hareket türlerine, konu ve arka planın doğru ayrıntılarına sahip çok sayıda karakterden oluşan karmaşık sahneler oluşturabildiğini iddia ediyor. Şirkete göre model, yalnızca kullanıcının ne istediğini anlamakla kalmıyor. Aynı zamanda da bu şeylerin gerçek dünyaya nasıl yansıyacağını da kavrayabiliyor.

Modelin tanıtımının ardından Altman, takipçilerinin talep ettiği yönlendirmelere dayanarak Sora’nın kreasyonlarını paylaştı. Bisiklete binen yunuslardan ejderhaya binen sincaplara kadar, Sora’nın çok yönlülüğünü gösteren bazı örnek videoları burada bulabilirsiniz.

here is a better one: https://t.co/WJQCMEH9QG pic.twitter.com/oymtmHVmZN

— Sam Altman (@sama) February 15, 2024

https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw

— Sam Altman (@sama) February 15, 2024

https://t.co/qbj02M4ng8 pic.twitter.com/EvngqF2ZIX

— Sam Altman (@sama) February 15, 2024

welcome to bling zoo! this is a single video generated by sora, shot changes and all. https://t.co/81ZhYX4gru pic.twitter.com/rnxWXY71Gr

— Bill Peebles (@billpeeb) February 15, 2024

Model için belirtelim. Esasen tüm videoları tek seferde oluşturabilen veya oluşturulan videoları daha uzun hale getirecek şekilde genişletebilen bir yayılma modelidir. Model, GPT modellerine çok benzer şekilde üstün ölçeklendirme performansının kilidini açan bir transformatör mimarisi kullanıyor. Yapay zeka modeli, videoları ve görüntüleri yama olarak bilinen daha küçük veri birimlerinin koleksiyonları olarak gösterir.

Bu yamaların her biri de GPT’deki belirteçlere benzer. OpenAI, modelin DALL-E ve GPT Modelleri için yürütülen geçmiş araştırmalara dayandığını belirtti. Görsel eğitim verileri için açıklayıcı başlıklar oluşturmayı içeren yeniden yakalama tekniğini DALL-E 3’ten ödünç alır.

Model, doğal dildeki istemlerden video oluşturmanın yanı sıra, mevcut bir görüntüyü alıp ondan bir video oluşturma yeteneğine de sahiptir. OpenAI‘ye göre, esasen görüntünün bileşenlerini doğru bir şekilde canlandıracak. Ayrıca eksik kareleri doldurarak mevcut videoları genişletebilir.

OpenAI için ekleyelim. Sora’nın, istemleri doğru bir şekilde yorumlamasına ve canlı duyguları sergileyen karakterler yaratmasına olanak tanıyan derinlemesine bir dil anlayışına sahip olduğunu iddia ediyor. İlginç bir şekilde Sora, aynı zamanda görsel stil ve karakterleri koruyan tek bir videoda birden fazla çekim oluşturma yeteneğine de sahip.

Şirket ayrıca modelin kendi sınırlamaları olduğunu da vurguladı. Şu anda model, “karmaşık bir sahnenin fiziğini” doğrulukla oluşturmakta zorluk yaşayabilir. Ayrıca belirli neden-sonuç örneklerini anlamakta da zorlanabilir.

Şirket, bir kişinin bir çerezden bir ısırık alabileceği ancak çerezde ısırık izinin bulunmayabileceği bir senaryoyu belirterek örnek verdi. Benzer şekilde Sora, sol ve sağı karıştırabileceği gibi mekansal ayrıntıları da bir istemde karıştırabilir ve zaman içinde meydana gelen olayların kesin açıklamalarında zorluk yaşayabilir.

Sora güvenli mi?

Bu arada OpenAI, resmi internet sitesinde Sora’yı ürünlerinde erişilebilir hale getirmeden önce çeşitli güvenlik önlemleri aldığını belirtti. Şirket, yanlış bilgilendirme, nefret dolu içerik ve önyargı konusunda uzmanlardan oluşan bir ekiple çalıştıklarını da belirtti.

Bu uzmanlar Sora’yı rakip olarak test edecek. Ayrıca şirket, yanıltıcı içeriği tespit edebilecek ve bir videonun Sora tarafından oluşturulup oluşturulmadığını anlayabilecek bir algılama sınıflandırıcı gibi araçlar da geliştiriyor.

Resmi web sitesinde şu ifadeler yer aldı.

“Endişelerini anlamak ve bu yeni teknolojinin olumlu kullanım örneklerini belirlemek için dünyanın dört bir yanındaki politika yapıcıları, eğitimcileri ve sanatçıları bir araya getireceğiz. Kapsamlı araştırma ve testlere rağmen, insanların teknolojimizi kullanacakları tüm yararlı yolları veya onu kötüye kullanacakları tüm yolları tahmin edemiyoruz. Bu nedenle, gerçek dünyadaki kullanımdan öğrenmenin, zamanla giderek daha güvenli hale gelen yapay zeka sistemleri oluşturmanın ve piyasaya sürmenin kritik bir bileşeni olduğuna inanıyoruz“

OpenAI’nin Sora’sı, Stability AI gibi metinden videoya modellerin, AI video oluşturmanın şaşırtıcı yeteneklerini gösterdiği bir zamanda geliyor. Sam Altman liderliğindeki şirket, gözlerini Yapay Genel Zeka’ya dikmiş durumda ve Sora’yı bu yönde bir adım olarak görüyor.

Gördüğümüz kadarıyla bu model, mevcut üretken yapay zeka video oluşturma modellerinden açıkça kilometrelerce önde. Google, Ekim 2022’de Imagen Video adıyla benzer bir modeli tanıtmıştı. Ancak teknoloji devinden halkın eriştiği bir model bulunmuyor. Google ayrıca metinden videoya modeli olan Phenaki üzerinde de çalıştı ve Meta’nın da Video Make aracıyla ilgili bir görevi vardı. Ancak OpenAI hepsini aşmış gibi görünüyor.