OpenAI, Google ve Meta gibi büyük teknoloji şirketleri, yapay zeka (AI) modellerini eğitmek için yeterli veri toplamaya gitti. Yapay zeka teknolojisi geliştikçe, büyük hacimli yüksek kaliteli verilere olan talep arttı.
Bu durum, bu şirketleri alışılmadık ve bazen de tartışmalı veri toplama yöntemlerini keşfetmeye itti. The New York Times‘ın bir raporuna göre belirtelim. OpenAI, büyük dil modeli GPT-4‘ü eğitmek için bir milyon saatten fazla YouTube videosu kullandı.
İlginizi Çekebilir: OpenAI çalışması, yapay zekanın şaşırtıcı rolünü ortaya koyuyor
Mohan: ”OpenAI’nin yeni video aracını eğitmek için herhangi bir YouTube verisi kullanıp kullanmadığının farkında değilim”
İçindekiler
Rapor, OpenAI tarafından geliştirilen GPT-4 modelinin, YouTube videolarını yazıya dökmek ve yeni konuşma metni oluşturmak için Whisper adlı bir konuşma tanıma aracı kullanılarak eğitildiğini iddia ediyor.
Bir milyon saatten fazla video içeriğinin yazıya geçirilmesini içeren bu yaklaşım, Google’ın sahibi olduğu YouTube’un videolarının bağımsız uygulamalar için kullanımını kısıtlaması nedeniyle YouTube’un politikalarına uyum konusunda endişeleri artırdı.
Bu açıklama, YouTube CEO’su Neal Mohan‘ın, OpenAI’nin Sora video oluşturucusunun YouTube’dan gelen verileri kullanıp kullanmadığına karar vermesinden birkaç gün sonra geldi.
Mohan, WSJ ile yaptığı röportajda OpenAI’nin yeni video aracını eğitmek için herhangi bir YouTube verisi kullanıp kullanmadığının farkında olmadığını belirtti. Ancak OpenAI’nin yeni modelleri eğitmek için YouTube videolarını kullanması durumunda bunun sorun olacağını iddia etti.
Google ve Meta’nın (Facebook ve Instagram’ın sahibi) bile bazı tartışmalı verileri kullandığı tespit edildi.
Örneğin rapor, Google’ın yapay zeka eğitimi için YouTube videolarını yazıya döktüğünü, potansiyel olarak telif hakkı yasalarını ihlal ettiğini ve hizmet şartlarını kullanıcı tarafından oluşturulan içerikten daha fazla yararlanacak şekilde değiştirdiğini iddia ediyor.
Yapay zeka modellerinin özellikle insana benzer metinler, resimler, sesler ve videolar oluşturmadaki etkinliği, üzerinde eğitim aldıkları veri hacmiyle önemli ölçüde artıyor.
Yüksek kaliteli verilere olan talep o kadar yüksek ki, bazı spekülasyonlar, teknoloji şirketlerinin mevcut internet verilerini 2026 yılına kadar tüketebileceğini düşünüyor.
OpenAI: ”Yapay zeka modellerinin her biri benzersiz bir veri kümesi üzerinde eğitiliyor”
OpenAI, araştırmada rekabet gücünü korumak için yapay zeka modellerinin her birinin benzersiz bir veri kümesi üzerinde eğitildiğini belirtti.
Google, içerik oluşturucularla yapılan anlaşmalar kapsamında bazı YouTube içeriklerinde yapay zeka modellerinin eğitildiğini kabul etti. Ofis uygulamalarındaki verileri de deneysel bir program dışında kullanmadığını açıkladı.
Meta, halka açık olarak paylaşılan milyarlarca görüntü ve videodan yararlanarak yapay zekayı hizmetlerine entegre etme konusundaki yatırımını da vurguladı.