OpenAI'ın, GPT-4 Modelini Eğitmek İçin Bir Milyon Saatten Fazla YouTube Videosunu Kullandığı Ortaya Çıktı

The New York Times'ın iddiasına göre OpenAI, telif hakkı ihlali olabileceğini bile bile GPT-4'ü eğitmek için bir milyondan fazla YouTube videosunu kullanmış.

Yapay zekâ modelleri sürekli ağzımızı açık bıraksa da bu araçların beraberinde getirdiği bazı soru işaretleri var. Bunlardan biri de eğitilmeleri için kullanılan veriler. İzinsiz verilerin kullanımı bazı telif haklarının ihlal edilmesine yol açabiliyor.

The New York Times tarafından paylaşılan bir rapor da tam bu noktaya dikkat çekiyor. Haberde paylaşılan iddiaya göre OpenAI, yapay zekâ modelini eğitmek için Google verilerini kullanmış.

Bir milyon saatten fazla YouTube videosu, GPT-4’ü eğitirken kullanılmış

NYT’nin iddiası, OpenAI’ın oldukça büyük miktarda YouTube verisinden yararlandığını ortaya koydu. Buna göre yapay zekâ devi,  Whisper isimli ses tanıma aracıyla bir milyon saatten fazla YouTube videosunu yazıya döktü ve bunları en gelişmiş dil modeli olan GPT-4’ü eğitirken kullandı.

Ayrıca şirketin, bu durumun yasal olarak soru işaretleri doğurabileceğini bildiği ancak kullanmanın sorun yaratmayacağını düşündüğü de bildirildi. Şirkette başkan olarak görev yapan Greg Brockman’ın da videoları toplamada görev aldığı öne sürüldü. Times makalesi, OpenAI’ın 2021’de eğitmek için kullandığı kaynakları tükettiğini, sonrasında ise YouTube içeriklerini yazıya dökme planını tartışmaya başladığını da ekliyor. Şirket o zamana kadar Github’dan kodlar, satranç veri tabanları ve Quizlet’ten okul içerikleri gibi yerlerden yararlanıyormuş.

YouTube’un sahibi Google’ın sözcüsü Matt Bryant The Verge’e yaptığı açıklamada konuya ilişkin “doğrulanmamış raporları” gördüğünü, bu tarz izinsiz kullanımların yasak olduğunu belirtti. Ayrıca bizim de sizlerle paylaştığımız üzere birkaç gün önce YouTube CEO’su Neal Mohan, platformun verilerini kullanmanın ihlal olacağını belirtmişti. Mohan, OpenAI’ın yeni modeli Sora’nın YouTube ile eğitildiğine dair iddialar nedeniyle böyle bir açıklama yapmıştı.

Google’ın kendisi de YouTube verileriyle modelleri eğitmiş

Bunların dışında Google’ın kendisinin de YouTube’dan veri topladığı bilgileri var. Sözcü Bryant, Google’ın içerik üreticileri ile olan anlaşmaları doğrultusunda kendi modellerini eğitmek için YouTube içerikleri kullandığını ifade etti. Bu yüzden OpenAI’a karşı harekete geçmediği de iddialar arasında yer aldı.

Tüm bu iddialar, yapay zekânın bir başka yüzünü gözler önüne seriyor. İzinsiz veri kullanımı, telif hakkı ihlali konusunda büyük problemler yaratma potansiyeline sahip. Konu hakkında neler yaşanacağını bekleyip göreceğiz.