Yapay zekâların eğitilmesi için çok büyük veri setlerine ihtiyaç duyuluyor. Veri seti ne kadar büyükse yapay zekâ da ona göre daha iyi performans gösteriyor. LAION da yapay zekâ geliştiricileri için veri setleri oluşturuyor. Stanford Internet Gözlemevi, LAION-5B adlı veri setinde çocuk istismarına ait yüzlerce linki ortaya çıkardı.
LAION-5B, Stable Diffusion'un yaratıcısı olan Stability AI tarafından da kullanılmıştı. Eylül 2023'te veri setini incelemeye başlayan Stanford'lu araştırmacılar, bu veri setinde çocuk istismarına ait içeriklerin olup olmadığını, varsa kaç tane olduğunu ortaya çıkarmayı amaçlıyordu. Çalışma sonuçlarına göre en az 1679 içerikte çocuk tacizini içeren görsellere ait bağlantılar bulundu. Bu bilgiler, PhotoDNA ve Kanada Çocuk Koruma Merkezi gibi kurumlarla da paylaşıldı.
Stable Diffusion'da da bu veri seti kullanılmıştı
LAION'un internet sitesinde yer alan bilgilere göre veri seti görselleri depolamıyor, görüntülerin metin açıklamalarıyla görüntülerin linklerinin yer aldığı bir internet indeksi oluşturuyor. Google da Imogen üretken yapay zekânın eğitimi için LAION-5B'nin daha eski sürümü olan LAION-400M'i kullanmıştı. Şirket, daha sonraki versiyonlarda 400M'in kullanılmadığını söylerken, Imogen araştırmacıları da veri setinde "çocuk istismarı, ırkçı küfürler ve zararlı toplumsal sterotipler gibi çok sayıda uygunsuz içerik bulunduğunu" belirtmişti.
Stanford araştırmacıları, bu içeriklerin varlığının doğrudan veri setinin çıktılarını etkilemediğini söylerken, LAION ise bu türden zararlı içeriklere karşı sıfır tolerans politikası uyguladıklarını ve geçici bir süreliğine veri setini yayından çekeceklerini açıkladı. Öte yandan bu verilerle eğitilmiş olan yapay zekâları yeniden eğitmek daha büyük bir sorun oluşturuyor.
Daha önce de ABD'de eyalet savcıları kongreye, yapay zekânın çocuk istismarında kullanımı ve üretken yapay zekâlarla bu tür içeriklerin üretiminin engellenmesi için bir komite toplanması çağrısında bulunmuştu.