Yapay zeka ve makine öğrenimi algoritmaları, videolarda geleceği öngörmede giderek daha iyi hale geliyor. Örneğin, artık yapay zeka modelleri bir beyzbol topuna vurulmasının ardından gideceği yönü ya da bir yolun başlangıç noktasından sonrasını doğru tahmin edebiliyorlar.
Google, Michigan Üniversitesi ve Adobe'daki araştırmacılar tarafından öne sürülen yeni bir yaklaşım, yalnızca birkaç kareden yüksek kaliteli videolar üreten büyük ölçekli bir modelle teknolojiyi ileri taşıyor. Üstelik yapay zeka, bunu önceki yöntemlerden farklı olarak optik akış (nesnelerin görünür yüzey hareketleri, yüzeyler veya kenarlar) veya nokta belirleme tekniklerine dayanmadan gerçekleştiriyor.
Araştırmacılar çalışmalarını, "Bu çalışmada, standart bir sinir ağının kapasitesini azami düzeye çıkararak, yüksek kalitede video tahminleri yapıp yapamayacağımızı araştırıyoruz. Elimizdeki mevcut bilgilere göre, bu çalışma video tahmini için kapasite artışlarının etkisine ilişkin kapsamlı bir bilgi sunuyor." şeklinde tanımladı.
Ekibin geliştirdiği temel model, geleceğe yönelik tahminlerdeki belirsizliği modelleyen bir bileşenle, stokastik video üretimi (SVG) mimarisine dayanıyor. Araştırmacılar modelin birkaç versiyonunu, 'nesne etkileşimleri', 'yapısal hareket' ve 'kısmi gözlemlenebilirlik' şeklinde 3 tahmin kategorisine uyarlanmış veri setlerine karşı, ayrı ayrı eğiterek test ettiler.
Birinci aşama olan nesne etkileşimlerinde, araştırmacılar havlularla etkileşime geçen robot kol videolarından 256 tanesini seçtiler. İkinci aşama olan yapısal hareket için, Human 3.6M'den sandalyede oturma gibi hareketler yapan insan klipleri aldılar. Son olarak kısmi gözlemlenebilirlik aşamasında arabanın ön tarafına kurulan kameralardan görüntülerin yer aldığı açık kaynaklı KITTI sürüş verilerini kullandılar.
Ekip, her bir modeli 2 giriş ila 5 video karesine koşullandırdı ve modeller, tüm görevler için düşük çözünürlükte (64x64 piksel) ve yüksek çözünürlükte (128x128) geleceğe yönelik 5-10 kare arasında tahmin yaptı. Test sırasında, modeller 25 kareye kadar üretebildi. Yapay zekanın insan kollarını ve bacaklarını net bir şekilde tasvir edebildiği ve gerçekçi görünen çok keskin tahminlerde bulunduğu belirtildi.
Son olarak, çalışmanın ortak yazarları, "Deneylerimiz belirsizliğin varlığında tekrarlayan bağlantıların ve stokastikliğin (veya rastlantısallığın) modellenmesinin önemini doğrulamakta (örneğin, bilinmeyen eylemler içeren videolar).
Ayrıca bu tür modellerin kapasitesini en üst düzeye çıkarmanın video tahmin kalitesini de artırdığını tespit ettik. Çalışmamız gelecekte yüksek kaliteli video tahminleri elde etmek için ne kadar ileri gidebileceğimizi ortaya çıkartmaya teşvik ediyor." diyerek ilerleme hedeflerini ortaya koydu.