Microsoft'un VASA-1 Yapay Zekâ Aracı Fotoğrafları "Dile Getiriyor"

Microsoft, yapay zekâ aracı ile fotoğrafları gerçekçi videolara dönüştürebiliyor, hatta fotoğraflara şarkı söyletebiliyor.

Üretken yapay zekâların çıkışından çok daha önce fotoğraflara şarkılar söyletilmeye, animasyonlar yapılmaya başlanmıştı. Microsoft'un yapay zekâ aracı ise artık fotoğrafları daha gerçekçi videolara çeviriyor. Bununla da kalmayan araç, fotoğraflara istenilen şeyi istenilen tarzda söyletebiliyor: buna şarkılar da dahil. 

Microsoft Asya Araştırma tarafından tanıtılan ve VASA-1 adı verilen yapay zekâ aracı, herhangi bir fotoğrafı ya da çizimi alıp var olan bir ses dosyası ile birleştirebiliyor. Yeni yapay zekâ aracı yüz ifadeleri ve kafa hareketleri oluşturabiliyor. Ayrıca konuşmalara uygun ağız hareketleri de üretiyor. 

Görsellerin yapay zekâ eseri olduğu "şimdilik" belli oluyor

Her ne kadar VASA-1'in oluşturduğu görsellerde ağız ve baş hareketleri biraz robotik gözükürken yakından baktığımızda da ses ve dudak senkronizasyonunda kaymalar oluyor. Yine de bu teknolojilerin zaman içerisinde sahte görüntüler oluşturmak ya da deepfake videolar üretmek için kullanılabileceği de akıllara geliyor. Araştırmacılar da bu durumun farkında ve o yüzden de kullanılabilir bir demo ya da API paylaşmadılar. Bu teknolojinin de "sorumluluk sahibi şekilde" kullanılacağından emin olmak istediklerini belirtti. 

Araştırmacılar yine de bu teknolojinin iyi amaçlarla kullanılabileceğine inanıyor. VoxCeleb2 adlı veri seti ile, 6112 ünlüye ait görsellerle eğitilen yapay zekâ aracı sayesinde yapay zekâ ile iletişimin güçlenebileceği, eğitim alanında yeni araçlar geliştirilebileceği ve iletişim zorluklarının çözülebileceği ifade ediliyor. 

Microsoft'un yayımladığı araştırmaya ve demo görsellere buradan ulaşabilirsiniz.