Üretken yapay zekâlar arasında en ön plana çıkanlardan birisi olan ChatGPT, ne yazık ki bize açılan sürümünde henüz görselleri ve videoları analiz edemiyor. Peki, edebilseydi neler yapabilirdi?
İşte bu sorunun cevabı, yapay zekâ geliştiricisi Mckay Wrigley tarafından verildi. Wrigley, iPhone ve MacBook kullanarak, yazdığı yazılım sayesinde ChatGPT’ye ‘göz’ verdi. ChatGPT, etraftaki nesnelere göre öneriler de yaptı.
ChatGPT’nin gözlere sahip olduğu video:
Wrigley’nin etrafındaki tüm nesneler ve buzdolabındaki yiyecek ve içecekler, farklı bir yapay zekâ ile tanınıyor. Daha sonrasında bu veriler ChatGPT’ye sunuluyor. ChatGPT, bir soruyla önce hangi nesnelerin etrafta olduğunu öğreniyor, ardından bu nesnelere ilişkin bir diğer soruyu da cevaplıyor.
Wrigley, bu yöntem ile ChatGPT’ye buzdolabındaki nesneleri gösteriyor, öğretiyor. Sonrasında ise ChatGPT’den buzdolabındaki içeriklere uygun bir tarif vermesini istiyor. ChatGPT, internette kısa bir arama yaptıktan sonra uygun tarifi anlatıyor.
Videodaki sesli konuşma da elbette ChatGPT’nin yapabildiği bir şey değil. Wrigley, yazının anlık olarak sese dönüştürülmesi için OpenAI’ın Whisper yapay zekâsından faydalanıyor. Kendisinin kullandığı tüm yapay zekâlar ve kullanım amaçları ise şu şekilde:
- GPT-4: ChatGPT’yi oluşturan dil modeli
- YoloV8: Kameraya gözüken nesneleri tanımlayan yapay zekâ
- Whisper: Metnin sese dönüştürülmesi
- Google Custom Search Engine: ChatGPT’nin internette arama yapmasını sağlayan araç
Wrigley, bu yapay zekâları Python ile yazdığı kodlar ile bir arada çalıştırıyor ve ortaya böyle bir sonuç çıkıyor. Wrigley, Apple’ın piyasaya sürmeye hazırlandığı artırılmış gerçeklik gözlükleri için de araçlar geliştirmeye hazırlandığını söylüyor.
Bir diğer deyişle yukarıdaki video, artırılmış gerçeklik gözlüklerinin halihazırda bildiğimiz bir potansiyelinin somut bir şekilde sunumu.