Yapay Zekâ Modelleri, Super Mario Bros.'ta Test Edilmeye Başladı: En İyi Performansı Hangi Yapay Zekâ Verdi?

3
3
0
0
0
Yapay Zekâ Modelleri, Super Mario Bros.'ta Test Edilmeye Başladı: En İyi Performansı Hangi Yapay Zekâ Verdi?
ABD'den araştırmacılar; Google, OpenAI, Anthropic gibi şirketlerin yapay zekâ modellerini Super Mario Bros. ile test etmeye başladı. İşte sonuçlar.

Yapay zekâ modelleri gün geçtikçe çok daha iyi hâle geliyor. Tabii ki her teknolojide olduğu gibi yapay zekânın da piyasaya sürülmeden önce ve sonra test edilmesi gerekiyor. Bu testlerde oyunların kullanıldığını görmüştük. Örneğin Anthropic’in Claude modeli, geçen hafta Pokemon’da denenmişti.

Şimdi ise ABD’de bulunan Kaliforniya Üniversitesi San Diego’dan Hao AI Lab isimli organizasyondan araştırmacılar, yepyeni bir oyunla yapay zekâyı test etmeye başladı. Bu oyun, ikonik yapım Super Mario Bros. olarak karşımıza çıktı.

Claude 3.7 en iyi performansı verdi, GPT-4o sınıfta kaldı

Testlerde Super Mario Bros. kullanılarak birçok farklı yapay zekâ modelinin benchmark testleri gerçekleştirildi. Bunlar arasında OpenAI’ın ChatGPT’ye güç veren GPT-4o’su, Anthropic’in Claude 3.7 ve 3.5 modelleri ve Google’ın Gemini 1.5 Pro’su vardı.

Sonuçlarda, en iyi performansı Claude 3.7’nin verdiği görüldü. Onu Claude 3.5 ve Gemini 1.5 Pro takip etti. GPT-4o ise zorlanarak aralarında en kötü performansı gösteren dil modeli oldu.

Kullanılan Super Mario Bros. 1985’teki orijinalinden biraz daha farklıydı. Testler için emülatörden yararlanıldı. Ayrıca GamingAgent ismi verilen bir framework ile entegre çalıştı. Bu, oyunun yapay zekâ modelleri tarafından kontrol edilmesini sağladı.

Oyunda her bir modelin nasıl tepkiler vereceği, karışık manevraları öğrenmeleri, oyun stratejileri geliştirmeleri gibi şeyler test edildi. Daha da ilginç olanı ise OpenAI’ın mantık yürüten o1 modelinin GPT-4o gibi mantık yürüten kategorisine sokulmayan modellerden daha kötü performans göstermesiydi.

 Bu tarz modeller, problemleri adım adım düşünüp çözmeleriyle genelde diğer modellere kıyasla daha iyi performans gösteriyordu ancak Super Mario Bros.’ta bu olmadı. Bunun nedeni muhtemelen mantık modellerinin eylemleri için biraz süreye ihtiyacı olması ve düşünmesi. Bu yüzden normal dil modelleri gibi gerçek zamanlı olarak hızlı aksiyon alamıyorlar.

3
3
0
0
0
Emoji İle Tepki Ver
3
3
0
0
0
Yorumlar(1)
Yorumunuz minimum 30 karakter olmalıdır.(0)
Ziyaretçi olarak yorum yapıyorsun, dilersen .
Tüm Yorumlar
2 hafta önce
Pirençeskayı kurtarabilmiş mi? Fjfkfkdkd
Yanıtla
Yorumunuz minimum 10 karakter olmalıdır.(0)
Ziyaretçi olarak yorum yapıyorsun, dilersen .