Yapay zekâ modelleri gün geçtikçe çok daha iyi hâle geliyor. Tabii ki her teknolojide olduğu gibi yapay zekânın da piyasaya sürülmeden önce ve sonra test edilmesi gerekiyor. Bu testlerde oyunların kullanıldığını görmüştük. Örneğin Anthropic’in Claude modeli, geçen hafta Pokemon’da denenmişti.
Claude 3.7 en iyi performansı verdi, GPT-4o sınıfta kaldı
Testlerde Super Mario Bros. kullanılarak birçok farklı yapay zekâ modelinin benchmark testleri gerçekleştirildi. Bunlar arasında OpenAI’ın ChatGPT’ye güç veren GPT-4o’su, Anthropic’in Claude 3.7 ve 3.5 modelleri ve Google’ın Gemini 1.5 Pro’su vardı.
Sonuçlarda, en iyi performansı Claude 3.7’nin verdiği görüldü. Onu Claude 3.5 ve Gemini 1.5 Pro takip etti. GPT-4o ise zorlanarak aralarında en kötü performansı gösteren dil modeli oldu.
Kullanılan Super Mario Bros. 1985’teki orijinalinden biraz daha farklıydı. Testler için emülatörden yararlanıldı. Ayrıca GamingAgent ismi verilen bir framework ile entegre çalıştı. Bu, oyunun yapay zekâ modelleri tarafından kontrol edilmesini sağladı.
Oyunda her bir modelin nasıl tepkiler vereceği, karışık manevraları öğrenmeleri, oyun stratejileri geliştirmeleri gibi şeyler test edildi. Daha da ilginç olanı ise OpenAI’ın mantık yürüten o1 modelinin GPT-4o gibi mantık yürüten kategorisine sokulmayan modellerden daha kötü performans göstermesiydi.
Bu tarz modeller, problemleri adım adım düşünüp çözmeleriyle genelde diğer modellere kıyasla daha iyi performans gösteriyordu ancak Super Mario Bros.’ta bu olmadı. Bunun nedeni muhtemelen mantık modellerinin eylemleri için biraz süreye ihtiyacı olması ve düşünmesi. Bu yüzden normal dil modelleri gibi gerçek zamanlı olarak hızlı aksiyon alamıyorlar.