Yapay Zekâ Modelleri, Super Mario Bros.'ta Test Edilmeye Başladı: En İyi Performansı Hangi Yapay Zekâ Verdi?

Gökay Uyan —

2 dk okuma süresi

04 Mart 2025 Salı, 17:24

Yapay Zekâ Modelleri, Super Mario Bros.'ta Test Edilmeye Başladı: En İyi Performansı Hangi Yapay Zekâ Verdi?

ABD'den araştırmacılar; Google, OpenAI, Anthropic gibi şirketlerin yapay zekâ modellerini Super Mario Bros. ile test etmeye başladı. İşte sonuçlar.

Yapay zekâ modelleri gün geçtikçe çok daha iyi hâle geliyor. Tabii ki her teknolojide olduğu gibi yapay zekânın da piyasaya sürülmeden önce ve sonra test edilmesi gerekiyor. Bu testlerde oyunların kullanıldığını görmüştük. Örneğin Anthropic’in Claude modeli, geçen hafta Pokemon’da denenmişti.

Şimdi ise ABD’de bulunan Kaliforniya Üniversitesi San Diego’dan Hao AI Lab isimli organizasyondan araştırmacılar, yepyeni bir oyunla yapay zekâyı test etmeye başladı. Bu oyun, ikonik yapım Super Mario Bros. olarak karşımıza çıktı.

Claude 3.7 en iyi performansı verdi, GPT-4o sınıfta kaldı

Testlerde Super Mario Bros. kullanılarak birçok farklı yapay zekâ modelinin benchmark testleri gerçekleştirildi. Bunlar arasında OpenAI’ın ChatGPT’ye güç veren GPT-4o’su, Anthropic’in Claude 3.7 ve 3.5 modelleri ve Google’ın Gemini 1.5 Pro’su vardı.

Sonuçlarda, en iyi performansı Claude 3.7’nin verdiği görüldü. Onu Claude 3.5 ve Gemini 1.5 Pro takip etti. GPT-4o ise zorlanarak aralarında en kötü performansı gösteren dil modeli oldu.

Kullanılan Super Mario Bros. 1985’teki orijinalinden biraz daha farklıydı. Testler için emülatörden yararlanıldı. Ayrıca GamingAgent ismi verilen bir framework ile entegre çalıştı. Bu, oyunun yapay zekâ modelleri tarafından kontrol edilmesini sağladı.

Oyunda her bir modelin nasıl tepkiler vereceği, karışık manevraları öğrenmeleri, oyun stratejileri geliştirmeleri gibi şeyler test edildi. Daha da ilginç olanı ise OpenAI’ın mantık yürüten o1 modelinin GPT-4o gibi mantık yürüten kategorisine sokulmayan modellerden daha kötü performans göstermesiydi.

Bu tarz modeller, problemleri adım adım düşünüp çözmeleriyle genelde diğer modellere kıyasla daha iyi performans gösteriyordu ancak Super Mario Bros.’ta bu olmadı. Bunun nedeni muhtemelen mantık modellerinin eylemleri için biraz süreye ihtiyacı olması ve düşünmesi. Bu yüzden normal dil modelleri gibi gerçek zamanlı olarak hızlı aksiyon alamıyorlar.

Webtekno’yu X’te takip et, haberleri kaçırma

BU TELEFON TÜRKİYE'de YOK SATAR! - Honor 200 Pro Kutu Açılışı ve İnceleme

Emoji İle Tepki Ver

Yorumlar(1)

Tüm Yorumlar

Ziyaretçi 2 hafta önce

Pirençeskayı kurtarabilmiş mi? Fjfkfkdkd

Yanıtla

Yapay Zekâ Modelleri, Super Mario Bros.'ta Test Edilmeye Başladı: En İyi Performansı Hangi Yapay Zekâ Verdi?

Claude 3.7 en iyi performansı verdi, GPT-4o sınıfta kaldı

Çok Karanlık Bir Geçmişe Sahip: Koşu Bandının Ortaya Çıkışının Sp...

Okurken Deneyeceksiniz: Vücudumuzda İstesek de Yapamadığımız veya...

Bu Hafta Öne Çıkan Teknolojik Gelişmeler: Haftanın Özetini İsteye...

Ömrünü Dolduran Elektrikli Araç Bataryalarının Tekrar Kullanılıp...

Mercedes-Benz, Gönüllü İşten Ayrılan Çalışanlara 20 Milyon TL Ver...

Çalışır Durumdaki Bir Apple-1, Açık Artırma ile Satıldı: İşte Dud...

Sadece Gülüp Geçmiyoruz! Her Duygumuza Karşılık Bulabildiğimiz İn...

Kime Güveneceğiz? Steam'de Aslında Kötü Amaçlı Yazılım İçeren Bir...

Hatıralarımız Her Zaman Gerçeği Yansıtıyor mu? Yoksa Bazı Kısımla...

Tesla Model Y ile Cybertruck, Şimdi de FSD Aktifken Sahte Duvar T...

Çok Karanlık Bir Geçmişe Sahip: Koşu Bandının Ortaya Çıkışının Sp...

Okurken Deneyeceksiniz: Vücudumuzda İstesek de Yapamadığımız veya...

Bu Hafta Öne Çıkan Teknolojik Gelişmeler: Haftanın Özetini İsteye...

Ömrünü Dolduran Elektrikli Araç Bataryalarının Tekrar Kullanılıp...

Mercedes-Benz, Gönüllü İşten Ayrılan Çalışanlara 20 Milyon TL Ver...

Çalışır Durumdaki Bir Apple-1, Açık Artırma ile Satıldı: İşte Dud...

Sadece Gülüp Geçmiyoruz! Her Duygumuza Karşılık Bulabildiğimiz İn...

Kime Güveneceğiz? Steam'de Aslında Kötü Amaçlı Yazılım İçeren Bir...

Hatıralarımız Her Zaman Gerçeği Yansıtıyor mu? Yoksa Bazı Kısımla...

Tesla Model Y ile Cybertruck, Şimdi de FSD Aktifken Sahte Duvar T...

Mercedes-Benz, Gönüllü İşten Ayrılan Çalışanlara 20 Milyon TL Ver...

2025 Model Renault Espace Tanıtıldı: Şimdiye Kadarki Espace'lerin...

Geleneksel El Frenine Veda: Düğmeli Fren Sistemi Neden Daha Popül...

Google Mesajlar'ın Çok Sevilen YouTube Özelliği Geri Dönüyor!

Epic Games'in Mobil Sürümüne de Haftalık Ücretsiz Oyun Kampanyası...

WhatsApp'a Unutulmaz Anlarınızı Daha İyi Paylaşmanızı Sağlayacak...

Ömrünü Dolduran Elektrikli Araç Bataryalarının Tekrar Kullanılıp...

Sony, God Of War’ın 20. Yılına Özel Güncellemesini Resmen Duyurdu...

Steam'in Xbox'a Geleceğinin Kanlı Canlı Kanıtı Ortaya Çıktı (Micr...

7 Yaşında Üniversitede Ders Veren Dünyanın En Genç "Ziyaretçi Pro...