Gerçek hayattaki problemlerin çözümüne yönelik olarak geliştirmek istenen algoritmalar söz konusu olduğunda, bilgisayar oyunları gerçek hayata uyarlanıp algoritmaların geliştirilmesinde bilim insanlarına elverişli bir zemin sağlayabilir. Bunun sayesinde, yapay genel zekâ (AGI) için zemin hazırlanmış olabilir. AGI, yalnızca veri girişi gibi sıradan ve tekrarlanan görevleri değil, kendi çevresi hakkında da akıl yürütebilen bir karar verici yapay zekâ sistemine işaret ediyor.
Google'ın ana şirketi Alphabet bünyesindeki yapay zekâ şirketi DeepMind'daki araştırmacılar tarafından yayınlanan yeni bir makaleye göre bazı oyunlardaki oyuncuların hamlelerine yönelik en iyi karşılıkları öğrenen bir sistem oluşturuldu. Satranç ve Go'nun da içinde yer aldığı oyunlarda, bu yapının 'en kötü durumdaki rakiplerde' tutarlı bir şekilde yüksek performans gösterdiği belirtiliyor. 'En kötü durumdaki rakipler', iyi olmayan ancak oyunu kuralına göre oynayıp bitiren oyuncular için kullanılan bir terim.
Zafiyetlerden öğrenen yapay zekâ:
Oyunculara karşı gösterilen performansın seviyesi, projede 'zafiyet' olarak adlandırılıyor. Bu zafiyeti hesaplamak, oyuncunun yapabileceği hareketlerin toplamı çok büyük olduğundan ötürü hayli yoğun bir işlem gerektiriyor. Örneğin Texas Hold'em isimli oyunun bir versiyonu olan Heads-Up Limit Texas Hold’em oyununda 10 üzeri 14 karar noktası varken Go'da bu sayı 10 üzeri 170'e çıkıyor. Bu işlemlerden kaçınmanın bir yolu, güçlendirilmiş öğrenme adı verilen bir yöntemi kullanmak. Bu yöntemle verilebilecek en iyi karşılık hesaplanabiliyor.
DeepMind araştırmacılarının önerdiği yapı, Yaklaşık En İyi Karşılık Bilgi Durum Monte Carlo Ağaç Araştırması (ABR IS-MCTS) adını almış. Bu yapı, bilgi/durum temelinde en iyi karşılığa yakınsıyor. Yapı içerisindeki aktörler, bir oyunu oynamak için bir algoritmayı takip ederlerken öğreniciyse bir hareket tarzı geliştirmek için çeşitli oyunların sonuçlarından yola çıkıyor. ABR IS-MCTS sezgisel olarak doğru ve istismar edebilir bir karşı strateji yaratabilmeyi öğrenmeyi deniyor. Zaafları arayan sistem, rakibin stratejisine sınırsız bir erişim sağlıyor ve birinin yıllar boyunca rakibinin zaaflarını kullanması için eğitilmesi durumunda ne olacağını simüle ediyor.
Araştırmacıların verilerine göre, 200 oyunculu (4 işlemcili ve 8 GB RAM'li bir bilgisayarda eğitildiler) ve bir öğrenicili (10 işlemcili ve 20 GB RAM'li bir bilgisayarda eğitildi) deneylerde, ABR IS-MCTS her oyunda %50'nin üzerinde bir kazanma oranı yakaladı. Buna ek olarak Hex veya Go dışındaki oyunlarda (Connect Four ve Breakthrough gibi) bu oran %70'in üzerine çıkarken 1 milyon bölüm için eğitildikten sonra tavlada %80 başarı sağladı.
Bununla birlikte ABR IS-MCTS'nin bazı örneklerde hayli yavaş olduğu kaydediliyor. Örneğin iki oyunculu pokerin basitleştirilmiş bir versiyonu olan Kuhn Poker'de belirli bir tür stratejinin zafiyetini hesaplamak ortalama 150 saniye sürdü. Gelecekteki araştırmalarda, daha karmaşık oyunlar için stratejiler geliştirmesi hedefleniyor.