DeepMind'ın En Yeni Yapay Zekası, 'Stratego' Oyununda PlatoBlockchain Veri Zekasında İnsan Oyuncuları Aşıyor. Dikey Arama. Ai.

DeepMind'ın Son Yapay Zekası 'Stratego' Oyununda İnsan Oyuncuları Eziyor

AI belirsizlikten nefret eder. Yine de öngörülemeyen dünyamızda gezinmek için, her gün yaptığımız gibi, kusurlu bilgilerle seçimler yapmayı öğrenmesi gerekiyor.

DerinMind sadece bıçakladı bu muammayı çözerken. İşin püf noktası, oyun teorisini derin takviyeli öğrenme adı verilen insan beynine gevşek bir şekilde dayanan algoritmik bir stratejiyle iç içe geçirmekti. Sonuç olarak, DeepNash, Stratego adlı oldukça stratejik bir masa oyununda insan uzmanları devirdi. Yapay zeka için zor olduğu bilinen bir oyun olan Stratego, insan zekasının birçok güçlü yönünü gerektirir: uzun vadeli düşünme, blöf yapma ve strateji oluşturma, bunların hepsini rakibinizin tahtadaki taşlarını bilmeden yapın.

"Satranç ve Go'dan farklı olarak Stratego, eksik bilgi içeren bir oyundur: oyuncular, rakiplerinin taşlarının kimliklerini doğrudan gözlemleyemezler," DeepMind yazdı bir blog yazısında. DeepNash ile "oyun oynayan yapay zeka (AI) sistemleri yeni bir sınıra ulaştı."

Her şey eğlence ve oyun değil. Dünyamızın rastgeleliğini kolayca yönetebilen ve "davranışlarını" buna göre ayarlayabilen yapay zeka sistemleri, bir gün seyahat süresini azaltmak için trafik akışını optimize etmek ve (umarız) otonom olarak yol öfkesini söndürmek gibi sınırlı bilgilerle gerçek dünyadaki sorunları çözebilir. arabalar her zamankinden daha fazla mevcut hale geliyor.

"Kendi kendine giden bir araba yapıyorsanız, yoldaki diğer tüm sürücülerin tamamen mantıklı olduğunu ve en uygun şekilde davranacağını varsaymak istemezsiniz." şuraya Araştırmaya dahil olmayan Meta AI'dan Dr. Noam Brown.

DeepNash'in zaferi, bu ay başka bir AI ilerlemesinin hemen ardından geldi. Diplomasi oynamayı öğrenen bir algoritma—kazanmak için müzakere ve işbirliği gerektiren bir oyun. Yapay zeka daha esnek muhakeme kazandıkça, daha genel hale geldikçe ve sosyal durumlarda yön bulmayı öğrendikçe, kendi beyinlerimizin sinirsel süreçleri ve bilişine ilişkin kavrayışları da tetikleyebilir.

Stratego ile tanışın

Karmaşıklık açısından, Stratego satranç, Go veya pokere kıyasla tamamen farklı bir canavardır - AI'nın daha önce hakim olduğu tüm oyunlar.

Oyun esas olarak bayrağı ele geçirmektir. Her iki taraf da tahtada herhangi bir konuma yerleştirebilecekleri 40 taşa sahiptir. Her parçanın "mareşal", "general", "keşif" veya "casus" gibi farklı bir adı ve sayısal sıralaması vardır. Daha yüksek dereceli parçalar daha düşük olanları ele geçirebilir. Amaç, rakibi ortadan kaldırmak ve bayrağını ele geçirmektir.

Stratego, yapay zeka için özellikle zordur çünkü oyuncular hem ilk kurulum sırasında hem de oyun boyunca rakiplerinin taşlarının yerini göremezler. Her taşın ve hareketin göründüğü satranç veya Go'nun aksine, Stratego sınırlı bilgiye sahip bir oyundur. Yazarlar, oyuncuların bir karar verdiklerinde "tüm olası sonuçları dengelemeleri" gerektiğini açıkladı.

Bu belirsizlik seviyesi, kısmen Stratego'nun yapay zekayı yıllardır geride bırakmasının nedenidir. AlphaGo gibi en başarılı oyun oynama algoritmaları bile AlfaSıfır, eksiksiz bilgilere güvenin. Stratego, aksine, bir dokunuşa sahiptir. Teksas Hold'em, DeepMind'in daha önce bir algoritma ile fethedildiği bir poker oyunu. Ancak bu strateji, büyük ölçüde pokerden farklı olarak normalde yüzlerce hamleyi kapsayan oyunun uzunluğu nedeniyle Stratego için bocaladı.

Potansiyel oyun oynama sayısı akıllara durgunluk veriyor. Satrançta bir başlangıç ​​pozisyonu vardır. Stratego'da 10'dan fazla var66 olası başlangıç ​​konumları - evrendeki tüm yıldızlardan çok daha fazla. Stratego'nun oyun ağacı, oyundaki tüm potansiyel hamlelerin toplamı, şaşırtıcı bir şekilde 10'a ulaşıyor.535.

"Stratego'daki olası sonuçların sayısının katıksız karmaşıklığı, mükemmel bilgi oyunlarında iyi performans gösteren ve hatta poker için çalışan algoritmaların çalışmadığı anlamına gelir." şuraya DeepMind'da çalışma yazarı Dr. Julien Perolat. Zorluk, "bizi heyecanlandıran şey" dedi.

A Beautiful Mind

Stratego'nun karmaşıklığı, oyun hareketlerini aramak için olağan stratejinin söz konusu olmadığı anlamına gelir. "Yapay zeka tabanlı oyunlara sağlam bir yaklaşım" olan Monte Carlo ağaç araması olarak adlandırılan teknik, zaferle sonuçlanabilecek olası rotaları (ağaçtaki dallar gibi) çiziyor.

Bunun yerine DeepNash için sihirli dokunuş, filmde canlandırılan matematikçi John Nash'ten geldi. A Beautiful Mind. Oyun teorisinde bir öncü olan Nash, oyun teorisi için yaptığı çalışmalardan dolayı Nobel Ödülü'nü kazandı. Nash dengesi. Basitçe söylemek gerekirse, her oyunda oyuncular herkesin izlediği bir dizi stratejiden yararlanabilir, böylece hiçbir oyuncu kendi stratejisini değiştirerek hiçbir şey kazanamaz. Statego'da bu, sıfır toplamlı bir oyuna yol açar: Bir oyuncunun elde ettiği herhangi bir kazanç, rakibi için bir kayıpla sonuçlanır.

Stratego'nun karmaşıklığı nedeniyle DeepNash, algoritmalarına modelden bağımsız bir yaklaşım benimsedi. Burada yapay zeka, rakibinin davranışını tam olarak modellemeye çalışmıyor. Tıpkı bir bebek gibi, öğrenmesi gereken boş bir sayfası vardır. Yazarlar, bu kurulumun özellikle oyunun ilk aşamalarında, "DeepNash rakibinin taşları hakkında çok az şey bildiğinde", tahminleri "imkansız değilse bile zor" hale getirdiğinde kullanışlıdır.

Ekip daha sonra oyunun Nash dengesini bulmak amacıyla DeepNash'e güç sağlamak için derin pekiştirmeli öğrenmeyi kullandı. Cennet gibi bir eşleşme: Takviyeli öğrenme, oyunun her adımında bir sonraki en iyi hamleye karar verilmesine yardımcı olurken, DeepNash genel bir öğrenme stratejisi sunar. Ekip ayrıca, sistemi değerlendirmek için, gerçek dünyada bir anlam ifade etmeyecek bariz hataları filtrelemek için oyundaki bilgileri kullanan bir "öğretmen" tasarladı.

Pratik mükemmelleştirir

İlk öğrenme adımı olarak DeepNash, yapay zeka eğitiminde kendi kendine oynama adı verilen popüler bir yaklaşım olan 5.5 milyar oyunda kendisine karşı oynadı.

Taraflardan biri kazandığında, AI ödüllendirilir ve mevcut yapay sinir ağı parametreleri güçlendirilir. Diğer taraf - aynı yapay zeka - sinir ağı gücünü azaltmak için bir ceza alır. Bir aynanın karşısında kendi kendine bir konuşma provası yapmak gibi. Zamanla, hataları anlar ve daha iyi performans gösterirsiniz. DeepNash'in durumunda, en iyi oynanış için bir Nash dengesine doğru sürükleniyor.

Peki ya gerçek performans?

Ekip, algoritmayı, bazıları Computer Stratego Dünya Şampiyonasını kazanan diğer seçkin Stratego botlarına karşı test etti. DeepNash, kabaca yüzde 97'lik bir kazanma oranıyla rakiplerini ezdi. DeepNash, insan oyuncular için çevrimiçi bir platform olan Gravon'a karşı serbest bırakıldığında, insan rakiplerini alt etti. Bu yılın Nisan ayında Gravon'un oyuncularına karşı iki haftadan fazla süren maçların ardından DeepNash, 2002'den bu yana tüm dereceli maçlarda üçüncü sıraya yükseldi.

DeepNash'in insan düzeyinde performansa ulaşması ve onu yenmesi için insan oyun verilerini yapay zekaya önyüklemenin gerekli olmadığını gösteriyor.

AI ayrıca ilk kurulumda ve oyun sırasında bazı ilgi çekici davranışlar sergiledi. Örneğin, belirli bir "optimize edilmiş" başlangıç ​​pozisyonuna karar vermek yerine, DeepNash rakibinin zaman içinde kalıpları fark etmesini önlemek için taşları sürekli olarak kaydırdı. Oyun sırasında yapay zeka, karşı saldırı üzerine rakibin daha da yüksek sıradaki taşlarını bulmak için yüksek dereceli taşları feda etmek gibi görünüşte anlamsız hareketler arasında gidip geliyordu.

DeepNash ayrıca blöf yapabilir. Bir oyunda, yapay zeka düşük dereceli bir taşı sanki yüksek dereceli bir taşmış gibi hareket ettirdi ve insan rakibini yüksek rütbeli albayıyla taşın peşinden koşmaya ikna etti. Yapay zeka piyonu feda etti ama karşılığında rakibin değerli casus parçasını tuzağa düşürdü.

DeepNash, Stratego için geliştirilmiş olmasına rağmen, gerçek dünyaya genelleştirilebilir. Çekirdek yöntem potansiyel olarak yapay zekaya, kalabalık ve trafik kontrolünden piyasa kargaşasını analiz etmeye kadar sınırlı bilgileri kullanarak öngörülemeyen geleceğimizle daha iyi başa çıkması talimatını verebilir.

Ekip, "Belirsizlik karşısında sağlam olan, genelleştirilebilir bir yapay zeka sistemi oluştururken, yapay zekanın sorun çözme yeteneklerini doğası gereği öngörülemeyen dünyamıza daha da getirmeyi umuyoruz" dedi.

Resim Kredi: Derek Bruff / Flickr

Zaman Damgası:

Den fazla Tekillik Merkezi