Το πιο πρόσφατο AI της DeepMind ξεπερνά τους ανθρώπινους παίκτες στο παιχνίδι «Stratego» PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το πιο πρόσφατο AI της DeepMind ξεπερνά τους ανθρώπους στο παιχνίδι «Stratego»

Η τεχνητή νοημοσύνη μισεί την αβεβαιότητα. Ωστόσο, για να περιηγηθεί στον απρόβλεπτο κόσμο μας, πρέπει να μάθει να κάνει επιλογές με ατελείς πληροφορίες – όπως κάνουμε κάθε μέρα.

DeepMind απλά πήρε ένα μαχαίρι στην επίλυση αυτού του γρίφου. Το κόλπο ήταν να συνδυάσουμε τη θεωρία των παιγνίων σε μια αλγοριθμική στρατηγική βασισμένη χαλαρά στον ανθρώπινο εγκέφαλο που ονομάζεται μάθηση βαθιάς ενίσχυσης. Το αποτέλεσμα, το DeepNash, ανέτρεψε τους ειδικούς σε ένα εξαιρετικά στρατηγικό επιτραπέζιο παιχνίδι που ονομάζεται Stratego. Ένα διαβόητα δύσκολο παιχνίδι για την τεχνητή νοημοσύνη, το Stratego απαιτεί πολλαπλές δυνάμεις του ανθρώπινου πνεύματος: μακροχρόνια σκέψη, μπλόφα και στρατηγική, όλα αυτά χωρίς να γνωρίζετε τα κομμάτια του αντιπάλου σας στο ταμπλό.

«Σε αντίθεση με το σκάκι και το Go, το Stratego είναι ένα παιχνίδι ατελών πληροφοριών: οι παίκτες δεν μπορούν να παρατηρήσουν άμεσα τις ταυτότητες των κομματιών του αντιπάλου τους», DeepMind Έγραψε σε μια ανάρτηση ιστολογίου. Με το DeepNash, «τα συστήματα τεχνητής νοημοσύνης (AI) που παίζουν παιχνίδια έχουν προχωρήσει σε νέα σύνορα».

Δεν είναι όλα διασκέδαση και παιχνίδια. Συστήματα τεχνητής νοημοσύνης που μπορούν εύκολα να χειριστούν την τυχαιότητα του κόσμου μας και να προσαρμόσουν τη «συμπεριφορά» τους ανάλογα, θα μπορούσαν μια μέρα να χειριστούν πραγματικά προβλήματα με περιορισμένες πληροφορίες, όπως η βελτιστοποίηση της ροής της κυκλοφορίας για τη μείωση του χρόνου ταξιδιού και (ελπίζουμε) να σβήσουν την οργή του δρόμου ως αυτοοδήγηση τα αυτοκίνητα γίνονται όλο και πιο παρόντα.

"Εάν φτιάχνετε ένα αυτοοδηγούμενο αυτοκίνητο, δεν θέλετε να υποθέσετε ότι όλοι οι άλλοι οδηγοί στο δρόμο είναι απόλυτα λογικοί και ότι θα συμπεριφέρονται με τον καλύτερο δυνατό τρόπο." είπε Ο Δρ Noam Brown στο Meta AI, ο οποίος δεν συμμετείχε στην έρευνα.

Ο θρίαμβος του DeepNash έρχεται ενθαρρυντικός μετά από μια άλλη πρόοδο της τεχνητής νοημοσύνης αυτόν τον μήνα, όπου ένας αλγόριθμος που έμαθε να παίζει Διπλωματία—ένα παιχνίδι που απαιτεί διαπραγμάτευση και συνεργασία για να κερδίσεις. Καθώς η τεχνητή νοημοσύνη αποκτά πιο ευέλικτη συλλογιστική, γενικεύεται και μαθαίνει να πλοηγείται σε κοινωνικές καταστάσεις, μπορεί επίσης να πυροδοτήσει ιδέες για τις νευρικές διεργασίες και τη γνωστική λειτουργία του εγκεφάλου μας.

Γνωρίστε το Stratego

Όσον αφορά την πολυπλοκότητα, το Stratego είναι ένα εντελώς διαφορετικό θηρίο σε σύγκριση με το σκάκι, το Go ή το πόκερ—όλα τα παιχνίδια που η τεχνητή νοημοσύνη έχει κυριαρχήσει στο παρελθόν.

Το παιχνίδι είναι ουσιαστικά σύλληψη της σημαίας. Κάθε πλευρά έχει 40 κομμάτια που μπορούν να τοποθετήσουν σε οποιαδήποτε θέση στον πίνακα. Κάθε κομμάτι έχει διαφορετικό όνομα και αριθμητική κατάταξη, όπως «στρατάρχης», «στρατηγός», «προσκόπος» ή «κατάσκοπος». Κομμάτια υψηλότερης κατάταξης μπορούν να συλλάβουν χαμηλότερα. Στόχος είναι η εξάλειψη της αντιπολίτευσης και η κατάληψη της σημαίας τους.

Το Stratego είναι ιδιαίτερα δύσκολο για την τεχνητή νοημοσύνη, επειδή οι παίκτες δεν μπορούν να δουν τη θέση των κομματιών των αντιπάλων τους, τόσο κατά την αρχική ρύθμιση όσο και κατά τη διάρκεια του παιχνιδιού. Σε αντίθεση με το σκάκι ή το Go, στο οποίο κάθε κομμάτι και κίνηση είναι στο μάτι, το Stratego είναι ένα παιχνίδι με περιορισμένες πληροφορίες. Οι παίκτες πρέπει να «ισορροπούν όλα τα πιθανά αποτελέσματα» κάθε φορά που παίρνουν μια απόφαση, εξήγησαν οι συγγραφείς.

Αυτό το επίπεδο αβεβαιότητας είναι εν μέρει ο λόγος για τον οποίο το Stratego έχει παραγκωνίσει την τεχνητή νοημοσύνη για αιώνες. Ακόμη και οι πιο επιτυχημένοι αλγόριθμοι παιχνιδιού, όπως ο AlphaGo και αλφαμηδέν, βασιστείτε σε πλήρεις πληροφορίες. Το Stratego, αντίθετα, έχει μια νότα Τέξας Κράτα τα, ένα παιχνίδι πόκερ που είχε κατακτήσει στο παρελθόν η DeepMind με έναν αλγόριθμο. Αλλά αυτή η στρατηγική υποχώρησε για το Stratego, κυρίως λόγω της διάρκειας του παιχνιδιού, που σε αντίθεση με το πόκερ, συνήθως περιλαμβάνει εκατοντάδες κινήσεις.

Ο αριθμός των πιθανών παιχνιδιών είναι εντυπωσιακός. Το σκάκι έχει μία αρχική θέση. Το Stratego έχει πάνω από 1066 πιθανές αρχικές θέσεις—πολύ περισσότερες από όλα τα αστέρια στο σύμπαν. Το δέντρο παιχνιδιού του Stratego, το άθροισμα όλων των πιθανών κινήσεων στο παιχνίδι, ανέρχεται συνολικά σε 10535.

"Η απόλυτη πολυπλοκότητα του αριθμού των πιθανών αποτελεσμάτων στο Stratego σημαίνει ότι οι αλγόριθμοι που αποδίδουν καλά σε παιχνίδια τέλειων πληροφοριών, ακόμη και σε αυτούς που λειτουργούν για το πόκερ, δεν λειτουργούν." είπε Ο συγγραφέας της μελέτης Dr. Julien Perolat στο DeepMind. Η πρόκληση είναι «αυτό που μας ενθουσίασε», είπε.

A Beautiful Mind

Η πολυπλοκότητα του Stratego σημαίνει ότι η συνήθης στρατηγική για την αναζήτηση κινήσεων παιχνιδιού είναι εκτός συζήτησης. Η τεχνική που ονομάστηκε αναζήτηση δέντρου του Μόντε Κάρλο, μια «σταθερή προσέγγιση στο gaming που βασίζεται στην τεχνητή νοημοσύνη», σχεδιάζει πιθανές διαδρομές - όπως κλαδιά σε ένα δέντρο - που θα μπορούσαν να οδηγήσουν σε νίκη.

Αντίθετα, η μαγική πινελιά για τον DeepNash προήλθε από τον μαθηματικό John Nash, που απεικονίζεται στην ταινία A Beautiful Mind. Πρωτοπόρος στη θεωρία παιγνίων, ο Nash κέρδισε το βραβείο Νόμπελ για το έργο του για το Nash ισορροπία. Με απλά λόγια, σε κάθε παιχνίδι, οι παίκτες μπορούν να χρησιμοποιήσουν ένα σύνολο στρατηγικών που ακολουθούνται από όλους, έτσι ώστε κανένας παίκτης να μην κερδίζει τίποτα αλλάζοντας τη δική του στρατηγική. Στο Statego, αυτό οδηγεί σε ένα παιχνίδι μηδενικού αθροίσματος: κάθε κέρδος που κάνει ένας παίκτης οδηγεί σε απώλεια για τον αντίπαλό του.

Λόγω της πολυπλοκότητας του Stratego, ο DeepNash ακολούθησε μια προσέγγιση χωρίς μοντέλα στον αλγόριθμό του. Εδώ, το AI δεν προσπαθεί να μοντελοποιήσει με ακρίβεια τη συμπεριφορά του αντιπάλου του. Όπως ένα μωρό, έχει μια κενή πλάκα, κάπως, να μάθει. Αυτή η ρύθμιση είναι ιδιαίτερα χρήσιμη στα πρώτα στάδια του παιχνιδιού, «όταν ο DeepNash γνωρίζει ελάχιστα για τα κομμάτια του αντιπάλου του», κάνοντας τις προβλέψεις «δύσκολες, αν όχι αδύνατες», είπαν οι συγγραφείς.

Στη συνέχεια, η ομάδα χρησιμοποίησε εκμάθηση βαθιάς ενίσχυσης για να τροφοδοτήσει το DeepNash, με στόχο να βρει την ισορροπία Nash του παιχνιδιού. Είναι ένα ταίριασμα φτιαγμένο στον παράδεισο: η ενισχυτική μάθηση βοηθά στην επιλογή της καλύτερης επόμενης κίνησης σε κάθε βήμα του παιχνιδιού, ενώ το DeepNash παρέχει μια συνολική στρατηγική μάθησης. Για να αξιολογήσει το σύστημα, η ομάδα κατασκεύασε επίσης έναν «δάσκαλο» που χρησιμοποιεί τη γνώση από το παιχνίδι για να φιλτράρει προφανή λάθη που πιθανότατα δεν θα είχαν νόημα στον πραγματικό κόσμο.

Η πρακτική κάνει τέλειος

Ως πρώτο μαθησιακό βήμα, ο DeepNash έπαιξε εναντίον του σε 5.5 δισεκατομμύρια παιχνίδια, μια δημοφιλής προσέγγιση στην εκπαίδευση τεχνητής νοημοσύνης που ονομάστηκε self-play.

Όταν η μία πλευρά κερδίζει, η τεχνητή νοημοσύνη απονέμεται και οι τρέχουσες παράμετροι του τεχνητού νευρωνικού δικτύου ενισχύονται. Η άλλη πλευρά - η ίδια τεχνητή νοημοσύνη - λαμβάνει μια ποινή για να μειώσει την ισχύ του νευρωνικού της δικτύου. Είναι σαν να επαναλαμβάνεις μια ομιλία στον εαυτό σου μπροστά σε έναν καθρέφτη. Με τον καιρό, ανακαλύπτεις τα λάθη και αποδίδεις καλύτερα. Στην περίπτωση του DeepNash, παρασύρεται προς μια ισορροπία Nash για καλύτερο παιχνίδι.

Τι γίνεται με την πραγματική απόδοση;

Η ομάδα δοκίμασε τον αλγόριθμο ενάντια σε άλλα ελίτ ρομπότ Stratego, μερικά από τα οποία κέρδισαν το Παγκόσμιο Πρωτάθλημα Computer Stratego. Το DeepNash συνέτριψε τους αντιπάλους του με ποσοστό νίκης περίπου 97%. Όταν εξαπολύθηκε εναντίον του Gravon —μια διαδικτυακή πλατφόρμα για ανθρώπους παίκτες— το DeepNash κατατρόπωσε τους ανθρώπινους αντιπάλους του. Μετά από πάνω από δύο εβδομάδες αγώνων με παίκτες του Gravon τον Απρίλιο του τρέχοντος έτους, ο DeepNash ανέβηκε στην τρίτη θέση σε όλους τους αγώνες κατάταξης από το 2002.

Δείχνει ότι η εκκίνηση δεδομένων ανθρώπινου παιχνιδιού σε τεχνητή νοημοσύνη δεν είναι απαραίτητη για να φτάσει το DeepNash σε επιδόσεις σε ανθρώπινο επίπεδο — και να το ξεπεράσει.

Το AI επέδειξε επίσης κάποια ενδιαφέρουσα συμπεριφορά με την αρχική ρύθμιση και κατά τη διάρκεια του παιχνιδιού. Για παράδειγμα, αντί να καταλήξει σε μια συγκεκριμένη «βελτιστοποιημένη» αρχική θέση, το DeepNash άλλαζε συνεχώς τα κομμάτια για να εμποδίσει τον αντίπαλό του να εντοπίσει μοτίβα με την πάροδο του χρόνου. Κατά τη διάρκεια του παιχνιδιού, η τεχνητή νοημοσύνη αναπηδούσε ανάμεσα σε φαινομενικά παράλογες κινήσεις - όπως η θυσία κομματιών υψηλής κατάταξης - για να εντοπίσει τα κομμάτια ακόμη υψηλότερης κατάταξης του αντιπάλου κατά την αντεπίθεση.

Το DeepNash μπορεί επίσης να κάνει μπλόφα. Σε ένα παιχνίδι, η τεχνητή νοημοσύνη κινούσε ένα κομμάτι χαμηλής κατάταξης σαν να ήταν υψηλόβαθμο, δελεάζοντας τον ανθρώπινο αντίπαλο να κυνηγήσει το κομμάτι με τον υψηλόβαθμο συνταγματάρχη του. Το AI θυσίασε το πιόνι, αλλά με τη σειρά του παρέσυρε το πολύτιμο κατασκοπευτικό κομμάτι του αντιπάλου σε ενέδρα.

Αν και το DeepNash αναπτύχθηκε για το Stratego, μπορεί να γενικευτεί στον πραγματικό κόσμο. Η βασική μέθοδος μπορεί ενδεχομένως να δώσει οδηγίες στην τεχνητή νοημοσύνη να αντιμετωπίσει καλύτερα το απρόβλεπτο μέλλον μας χρησιμοποιώντας περιορισμένες πληροφορίες—από τον έλεγχο του πλήθους και την κυκλοφορία μέχρι την ανάλυση της αναταραχής στην αγορά.

«Δημιουργώντας ένα γενικευμένο σύστημα τεχνητής νοημοσύνης που είναι ισχυρό ενόψει της αβεβαιότητας, ελπίζουμε να φέρουμε τις δυνατότητες επίλυσης προβλημάτων της τεχνητής νοημοσύνης περαιτέρω στον εγγενώς απρόβλεπτο κόσμο μας», είπε η ομάδα.

Image Credit: Derek Bruff / Flickr

Σφραγίδα ώρας:

Περισσότερα από Κέντρο μοναδικότητας