Το GPT-4 του OpenAI δεν θα τρέξει το Doom, αλλά θα παίξει το παιχνίδι άσχημα

Το GPT-4 του OpenAI δεν θα τρέξει το Doom, αλλά θα παίξει το παιχνίδι άσχημα

Μπορεί να βρεθείτε να ζείτε σε μια καλύβα κυνηγετικών όπλων. Και μπορεί να εργάζεστε με το GPT-4. Και μπορεί να αναρωτηθείτε, "Θα το GPT-4 τρέχει το Doom;" Και μπορεί να αναρωτηθείτε: «Έχω δίκιο; Κάνω λάθος?"

Ο Adrian de Wynter, κύριος εφαρμοστής επιστήμονας στη Microsoft και ερευνητής στο Πανεπιστήμιο του York στην Αγγλία, έθεσε αυτά τα ερωτήματα σε μια πρόσφατη ερευνητική εργασία, "Θα τρέξει το GPT-4 το Doom;"

Δυστυχώς, το GPT-4, ένα μοντέλο μεγάλης γλώσσας από το OpenAI που υποστηρίζεται από τη Microsoft, δεν έχει την ικανότητα να εκτελέσει απευθείας τον πηγαίο κώδικα του Doom.

Αλλά η πολυτροπική παραλλαγή του, GPT-4V, η οποία μπορεί να δεχτεί εικόνες ως είσοδο καθώς και κείμενο, παρουσιάζει την ίδια ελκυστική δευτερεύουσα ικανότητα αναπαραγωγής Χαμός ως τα γεμάτα μοντέλα που βασίζονται σε κείμενο που έχουν λανσάρει αμέτρητες νεοφυείς επιχειρήσεις τεχνητής νοημοσύνης.

«Σύμφωνα με τη ρύθμιση του χαρτιού, το GPT-4 (και το GPT-4 με όραση, ή το GPT-4V) δεν μπορεί πραγματικά να τρέξει το Doom από μόνο του, επειδή περιορίζεται από το μέγεθος εισόδου του (και, προφανώς, ότι πιθανότατα απλώς θα δημιουργήσει πράγματα Δεν θέλετε πραγματικά ο μεταγλωττιστής σας να έχει παραισθήσεις κάθε πέντε λεπτά), έγραψε ο de Wynter σε μια επεξηγηματική φράση. σημείωση για το χαρτί του. «Τούτου λεχθέντος, μπορεί σίγουρα να λειτουργήσει ως πληρεξούσιος για τον κινητήρα, όχι σε αντίθεση με άλλα «θα τρέξει το Doom;» υλοποιήσεις, όπως π.χ Ε. Coli or μπλοκ. "

Δηλαδή, το GPT-4V δεν θα τρέξει το Doom σαν τρακτέρ John Deere αλλά θα παίξει Doom χωρίς συγκεκριμένη εκπαίδευση.

Για να το διαχειριστεί αυτό, ο de Wynter σχεδίασε ένα στοιχείο Vision που καλεί GPT-4V, το οποίο καταγράφει στιγμιότυπα οθόνης από τη μηχανή του παιχνιδιού και επιστρέφει περιγραφές δομής της κατάστασης του παιχνιδιού. Και το συνδύασε με ένα μοντέλο Agent που καλεί το GPT-4 για να λαμβάνει αποφάσεις με βάση την οπτική είσοδο και το προηγούμενο ιστορικό. Το μοντέλο Agent έχει πει να μεταφράζει τις απαντήσεις του σε εντολές πληκτρολόγησης που έχουν νόημα για τη μηχανή του παιχνιδιού.

Οι αλληλεπιδράσεις αντιμετωπίζονται μέσω ενός επιπέδου Manager που αποτελείται από μια Python ανοιχτού κώδικα που συνδέεται με το C Doom κινητήρα τρέχει στο Matplotlib.

Ένα γράφημα που δείχνει τη σχεδίαση του συστήματος GPT-4V για την αναπαραγωγή DOOM

Το διάγραμμα του De Wynter δείχνει τη σχεδίαση ενός συστήματος GPT-4V για παιχνίδι Doom… Κάντε κλικ για μεγέθυνση

Αυτός ο συνδυασμός μοντέλων και κώδικα τεχνητής νοημοσύνης μπορεί να ανοίξει πόρτες, να πολεμήσει εχθρούς και να πυροβολήσει όπλα, σύμφωνα με την εφημερίδα. Και μπορεί να εκτελέσει ένα ευρύτερο σύνολο εντολών όπως μια ενδιάμεση πορεία για να βελτιώσει τη δική του απόδοση.

Το κύριο μειονέκτημα αυτού του συστήματος που βασίζεται σε GPT-4V είναι η έλλειψη μονιμότητας αντικειμένων – ξεχνάει τα ζόμπι εντός του παιχνιδιού όταν βγαίνουν εκτός οθόνης.

Το GPT-4 ξεχνάει το ζόμπι και συνεχίζει

«Για παράδειγμα, θα ήταν πολύ συνηθισμένο για το μοντέλο να δει ένα ζόμπι στην οθόνη και να αρχίσει να πυροβολεί εναντίον του μέχρι να το χτυπήσει (ή να πεθάνει)», εξηγεί ο de Wynter. «Τώρα, αυτή είναι η τεχνητή νοημοσύνη που γράφτηκε για να λειτουργεί με υλικό του 1993, οπότε θα υποθέσω ότι δεν έχει ένα εξαιρετικά βαθύ δέντρο αποφάσεων. Έτσι το ζόμπι πυροβολεί εναντίον σας και μετά αρχίζει να τρέχει στο δωμάτιο.

«Ποιο είναι το θέμα εδώ; Λοιπόν, πρώτα ότι το ζόμπι φύγει από το οπτικό πεδίο. Ακόμα χειρότερα, είναι ακόμα ζωντανό και κάποια στιγμή θα σας χτυπήσει. Πρέπει λοιπόν να το κυνηγήσεις, σωστά; Άλλωστε, στο Doom, είναι παλαβό ή να χτυπηθεί.

«Αποδεικνύεται ότι το GPT-4 ξεχνά το ζόμπι και απλώς συνεχίζει. Σημείωση: η προτροπή λέει ρητά στο μοντέλο τι να κάνει εάν παθαίνει ζημιά και δεν μπορεί να δει έναν εχθρό. Ακόμα καλύτερα, απλά φεύγει στον εύθυμο δρόμο του, κολλάει σε μια γωνία και πεθαίνει. Γύρισε μερικές φορές, αλλά σε σχεδόν 50-60 τρεξίματα, το παρατήρησα… δύο φορές, θέλω να πω».

Επίσης, το GPT-4 δεν μπορεί να συλλογιστεί πολύ καλά. Όταν του ζητήθηκε να εξηγήσει τις ενέργειές του που ήταν γενικά σωστές στο πλαίσιο, οι εξηγήσεις του ήταν κακές και συχνά περιλάμβαναν παραισθήσεις (γνωστές και ως εσφαλμένες πληροφορίες).

Ο De Wynter ωστόσο θεωρεί αξιοσημείωτο το γεγονός ότι το GPT-4 μπορεί να παίξει Doom χωρίς προηγούμενη εκπαίδευση.

Ταυτόχρονα, το βρίσκει ανησυχητικό.

«Στο τμήμα δεοντολογίας, είναι πολύ ανησυχητικό πόσο εύκολο ήταν για μένα (α) να δημιουργήσω κώδικα για να κάνω το μοντέλο να πυροβολήσει κάτι. και (β) για το μοντέλο να πυροβολεί με ακρίβεια κάτι χωρίς να μαντεύει πραγματικά τις οδηγίες», έγραψε στη συνοπτική του ανάρτηση.

«Επομένως, ενώ αυτή είναι μια πολύ ενδιαφέρουσα εξερεύνηση γύρω από το σχεδιασμό και τη λογική, και θα μπορούσε να έχει εφαρμογές σε αυτοματοποιημένες δοκιμές βιντεοπαιχνιδιών, είναι προφανές ότι αυτό το μοντέλο δεν γνωρίζει τι κάνει. Προτρέπω θερμά όλους να σκεφτούν τι [συνεπάγεται] η ανάπτυξη αυτών των μοντέλων για την κοινωνία και την πιθανή κακή χρήση τους».

Και μπορείς να πεις στον εαυτό σου, «Θεέ μου, τι έκανα;”®

Σφραγίδα ώρας:

Περισσότερα από Το μητρώο