Το νέο Generative AI «εμπνευσμένο από τη φυσική» ξεπερνά τις προσδοκίες | Περιοδικό Quanta

Το νέο Generative AI «εμπνευσμένο από τη φυσική» ξεπερνά τις προσδοκίες | Περιοδικό Quanta

Το νέο Generative AI «εμπνευσμένο από τη φυσική» ξεπερνά τις προσδοκίες | Quanta Magazine PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Εισαγωγή

Τα εργαλεία της τεχνητής νοημοσύνης - συγκεκριμένα τα νευρωνικά δίκτυα - ήταν καλά για τους φυσικούς. Για χρόνια, αυτή η τεχνολογία έχει βοηθήσει τους ερευνητές να ανακατασκευάσουν τις τροχιές των σωματιδίων σε πειράματα επιταχυντών, να αναζητήσουν στοιχεία για νέα σωματίδια και να ανιχνεύσουν βαρυτικά κύματα και εξωπλανήτες. Ενώ τα εργαλεία τεχνητής νοημοσύνης μπορούν ξεκάθαρα να κάνουν πολλά για τους φυσικούς, το ερώτημα τώρα, σύμφωνα με τον Max Tegmark, φυσικό στο Ινστιτούτο Τεχνολογίας της Μασαχουσέτης, είναι: «Μπορούμε να δώσουμε τίποτα πίσω;»

Ο Tegmark πιστεύει ότι οι συνομήλικοι φυσικοί του μπορούν να συνεισφέρουν σημαντικά στην επιστήμη της τεχνητής νοημοσύνης, και το έχει θέσει ως την κορυφαία ερευνητική του προτεραιότητα. Ένας τρόπος με τον οποίο οι φυσικοί θα μπορούσαν να βοηθήσουν στην προώθηση της τεχνολογίας AI, είπε, θα ήταν να αντικαταστήσουν τους αλγόριθμους του «μαύρου κουτιού» των νευρωνικών δικτύων, των οποίων η λειτουργία είναι σε μεγάλο βαθμό ανεξερεύνητη, με καλά κατανοητές εξισώσεις φυσικών διεργασιών.

Η ιδέα δεν είναι ολοκαίνουργια. Δημιουργικά μοντέλα AI με βάση τη διάχυση — η διαδικασία που, για παράδειγμα, κάνει το γάλα που χύνεται σε ένα φλιτζάνι καφέ να απλώνεται ομοιόμορφα — εμφανίστηκε για πρώτη φορά το 2015 και η ποιότητα των εικόνων που δημιουργούν έχει βελτιωθεί σημαντικά από τότε. Αυτή η τεχνολογία τροφοδοτεί δημοφιλές λογισμικό παραγωγής εικόνας όπως το DALL·E 2 και το Midjourney. Τώρα, ο Tegmark και οι συνάδελφοί του μαθαίνουν εάν άλλα παραγωγικά μοντέλα εμπνευσμένα από τη φυσική θα μπορούσαν να λειτουργήσουν εξίσου καλά με μοντέλα που βασίζονται στη διάχυση, ή ακόμα καλύτερα.

Στα τέλη του περασμένου έτους, η ομάδα του Tegmark παρουσίασε μια πολλά υποσχόμενη νέα μέθοδο παραγωγής εικόνων που ονομάζεται the Μοντέλο παραγωγής ροής Poisson (PFGM). Σε αυτό, τα δεδομένα αντιπροσωπεύονται από φορτισμένα σωματίδια, τα οποία συνδυάζονται για να δημιουργήσουν ένα ηλεκτρικό πεδίο του οποίου οι ιδιότητες εξαρτώνται από την κατανομή των φορτίων σε κάθε δεδομένη στιγμή. Ονομάζεται μοντέλο ροής Poisson επειδή η κίνηση των φορτίων διέπεται από την εξίσωση Poisson, η οποία προέρχεται από την αρχή που δηλώνει ότι η ηλεκτροστατική δύναμη μεταξύ δύο φορτίων ποικίλλει αντιστρόφως με το τετράγωνο της απόστασης μεταξύ τους (παρόμοια με τη διατύπωση της Νευτώνειας βαρύτητας). .

Αυτή η φυσική διαδικασία βρίσκεται στην καρδιά του PFGM. «Το μοντέλο μας μπορεί να χαρακτηριστεί σχεδόν πλήρως από την ισχύ και την κατεύθυνση του ηλεκτρικού πεδίου σε κάθε σημείο του διαστήματος», είπε Γιλούν Σου, μεταπτυχιακός φοιτητής στο MIT και συν-συγγραφέας της εργασίας. «Αυτό που μαθαίνει το νευρωνικό δίκτυο κατά τη διάρκεια της εκπαιδευτικής διαδικασίας είναι πώς να εκτιμήσει αυτό το ηλεκτρικό πεδίο». Και με αυτόν τον τρόπο, μπορεί να μάθει να δημιουργεί εικόνες επειδή μια εικόνα σε αυτό το μοντέλο μπορεί να περιγραφεί συνοπτικά από ένα ηλεκτρικό πεδίο.

Εισαγωγή

Το PFGM μπορεί να δημιουργήσει εικόνες της ίδιας ποιότητας με αυτές που παράγονται από προσεγγίσεις που βασίζονται στη διάχυση και να το κάνει 10 έως 20 φορές πιο γρήγορα. «Χρησιμοποιεί μια φυσική κατασκευή, το ηλεκτρικό πεδίο, με τρόπο που δεν έχουμε ξαναδεί», είπε. Χανανέλ Χαζάν, επιστήμονας υπολογιστών στο Πανεπιστήμιο Tufts. «Αυτό ανοίγει την πόρτα στην πιθανότητα αξιοποίησης άλλων φυσικών φαινομένων για τη βελτίωση των νευρωνικών μας δικτύων».

Τα μοντέλα ροής διάχυσης και Poisson έχουν πολλά κοινά, εκτός από το ότι βασίζονται σε εξισώσεις που εισάγονται από τη φυσική. Κατά τη διάρκεια της εκπαίδευσης, ένα μοντέλο διάχυσης που έχει σχεδιαστεί για τη δημιουργία εικόνων ξεκινά συνήθως με μια εικόνα —ένας σκύλος, ας πούμε — και στη συνέχεια προσθέτει οπτικό θόρυβο, αλλάζοντας κάθε pixel με τυχαίο τρόπο μέχρι να καλύπτονται πλήρως τα χαρακτηριστικά του (αν και όχι εντελώς). Στη συνέχεια, το μοντέλο προσπαθεί να αντιστρέψει τη διαδικασία και να δημιουργήσει έναν σκύλο που είναι κοντά στο πρωτότυπο. Μόλις εκπαιδευτεί, το μοντέλο μπορεί να δημιουργήσει με επιτυχία σκύλους - και άλλες εικόνες - ξεκινώντας από έναν φαινομενικά κενό καμβά.

Τα μοντέλα ροής Poisson λειτουργούν σχεδόν με τον ίδιο τρόπο. Κατά τη διάρκεια της εκπαίδευσης, υπάρχει μια διαδικασία προς τα εμπρός, η οποία περιλαμβάνει την προσθήκη θορύβου, σταδιακά, σε μια κάποτε ευκρινή εικόνα και μια αντίστροφη διαδικασία κατά την οποία το μοντέλο προσπαθεί να αφαιρέσει αυτόν τον θόρυβο, βήμα προς βήμα, μέχρι να ανακτηθεί κυρίως η αρχική έκδοση. Όπως και με τη δημιουργία που βασίζεται στη διάχυση, το σύστημα τελικά μαθαίνει να δημιουργεί εικόνες που δεν είδε ποτέ στην προπόνηση.

Αλλά η φυσική που κρύβεται πίσω από τα μοντέλα Poisson είναι εντελώς διαφορετική. Η διάχυση οδηγείται από θερμοδυναμικές δυνάμεις, ενώ η ροή Poisson οδηγείται από ηλεκτροστατικές δυνάμεις. Το τελευταίο αντιπροσωπεύει μια λεπτομερή εικόνα χρησιμοποιώντας μια διάταξη φορτίων που μπορεί να δημιουργήσει ένα πολύ περίπλοκο ηλεκτρικό πεδίο. Αυτό το πεδίο, ωστόσο, κάνει τα φορτία να εξαπλώνονται πιο ομοιόμορφα με την πάροδο του χρόνου - ακριβώς όπως το γάλα διαχέεται φυσικά σε ένα φλιτζάνι καφέ. Το αποτέλεσμα είναι ότι το ίδιο το πεδίο γίνεται πιο απλό και πιο ομοιόμορφο. Αλλά αυτό το ομοιόμορφο πεδίο με θόρυβο δεν είναι μια πλήρης κενή πλάκα. εξακολουθεί να περιέχει τους σπόρους των πληροφοριών από τους οποίους οι εικόνες μπορούν να συναρμολογηθούν εύκολα.

Στις αρχές του 2023, η ομάδα αναβάθμισε το μοντέλο Poisson, επεκτείνοντάς το να περιλαμβάνει μια ολόκληρη οικογένεια μοντέλων. Η επαυξημένη έκδοση, PFGM++, περιλαμβάνει μια νέα παράμετρο, D, το οποίο επιτρέπει στους ερευνητές να προσαρμόσουν τη διάσταση του συστήματος. Αυτό μπορεί να κάνει μεγάλη διαφορά: Σε γνωστό τρισδιάστατο χώρο, η ισχύς του ηλεκτρικού πεδίου που παράγεται από ένα φορτίο σχετίζεται αντιστρόφως με το τετράγωνο της απόστασης από αυτό το φορτίο. Αλλά σε τέσσερις διαστάσεις, η ένταση του πεδίου ακολουθεί έναν αντίστροφο νόμο του κύβου. Και για κάθε διάσταση του χώρου, και κάθε αξία του D, αυτή η σχέση είναι κάπως διαφορετική.

Εισαγωγή

Αυτή η μοναδική καινοτομία έδωσε στα μοντέλα ροής Poisson πολύ μεγαλύτερη μεταβλητότητα, με τις ακραίες περιπτώσεις να προσφέρουν διαφορετικά οφέλη. Οταν D είναι χαμηλό, για παράδειγμα, το μοντέλο είναι πιο στιβαρό, που σημαίνει ότι είναι πιο ανεκτικό στα σφάλματα που γίνονται στην εκτίμηση του ηλεκτρικού πεδίου. «Το μοντέλο δεν μπορεί να προβλέψει τέλεια το ηλεκτρικό πεδίο», είπε Ζίμινγκ Λιου, ένας άλλος μεταπτυχιακός φοιτητής στο MIT και συν-συγγραφέας και των δύο εργασιών. «Υπάρχει πάντα κάποια απόκλιση. Αλλά η ευρωστία σημαίνει ότι ακόμα κι αν το σφάλμα εκτίμησης είναι υψηλό, μπορείτε να δημιουργήσετε καλές εικόνες.» Έτσι, μπορεί να μην καταλήξετε με το σκυλί των ονείρων σας, αλλά θα καταλήξετε με κάτι που μοιάζει με σκύλο.

Στο άλλο άκρο, όταν D είναι υψηλό, το νευρωνικό δίκτυο γίνεται ευκολότερο στην εκπαίδευση, απαιτώντας λιγότερα δεδομένα για να κυριαρχήσει στις καλλιτεχνικές του δεξιότητες. Ο ακριβής λόγος δεν είναι εύκολο να εξηγηθεί, αλλά οφείλεται στο γεγονός ότι όταν υπάρχουν περισσότερες διαστάσεις, το μοντέλο έχει λιγότερα ηλεκτρικά πεδία για παρακολούθηση — και ως εκ τούτου λιγότερα δεδομένα για αφομοίωση.

Το βελτιωμένο μοντέλο, PFGM++, «σας δίνει την ευελιξία να παρεμβάλλετε μεταξύ αυτών των δύο άκρων», είπε Rose Yu, επιστήμονας υπολογιστών στο Πανεπιστήμιο της Καλιφόρνια στο Σαν Ντιέγκο.

Και κάπου μέσα σε αυτό το εύρος βρίσκεται μια ιδανική τιμή για D που επιτυγχάνει τη σωστή ισορροπία μεταξύ στιβαρότητας και ευκολίας στην εκπαίδευση, είπε ο Xu. «Ένας στόχος της μελλοντικής εργασίας θα είναι να βρούμε έναν συστηματικό τρόπο εύρεσης αυτού του γλυκού σημείου, ώστε να μπορούμε να επιλέξουμε το καλύτερο δυνατό D για μια δεδομένη κατάσταση χωρίς να καταφεύγουμε σε δοκιμή και λάθος».

Ένας άλλος στόχος για τους ερευνητές του MIT περιλαμβάνει την εύρεση περισσότερων φυσικών διεργασιών που μπορούν να παρέχουν τη βάση για νέες οικογένειες γενετικών μοντέλων. Μέσα από ένα έργο που ονομάζεται GenPhys, η ομάδα έχει ήδη εντοπίσει έναν πολλά υποσχόμενο υποψήφιο: το δυναμικό Yukawa, το οποίο σχετίζεται με την αδύναμη πυρηνική δύναμη. «Είναι διαφορετικό από τα μοντέλα ροής και διάχυσης Poisson, όπου ο αριθμός των σωματιδίων διατηρείται πάντα», είπε ο Liu. «Το δυναμικό Yukawa σας επιτρέπει να εκμηδενίσετε σωματίδια ή να χωρίσετε ένα σωματίδιο στα δύο. Ένα τέτοιο μοντέλο θα μπορούσε, για παράδειγμα, να προσομοιώνει βιολογικά συστήματα όπου ο αριθμός των κυττάρων δεν χρειάζεται να παραμείνει ίδιος».

Αυτή μπορεί να είναι μια γόνιμη γραμμή έρευνας, είπε ο Yu. «Θα μπορούσε να οδηγήσει σε νέους αλγόριθμους και νέα μοντέλα παραγωγής με πιθανές εφαρμογές που εκτείνονται πέρα ​​από τη δημιουργία εικόνων».

Και μόνο το PFGM++ έχει ήδη ξεπεράσει τις αρχικές προσδοκίες των εφευρετών του. Δεν κατάλαβαν στην αρχή ότι πότε D έχει ρυθμιστεί στο άπειρο, το ενισχυμένο μοντέλο ροής Poisson τους γίνεται δυσδιάκριτο από ένα μοντέλο διάχυσης. Ο Liu το ανακάλυψε αυτό στους υπολογισμούς που έκανε νωρίτερα φέτος.

Μερτ Πιλάντσι, επιστήμονας υπολογιστών στο Πανεπιστήμιο του Στάνφορντ, θεωρεί αυτή την «ενοποίηση» το πιο σημαντικό αποτέλεσμα που προκύπτει από το έργο της ομάδας MIT. «Το έγγραφο PFGM++», είπε, «αποκαλύπτει ότι και τα δύο αυτά μοντέλα αποτελούν μέρος μιας ευρύτερης κατηγορίας, [η οποία] εγείρει ένα ενδιαφέρον ερώτημα: Ίσως υπάρχουν άλλα φυσικά μοντέλα για γενετική τεχνητή νοημοσύνη που περιμένουν την ανακάλυψη, υπονοώντας μια ακόμη μεγαλύτερη ενοποίηση; ”

Σφραγίδα ώρας:

Περισσότερα από Quantamamagazine