Ανακεφαλαίωση υποσχέσεων και παγίδων

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Το CCC υποστήριξε τρεις επιστημονικές συνεδρίες στο φετινό Ετήσιο Συνέδριο AAAS και σε περίπτωση που δεν μπορέσατε να παρευρεθείτε αυτοπροσώπως, θα ανακεφαλαιώσουμε κάθε συνεδρία. Αυτή την εβδομάδα, θα συνοψίσουμε τα κυριότερα σημεία της συνεδρίας, "Generative AI in Science: Promises and Pitfalls.» Στο πρώτο μέρος, θα συνοψίσουμε την εισαγωγή και την παρουσίαση της Δρ. Rebecca Willett.

Το πρώτο πάνελ AAAS του CCC για την ετήσια συνάντηση του 2024 πραγματοποιήθηκε την Παρασκευή, 16 Φεβρουαρίου, τη δεύτερη ημέρα του συνεδρίου. Το πάνελ, με συντονιστή του ίδιου του CCC Δρ Μάθιου Τουρκ, πρόεδρος του Τεχνολογικού Ινστιτούτου Toyota στο Σικάγο, αποτελούνταν από ειδικούς που εφαρμόζουν την τεχνητή νοημοσύνη σε ποικίλα επιστημονικά πεδία. Δρ Ρεμπέκα Γουίλετ, καθηγήτρια Στατιστικής και Επιστήμης Υπολογιστών στο Πανεπιστήμιο του Σικάγο, εστίασε την παρουσίασή της στο πώς τα γενετικά μοντέλα μπορούν να χρησιμοποιηθούν στις επιστήμες και γιατί τα μοντέλα εκτός ραφιού δεν επαρκούν για να εφαρμοστούν στην επιστημονική έρευνα. Δρ Markus Buehler, καθηγητής μηχανικής στο Ινστιτούτο Τεχνολογίας της Μασαχουσέτης, μίλησε για τα παραγωγικά μοντέλα που εφαρμόζονται στην επιστήμη των υλικών και Ο Δρ Ντάνκαν Γουάτσον-Πάρις, επίκουρος καθηγητής στο Ινστιτούτο Ωκεανογραφίας Scripps και στο Ινστιτούτο Επιστήμης Δεδομένων Halıcıoğlu στο UC San Diego, συζήτησε πώς μπορούν να χρησιμοποιηθούν τα γενετικά μοντέλα στη μελέτη των κλιματικών επιστημών.

Ο Δρ Turk, ειδικός στην όραση υπολογιστή και την αλληλεπίδραση ανθρώπου-υπολογιστή, ξεκίνησε το πάνελ ξεχωρίζοντας το Generative AI από όλα τα AI. «Στον πυρήνα των γενετικών εφαρμογών τεχνητής νοημοσύνης βρίσκονται τα παραγωγικά μοντέλα που αποτελούνται από βαθιά νευρωνικά δίκτυα που μαθαίνουν τη δομή των ογκωδών δεδομένων εκπαίδευσής τους και στη συνέχεια δημιουργούν νέα δεδομένα με βάση αυτά που έχουν μάθει».

Ο Δρ. Turk περιέγραψε επίσης δημοφιλείς ανησυχίες σχετικά με τα συστήματα παραγωγής, τόσο λόγω αστοχιών των ίδιων των συστημάτων, όπως αυτές που παραθέτουν ανύπαρκτες νομικές συνοπτικές πληροφορίες, όσο και λόγω της χρήσης τους από κακούς παράγοντες για τη δημιουργία ψεύτικο περιεχόμενο, όπως αυτό του πλαστού ήχου ή βίντεο με πολιτικούς ή διασημότητες.

«Συγκεκριμένα», είπε ο Δρ. Τουρκ, «αυτή η συνεδρία θα επικεντρωθεί στη χρήση της γενετικής τεχνητής νοημοσύνης στην επιστήμη, τόσο ως μετασχηματιστική δύναμη στην επιδίωξη της επιστήμης όσο και ως πιθανό κίνδυνο διακοπής».

Η Δρ. Rebecca Willett ξεκίνησε την παρουσίασή της περιγράφοντας πώς μπορεί να αξιοποιηθεί η παραγωγική τεχνητή νοημοσύνη για την υποστήριξη της διαδικασίας επιστημονικής ανακάλυψης. Αρχικά εστίασε στο πώς λειτουργούν τα παραγωγικά μοντέλα. Η παρακάτω εικόνα από τις διαφάνειες του Dr. Willett δείχνει πώς ένα γλωσσικό μοντέλο, όπως το ChatGPT, αξιολογεί την πιθανότητα εμφάνισης μιας λέξης, δεδομένου ενός προηγούμενου συνόλου λέξεων, και πώς ένα μοντέλο δημιουργίας εικόνας, όπως το DALL-E 2, δημιουργεί μια εικόνα από μια δεδομένη προτροπή χρησιμοποιώντας κατανομές πιθανοτήτων που αντλήθηκαν από δισεκατομμύρια εικόνες κατά τη διάρκεια της εκπαίδευσης.

Ανακεφαλαίωση υποσχέσεων και παγίδων – Μέρος 1 » CCC Blog PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

«Χρησιμοποιώντας αυτήν την αρχή των κατανομών πιθανοτήτων, η οποία βασίζεται σε όλα τα παραγωγικά μοντέλα, αυτά τα μοντέλα μπορούν να εφαρμοστούν σε ιδέες για τις επιστήμες, όπως η δημιουργία πιθανών κλιματικών σεναρίων δεδομένων του τρέχοντος κλίματος και των πιθανών πολιτικών ή η δημιουργία νέων μικροβιωμάτων με στοχευμένη λειτουργικότητα, όπως π.χ. ένα που είναι ιδιαίτερα αποτελεσματικό στη διάσπαση των πλαστικών», λέει ο Δρ Willett.

Ωστόσο, δεν αρκεί η χρήση εργαλείων παραγωγής εκτός ραφιού, όπως το ChatGPT ή το DALL-E 2 για επιστημονική έρευνα. Αυτά τα εργαλεία δημιουργήθηκαν σε ένα περιβάλλον πολύ διαφορετικό από το πλαίσιο στο οποίο λειτουργούν οι επιστήμονες. Μια προφανής διαφορά ανάμεσα σε ένα μοντέλο παραγωγής εκτός ραφιού και ένα επιστημονικό μοντέλο είναι τα δεδομένα. Στην επιστήμη, συχνά υπάρχουν πολύ λίγα δεδομένα στα οποία μπορούν να βασιστούν υποθέσεις. Τα επιστημονικά δεδομένα συνήθως προέρχονται από προσομοιώσεις και πειράματα, τα οποία είναι συχνά ακριβά και χρονοβόρα. Λόγω αυτών των περιορισμών, οι επιστήμονες πρέπει να επιλέξουν προσεκτικά ποια πειράματα θα εκτελέσουν και πώς να μεγιστοποιήσουν την αποτελεσματικότητα και τη χρησιμότητα αυτών των συστημάτων. Τα μοντέλα εκτός ραφιού, αντίθετα, δίνουν πολύ λιγότερη σημασία στο από πού προέρχονται τα δεδομένα, έναντι της μεγιστοποίησης του όγκου των δεδομένων που μπορούν να λειτουργήσουν. Στην επιστήμη, η ακρίβεια των συνόλων δεδομένων και η προέλευσή τους είναι απίστευτα σημαντικά, επειδή οι επιστήμονες πρέπει να δικαιολογήσουν την έρευνά τους με ισχυρά εμπειρικά στοιχεία.

«Επιπλέον, στις επιστήμες, οι στόχοι μας είναι διαφορετικοί από το να παράγουμε απλώς πράγματα που είναι αληθοφανή», λέει ο Δρ Willett. «Πρέπει να κατανοήσουμε τον τρόπο με τον οποίο λειτουργούν τα πράγματα εκτός του εύρους όσων έχουμε παρατηρήσει μέχρι στιγμής». Αυτή η προσέγγιση έρχεται σε αντίθεση με τα παραγωγικά μοντέλα AI που αντιμετωπίζουν τα δεδομένα ως αντιπροσωπευτικά του πλήρους φάσματος πιθανών παρατηρήσεων. Η ενσωμάτωση φυσικών μοντέλων και περιορισμών στη γενετική τεχνητή νοημοσύνη βοηθά να διασφαλιστεί ότι θα αντιπροσωπεύει καλύτερα φυσικά φαινόμενα.

Τα επιστημονικά μοντέλα πρέπει επίσης να είναι ικανά να καταγράφουν σπάνια γεγονότα. «Μπορούμε να αγνοήσουμε με ασφάλεια πολλά σπάνια συμβάντα όταν εκπαιδεύουμε το ChatGPT, αλλά αντίθετα, τα σπάνια συμβάντα είναι συχνά αυτό που μας ενδιαφέρει περισσότερο στο πλαίσιο των επιστημών, όπως σε ένα κλιματικό μοντέλο που προβλέπει σπάνια καιρικά φαινόμενα. Εάν χρησιμοποιήσουμε ένα μοντέλο παραγωγής που αποφεύγει σπάνια γεγονότα και, για παράδειγμα, δεν προβλέπει ποτέ έναν τυφώνα, τότε αυτό το μοντέλο δεν θα είναι πολύ χρήσιμο στην πράξη».

Μια σχετική πρόκληση είναι η ανάπτυξη μοντέλων παραγωγής τεχνητής νοημοσύνης για χαοτικές διεργασίες, οι οποίες είναι ευαίσθητες στις αρχικές συνθήκες. Ο Δρ Willett παρουσίασε το παρακάτω βίντεο, το οποίο δείχνει δύο σωματίδια να κινούνται στο διάστημα σύμφωνα με τις εξισώσεις Lorenz 63. Αυτές οι εξισώσεις είναι ντετερμινιστικές, όχι τυχαίες, αλλά με δεδομένες δύο ελαφρώς διαφορετικές θέσεις εκκίνησης, μπορείτε να δείτε ότι ανά πάσα στιγμή τα δύο σωματίδια μπορεί να βρίσκονται σε πολύ διαφορετικές θέσεις. Η ανάπτυξη μοντέλων γενετικής τεχνητής νοημοσύνης που προβλέπουν την ακριβή πορεία τέτοιων διεργασιών, που προκύπτουν στην επιστήμη του κλίματος, τις αναταράξεις και τη δυναμική του δικτύου, είναι θεμελιωδώς δύσκολη, αλλά οι νέες προσεγγίσεις στη γενετική μοντελοποίηση μπορούν να διασφαλίσουν ότι οι παραγόμενες διαδικασίες μοιράζονται βασικά στατιστικά χαρακτηριστικά με πραγματικά επιστημονικά δεδομένα.

[Ενσωματωμένο περιεχόμενο]

Τέλος, ο Δρ Willett αναφέρθηκε στο γεγονός ότι τα επιστημονικά δεδομένα καλύπτουν συχνά ένα τεράστιο φάσμα χωρικών και χρονικών κλιμάκων. Για παράδειγμα, στην επιστήμη των υλικών, οι ερευνητές μελετούν υλικά σε νανομετρική κλίμακα για μονομερή μέχρι το σύστημα μεγάλης κλίμακας, όπως ένα ολόκληρο αεροπλάνο. "Αυτό το εύρος των κλιμάκων είναι πολύ διαφορετικό από τα δεδομένα που χρησιμοποιούνται σε μοντέλα εκτός ραφιού και πρέπει να εξετάσουμε πώς χτίζουμε αυτά τα παραγωγικά μοντέλα με τρόπο που να επηρεάζει με ακρίβεια αυτές τις αλληλεπιδράσεις μεταξύ των κλιμάκων".

«Τα παραγωγικά μοντέλα είναι το μέλλον της επιστήμης», λέει ο Δρ Willett, «αλλά για να διασφαλίσουμε ότι χρησιμοποιούνται αποτελεσματικά, πρέπει να κάνουμε θεμελιώδεις προόδους στην τεχνητή νοημοσύνη και να προχωρήσουμε πέρα από τη σύνδεση δεδομένων στο ChatGPT».

Σας ευχαριστούμε πολύ που διαβάσατε και συντονιστείτε αύριο για να διαβάσετε την ανακεφαλαίωση της παρουσίασης του Δρ. Markus Buehler σχετικά με το Generative AI στη Μηχανοβιολογία.