Το δράμα LLaMA καθώς το μέγα γλωσσικό μοντέλο του Meta διαρρέει

Το δράμα LLaMA καθώς το μέγα γλωσσικό μοντέλο του Meta διαρρέει

Το δράμα LLaMA ως μέγα γλωσσικό μοντέλο της Meta διαρρέει το PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το LLaMA, το τελευταίο μοντέλο μεγάλης γλώσσας της Meta, διέρρευσε στο διαδίκτυο και είναι διαθέσιμο για λήψη, παρά τις προφανείς προσπάθειες περιορισμού της πρόσβασης μόνο για ερευνητικούς σκοπούς.

Ο ιδιοκτήτης του Facebook ανακοίνωσε τον Φεβρουάριο κυκλοφόρησε το μοντέλο με περιορισμένο τρόπο σε επιλεγμένους ακαδημαϊκούς, κυβερνητικούς τύπους και εταιρείες για να παίξουν εν μέσω φόβων Είδος μικρής καμήλας θα μπορούσε να γίνει κατάχρηση. Αλλά οι πληροφορίες θέλουν να είναι δωρεάν, ή τουλάχιστον ορισμένοι άνθρωποι θέλουν να είναι, και η δημιουργία του Meta βρήκε το δρόμο της στο διαδίκτυο ούτως ή άλλως, ξεκινώντας από μια διαρροή torrent.

Τα μεγάλα μοντέλα γλωσσών πρόβλεψης προτάσεων, τα οποία δημιουργούν αποσπάσματα κειμένου από προτροπές εισαγωγής, έχουν εξελιχθεί σταθερά, από την αυτόματη συμπλήρωση της γραφής ενός ατόμου έως τα chatbots ικανά να εκτελούν εργασίες όταν τους ζητείται να το κάνουν χρησιμοποιώντας φυσική γλώσσα.

Οι ειδικοί έχουν προειδοποιήσει ότι αυτή η τεχνολογία θα μπορούσε να χρησιμοποιηθεί για την αυτοματοποίηση της κατασκευής μεγάλων ποσοτήτων ψεύτικων ειδήσεων, ανεπιθύμητων μηνυμάτων, email phishing, παραπληροφόρησης, υποκίνησης, για τα επόμενα χρόνια. Οι οργανισμοί που κατασκευάζουν αυτά τα μοντέλα συχνά κρατούν το λογισμικό κρυφό, πίσω από API ή κυκλοφορούν περιορισμένες εκδόσεις ή επιδείξεις. 

"Υπάρχει ακόμη περισσότερη έρευνα που πρέπει να γίνει για να αντιμετωπιστούν οι κίνδυνοι μεροληψίας, τοξικών σχολίων και ψευδαισθήσεων σε μεγάλα γλωσσικά μοντέλα," Meta είπε Την προηγούμενη εβδομάδα.

«Όπως και άλλα μοντέλα, το LLaMA μοιράζεται αυτές τις προκλήσεις. Ως μοντέλο θεμελίωσης, το LLaMA έχει σχεδιαστεί για να είναι ευέλικτο και μπορεί να εφαρμοστεί σε πολλές διαφορετικές περιπτώσεις χρήσης, έναντι ενός βελτιωμένου μοντέλου που έχει σχεδιαστεί για μια συγκεκριμένη εργασία.

«Για να διατηρήσουμε την ακεραιότητα και να αποτρέψουμε την κακή χρήση, κυκλοφορούμε το μοντέλο μας με μη εμπορική άδεια που επικεντρώνεται σε περιπτώσεις χρήσης έρευνας. Η πρόσβαση στο μοντέλο θα παρέχεται κατά περίπτωση σε ακαδημαϊκούς ερευνητές. όσοι συνδέονται με οργανώσεις στην κυβέρνηση, την κοινωνία των πολιτών και τον ακαδημαϊκό χώρο· και βιομηχανικά ερευνητικά εργαστήρια σε όλο τον κόσμο».

Πώς να καθοδηγήσετε

Αλλά οι προσπάθειες του Meta να ελέγξει την πρόσβαση στο LLaMA φαίνεται να ήταν μάταιες, ή έτσι φαίνεται. Λίγο μετά την κοινή χρήση του μοντέλου με επιλεγμένους εκπροσώπους, και εκείνους της βιομηχανίας και της κοινωνίας των πολιτών, κάποιος στο 4Chan δημοσίευσε λεπτομέρειες σχετικά με τον τρόπο απόκτησης ολόκληρου του μοντέλου μέσω κοινής χρήσης αρχείων από ομοτίμους και τελικά οδηγίες για το πώς να τα κατεβάσετε όλα δημοσιεύτηκαν στο GitHub.

Όπως πάντα, να είστε προσεκτικοί όταν μεταφέρετε τέτοια πράγματα από torrents σε περίπτωση που κάποιος κρύβει κάτι κακό εκεί μέσα. Το μοντέλο των 65 δισεκατομμυρίων παραμέτρων καταλαμβάνει περίπου 220 GB χώρου στο δίσκο, όπως μας λένε.

Σημειώνουμε ότι τα αντίγραφα του LLaMA που διατίθενται μέσω του GitHub φαίνεται να είναι νόμιμα. Shawn Presser, an Μηχανικός AI που έγραψε τις οδηγίες λήψης στον ιστότοπο κοινής χρήσης κώδικα της Microsoft, μας έδειξε στιγμιότυπα οθόνης του να δημιουργεί επιτυχώς κείμενο από το μοντέλο. Πιστεύει ότι ένας ερευνητής στον οποίο δόθηκε πρόσβαση στο μοντέλο από τη Meta διέρρευσε, οδηγώντας σε ίσως ευρύτερη από την αναμενόμενη διανομή του.

Ξεκινήστε τις μηχανές της θεωρίας συνωμοσίας.

Ο Presser εκτιμά ότι η ελεύθερη κυκλοφορία του μοντέλου χωρίς προειδοποιήσεις είναι καλύτερη από τον περιορισμό του σε εγκεκριμένους ακαδημαϊκούς. «Νομίζω ότι το καλό θα υπερτερεί του κακού, τουλάχιστον κατά δεκαπλάσιο. Πιθανώς πιο κοντά στο 100x», είπε Το μητρώο

Η εκπαίδευση και η λειτουργία υπερσύγχρονων μοντέλων μεγάλων γλωσσών είναι δαπανηρή, γενικά. Μόνο οι οργανισμοί που έχουν πρόσβαση σε σωρούς GPU και άλλη υποδομή είναι σε θέση να τις δημιουργήσουν, να τις τροποποιήσουν και να τις δοκιμάσουν. Ερευνητές AI στο Meta κατασκεύασε το LLaMA για να είναι μικρότερο, καθιστώντας το πιο συμπαγές από τα σημερινά εμπορικά μοντέλα και επομένως πιο προσιτό σε ακαδημαϊκούς και προγραμματιστές χωρίς μη τετριμμένους προϋπολογισμούς πληροφορικής. 

Οι γκουρού της μηχανικής μάθησης της Meta ισχυρίστηκαν ότι το σύστημά τους ξεπέρασε το GPT-3 του OpenAI και είναι εξίσου καλό με άλλα μοντέλα μεγάλων γλωσσών, όπως το PaLM 540 δισεκατομμυρίων παραμέτρων της Google ή το Chinchilla με 70 δισεκατομμύρια παραμέτρους της DeepMind. Το μικρότερο μέγεθος σημαίνει ότι θα πρέπει να είναι ευκολότερο στη χρήση για επιστήμονες που έχουν λιγότερους υπολογιστικούς πόρους. Και ναι, υπάρχει μια πληθώρα γλωσσικών μοντέλων εκεί έξω, όλων των σχημάτων και μεγεθών. είναι κάτι περισσότερο από το OpenAI και το Facebook.

Το LLaMA εξακολουθεί να απαιτεί εκατοντάδες gigabyte αποθηκευτικού χώρου και έναν αξιοπρεπή υπολογισμό για να το οδηγήσει. Η έναρξη λειτουργίας του μοντέλου δεν είναι επίσης απλή, εκτός και αν έχετε συνηθίσει να χειρίζεστε συστήματα αυτού του είδους και η επαναχρησιμοποίησή του για πιο άθλιες δραστηριότητες θα απαιτήσει επίσης περαιτέρω τεχνική εξειδίκευση. Παρά τη διαρροή του μοντέλου, η Meta είπε ότι θα συνεχίσει να μοιράζεται το LLaMA μόνο με επιλεγμένους ερευνητές. 

Πιστεύουμε ότι η τρέχουσα στρατηγική κυκλοφορίας μας επιτρέπει να εξισορροπούμε την υπευθυνότητα και τη διαφάνεια

«Είναι στόχος της Meta να μοιραστεί μοντέλα τεχνητής νοημοσύνης τελευταίας τεχνολογίας με μέλη της ερευνητικής κοινότητας για να μας βοηθήσει να αξιολογήσουμε και να βελτιώσουμε αυτά τα μοντέλα», είπε ένας εκπρόσωπος Το μητρώο.

«Το LLaMA κοινοποιήθηκε για ερευνητικούς σκοπούς, σύμφωνα με τον τρόπο που έχουμε μοιραστεί προηγούμενα μεγάλα γλωσσικά μοντέλα. Αν και το μοντέλο δεν είναι προσβάσιμο σε όλους και ορισμένοι προσπάθησαν να παρακάμψουν τη διαδικασία έγκρισης, πιστεύουμε ότι η τρέχουσα στρατηγική κυκλοφορίας μας επιτρέπει να εξισορροπήσουμε την ευθύνη και το άνοιγμα».

Με άλλα λόγια, η ομάδα του Facebook εμμένει στην προσέγγισή της για τη διανομή της τεχνολογίας της.

Οι πρόσφατες προσπάθειες της Meta να κυκλοφορήσει μεγάλα γλωσσικά μοντέλα δεν πήγαν ομαλά. Πέρυσι ήταν το φλύαρο BlenderBot του επέκρινε για διάδοση παραπληροφόρησης και αντισημιτικών απόψεων. Το Galactica, σχεδιασμένο για να συνοψίζει την επιστημονική γνώση, ήταν αφαιρεθεί τρεις ημέρες μετά την κυκλοφορία του για παραγωγή πλαστού και ρατσιστικού περιεχομένου. ®

Σφραγίδα ώρας:

Περισσότερα από Το μητρώο