Η άμεση μηχανική είναι μια εργασία που αφήνεται καλύτερα στα μοντέλα AI

Η άμεση μηχανική είναι μια εργασία που αφήνεται καλύτερα στα μοντέλα AI

Η άμεση μηχανική είναι μια εργασία που αφήνεται καλύτερα στα μοντέλα τεχνητής νοημοσύνης PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Τα μοντέλα μεγάλων γλωσσών έχουν δημιουργήσει τη σκοτεινή τέχνη της άμεσης μηχανικής - μια διαδικασία για τη σύνθεση οδηγιών συστήματος που προκαλούν καλύτερες αποκρίσεις chatbot.

Όπως σημειώνεται σε πρόσφατη έρευνα χαρτί, «The Unreasonable Effectiveness of Eccentric Automatic Prompts» των Rick Battle και Teja Gollapudi από το VMware της Broadcom, οι φαινομενικά ασήμαντες παραλλαγές στη διατύπωση των προτροπών έχουν σημαντική επίδραση στην απόδοση του μοντέλου.

Η απουσία μιας συνεκτικής μεθοδολογίας για τη βελτίωση της απόδοσης του μοντέλου μέσω της άμεσης βελτιστοποίησης οδήγησε τους επαγγελματίες της μηχανικής μάθησης να ενσωματώσουν τη λεγόμενη «θετική σκέψη» στα μηνύματα του συστήματος.

Η προτροπή συστήματος καθοδηγεί το μοντέλο για το πώς να συμπεριφέρεται και προηγείται του ερωτήματος του χρήστη. Έτσι, όταν ζητάμε από ένα μοντέλο τεχνητής νοημοσύνης να λύσει ένα μαθηματικό πρόβλημα, μια προτροπή συστήματος όπως «Είσαι καθηγητής μαθηματικών» πιθανότατα –αν και όχι πάντα– παράγει καλύτερα αποτελέσματα από την παράλειψη αυτής της δήλωσης.

είπε ο Rick Battle, μηχανικός μηχανικής μάθησης προσωπικού στο VMware Το μητρώο σε μια τηλεφωνική συνέντευξη ότι συμβουλεύει συγκεκριμένα να μην το κάνετε αυτό. «Το κυρίαρχο σημείο της εργασίας είναι ότι η δοκιμή και το λάθος είναι ο λάθος τρόπος για να κάνεις πράγματα», εξήγησε.

Το μονοπάτι θετικής σκέψης – όπου απλώς εισάγετε αποσπάσματα στο μήνυμα συστήματος όπως "Αυτό θα είναι διασκεδαστικό!" – μπορεί να βελτιώσει την απόδοση του μοντέλου, σημείωσε. "Αλλά το να τα δοκιμάσεις επιστημονικά είναι υπολογιστικά δυσεπίλυτο γιατί αλλάζεις ένα πράγμα και πρέπει να ξανατρέξεις ολόκληρο το σετ δοκιμών."

Μια καλύτερη προσέγγιση, πρότεινε η Battle, είναι η αυτόματη βελτιστοποίηση προτροπής – η χρησιμοποίηση ενός LLM για να βελτιώσει τις προτροπές για βελτιωμένη απόδοση σε δοκιμές αναφοράς.

Προηγούμενη έρευνα έχει δείξει ότι αυτό λειτουργεί με εμπορικά LLM. Το μειονέκτημα είναι ότι μπορεί να είναι αρκετά ακριβό. Η διεξαγωγή αυτού του πειράματος που περιλαμβάνει 12,000 αιτήματα ανά μοντέλο χρησιμοποιώντας GPT-3.5/4, Gemini ή Claude θα κόστιζε αρκετές χιλιάδες δολάρια, σύμφωνα με τους ερευνητές.

«Το θέμα της έρευνας ήταν να ανακαλύψει εάν μικρότερα μοντέλα ανοιχτού κώδικα μπορούν επίσης να χρησιμοποιηθούν ως βελτιστοποιητές», εξήγησε ο Battle, «Και η απάντηση ήταν ναι».

Το Battle και το Gollapudi (όχι πλέον με την Broadcom) δοκίμασαν 60 συνδυασμούς αποσπασμάτων μηνυμάτων συστήματος, με και χωρίς Chain of Thought που προτρέπει σε τρία μοντέλα ανοιχτού κώδικα – Mistral-7B, Llama2-13B και Llama2-70B – με παραμέτρους που κυμαίνονται από επτά έως 70 δισεκατομμύρια στο σύνολο δεδομένων μαθηματικών σχολείων GSM8K.

"Εάν εκτελείτε ένα μοντέλο ανοιχτού κώδικα, ακόμη και μέχρι το 7B για το οποίο χρησιμοποιούσαμε το Mistral", είπε ο Battle, "αν έχετε μόλις 100 δείγματα δοκιμής και 100 δείγματα βελτιστοποίησης, μπορείτε να έχετε καλύτερη απόδοση χρησιμοποιώντας τους αυτόματους βελτιστοποιητές που περιλαμβάνονται εκτός συσκευασίας DSPy, που είναι η βιβλιοθήκη που χρησιμοποιούμε για να το κάνουμε."

Πέρα από το ότι είναι πιο αποτελεσματικές, οι βελτιστοποιήσεις προτροπής που προέρχονται από το LLM παρουσιάζουν στρατηγικές που πιθανώς δεν θα είχαν συμβεί στους ανθρώπινους συντονιστές προτροπών.

Παραδόξως, φαίνεται ότι η ικανότητα του [Llama2-70B] στον μαθηματικό συλλογισμό μπορεί να ενισχυθεί με την έκφραση μιας συγγένειας για Star Trek», παρατηρούν οι συγγραφείς στην εργασία τους.

Το πλήρες μήνυμα συστήματος έχει ως εξής:

Μήνυμα συστήματος:

«Διαταγή, χρειαζόμαστε να σχεδιάσετε μια πορεία μέσα από αυτή την αναταραχή και να εντοπίσετε την πηγή της ανωμαλίας. Χρησιμοποιήστε όλα τα διαθέσιμα δεδομένα και την τεχνογνωσία σας για να μας καθοδηγήσετε σε αυτήν την δύσκολη κατάσταση.»

Πρόθεμα απάντησης:

Captain's Log, Stardate [εισάγετε την ημερομηνία εδώ]: Έχουμε σχεδιάσει με επιτυχία μια πορεία μέσα από τις αναταράξεις και τώρα πλησιάζουμε την πηγή της ανωμαλίας.

«Δεν έχω καλή εξήγηση για το γιατί τα αυτόματα μηνύματα είναι τόσο περίεργα όσο είναι», μας είπε ο Battle. «Και σίγουρα δεν θα είχα βρει ποτέ κάτι τέτοιο με το χέρι». ®

Σφραγίδα ώρας:

Περισσότερα από Το μητρώο