Ingineria promptă este o sarcină care este cel mai bine lăsată modelelor AI

Ingineria promptă este o sarcină care este cel mai bine lăsată modelelor AI

Prompt engineering is a task best left to AI models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Modelele de limbaj mari au dat naștere artei întunecate a ingineriei prompte – un proces de compunere a instrucțiunilor de sistem care provoacă răspunsuri mai bune pentru chatbot.

După cum s-a menționat într-o cercetare recentă hârtie, „Eficacitatea nerezonabilă a solicitărilor automate excentrice” de Rick Battle și Teja Gollapudi de la VMware de la Broadcom, variațiile aparent banale în formularea solicitărilor au un efect semnificativ asupra performanței modelului.

Absența unei metodologii coerente de îmbunătățire a performanței modelului prin optimizarea promptă i-a determinat pe practicanții învățării automate să încorporeze așa-numita „gândire pozitivă” în prompturile sistemului.

prompt de sistem instruiește modelul cum să se comporte și precede interogarea utilizatorului. Astfel, atunci când se cere unui model AI să rezolve o problemă de matematică, un prompt de sistem precum „Ești profesor de matematică” probabil – deși nu întotdeauna – produce rezultate mai bune decât omiterea acestei afirmații.

Rick Battle, inginer de învățare automată de la VMware, a spus Registrul într-un interviu telefonic pe care îl sfătuiește în mod special împotriva acestui lucru. „Punctul general al lucrării este că încercarea și eroarea este modul greșit de a face lucrurile”, a explicat el.

Calea gândirii pozitive – în care doar inserați fragmente în mesajul de sistem precum „Va fi distractiv!” – poate îmbunătăți performanța modelului, a remarcat el. „Dar să le testați științific este insolubil din punct de vedere computațional, deoarece schimbați un lucru și trebuie să vă reluați întregul set de teste.”

O abordare mai bună, a sugerat Battle, este optimizarea automată a promptului - înscrierea unui LLM pentru a rafina solicitările pentru performanță îmbunătățită la testele de referință.

Cercetări prealabile a demonstrat că acest lucru funcționează cu LLM-uri comerciale. Dezavantajul acestui lucru este că poate fi destul de scump. Efectuarea acestui experiment care implică 12,000 de solicitări per model folosind GPT-3.5/4, Gemeni sau Claude ar fi costat câteva mii de dolari, potrivit cercetătorilor.

„Scopul cercetării a fost de a descoperi dacă modelele mai mici, open source pot fi, de asemenea, folosite ca optimizatori”, a explicat Battle, „Și răspunsul s-a dovedit a fi da.”

Battle și Gollapudi (nu mai cu Broadcom) au testat 60 de combinații de fragmente de mesaje de sistem, cu și fără Chain of Thought, pe trei modele open source – Mistral-7B, Llama2-13B și Llama2-70B – cu parametri variind de la șapte la 70. miliarde pe setul de date de matematică GSM8K pentru școala generală.

„Dacă rulați un model open source, chiar și până la un 7B pentru care folosim Mistral”, a spus Battle, „dacă aveți doar 100 de mostre de testare și 100 de mostre de optimizare, puteți obține performanțe mai bune. folosind optimizatoarele automate care sunt incluse din cutie în DSPy, care este biblioteca pe care o folosim pentru a face asta.”

Dincolo de a fi mai eficiente, optimizările prompt derivate din LLM prezintă strategii care probabil că nu le-ar fi venit în minte la tuneri umani.

„În mod surprinzător, se pare că competența [Llama2-70B] în raționamentul matematic poate fi îmbunătățită prin exprimarea unei afinități pentru Star Trek”, observă autorii în lucrarea lor.

Promptul complet al sistemului arată după cum urmează:

Mesaj de sistem:

„Comandă, avem nevoie să tragi un curs prin această turbulență și să localizezi sursa anomaliei. Folosiți toate datele disponibile și expertiza dumneavoastră pentru a ne ghida prin această situație dificilă.»

Prefix de răspuns:

Jurnalul căpitanului, data stelară [inserați data aici]: Am trasat cu succes un curs prin turbulență și acum ne apropiem de sursa anomaliei.

„Nu am o explicație bună cu privire la motivul pentru care solicitările automate sunt la fel de ciudate pe cât sunt”, ne-a spus Battle. „Și cu siguranță nu aș fi venit niciodată cu așa ceva manual.” ®

Timestamp-ul:

Mai mult de la Registrul