L’ingegneria tempestiva è un compito che è meglio lasciare ai modelli di intelligenza artificiale

L’ingegneria tempestiva è un compito che è meglio lasciare ai modelli di intelligenza artificiale

La progettazione tempestiva è un compito che è meglio lasciare ai modelli di intelligenza artificiale PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

I grandi modelli linguistici hanno dato origine all’oscura arte del prompt engineering, un processo per comporre istruzioni di sistema che suscitano risposte migliori da parte dei chatbot.

Come osservato in una recente ricerca carta, "The Unreasonable Effectiveness of Eccentric Automatic Prompts" di Rick Battle e Teja Gollapudi di VMware di Broadcom, variazioni apparentemente banali nella formulazione dei prompt hanno un effetto significativo sulle prestazioni del modello.

L’assenza di una metodologia coerente per migliorare le prestazioni del modello attraverso l’ottimizzazione rapida ha portato i professionisti dell’apprendimento automatico a incorporare il cosiddetto “pensiero positivo” nei suggerimenti del sistema.

Il richiesta del sistema istruisce il modello su come comportarsi e precede la query dell'utente. Pertanto, quando si chiede a un modello di intelligenza artificiale di risolvere un problema di matematica, un suggerimento del sistema come "Sei un professore di matematica" probabilmente, anche se non sempre, produce risultati migliori rispetto all'omissione di tale affermazione.

Lo ha detto Rick Battle, ingegnere del machine learning presso VMware Il registro in un'intervista telefonica che lo sconsiglia espressamente. "Il punto generale del documento è che tentativi ed errori sono il modo sbagliato di fare le cose", ha spiegato.

Il percorso del pensiero positivo – in cui inserisci semplicemente degli snippet nel messaggio di sistema come “Sarà divertente!” – può migliorare le prestazioni del modello, ha osservato. "Ma testarli scientificamente è computazionalmente intrattabile perché cambi una cosa e devi rieseguire l'intero set di test."

Un approccio migliore, suggerisce Battle, è l'ottimizzazione automatica dei prompt, avvalendosi di un LLM per perfezionare i prompt per migliorare le prestazioni nei test di benchmark.

Prima di ricerca ha dimostrato che funziona con i LLM commerciali. Lo svantaggio di farlo è che può essere piuttosto costoso. Secondo i ricercatori, condurre questo esperimento con 12,000 richieste per modello utilizzando GPT-3.5/4, Gemini o Claude sarebbe costato diverse migliaia di dollari.

"Lo scopo della ricerca era scoprire se anche modelli open source più piccoli possono essere utilizzati come ottimizzatori", ha spiegato Battle, "E la risposta si è rivelata sì."

Battle e Gollapudi (non più con Broadcom) hanno testato 60 combinazioni di frammenti di messaggi di sistema, con e senza la guida della catena di pensiero, su tre modelli open source – Mistral-7B, Llama2-13B e Llama2-70B – con parametri che vanno da sette a 70 miliardi sul set di dati di matematica delle scuole elementari GSM8K.

"Se stai eseguendo un modello open source, anche fino a un 7B per il quale usavamo Mistral", ha affermato Battle, "se hai solo 100 campioni di test e 100 campioni di ottimizzazione, puoi ottenere prestazioni migliori utilizzando gli ottimizzatori automatici inclusi nella confezione DSPy, che è la libreria che usiamo per farlo."

Oltre ad essere più efficaci, le ottimizzazioni dei prompt derivate da LLM mostrano strategie che probabilmente non sarebbero venute in mente ai sintonizzatori di prompt umani.

"Sorprendentemente, sembra che la competenza [di Llama2-70B] nel ragionamento matematico possa essere migliorata dall'espressione di un'affinità per Star Trek”, osservano gli autori nel loro articolo.

Il prompt completo del sistema è il seguente:

Messaggio di sistema:

«Comando, abbiamo bisogno che tu tracci una rotta attraverso questa turbolenza e localizzi la fonte dell'anomalia. Utilizza tutti i dati disponibili e la tua esperienza per guidarci attraverso questa situazione difficile.»

Prefisso della risposta:

Diario del capitano, data stellare [inserire la data qui]: abbiamo tracciato con successo una rotta attraverso la turbolenza e ora ci stiamo avvicinando alla fonte dell'anomalia.

"Non ho una buona spiegazione del motivo per cui i messaggi automatici sono così strani", ci ha detto Battle. "E certamente non avrei mai inventato niente del genere manualmente." ®

Timestamp:

Di più da Il registro