Hurtig konstruktion er en opgave, der bedst overlades til AI-modeller

Hurtig konstruktion er en opgave, der bedst overlades til AI-modeller

Prompt engineering is a task best left to AI models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Store sprogmodeller har givet anledning til den mørke kunst med prompt engineering - en proces til at komponere systeminstruktioner, der fremkalder bedre chatbot-svar.

Som bemærket i en nylig undersøgelse papir, "The Unreasonable Effectiveness of Eccentric Automatic Prompts" af Rick Battle og Teja Gollapudi fra Broadcoms VMware, har tilsyneladende trivielle variationer i ordlyden af ​​prompter en betydelig effekt på modellens ydeevne.

Fraværet af en sammenhængende metode til at forbedre modellens ydeevne via hurtig optimering har fået maskinlæringsudøvere til at inkorporere såkaldt "positiv tænkning" i systemprompter.

systemprompt instruerer modellen i, hvordan den skal opføre sig og går forud for brugerens forespørgsel. Når man beder en AI-model om at løse et matematisk problem, giver en systemprompt som "Du er professor i matematik" sandsynligvis – men ikke altid – bedre resultater end at udelade den erklæring.

Det fortalte Rick Battle, maskinlæringsingeniør hos VMware Registret i et telefoninterview, at han specifikt fraråder det. "Det overordnede punkt i papiret er, at forsøg og fejl er den forkerte måde at gøre tingene på," forklarede han.

Den positive tankegang – hvor du bare indsætter uddrag i systemmeddelelsen som "Det bliver sjovt!" - kan forbedre modellens ydeevne, bemærkede han. "Men at teste dem videnskabeligt er beregningsmæssigt uoverskueligt, fordi du ændrer én ting, og du er nødt til at køre hele dit testsæt igen."

En bedre tilgang, foreslog Battle, er automatisk promptoptimering – at få en LLM til at forfine prompts for forbedret ydeevne på benchmark-tests.

Tidligere forskning har vist, at dette virker med kommercielle LLM'er. Ulempen ved at gøre det er, at det kan være ret dyrt. At udføre dette eksperiment, der involverer 12,000 anmodninger pr. model ved hjælp af GPT-3.5/4, Gemini eller Claude, ville ifølge forskerne have kostet flere tusinde dollars.

"Pointen med forskningen var at finde ud af, om mindre, open source-modeller også kan bruges som optimering," forklarede Battle, "Og svaret viste sig at være ja."

Battle og Gollapudi (ikke længere med Broadcom) testede 60 kombinationer af systemmeddelelsesuddrag, med og uden Chain of Thought-prompt over tre open source-modeller – Mistral-7B, Llama2-13B og Llama2-70B – med parametre fra syv til 70 milliarder på GSM8K-matematikdatasættet for folkeskolen.

"Hvis du kører en open source-model, endda helt ned til en 7B, som vi brugte Mistral til," sagde Battle, "hvis du har så få som 100 testprøver og 100 optimeringsprøver, kan du få bedre ydeevne ved hjælp af de automatiske optimeringsværktøjer, som er inkluderet ud af kassen DSPy, som er det bibliotek, vi bruger til at gøre det."

Ud over at være mere effektive, udviser LLM-afledte promptoptimeringer strategier, som sandsynligvis ikke ville være faldet ind for menneskelige prompt-tunere.

"Overraskende nok ser det ud til, at [Llama2-70B's] færdigheder i matematisk ræsonnement kan forbedres ved at udtrykke en affinitet til Star Trek," bemærker forfatterne i deres papir.

Den fulde systemprompt lyder som følger:

Systemmeddelelse:

«Kommando, vi har brug for, at du plotter en kurs gennem denne turbulens og lokaliserer kilden til anomalien. Brug alle tilgængelige data og din ekspertise til at guide os gennem denne udfordrende situation.»

Svarpræfiks:

Kaptajnens log, stjernedato [indsæt dato her]: Vi har med succes plottet en kurs gennem turbulensen og nærmer os nu kilden til anomalien.

"Jeg har ingen god forklaring på, hvorfor de automatiske prompter er så mærkelige, som de er," fortalte Battle os. "Og jeg ville bestemt aldrig have fundet på noget lignende i hånden." ®

Tidsstempel:

Mere fra Registret