Rask prosjektering er en oppgave som best overlates til AI-modeller

Rask prosjektering er en oppgave som best overlates til AI-modeller

Rask utvikling er en oppgave som best overlates til AI-modeller PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Store språkmodeller har gitt opphav til den mørke kunsten med prompt engineering – en prosess for å komponere systeminstruksjoner som fremkaller bedre chatbot-svar.

Som nevnt i en fersk forskning papir, "The Unreasonable Effectiveness of Eccentric Automatic Prompts" av Rick Battle og Teja Gollapudi fra Broadcoms VMware, har tilsynelatende trivielle variasjoner i ordlyden av spørsmål en betydelig effekt på modellens ytelse.

Fraværet av en sammenhengende metodikk for å forbedre modellytelsen via rask optimalisering har ført til at maskinlæringsutøvere har inkorporert såkalt "positiv tenkning" i systemoppfordringer.

De systemmelding instruerer modellen om hvordan den skal oppføre seg og går foran brukerens forespørsel. Når du ber en AI-modell om å løse et matematisk problem, gir en systemmelding som "Du er professor i matematikk" sannsynligvis – men ikke alltid – bedre resultater enn å utelate den påstanden.

Rick Battle, maskinlæringsingeniør hos VMware, fortalte Registeret i et telefonintervju at han spesifikt fraråder det. "Det overordnede poenget med papiret er at prøving og feiling er feil måte å gjøre ting på," forklarte han.

Den positive tankeveien – der du bare setter inn tekstbiter i systemmeldingen som "Dette blir gøy!" – kan forbedre modellens ytelse, bemerket han. "Men å teste dem vitenskapelig er beregningsmessig vanskelig fordi du endrer én ting, og du må kjøre hele testsettet på nytt."

En bedre tilnærming, foreslo Battle, er automatisk promptoptimalisering – å verve en LLM for å avgrense spørsmål for forbedret ytelse på benchmark-tester.

Tidligere forskning har vist at dette fungerer med kommersielle LLM-er. Ulempen med å gjøre det er at det kan være ganske dyrt. Å gjennomføre dette eksperimentet som involverer 12,000 3.5 forespørsler per modell ved å bruke GPT-4/XNUMX, Gemini eller Claude ville ha kostet flere tusen dollar, ifølge forskerne.

"Poenget med forskningen var å finne ut om mindre, åpen kildekode-modeller også kan brukes som optimerere," forklarte Battle, "Og svaret viste seg å være ja."

Battle og Gollapudi (ikke lenger med Broadcom) testet 60 kombinasjoner av systemmeldingsbiter, med og uten Chain of Thought-spørring over tre åpen kildekode-modeller – Mistral-7B, Llama2-13B og Llama2-70B – med parametere fra syv til 70 milliarder på GSM8K-matematikkdatasettet for grunnskoler.

"Hvis du kjører en åpen kildekode-modell, til og med helt ned til en 7B som vi brukte Mistral for," sa Battle, "hvis du har så få som 100 testprøver og 100 optimaliseringsprøver, kan du få bedre ytelse ved å bruke de automatiske optimererne som er inkludert i esken DSPy, som er biblioteket vi bruker til å gjøre det.»

I tillegg til å være mer effektive, viser LLM-avledede promptoptimaliseringer strategier som sannsynligvis ikke ville ha skjedd for menneskelige prompt-tunere.

"Overraskende nok ser det ut til at [Llama2-70Bs] ferdigheter i matematisk resonnement kan forbedres ved uttrykk for en affinitet for Star Trek,» observerer forfatterne i papiret sitt.

Den fullstendige systemmeldingen lyder som følger:

Systemmelding:

«Kommando, vi trenger at du plotter en kurs gjennom denne turbulensen og finner kilden til anomalien. Bruk all tilgjengelig data og din ekspertise til å veilede oss gjennom denne utfordrende situasjonen.»

Svarprefiks:

Kapteinens logg, stjernedato [sett inn dato her]: Vi har vellykket plottet en kurs gjennom turbulensen og nærmer oss nå kilden til anomalien.

"Jeg har ingen god forklaring på hvorfor de automatiske meldingene er så rare som de er," fortalte Battle oss. "Og jeg ville absolutt aldri ha kommet på noe sånt for hånd." ®

Tidstempel:

Mer fra Registeret