Snabb ingenjörskonst är en uppgift som bäst lämnas till AI-modeller

Snabb ingenjörskonst är en uppgift som bäst lämnas till AI-modeller

Snabb konstruktion är en uppgift som bäst lämnas till AI-modeller PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Stora språkmodeller har gett upphov till den mörka konsten att prompt ingenjörskonst – en process för att komponera systeminstruktioner som framkallar bättre chatbot-svar.

Som noterats i en färsk forskning papper, "The Unreasonable Effectiveness of Eccentric Automatic Prompts" av Rick Battle och Teja Gollapudi från Broadcoms VMware, till synes triviala variationer i ordalydelsen av prompter har en betydande effekt på modellens prestanda.

Avsaknaden av en sammanhängande metodik för att förbättra modellens prestanda via snabb optimering har lett till att utövare av maskininlärning har införlivat så kallat "positivt tänkande" i systemuppmaningar.

Smakämnen systemuppmaning instruerar modellen om hur den ska bete sig och föregår användarens fråga. Sålunda, när man ber en AI-modell att lösa ett matematiskt problem, ger en systemuppmaning som "Du är professor i matematik" förmodligen – men inte alltid – bättre resultat än att utelämna det påståendet.

Rick Battle, maskininlärningsingenjör på VMware, berättade Registret i en telefonintervju att han specifikt avråder från det. "Den övergripande poängen med tidningen är att trial and error är fel sätt att göra saker på", förklarade han.

Det positiva tänkandet – där du bara infogar utdrag i systemmeddelandet som "Det här kommer att bli kul!" – kan förbättra modellens prestanda, noterade han. "Men att testa dem vetenskapligt är beräkningsmässigt svårhanterligt eftersom du ändrar en sak, och du måste köra om hela ditt testset."

Ett bättre tillvägagångssätt, föreslog Battle, är automatisk promptoptimering – att anlita en LLM för att förfina uppmaningarna för förbättrad prestanda vid benchmark-tester.

Tidigare forskning har visat att detta fungerar med kommersiella LLM. Nackdelen med att göra det är att det kan bli ganska dyrt. Att genomföra detta experiment med 12,000 3.5 förfrågningar per modell med GPT-4/XNUMX, Gemini eller Claude skulle ha kostat flera tusen dollar, enligt forskarna.

"Poängen med forskningen var att upptäcka om mindre modeller med öppen källkod också kan användas som optimerare," förklarade Battle, "Och svaret visade sig vara ja."

Battle och Gollapudi (inte längre med Broadcom) testade 60 kombinationer av systemmeddelanden, med och utan Chain of Thought-uppmaning över tre modeller med öppen källkod – Mistral-7B, Llama2-13B och Llama2-70B – med parametrar från sju till 70 miljarder på GSM8K grundskolans matematikdatauppsättning.

"Om du kör en modell med öppen källkod, till och med ända ner till en 7B som vi använde Mistral för," sa Battle, "om du har så få som 100 testprov och 100 optimeringsprover, kan du få bättre prestanda med de automatiska optimerarna som ingår i förpackningen DSPy, vilket är biblioteket som vi använder för att göra det."

Utöver att vara mer effektiva uppvisar LLM-härledda promptoptimeringar strategier som förmodligen inte skulle ha inträffat för mänskliga prompt-tuners.

"Överraskande nog verkar det som om [Llama2-70B:s] kunskaper i matematiska resonemang kan förbättras genom att uttrycka en affinitet för Star Trek", konstaterar författarna i sin tidning.

Den fullständiga systemuppmaningen lyder som följer:

Systemmeddelande:

«Kommando, vi behöver att du planerar en kurs genom denna turbulens och lokaliserar källan till anomalien. Använd all tillgänglig data och din expertis för att vägleda oss genom denna utmanande situation.»

Svarsprefix:

Kaptenslogg, stjärndatum [infoga datum här]: Vi har framgångsrikt ritat en kurs genom turbulensen och närmar oss nu källan till anomalien.

"Jag har ingen bra förklaring till varför de automatiska uppmaningarna är så konstiga som de är," sa Battle till oss. "Och jag skulle absolut aldrig ha kommit på något sådant för hand." ®

Tidsstämpel:

Mer från Registret