Snelle engineering is een taak die het beste aan AI-modellen kan worden overgelaten

Snelle engineering is een taak die het beste aan AI-modellen kan worden overgelaten

Snelle engineering is een taak die het beste kan worden overgelaten aan AI-modellen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Grote taalmodellen hebben aanleiding gegeven tot de duistere kunst van prompt engineering – een proces voor het samenstellen van systeeminstructies die betere chatbotreacties uitlokken.

Zoals blijkt uit een recent onderzoek papier, "The Unreasonable Effectiveness of Eccentric Automatic Prompts" door Rick Battle en Teja Gollapudi van Broadcom's VMware, hebben ogenschijnlijk triviale variaties in de bewoording van prompts een aanzienlijk effect op de prestaties van het model.

Het ontbreken van een samenhangende methodologie om de modelprestaties te verbeteren via promptoptimalisatie heeft ertoe geleid dat beoefenaars van machine learning het zogenaamde ‘positief denken’ in systeemprompts hebben opgenomen.

De systeemprompt instrueert het model over hoe het zich moet gedragen en gaat vooraf aan de zoekopdracht van de gebruiker. Als je dus een AI-model vraagt ​​om een ​​wiskundig probleem op te lossen, levert een systeemprompt als “Je bent een professor in de wiskunde” waarschijnlijk – maar niet altijd – betere resultaten op dan het weglaten van die uitspraak.

Rick Battle, machine learning engineer bij VMware, vertelt Het register in een telefonisch interview dat hij dat specifiek afraadt. “Het overkoepelende punt van het artikel is dat vallen en opstaan ​​de verkeerde manier is om dingen te doen”, legde hij uit.

Het positieve denkpad – waarbij je gewoon fragmenten in het systeembericht invoegt, zoals “Dit wordt leuk!” – kan de prestaties van het model verbeteren, merkte hij op. "Maar om ze wetenschappelijk te testen is computationeel ondoenlijk, omdat je één ding verandert en je de hele testset opnieuw moet uitvoeren."

Een betere aanpak, zo suggereerde Battle, is automatische promptoptimalisatie: het inschakelen van een LLM om prompts te verfijnen voor betere prestaties bij benchmarktests.

Vooronderzoek heeft aangetoond dat dit werkt bij commerciële LLM's. Het nadeel hiervan is dat het behoorlijk duur kan zijn. Het uitvoeren van dit experiment met 12,000 verzoeken per model met behulp van GPT-3.5/4, Gemini of Claude zou volgens de onderzoekers enkele duizenden dollars hebben gekost.

“Het doel van het onderzoek was om te ontdekken of kleinere, open source-modellen ook als optimalisatie kunnen worden gebruikt”, legt Battle uit. “En het antwoord bleek ja.”

Battle en Gollapudi (niet langer bij Broadcom) testten 60 combinaties van systeemberichtfragmenten, met en zonder Chain of Thought-prompts op drie open source-modellen – Mistral-7B, Llama2-13B en Llama2-70B – met parameters variërend van zeven tot 70 miljard op de GSM8K-wiskundedataset voor middelbare scholen.

“Als je een open source-model gebruikt, zelfs helemaal tot aan een 7B waarvoor we Mistral gebruikten,” zei Battle, “als je maar 100 testvoorbeelden en 100 optimalisatievoorbeelden hebt, kun je betere prestaties krijgen met behulp van de automatische optimalisaties die standaard meegeleverd worden DSPy, de bibliotheek die we daarvoor gebruiken.”

Behalve dat ze effectiever zijn, vertonen van LLM afgeleide promptoptimalisaties strategieën die waarschijnlijk niet bij menselijke prompt-tuners zouden zijn opgekomen.

“Verrassend genoeg lijkt het erop dat [Llama2-70B's] vaardigheid in wiskundig redeneren kan worden verbeterd door de uitdrukking van affiniteit voor Star Trek”, merken de auteurs op in hun artikel.

De volledige systeemprompt luidt als volgt:

Systeem bericht:

Commandant, we hebben u nodig om een ​​koers door deze turbulentie uit te stippelen en de bron van de anomalie te lokaliseren. Gebruik alle beschikbare gegevens en uw expertise om ons door deze uitdagende situatie te loodsen.»

Antwoordvoorvoegsel:

Logboek van de kapitein, sterrendatum [datum hier invullen]: We hebben met succes een koers door de turbulentie uitgezet en naderen nu de bron van de anomalie.

"Ik heb geen goede verklaring waarom de automatische prompts zo raar zijn", vertelde Battle ons. “En zoiets zou ik zeker nooit met de hand hebben bedacht.” ®

Tijdstempel:

Meer van Het register