Sökmotorer hjälper inte alltid chatbotens noggrannhet

Sökmotorer hjälper inte alltid chatbot-precisionen

Sökmotorer hjälper inte alltid chatbot-precisionen PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Tillgång till sökmotorer tenderar inte att förbättra en AI-chattbots förmåga att generera korrekta och uppdaterade svar på frågor, vilket innebär att utvecklare måste hitta nya tekniker för att göra interaktionen mer användbar, enligt forskning.

Stora språkmodeller (LLM) som GPT-3.5 – grunden för ChatGPT – tränas på text skrapad från internet fram till september 2021. Företag som Google och Microsoft försöker utöka LLM:er med sökmotorer, vilket ger dem tillgång till kunskap i aktuell webb. sidor.

Som framgår av deras respektive Bard och bing chatbots, Google och Microsoft kämpar fortfarande för att ge korrekta svar på sökfrågor – även om det korrekta svaret kan finnas på internet någonstans.

"Man kan tycka att det är en perfekt lösning att koppla samman sökmotorn och ChatGPT, men verkligheten är mer utmanande på grund av den begränsade noggrannheten i sökresultaten," sa Hongyin Luo, en postdoktor vid MIT:s datavetenskap och artificiell intelligens Laboratory. Registret.

Luo förklarar att sökmotorer är sökordsbaserade hämtningssystem och inte alltid ger direkta svar på de flesta frågor. Dessutom kan olika webbsidor innehålla orelaterade, motsägelsefulla eller falsk information. Bing hävdade felaktigt Adolf Hitler var medlem i bandet Radiohead i ett sökresultat, till exempel.

nätanvändare spekulerade om felet kan ha orsakats av en sida på Wikidata som nämnde Radiohead och Adolf Hitler.

Om Bard och Bing ska vara användbara måste utvecklare ta reda på hur man får LLM:er att extrahera den mest användbara informationen från ett hav av text som är bullrig, förvirrande och inkonsekvent. Luo och hans kollegor från MIT och det kinesiska universitetet i Hong Kong anser att modellerna måste finjusteras ytterligare så att de bättre kan följa instruktioner om hur man genererar svar för webbsökning.

Teamet justerade Meta's Lama, en LLM med sju miljarder parametrar, finjusterar den på en databas som innehåller 52,000 4 par textbaserade instruktioner och motsvarande svar genererade av GPT-XNUMX. Forskarna konstruerade också en separat datauppsättning som innehöll de fem bästa webbsidorna som är associerade med varje instruktion, och tränade modellen för att generera rätt svar genom att rangordna källorna efter hur relevanta och nära inriktade de var med rätt svar.

Luo sa den finstämda modellen – med smeknamnet SAIL-7B, som står för search-augmented instruction learning – är bättre på att ignorera distraherande eller opålitliga sökresultat och genererar svar av högre kvalitet. Detaljerna har varit publicerade [PDF] i en tidning släppt på arXiv, och modellens koda finns på GitHub. Du kan också spela med en demo av systemet på Hugging Face.

"Vår modell lär sig att hitta användbar information från bullriga sökresultat och generera så exakta svar som möjligt. Som ett resultat kan vår modell bättre sammanfatta värdefull information och generera bättre svar för olika sökfrågor, även när sökmotorer inte kan hantera dem särskilt bra, säger Luo.

”Vår utbildning innehåller uttryckligen ett steg som klargör om varje sökresultat är användbart eller inte, och språkmodellen följer den valda användbara informationen. Denna process filtrerar bort de flesta opålitliga och orelaterade sökresultat och förbättrar den genomsnittliga prestandan för instruktioner som följer."

Inledande experiment visade att SAIL-7B överträffade GPT-3.5 och andra modeller som innehåller fler parametrar vid en rad uppgifter. Experimenten bedömde deras förmåga att svara på sunt förnuft och öppna frågor, samt att kontrollera fakta och upptäcka hatretorik. Modellerna matades med webbsidor från Wikipedia och sökresultat från DuckDuckGo för att hjälpa dem att välja rätt svar från en lista med kandidatsvar. GPT-4 var dock fortfarande bättre än SAIL-7B.

"Utmaningen är att större modeller har mycket starkare kunskaper, memorerings- och resonemangsförmåga, så vår modell är inte lika bra som GPT-4 än. Men SAIL-7B är ett proof of concept med en "liten" modell, och vårt nästa steg är att träna en större modell med den strategi vi har föreslagit”, berättade Luo för oss.

Modeller finjusterade med den nuvarande sökförstärkta instruktionsinlärningstekniken är dock inte perfekta. Forskarna noterade att de inte kan förklara varför ett sökresultat är pålitligt eller inte. De hoppas kunna komma med en annan strategi för att öka noggrannheten och tillförlitligheten i framtiden. ®

Tidsstämpel:

Mer från Registret