Søgemaskiner hjælper ikke altid chatbot-nøjagtigheden

Søgemaskiner hjælper ikke altid chatbot-nøjagtigheden

Search engines don't always help chatbot accuracy PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Adgang til søgemaskiner har ikke en tendens til at forbedre en AI-chatbots evne til at generere nøjagtige og opdaterede svar på forespørgsler, hvilket betyder, at udviklere bliver nødt til at finde nye teknikker for at gøre interaktionen mere nyttig, ifølge forskning.

Store sprogmodeller (LLM'er) som GPT-3.5 - grundlaget for ChatGPT - trænes i tekst skrabet fra internettet frem til september 2021. Virksomheder som Google og Microsoft forsøger at udvide LLM'er med søgemaskiner, hvilket giver dem adgang til viden på det aktuelle web sider.

Som demonstreret af deres respektive Bard , Bing chatbots, Google og Microsoft kæmper stadig med at producere præcise svar på søgeforespørgsler – selvom det rigtige svar kan være på internettet et eller andet sted.

"Man kunne tro at forbinde søgemaskinen og ChatGPT er en perfekt løsning, men virkeligheden er mere udfordrende på grund af den begrænsede nøjagtighed af søgeresultater," fortalte Hongyin Luo, en postdoc ved MIT's Computer Science & Artificial Intelligence Laboratory. Registret.

Luo forklarer, at søgemaskiner er søgeordsbaserede søgesystemer og ikke altid giver direkte svar på de fleste spørgsmål. Forskellige websider kan også indeholde ikke-relaterede, modstridende eller falske oplysninger. Bing hævdede forkert Adolf Hitler var medlem af bandet Radiohead i ét søgeresultat f.eks.

netizens spekuleret om fejlen kan være forårsaget af en side på Wikidata, der omtalte Radiohead og Adolf Hitler.

Hvis Bard og Bing skal være nyttige, bliver udviklere nødt til at finde ud af, hvordan man får LLM'er til at udtrække den mest nyttige information fra et hav af tekst, der er støjende, forvirrende og inkonsekvent. Luo og hans kolleger fra MIT og det kinesiske universitet i Hong Kong mener, at modeller skal finjusteres yderligere, så de bedre kan følge instruktionerne i, hvordan man genererer svar til websøgning.

Holdet justerede Meta's Opkald, en LLM med syv milliarder parametre, der finjusterer den på en database, der indeholder 52,000 par tekstbaserede instruktioner og tilsvarende svar genereret af GPT-4. Forskerne konstruerede også et separat datasæt, der indeholdt de fem bedste websider, der er knyttet til hver instruktion, og trænede modellen til at generere det korrekte svar ved at rangere kilderne efter, hvor relevante og tæt de var på linje med det rigtige svar.

Luo sagde den finjusterede model - med tilnavnet SEJL-7B, som står for search-augmented instruction learning – er bedre til at ignorere distraherende eller utroværdige søgeresultater og genererer svar af højere kvalitet. Detaljerne har været offentliggjort [PDF] i et papir udgivet på arXiv, og modellens kode er på GitHub. Du kan også spille med en demo af systemet hostet på Hugging Face.

"Vores model lærer at finde nyttig information fra støjende søgeresultater og generere så præcise svar som muligt. Som et resultat kan vores model bedre opsummere værdifuld information og generere bedre svar på forskellige søgeforespørgsler, selv når søgemaskinerne ikke kan håndtere dem særlig godt,” sagde Luo.

“Vores træning indeholder eksplicit et trin, der afklarer, om hvert søgeresultat er nyttigt eller ej, og sprogmodellen følger den valgte nyttige information. Denne proces bortfiltrerer de fleste upålidelige og ikke-relaterede søgeresultater og forbedrer den gennemsnitlige instruktionsfølgende ydeevne."

Indledende eksperimenter viste, at SAIL-7B klarede sig bedre end GPT-3.5 og andre modeller, der indeholdt flere parametre ved en række opgaver. Eksperimenterne vurderede deres evner til at besvare almindelig sund fornuft og åbne spørgsmål, samt faktatjek og opdage hadefulde ytringer. Modellerne blev fodret med websider fra Wikipedia og søgeresultater fra DuckDuckGo for at hjælpe dem med at vælge de rigtige svar fra en liste over kandidatsvar. GPT-4 var dog stadig bedre end SAIL-7B.

"Udfordringen er, at større modeller har meget stærkere viden, huske- og ræsonnementevner, så vores model er ikke så god som GPT-4 endnu. SAIL-7B er dog et proof of concept med en 'lille' model, og vores næste skridt er at træne en større model med den strategi, vi har foreslået,” fortalte Luo os.

Modeller finjusteret med den nuværende søgeforstærkede instruktionsindlæringsteknik er dog ikke perfekte. Forskerne bemærkede, at de ikke kan forklare hvorfor et søgeresultat er troværdigt eller ej. De håber at komme med en anden strategi for at øge nøjagtigheden og pålideligheden i fremtiden. ®

Tidsstempel:

Mere fra Registret