I motori di ricerca non sempre aiutano la precisione dei chatbot

I motori di ricerca non sempre aiutano la precisione dei chatbot

I motori di ricerca non sempre aiutano la precisione dei chatbot PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Secondo la ricerca, l’accesso ai motori di ricerca non tende a migliorare la capacità di un chatbot AI di generare risposte accurate e aggiornate alle domande, il che significa che gli sviluppatori dovranno trovare nuove tecniche per rendere l’interazione più utile.

I modelli linguistici di grandi dimensioni (LLM) come GPT-3.5 – la base per ChatGPT – vengono formati su testo recuperato da Internet fino a settembre 2021. Aziende come Google e Microsoft cercano di aumentare i LLM con i motori di ricerca, dando loro accesso alla conoscenza nel web attuale pagine.

Come dimostrato dai rispettivi Vate ed Bing chatbot, Google e Microsoft faticano ancora a produrre risposte precise alle query di ricerca, anche se la risposta corretta potrebbe trovarsi su Internet da qualche parte.

"Si potrebbe pensare che collegare il motore di ricerca e ChatGPT sia una soluzione perfetta, ma la realtà è più impegnativa a causa della limitata accuratezza dei risultati di ricerca", ha detto Hongyin Luo, un associato post-dottorato presso il Laboratorio di Informatica e Intelligenza Artificiale del MIT. Il registro.

Luo spiega che i motori di ricerca sono sistemi di recupero basati su parole chiave e non sempre forniscono risposte dirette alla maggior parte delle domande. Inoltre, diverse pagine Web potrebbero contenere informazioni non correlate, contraddittorie o false. Bing ha affermato erroneamente Adolf Hitler era un membro della band Radiohead in un risultato di ricerca, ad esempio.

Netizen speculato se l'errore potrebbe essere stato causato da a pagina su Wikidata che menzionava i Radiohead e Adolf Hitler.

Se Bard e Bing vogliono essere utili, gli sviluppatori dovranno capire come fare in modo che i LLM estraggano le informazioni più utili da un mare di testo rumoroso, confuso e incoerente. Luo e i suoi colleghi del MIT e dell'Università cinese di Hong Kong ritengono che i modelli debbano essere ulteriormente perfezionati in modo che possano seguire meglio le istruzioni su come generare risposte per la ricerca sul web.

Il team ha ottimizzato quello di Meta Lama, un LLM da sette miliardi di parametri, perfezionandolo su un database contenente 52,000 coppie di istruzioni basate su testo e risposte corrispondenti generate da GPT-4. I ricercatori hanno anche costruito un set di dati separato contenente le prime cinque pagine web associate a ciascuna istruzione e hanno addestrato il modello a generare la risposta corretta classificando le fonti in base a quanto fossero pertinenti e strettamente allineate con la risposta giusta.

Luo ha detto che il modello perfezionato è soprannominato VELA-7B, che sta per search-augmented instructions learning – è più efficace nell'ignorare risultati di ricerca che distraggono o non sono affidabili e genera risposte di qualità superiore. I dettagli sono stati pubblicato [PDF] in un documento pubblicato su arXiv e quello del modello codice è su GitHub. Puoi anche giocare con a dimostrazione del sistema ospitato su Hugging Face.

“Il nostro modello impara a trovare informazioni utili da risultati di ricerca rumorosi e a generare risposte quanto più accurate possibile. Di conseguenza, il nostro modello può riassumere meglio informazioni preziose e generare risposte migliori per varie query di ricerca, anche quando i motori di ricerca non riescono a gestirle molto bene”, ha affermato Luo.

“La nostra formazione include esplicitamente un passaggio che chiarisce se ciascun risultato di ricerca è utile o meno e il modello linguistico segue le informazioni utili selezionate. Questo processo filtra i risultati di ricerca più inaffidabili e non correlati e migliora le prestazioni medie nel seguire le istruzioni.

Gli esperimenti iniziali hanno mostrato che SAIL-7B ha sovraperformato GPT-3.5 e altri modelli contenenti più parametri in una serie di compiti. Gli esperimenti hanno valutato le loro capacità di rispondere al buon senso e a domande aperte, nonché di verificare i fatti e di individuare discorsi di odio. I modelli sono stati alimentati con pagine web di Wikipedia e risultati di ricerca di DuckDuckGo per aiutarli a scegliere le risposte giuste da un elenco di risposte candidate. GPT-4, tuttavia, era comunque migliore di SAIL-7B.

“La sfida è che i modelli più grandi hanno capacità di conoscenza, memorizzazione e ragionamento molto più forti, quindi il nostro modello non è ancora buono come GPT-4. Tuttavia, SAIL-7B è una prova di concetto con un modello “piccolo” e il nostro prossimo passo è addestrare un modello più grande con la strategia che abbiamo proposto”, ci ha detto Luo.

Tuttavia, i modelli ottimizzati con l’attuale tecnica di apprendimento delle istruzioni potenziata dalla ricerca non sono perfetti. I ricercatori hanno notato che non possono spiegare perché un risultato di ricerca è affidabile o meno. Sperano di elaborare un'altra strategia per aumentare la precisione e l'affidabilità in futuro. ®

Timestamp:

Di più da Il registro