I migliori LLM faticano a produrre informazioni legali accurate

I migliori LLM faticano a produrre informazioni legali accurate

I migliori LLM faticano a produrre informazioni legali accurate su PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Colloquio Se pensi che l’intelligenza artificiale generativa abbia un posto automatico al tavolo del mondo del diritto, ripensaci.

I principali modelli linguistici di grandi dimensioni tendono a generare informazioni legali imprecise e non dovrebbero essere presi in considerazione per i contenziosi, ha dimostrato una nuova ricerca.

L'anno scorso, quando OpenAI ha mostrato GPT-4 fosse in grado di superare l'esame di avvocato, fu annunciato come una svolta nell'intelligenza artificiale e portò alcune persone a chiedersi se la tecnologia potesse presto sostituire avvocati. Alcuni speravano che questi tipi di modelli potessero consentire alle persone che non possono permettersi avvocati costosi di perseguire la giustizia legale, rendendo più equo l’accesso all’assistenza legale. La realtà, tuttavia, è che, secondo un recente studio, i LLM non possono nemmeno assistere efficacemente gli avvocati professionisti.

La preoccupazione più grande è che l’intelligenza artificiale spesso fabbrica informazioni false, ponendo un grosso problema soprattutto in un settore che si basa su prove concrete. Un team di ricercatori della Yale e della Stanford University, analizzando i tassi di allucinazioni nei popolari modelli linguistici di grandi dimensioni, ha scoperto che spesso questi non recuperano o generano accuratamente informazioni legali rilevanti, o non comprendono e ragionano sulle varie leggi.

In effetti, GPT-3.5 di OpenAI, che attualmente alimenta la versione gratuita di ChatGPT, ha allucinazioni circa il 69% delle volte quando viene testato in diverse attività. I risultati sono stati peggiori per PaLM-2, il sistema che in precedenza era alla base del chatbot Bard di Google, e Llama 2, il grande modello linguistico rilasciato da Meta, che generava falsità a tassi rispettivamente del 72 e 88%.

Non sorprende che i modelli facciano fatica a completare compiti più complessi rispetto a quelli più facili. Chiedere all’IA di confrontare diversi casi e vedere se sono d’accordo su una questione, ad esempio, è impegnativo, e molto probabilmente genererà informazioni imprecise rispetto a quando si deve affrontare un compito più semplice, come verificare in quale tribunale è stato presentato un caso. 

Sebbene gli LLM eccellano nell’elaborazione di grandi quantità di testo e possano essere formati su enormi quantità di documenti legali – più di quanto qualsiasi avvocato umano potrebbe leggere nella sua vita – non capiscono la legge e non sono in grado di formulare argomentazioni valide.

"Anche se abbiamo visto questo tipo di modelli fare passi da gigante nelle forme di ragionamento deduttivo nei problemi di programmazione o di matematica, questo non è il tipo di competenze che caratterizza un avvocato di alto livello", Daniel Ho, coautore di il giornale Yale-Stanford, racconta Il registro.

"Ciò in cui gli avvocati sono veramente bravi e dove eccellono è spesso descritto come una forma di ragionamento analogico in un sistema di common law, ragionare sulla base di precedenti", ha aggiunto Ho, che è direttore associato della facoltà dello Stanford Institute for Human-Centered. Intelligenza artificiale.

Le macchine spesso falliscono anche in compiti semplici. Quando viene chiesto di controllare un nome o una citazione per verificare se un caso è reale, GPT-3.5, PaLM-2 e Llama 2 possono inventare informazioni false nelle risposte.

“Il modello non ha bisogno di sapere nulla della legge in modo onesto per rispondere correttamente a questa domanda. Deve solo sapere se un caso esiste o meno e può vederlo ovunque nel corpus della formazione", afferma Matthew Dahl, dottorando in giurisprudenza presso l'Università di Yale.

Ciò dimostra che l’intelligenza artificiale non può nemmeno recuperare le informazioni in modo accurato e che esiste un limite fondamentale alle capacità della tecnologia. Questi modelli sono spesso predisposti per essere gradevoli e utili. Di solito non si preoccuperanno di correggere le ipotesi degli utenti e si schiereranno invece dalla loro parte. Se ai chatbot viene chiesto di generare un elenco di casi a sostegno di qualche argomento legale, ad esempio, sono più predisposti a inventare azioni legali che a rispondere senza nulla. Una coppia di avvocati lo ha imparato nel modo più duro quando lo erano sanzionato per aver citato casi completamente inventati dal ChatGPT di OpenAI nella loro istanza in tribunale.

I ricercatori hanno anche scoperto che i tre modelli testati avevano maggiori probabilità di essere informati nelle controversie federali relative alla Corte Suprema degli Stati Uniti rispetto ai procedimenti legali localizzati riguardanti tribunali più piccoli e meno potenti. 

Poiché GPT-3.5, PaLM-2 e Llama 2 sono stati addestrati su testo recuperato da Internet, è logico che abbiano maggiore familiarità con le opinioni legali della Corte Suprema degli Stati Uniti, che sono pubblicate pubblicamente rispetto ai documenti legali archiviati in altri tipi di tribunali che non sono così facilmente accessibili. 

Inoltre avevano maggiori probabilità di avere difficoltà in compiti che implicavano il richiamo di informazioni da casi vecchi e nuovi. 

"Le allucinazioni sono più comuni tra i casi più vecchi e più recenti della Corte Suprema, e meno comuni tra i casi della Corte Warren del dopoguerra (1953-1969)", secondo il giornale. "Questo risultato suggerisce un'altra importante limitazione della conoscenza giuridica dei LLM di cui gli utenti dovrebbero essere a conoscenza: le prestazioni di picco dei LLM potrebbero ritardare di diversi anni rispetto allo stato attuale della dottrina, e i LLM potrebbero non riuscire a internalizzare la giurisprudenza che è molto vecchia ma ancora applicabile e la legge pertinente."

Troppa intelligenza artificiale potrebbe creare una “monocultura”

I ricercatori erano anche preoccupati che l’eccessivo affidamento a questi sistemi potesse creare una “monocultura” legale. Poiché l’intelligenza artificiale è addestrata su una quantità limitata di dati, si riferirà a casi più importanti e ben noti che portano gli avvocati a ignorare altre interpretazioni legali o precedenti rilevanti. Potrebbero trascurare altri casi che potrebbero aiutarli a vedere prospettive o argomenti diversi, che potrebbero rivelarsi cruciali nel contenzioso. 

“La legge in sé non è monolitica”, afferma Dahl. “Una monocultura è particolarmente pericolosa in ambito legale. Negli Stati Uniti abbiamo un sistema di common law federale in cui la legge si sviluppa in modo diverso nei diversi stati nelle diverse giurisdizioni. Ci sono diverse linee o tendenze della giurisprudenza che si sviluppano nel tempo”.

"Potrebbe portare a risultati errati e ad un affidamento ingiustificato in un modo che potrebbe effettivamente danneggiare le parti in causa", aggiunge Ho. Ha spiegato che un modello potrebbe generare risposte imprecise agli avvocati o alle persone che cercano di comprendere qualcosa come le leggi sullo sfratto. 

"Quando cerchi l'aiuto di un modello linguistico ampio, potresti ricevere la risposta esattamente sbagliata su quando è prevista la presentazione della domanda o qual è il tipo di regola di sfratto in questo stato", dice, citando un esempio. "Perché ciò che ti sta dicendo è la legge di New York o la legge della California, in contrapposizione alla legge che effettivamente conta per le tue circostanze particolari nella tua giurisdizione."

I ricercatori concludono che il rischio derivante dall’utilizzo di questi tipi di modelli popolari per compiti legali è maggiore per coloro che presentano documenti nei tribunali di grado inferiore negli stati più piccoli, in particolare se hanno meno esperienza e mettono in discussione i modelli sulla base di false ipotesi. Queste persone hanno maggiori probabilità di essere avvocati, meno potenti provenienti da studi legali più piccoli con meno risorse, o persone che cercano di rappresentare se stesse.

“In breve, riteniamo che i rischi siano maggiori per coloro che trarrebbero maggiori benefici dai LLM”, afferma il documento. ®

Timestamp:

Di più da Il registro