Topp LLM-er sliter med å produsere nøyaktig juridisk informasjon

Topp LLM-er sliter med å produsere nøyaktig juridisk informasjon

Topp LLM-er sliter med å produsere nøyaktig juridisk informasjon PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Intervju Hvis du tror generativ AI har en automatisk plass ved bordet i lovens verden, tro om igjen.

Topp store språkmodeller har en tendens til å generere unøyaktig juridisk informasjon og bør ikke stoles på for rettssaker, har fersk forskning vist.

I fjor, da OpenAI viste GPT-4 var i stand til å bestå advokateksamenen, ble det kunngjort som et gjennombrudd innen AI og førte til at noen spurte om teknologien snart kunne erstatte advokater. Noen håpet at denne typen modeller kunne gi folk som ikke har råd til dyre advokater mulighet til å forfølge juridisk rettferdighet, og gjøre tilgangen til juridisk hjelp mer rettferdig. Realiteten er imidlertid at LLM-er ikke engang kan hjelpe profesjonelle advokater effektivt, ifølge en fersk studie.

Den største bekymringen er at AI ofte produserer falsk informasjon, noe som utgjør et stort problem, spesielt i en bransje som er avhengig av faktabevis. Et team av forskere ved Yale og Stanford University som analyserte hallusinasjonsratene i populære store språkmodeller fant at de ofte ikke nøyaktig henter eller genererer relevant juridisk informasjon, eller forstår og resonnerer rundt ulike lover.

Faktisk hallusinerer OpenAIs GPT-3.5, som for tiden driver gratisversjonen av ChatGPT, omtrent 69 prosent av tiden når den testes på tvers av forskjellige oppgaver. Resultatene var dårligere for PaLM-2, systemet som tidligere sto bak Googles Bard-chatbot, og Llama 2, den store språkmodellen utgitt av Meta, som genererte usannheter med hastigheter på henholdsvis 72 og 88 prosent.

Ikke overraskende sliter modellene med å fullføre mer komplekse oppgaver i motsetning til enn enklere. Å be AI om å sammenligne forskjellige saker og se om de er enige om et problem, for eksempel, er utfordrende, og det vil mer sannsynlig generere unøyaktig informasjon enn når man står overfor en enklere oppgave, for eksempel å sjekke hvilken domstol en sak ble anlagt for. 

Selv om LLM-er utmerker seg ved å behandle store mengder tekst, og kan trenes på enorme mengder juridiske dokumenter – mer enn noen menneskelig advokat kunne lese i løpet av livet – forstår de ikke jus og kan ikke lage gode argumenter.

"Selv om vi har sett denne typen modeller gjøre virkelig store fremskritt i former for deduktiv resonnement i koding eller matematikkproblemer, er det ikke den typen ferdigheter som kjennetegner førsteklasses advokatvirksomhet," Daniel Ho, medforfatter av Yale-Stanford-avisen, forteller Registeret.

"Hva advokater virkelig er gode på, og hvor de utmerker seg, beskrives ofte som en form for analogisk resonnement i et felles lovsystem, å resonnere basert på presedenser," la Ho til, som er assisterende direktør ved Stanford Institute for Human-Centered. Kunstig intelligens.

Maskiner mislykkes ofte i enkle oppgaver også. Når du blir bedt om å inspisere et navn eller sitat for å sjekke om en sak er ekte, kan GPT-3.5, PaLM-2 og Llama 2 utgjøre falsk informasjon i svar.

"Modellen trenger ikke å vite noe om loven ærlig for å svare på det spørsmålet riktig. Den trenger bare å vite om en sak eksisterer eller ikke, og kan se det hvor som helst i opplæringskorpuset, sier Matthew Dahl, en doktorgradsstudent i jus ved Yale University.

Det viser at AI ikke engang kan hente informasjon nøyaktig, og at det er en grunnleggende grense for teknologiens muligheter. Disse modellene er ofte forberedt på å være behagelige og hjelpsomme. De vil vanligvis ikke bry seg med å korrigere brukernes forutsetninger, og vil i stedet gå på side med dem. Hvis chatboter blir bedt om å generere en liste over saker til støtte for et juridisk argument, for eksempel, er de mer disponerte for å lage søksmål enn å svare uten noe. Et par advokater lærte dette på den harde måten da de var sanksjonert for å sitere saker som ble fullstendig oppfunnet av OpenAIs ChatGPT i rettssaken deres.

Forskerne fant også at de tre modellene de testet var mer sannsynlige for å være kunnskapsrike i føderale rettssaker knyttet til USAs høyesterett sammenlignet med lokaliserte rettssaker angående mindre og mindre mektige domstoler. 

Siden GPT-3.5, PaLM-2 og Llama 2 ble trent på tekst skrapet fra internett, er det fornuftig at de ville være mer kjent med USAs høyesteretts juridiske uttalelser, som er publisert offentlig sammenlignet med juridiske dokumenter som er arkivert i andre typer av domstoler som ikke er like lett tilgjengelige. 

De hadde også større sannsynlighet for å slite med oppgaver som innebar tilbakekalling av informasjon fra gamle og nye saker. 

"Hallusinasjoner er mest vanlig blant Høyesteretts eldste og nyeste saker, og minst vanlige blant Warren-rettssakene etter krigen (1953-1969)," ifølge avisen. "Dette resultatet antyder en annen viktig begrensning på LLMs juridiske kunnskap som brukere bør være klar over: LLMs toppytelse kan ligge flere år bak den nåværende tilstanden til doktrinen, og LLMs kan mislykkes i å internalisere rettspraksis som er veldig gammel, men fortsatt anvendelig og relevant lov."

For mye kunstig intelligens kan skape en "monokultur"

Forskerne var også bekymret for at overdreven tillit til disse systemene kunne skape en lovlig "monokultur." Siden AI er trent på en begrenset mengde data, vil det referere til mer fremtredende, velkjente saker som fører til at advokater ignorerer andre juridiske tolkninger eller relevante presedenser. De kan overse andre saker som kan hjelpe dem å se forskjellige perspektiver eller argumenter, noe som kan vise seg å være avgjørende i rettssaker. 

"Loven i seg selv er ikke monolitisk," sier Dahl. «En monokultur er spesielt farlig i en juridisk setting. I USA har vi et føderalt felles lovsystem der loven utvikler seg ulikt i ulike stater i ulike jurisdiksjoner. Det er slags forskjellige linjer eller trender i rettsvitenskap som utvikler seg over tid.»

"Det kan føre til feilaktige utfall og uberettiget tillit på en måte som faktisk kan skade rettstvister," legger Ho til. Han forklarte at en modell kan generere unøyaktige svar til advokater eller folk som ønsker å forstå noe som utkastelseslover. 

"Når du søker hjelp fra en stor språkmodell, kan det hende du får nøyaktig feil svar på når du skal sende inn søknaden din eller hva som er typen utkastelsesregel i denne staten," sier han og nevner et eksempel. "Fordi det den forteller deg er loven i New York eller loven i California, i motsetning til loven som faktisk har betydning for dine spesielle omstendigheter i din jurisdiksjon."

Forskerne konkluderer med at risikoen ved å bruke denne typen populære modeller for juridiske oppgaver er størst for de som sender inn papirarbeid i lavere domstoler i mindre stater, spesielt hvis de har mindre ekspertise og spør etter modellene basert på falske antakelser. Disse menneskene er mer sannsynlig å være advokater, som er mindre mektige fra mindre advokatfirmaer med færre ressurser, eller folk som ønsker å representere seg selv.

"Kort sagt finner vi at risikoen er høyest for de som ville ha mest nytte av LLM-er," heter det i avisen. ®

Tidstempel:

Mer fra Registeret