Top LLM'er kæmper for at producere nøjagtig juridisk information, siger undersøgelse

Top LLM'er kæmper for at producere nøjagtig juridisk information, siger undersøgelse

Top LLM'er kæmper for at producere nøjagtig juridisk information, siger undersøgelse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Interview Hvis du tror, ​​at generativ AI har en automatisk plads ved bordet i lovens verden, så tro om igen.

Top store sprogmodeller har tendens til at generere unøjagtige juridiske oplysninger og bør ikke stoles på til retssager, har ny forskning vist.

Sidste år, da OpenAI viste GPT-4 var i stand til at bestå advokateksamenen, blev det udråbt som et gennembrud inden for kunstig intelligens og fik nogle mennesker til at stille spørgsmålstegn ved, om teknologien snart kunne erstatte advokater. Nogle håbede, at disse typer modeller kunne give folk, der ikke har råd til dyre advokater, mulighed for at forfølge juridisk retfærdighed, hvilket gør adgangen til juridisk hjælp mere retfærdig. Virkeligheden er imidlertid, at LLM'er ikke engang kan hjælpe professionelle advokater effektivt, ifølge en nylig undersøgelse.

Den største bekymring er, at AI ofte fremstiller falsk information, hvilket udgør et stort problem, især i en industri, der er afhængig af faktuelle beviser. Et team af forskere ved Yale og Stanford University, der analyserede frekvensen af ​​hallucinationer i populære store sprogmodeller, fandt ud af, at de ofte ikke nøjagtigt henter eller genererer relevant juridisk information eller forstår og begrunder forskellige love.

Faktisk hallucinerer OpenAIs GPT-3.5, som i øjeblikket driver den gratis version af ChatGPT, omkring 69 procent af tiden, når den testes på tværs af forskellige opgaver. Resultaterne var værre for PaLM-2, systemet, der tidligere stod bag Googles Bard-chatbot, og Llama 2, den store sprogmodel udgivet af Meta, som genererede falskheder med satser på henholdsvis 72 og 88 procent.

Det er ikke overraskende, at modellerne kæmper for at udføre mere komplekse opgaver i modsætning til end nemmere. At bede AI om at sammenligne forskellige sager og se, om de er enige om et emne, er for eksempel udfordrende, og det vil mere sandsynligt generere unøjagtige oplysninger, end når de står over for en lettere opgave, såsom at kontrollere, hvilken domstol en sag blev anlagt ved. 

Selvom LLM'er udmærker sig ved at behandle store mængder tekst og kan trænes i enorme mængder af juridiske dokumenter - mere end nogen menneskelig advokat kunne læse i deres levetid - forstår de ikke jura og kan ikke danne forsvarlige argumenter.

"Selvom vi har set den slags modeller gøre virkelig store fremskridt i former for deduktiv ræsonnement i kodnings- eller matematiske problemer, er det ikke den slags færdigheder, der kendetegner top-notch jurist," Daniel Ho, medforfatter til Yale-Stanford papiretfortæller Registret.

"Hvad advokater er rigtig gode til, og hvor de udmærker sig, beskrives ofte som en form for analogisk ræsonnement i et common law-system, at ræsonnere baseret på fortilfælde," tilføjede Ho, som er associeret fakultetsdirektør for Stanford Institute for Human-Centered. Kunstig intelligens.

Maskiner fejler ofte også simple opgaver. Når de bliver bedt om at inspicere et navn eller citat for at kontrollere, om en sag er ægte, kan GPT-3.5, PaLM-2 og Llama 2 udgøre falske oplysninger i svar.

»Modellen behøver ikke at vide noget om loven ærligt for at svare rigtigt på det spørgsmål. Den skal bare vide, om der eksisterer en sag eller ej, og kan se det hvor som helst i uddannelseskorpuset,” siger Matthew Dahl, ph.d.-jurastuderende ved Yale University.

Det viser, at AI ikke engang kan hente information nøjagtigt, og at der er en fundamental grænse for teknologiens muligheder. Disse modeller er ofte beregnet til at være behagelige og hjælpsomme. De vil normalt ikke ulejlige sig med at rette brugernes antagelser, og vil side med dem i stedet. Hvis chatbots bliver bedt om at generere en liste over sager til støtte for et eller andet juridisk argument, for eksempel, er de mere disponerede for at lave retssager end at svare med ingenting. Et par advokater lærte dette på den hårde måde, da de var sanktioneret for at citere sager, der var fuldstændig opfundet af OpenAIs ChatGPT i deres retssag.

Forskerne fandt også ud af, at de tre modeller, de testede, var mere tilbøjelige til at være vidende om føderale retssager relateret til den amerikanske højesteret sammenlignet med lokale retssager vedrørende mindre og mindre magtfulde domstole. 

Da GPT-3.5, PaLM-2 og Llama 2 blev trænet i tekst skrabet fra internettet, giver det mening, at de ville være mere fortrolige med den amerikanske højesterets juridiske udtalelser, som er offentliggjort offentligt sammenlignet med juridiske dokumenter indgivet i andre typer af domstole, der ikke er så let tilgængelige. 

De var også mere tilbøjelige til at kæmpe med opgaver, der involverede at genkalde information fra gamle og nye sager. 

"Hallucinationer er mest almindelige blandt Højesterets ældste og nyeste sager, og mindst almindelige blandt dens Warren-retssager efter krigen (1953-1969)," ifølge avisen. "Dette resultat tyder på en anden vigtig begrænsning af LLM'ers juridiske viden, som brugere bør være opmærksomme på: LLM'ers højeste ydeevne kan halte adskillige år bagefter den nuværende tilstand af doktrinen, og LLM'er kan undlade at internalisere retspraksis, der er meget gammel, men stadig anvendelig og relevant lovgivning."

For meget kunstig intelligens kunne skabe en 'monokultur'

Forskerne var også bekymrede over, at overdreven tillid til disse systemer kunne skabe en lovlig "monokultur." Da AI er trænet på en begrænset mængde data, vil det referere til mere fremtrædende, velkendte sager, der får advokater til at ignorere andre juridiske fortolkninger eller relevante præcedenser. De kan overse andre sager, der kan hjælpe dem til at se forskellige perspektiver eller argumenter, som kan vise sig at være afgørende i retssager. 

"Loven i sig selv er ikke monolitisk," siger Dahl. "En monokultur er særlig farlig i en juridisk sammenhæng. I USA har vi et føderalt common law-system, hvor loven udvikler sig forskelligt i forskellige stater i forskellige jurisdiktioner. Der er en slags forskellige linjer eller tendenser i retspraksis, der udvikler sig over tid."

"Det kan føre til fejlagtige resultater og uberettiget tillid på en måde, der faktisk kan skade sagsøgere," tilføjer Ho. Han forklarede, at en model kunne generere unøjagtige svar til advokater eller folk, der ønsker at forstå noget som fraflytningslove. 

"Når du søger hjælp fra en stor sprogmodel, får du måske det nøjagtige forkerte svar med hensyn til, hvornår din ansøgning skal betales, eller hvad er den slags udsættelsesregel i denne tilstand," siger han og citerer et eksempel. "Fordi det, den fortæller dig, er loven i New York eller loven i Californien, i modsætning til loven, der faktisk har betydning for dine særlige forhold i din jurisdiktion."

Forskerne konkluderer, at risikoen ved at bruge disse typer populære modeller til juridiske opgaver er størst for dem, der indsender papirarbejde i lavere domstole på tværs af mindre stater, især hvis de har mindre ekspertise og spørger efter modellerne baseret på falske antagelser. Disse mennesker er mere tilbøjelige til at være advokater, som er mindre magtfulde fra mindre advokatfirmaer med færre ressourcer, eller folk, der ønsker at repræsentere sig selv.

"Kort sagt finder vi, at risikoen er størst for dem, der ville have mest gavn af LLM'er," hedder det i avisen. ®

Tidsstempel:

Mere fra Registret