Top LLM's hebben moeite om nauwkeurige juridische informatie te produceren

Top LLM's hebben moeite om nauwkeurige juridische informatie te produceren

Top LLM's hebben moeite om nauwkeurige juridische informatie te produceren PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Interview Als je denkt dat generatieve AI automatisch aan tafel zit in de rechtswereld, denk dan nog eens goed na.

Uit nieuw onderzoek blijkt dat grote taalmodellen de neiging hebben om onnauwkeurige juridische informatie te genereren en er mag niet op worden vertrouwd bij rechtszaken.

Vorig jaar, toen OpenAI liet zien GPT-4 in staat was het balie-examen te halen, werd het aangekondigd als een doorbraak in AI en bracht het sommige mensen ertoe zich af te vragen of de technologie binnenkort vervangen advocaten. Sommigen hoopten dat dit soort modellen mensen die zich geen dure advocaten kunnen veroorloven, in staat zouden stellen juridische gerechtigheid na te streven, waardoor de toegang tot juridische hulp eerlijker zou worden. De realiteit is echter dat LLM's professionele advocaten niet eens effectief kunnen bijstaan, blijkt uit een recent onderzoek.

De grootste zorg is dat AI vaak valse informatie verzint, wat een enorm probleem vormt, vooral in een sector die afhankelijk is van feitelijk bewijs. Een team van onderzoekers van Yale en Stanford University die de mate van hallucinatie in populaire grote taalmodellen analyseerde, ontdekte dat ze vaak niet nauwkeurig relevante juridische informatie ophalen of genereren, of verschillende wetten begrijpen en erover redeneren.

In feite hallucineert GPT-3.5 van OpenAI, dat momenteel de gratis versie van ChatGPT aanstuurt, ongeveer 69 procent van de tijd wanneer het voor verschillende taken wordt getest. De resultaten waren slechter voor PaLM-2, het systeem dat voorheen achter de Bard-chatbot van Google zat, en Llama 2, het grote taalmodel van Meta, dat respectievelijk 72 en 88 procent onwaarheden genereerde.

Het is niet verwonderlijk dat de modellen moeite hebben met het voltooien van complexere taken dan met eenvoudigere. AI vragen om verschillende zaken met elkaar te vergelijken en te zien of ze het bijvoorbeeld eens zijn over een kwestie, is een uitdaging en zal waarschijnlijk onnauwkeurige informatie opleveren dan wanneer ze worden geconfronteerd met een eenvoudiger taak, zoals controleren bij welke rechtbank een zaak is ingediend. 

Hoewel LLM's uitblinken in het verwerken van grote hoeveelheden tekst en kunnen worden getraind in enorme hoeveelheden juridische documenten โ€“ meer dan welke menselijke advocaat dan ook in zijn leven zou kunnen lezen โ€“ begrijpen ze de wet niet en kunnen ze geen goede argumenten vormen.

โ€œHoewel we hebben gezien dat dit soort modellen echt grote vooruitgang boekten op het gebied van deductief redeneren bij codeer- of wiskundeproblemen, is dat niet het soort vaardigheden dat kenmerkend is voor topklasse advocatenโ€, zegt Daniel Ho, co-auteur van het Yale-Stanford-papier, vertelt Het register.

โ€œWaar advocaten echt goed in zijn, en waar ze in uitblinken, wordt vaak omschreven als een vorm van analoog redeneren in een common law-systeem, om te redeneren op basis van precedentenโ€, aldus Ho, universitair hoofddocent van het Stanford Institute for Human-Centered. Kunstmatige intelligentie.

Ook bij eenvoudige taken falen machines vaak. Wanneer u wordt gevraagd een naam of citaat te inspecteren om te controleren of een zaak echt is, kunnen GPT-3.5, PaLM-2 en Llama 2 in hun antwoorden valse informatie verzinnen.

โ€œHet model hoeft eerlijk gezegd niets van de wet te weten om die vraag goed te kunnen beantwoorden. Het hoeft alleen maar te weten of er al dan niet een zaak bestaat, en kan dat overal in het opleidingscorpus zienโ€, zegt Matthew Dahl, een PhD-student rechten aan de Yale University.

Het laat zien dat AI niet eens informatie nauwkeurig kan ophalen, en dat er een fundamentele grens is aan de mogelijkheden van de technologie. Deze modellen zijn vaak bedoeld om prettig en behulpzaam te zijn. Ze zullen meestal niet de moeite nemen om de aannames van gebruikers te corrigeren, en zullen in plaats daarvan hun kant kiezen. Als chatbots bijvoorbeeld wordt gevraagd een lijst met zaken te genereren ter ondersteuning van een of ander juridisch argument, zijn ze eerder geneigd om rechtszaken te verzinnen dan om met niets te reageren. Een paar advocaten hebben dit op de harde manier geleerd toen ze dat waren gesanctioneerde voor het aanhalen van zaken die volledig door OpenAI's ChatGPT zijn verzonnen in hun gerechtelijke dossiers.

De onderzoekers ontdekten ook dat de drie modellen die ze testten waarschijnlijk meer kennis hadden van federale rechtszaken met betrekking tot het Amerikaanse Hooggerechtshof in vergelijking met lokale juridische procedures tegen kleinere en minder machtige rechtbanken. 

Omdat GPT-3.5, PaLM-2 en Llama 2 zijn getraind op tekst die van internet is geplukt, is het logisch dat ze beter bekend zijn met de juridische adviezen van het Amerikaanse Hooggerechtshof, die openbaar worden gepubliceerd, vergeleken met juridische documenten die in andere typen zijn ingediend. van rechtbanken die niet zo gemakkelijk toegankelijk zijn. 

Ze hadden ook meer kans om te worstelen met taken waarbij ze informatie uit oude en nieuwe gevallen moesten oproepen. 

โ€œHallucinaties komen het meest voor onder de oudste en nieuwste zaken van het Hooggerechtshof, en het minst vaak onder de naoorlogse Warren Court-zaken (1953-1969)โ€, aldus de krant. โ€œDit resultaat suggereert een andere belangrijke beperking van de juridische kennis van LLMโ€™s waar gebruikers zich bewust van moeten zijn: de topprestaties van LLMโ€™s kunnen enkele jaren achterblijven bij de huidige stand van de doctrine, en LLMโ€™s slagen er mogelijk niet in om jurisprudentie te internaliseren die erg oud maar nog steeds van toepassing is. en relevante wetgeving.โ€

Te veel AI kan een โ€˜monocultuurโ€™ creรซren

De onderzoekers waren ook bezorgd dat een te groot vertrouwen in deze systemen een legale โ€˜monocultuurโ€™ zou kunnen creรซren. Omdat AI wordt getraind op een beperkte hoeveelheid data, zal het verwijzen naar meer prominente, bekende zaken, waardoor advocaten andere juridische interpretaties of relevante precedenten negeren. Ze kunnen andere zaken over het hoofd zien, waardoor ze andere perspectieven of argumenten kunnen zien, wat cruciaal zou kunnen zijn in een rechtszaak. 

โ€œDe wet zelf is niet monolithischโ€, zegt Dahl. โ€œEen monocultuur is vooral gevaarlijk in een juridische omgeving. In de Verenigde Staten hebben we een federaal common law-systeem waarin de wet zich in verschillende staten in verschillende rechtsgebieden verschillend ontwikkelt. Er zijn verschillende lijnen of trends in de jurisprudentie die zich in de loop van de tijd ontwikkelen.โ€

โ€œHet zou kunnen leiden tot foutieve uitkomsten en ongerechtvaardigd vertrouwen op een manier die de procespartijen daadwerkelijk zou kunnen schadenโ€, voegt Ho toe. Hij legde uit dat een model onnauwkeurige reacties kan genereren voor advocaten of mensen die iets als uitzettingswetten willen begrijpen. 

โ€œAls je de hulp inroept van een groot taalmodel, krijg je misschien precies het verkeerde antwoord over wanneer je aangifte moet gebeuren of wat de soort uitzettingsregel in deze staat isโ€, zegt hij, waarbij hij een voorbeeld aanhaalt. โ€œWant wat het u vertelt is de wet van New York of de wet van Californiรซ, in tegenstelling tot de wet die feitelijk van belang is voor uw specifieke omstandigheden in uw rechtsgebied.โ€

De onderzoekers concluderen dat de risico's van het gebruik van dit soort populaire modellen voor juridische taken het grootst zijn voor degenen die papierwerk indienen bij lagere rechtbanken in kleinere staten, vooral als ze over minder expertise beschikken en de modellen bevragen op basis van valse aannames. Het is waarschijnlijker dat deze mensen advocaten zijn, die minder machtig zijn door kleinere advocatenkantoren met minder middelen, of mensen die zichzelf willen vertegenwoordigen.

โ€œKortom, we vinden dat de risicoโ€™s het grootst zijn voor degenen die het meeste baat zouden hebben bij LLMโ€™sโ€, aldus de krant. ยฎ

Tijdstempel:

Meer van Het register