Parimad LLM-id näevad vaeva täpse juriidilise teabe saamiseks

Parimad LLM-id näevad vaeva täpse juriidilise teabe saamiseks

Parimad LLM-id näevad vaeva, et toota täpset juriidilist teavet PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Intervjuu Kui arvate, et generatiivsel tehisintellektil on õigusmaailmas automaatne koht laua taga, mõelge uuesti.

Värsked uuringud on näidanud, et populaarseimad suured keelemudelid tekitavad ebatäpset juriidilist teavet ja nende peale ei tohiks kohtuvaidlustes loota.

Eelmisel aastal, kui OpenAI näitas GPT-4 oli võimeline sooritama advokaadieksami, kuulutati seda läbimurdena tehisintellektis ja pani mõned inimesed küsima, kas tehnoloogia suudab peagi asendama advokaadid. Mõned lootsid, et seda tüüpi mudelid võivad anda inimestele, kes ei saa endale lubada kalleid advokaate, õigust taotleda, muutes juurdepääsu õigusabile õiglasemaks. Reaalsus on aga see, et hiljutise uuringu kohaselt ei saa LLM-id isegi professionaalseid juriste tõhusalt abistada.

Suurimaks murekohaks on see, et tehisintellekt valmistab sageli välja valeteavet, mis kujutab endast tohutut probleemi, eriti tööstuses, mis tugineb faktilistele tõenditele. Yale'i ja Stanfordi ülikooli teadlaste rühm, kes analüüsis hallutsinatsioonide esinemissagedust populaarsetes suurtes keelemudelites, leidis, et sageli ei leia ega genereerita täpselt asjakohast juriidilist teavet ega mõista ja põhjendada erinevaid seadusi.

Tegelikult tekitab OpenAI GPT-3.5, mis praegu toidab ChatGPT tasuta versiooni, umbes 69 protsenti ajast, kui seda testitakse erinevate ülesannete puhul. Tulemused olid halvemad PaLM-2 süsteemi puhul, mis oli varem Google'i vestlusroboti Bard taga, ja Meta välja antud suure keelemudeli Llama 2 puhul, mis genereeris valesid vastavalt 72 ja 88 protsenti.

Pole üllatav, et mudelid näevad vaeva keerukamate ülesannete täitmisega, mitte lihtsamate ülesannetega. Tehisintellektil paluda võrrelda erinevaid juhtumeid ja vaadata, kas nad on näiteks mingis küsimuses ühel meelel, on keeruline ja tekitab tõenäolisemalt ebatäpset teavet kui lihtsama ülesandega silmitsi seistes, näiteks kontrollides, millises kohtus kohtuasi esitati. 

Kuigi LLM-id paistavad silma suurte tekstihulkade töötlemisel ja neid saab koolitada tohutul hulgal juriidilisi dokumente – rohkem, kui ükski jurist võiks oma elu jooksul lugeda –, ei mõista nad õigust ega suuda põhjendada argumente.

"Kuigi oleme näinud, et sellised mudelid teevad kodeerimise või matemaatikaülesannete deduktiivse arutluskäigu osas tõeliselt suuri edusamme, ei ole see selline oskuste kogum, mis iseloomustab tipptasemel juristitööd," Daniel Ho, raamatu kaasautor. Yale-Stanfordi ajaleht, ütleb Register.

"Seda, milles juristid on tõeliselt head ja kus nad silma paistavad, kirjeldatakse tavaõiguse süsteemis sageli kui analoogilist arutluskäiku, mis põhineb pretsedentidel," lisas Ho, kes on Stanfordi inimkeskse instituudi õppejõud. Tehisintellekt.

Masinad ebaõnnestuvad sageli ka lihtsate ülesannete täitmisel. Kui neil palutakse kontrollida nime või tsitaati, et kontrollida, kas juhtum on tõeline, võivad GPT-3.5, PaLM-2 ja Llama 2 vastustes leida võltsandmeid.

„Sellele küsimusele õigeks vastamiseks ei pea modell ausalt seadusest midagi teadma. Ta peab lihtsalt teadma, kas juhtum on olemas või mitte, ja näeb seda kõikjal koolituskorpuses, ”ütleb Yale'i ülikooli õigusteaduse doktorant Matthew Dahl.

See näitab, et tehisintellekt ei suuda isegi teavet täpselt hankida ja et tehnoloogia võimalustel on põhimõtteline piir. Need mudelid on sageli loodud selleks, et olla meeldivad ja abivalmid. Tavaliselt ei vaevu nad kasutajate eelduste parandamisega, vaid on nende poolel. Kui vestlusrobotidel palutakse luua näiteks mõne juriidilise argumendi toetuseks juhtumite loend, on neil suurem eelsoodumus kohtuasju välja mõelda kui mitte midagi vastata. Paar advokaati õppisid seda raskel teel, kui nad olid karistada selle eest, et viidati juhtumitele, mille OpenAI ChatGPT oma kohtuavalduses täielikult välja mõtles.

Uurijad leidsid ka, et kolm mudelit, mida nad testisid, olid suurema tõenäosusega teadlikud USA ülemkohtuga seotud föderaalsetest kohtuvaidlustest, võrreldes väiksemate ja vähem võimsate kohtutega seotud lokaalsete kohtumenetlustega. 

Kuna GPT-3.5, PaLM-2 ja Llama 2 koolitati Internetist väljakraabitud tekstiga, on loogiline, et nad tunneksid rohkem USA ülemkohtu juriidilisi seisukohti, mis avaldatakse avalikult, võrreldes muud tüüpi dokumentidega. kohtud, mis ei ole nii kergesti ligipääsetavad. 

Samuti oli neil tõenäolisem raskusi ülesannetega, mis hõlmasid vanade ja uute juhtumite teabe meeldetuletamist. 

"Hallutsinatsioonid on kõige levinumad Ülemkohtu vanimate ja uusimate kohtuasjade hulgas ning kõige vähem levinud sõjajärgse Warreni kohtu kohtuasjade (1953-1969) hulgas," seisab paberil. "See tulemus viitab veel ühele olulisele piirangule LLM-ide õigusalastele teadmistele, mida kasutajad peaksid teadma: LLM-ide tipptulemused võivad doktriini praegusest olukorrast mitu aastat maha jääda ja LLM-id ei pruugi võtta arvesse kohtupraktikat, mis on väga vana, kuid siiski kohaldatav. ja asjakohane seadus."

Liiga palju tehisintellekti võib luua "monokultuuri"

Teadlased olid mures ka selle pärast, et nendele süsteemidele liigne tuginemine võib luua seadusliku "monokultuuri". Kuna tehisintellekt on koolitatud piiratud andmehulgaga, viitab see silmapaistvamatele ja tuntumatele juhtumitele, mis sunnivad advokaate ignoreerima muid õiguslikke tõlgendusi või asjakohaseid pretsedente. Nad võivad kahe silma vahele jätta muud juhtumid, mis võivad aidata neil näha erinevaid vaatenurki või argumente, mis võivad kohtuvaidluses osutuda ülioluliseks. 

"Seadus ise ei ole monoliitne," ütleb Dahl. "Monokultuur on seaduslikus keskkonnas eriti ohtlik. Ameerika Ühendriikides on meil föderaalne tavaõiguse süsteem, kus õigus areneb erinevates osariikides ja eri jurisdiktsioonides erinevalt. Aja jooksul arenevad välja erinevad kohtupraktika jooned või suundumused.

"See võib põhjustada ekslikke tulemusi ja põhjendamatut sõltuvust viisil, mis võib tegelikult vaidlejaid kahjustada," lisab Ho. Ta selgitas, et mudel võib tekitada ebatäpseid vastuseid advokaatidele või inimestele, kes soovivad mõista midagi, näiteks väljatõstmise seadusi. 

"Kui otsite abi suurelt keelemudelilt, võite saada täpselt vale vastuse selle kohta, millal teie avaldus tuleb esitada või milline on selles osariigis väljatõstmise reegel, " ütleb ta ja toob näite. "Sest see, mida see teile räägib, on New Yorgi seadus või California seadus, mitte seadus, mis teie jurisdiktsioonis teie konkreetsete asjaolude jaoks tegelikult oluline on."

Uurijad järeldavad, et seda tüüpi populaarsete mudelite kasutamine juriidiliste ülesannete täitmisel on kõrgeim nende jaoks, kes esitavad paberitööd väiksemate osariikide madalamates kohtutes, eriti kui neil on vähem teadmisi ja nad küsivad mudeleid valedel eeldustel. Need inimesed on tõenäolisemalt advokaadid, kes on väiksemate ressurssidega väiksemate advokaadibüroode esindajad, või inimesed, kes soovivad ennast esindada.

"Lühidalt leiame, et riskid on kõige suuremad nende jaoks, kes saavad LLM-idest kõige rohkem kasu," seisab paberil. ®

Ajatempel:

Veel alates Register