Parhaat LLM:t kamppailevat tuottaakseen tarkkoja oikeudellisia tietoja

Parhaat LLM:t kamppailevat tuottaakseen tarkkoja oikeudellisia tietoja

Parhaat LLM:t kamppailevat tuottaakseen tarkkaa oikeudellista tietoa PlatoBlockchain Data Intelligencesta. Pystysuuntainen haku. Ai.

Haastatella Jos luulet, että generatiivisella tekoälyllä on automaattinen paikka lainmaailmassa, ajattele uudelleen.

Suosituimmat suuret kielimallit tuottavat yleensä epätarkkoja oikeudellisia tietoja, eikä niihin pidä luottaa oikeudenkäynneissä, tuore tutkimus on osoittanut.

Viime vuonna, kun OpenAI näytti GPT-4 pystyi läpäisemään asianajajatutkinnon, sen julistettiin läpimurtoksi tekoälyssä ja sai jotkut ihmiset kyseenalaistamaan, voisiko tekniikka pian korvata asianajajat. Jotkut toivoivat, että tämäntyyppiset mallit voisivat antaa ihmisille, joilla ei ole varaa kalliisiin asianajajiin, harjoittaa oikeutta, mikä tekisi oikeusavun saatavuudesta oikeudenmukaisempaa. Tosiasia on kuitenkin, että LLM:t eivät voi edes auttaa ammattijuristeja tehokkaasti, tuoreen tutkimuksen mukaan.

Suurin huolenaihe on se, että tekoäly valmistaa usein vääriä tietoja, mikä aiheuttaa valtavan ongelman erityisesti teollisuudessa, joka luottaa tosiasiallisiin todisteisiin. Yalen ja Stanfordin yliopiston tutkijaryhmä, joka analysoi hallusinaatioiden esiintyvyyttä suosituissa suurissa kielimalleissa, havaitsi, että he eivät useinkaan hae tai luo asianmukaisesti asiaankuuluvaa oikeudellista tietoa tai ymmärtävät ja perustelevat erilaisia ​​lakeja.

Itse asiassa OpenAI:n GPT-3.5, joka tällä hetkellä käyttää ChatGPT:n ilmaista versiota, aiheuttaa hallusinaatioita noin 69 prosenttia ajasta, kun sitä testataan eri tehtävissä. Tulokset olivat huonommat PaLM-2:lla, järjestelmällä, joka oli aiemmin Googlen Bard-chatbotin takana, ja Llama 2:lla, Metan julkaisemalla suurella kielimallilla, joka toi valheellisuutta vastaavasti 72 ja 88 prosenttia.

Ei ole yllättävää, että mallit kamppailevat monimutkaisempien tehtävien suorittamiseksi helpompien sijaan. Tekoälyn pyytäminen vertailemaan eri tapauksia ja katsomaan, ovatko he esimerkiksi samaa mieltä jostakin asiasta, on haastavaa, ja se tuottaa todennäköisemmin epätarkkoja tietoja kuin silloin, kun edessä on helpompi tehtävä, kuten tarkistaa, missä tuomioistuimessa asia on jätetty. 

Vaikka LLM:t ovat erinomaisia ​​suurten tekstimäärien käsittelyssä ja heitä voidaan kouluttaa käsittelemään valtavia määriä oikeudellisia asiakirjoja – enemmän kuin yksikään ihmislakimies voisi lukea elämänsä aikana – he eivät ymmärrä lakia eivätkä pysty muodostamaan järkeviä perusteita.

"Vaikka olemme nähneet tällaisten mallien edistyvän todella suuria edistysaskeleita deduktiivisen päättelyn muodoissa koodauksessa tai matemaattisissa tehtävissä, tämä ei ole sellainen taito, joka luonnehtii huippuluokan asianajajaa", Daniel Ho, julkaisun toinen kirjoittaja. Yale-Stanford -lehti, kertoo Rekisteri.

"Se, missä asianajajat ovat todella hyviä ja missä he ovat loistavia, kuvataan usein analogisen päättelyn muodoksi common law -järjestelmässä, ennakkotapauksiin perustuvaksi päättelyksi", lisäsi Ho, joka on Stanford Institute for Human-Centeredin tiedekunnan apulaisjohtaja. Tekoäly.

Koneet epäonnistuvat usein myös yksinkertaisissa tehtävissä. Kun GPT-3.5, PaLM-2 ja Llama 2 pyydetään tarkastamaan nimeä tai sitaattia tarkistaakseen, onko tapaus todellinen, ne voivat muodostaa vääriä tietoja vastauksista.

”Mallin ei tarvitse tietää mitään laista rehellisesti vastatakseen kysymykseen oikein. Sen tarvitsee vain tietää, onko tapausta olemassa vai ei, ja voi nähdä sen missä tahansa koulutuskorpuksessa”, Yalen yliopiston oikeustieteen tohtoriopiskelija Matthew Dahl sanoo.

Se osoittaa, että tekoäly ei voi edes hakea tietoa tarkasti ja että tekniikan kyvyillä on perustavanlaatuinen raja. Nämä mallit on usein suunniteltu miellyttäviksi ja hyödyllisiksi. He eivät yleensä vaivaudu korjaamaan käyttäjien oletuksia, vaan ovat sen sijaan heidän puolellaan. Jos chatbotteja pyydetään luomaan luettelo tapauksista esimerkiksi jonkin oikeudellisen väitteen tueksi, he ovat taipuvaisempia keksimään kanteita kuin vastaamaan mitään. Asianajajapari oppi tämän kovalla tavalla ollessaan seuraamuksia koska viittasivat tapauksiin, jotka olivat täysin OpenAI:n ChatGPT:n keksimiä tuomioistuimessa.

Tutkijat havaitsivat myös, että kolme testaamaansa mallia olivat todennäköisemmin tietoisia Yhdysvaltain korkeimpaan oikeuteen liittyvistä liittovaltion oikeudenkäynneistä verrattuna paikallisiin oikeudenkäynteihin, jotka koskevat pienempiä ja vähemmän tehokkaita tuomioistuimia. 

Koska GPT-3.5, PaLM-2 ja Llama 2 koulutettiin internetistä kaavittua tekstiä varten, on järkevää, että he tunteisivat paremmin Yhdysvaltain korkeimman oikeuden oikeudelliset lausunnot, jotka julkaistaan ​​julkisesti verrattuna muuntyyppisiin oikeudellisiin asiakirjoihin. tuomioistuimista, jotka eivät ole yhtä helposti saatavilla. 

He myös kamppailivat todennäköisemmin tehtävissä, jotka sisälsivät tietojen palauttamisen vanhoista ja uusista tapauksista. 

"Halusinaatiot ovat yleisimpiä korkeimman oikeuden vanhimpien ja uusimpien tapausten joukossa ja vähiten sen sodanjälkeisten Warren Courtin (1953-1969) tapausten joukossa", lehden mukaan. "Tämä tulos viittaa toiseen tärkeään rajoitukseen LLM:ien juridisessa tietämyksessä, josta käyttäjien tulee olla tietoisia: LLM:ien huippusuorituskyky voi jäädä useita vuosia jäljessä nykyisestä opintilasta, ja LLM:t saattavat epäonnistua sisäistämään oikeuskäytäntöä, joka on hyvin vanhaa, mutta edelleen sovellettavaa. ja asiaa koskeva laki."

Liian paljon tekoälyä voi luoda "monokulttuuria"

Tutkijat olivat myös huolissaan siitä, että liiallinen riippuvuus näihin järjestelmiin voisi luoda laillisen "monokulttuurin". Koska tekoäly on koulutettu rajoitettuun tietomäärään, se viittaa näkyvämpiin, tunnetuimpiin tapauksiin, jotka saavat asianajajat jättämään huomiotta muut oikeudelliset tulkinnat tai asiaankuuluvat ennakkotapaukset. He saattavat jättää huomiotta muut tapaukset, jotka voivat auttaa heitä näkemään erilaisia ​​näkökulmia tai argumentteja, jotka voivat osoittautua ratkaisevan tärkeäksi oikeudenkäynnissä. 

"Laki itsessään ei ole monoliittinen", Dahl sanoo. "Monokulttuuri on erityisen vaarallinen laillisessa ympäristössä. Yhdysvalloissa meillä on liittovaltion yleinen lakijärjestelmä, jossa laki kehittyy eri tavalla eri osavaltioissa ja eri lainkäyttöalueilla. Oikeuskäytännössä on erilaisia ​​​​linjoja tai suuntauksia, jotka kehittyvät ajan myötä."

"Se voi johtaa virheellisiin lopputuloksiin ja perusteettomaan luottamiseen tavalla, joka voi todella vahingoittaa asianosaisia", Ho lisää. Hän selitti, että malli voi tuottaa epätarkkoja vastauksia lakimiehille tai ihmisille, jotka haluavat ymmärtää jotain, kuten häätölakeja. 

"Kun haet apua suurelta kielimallilta, saatat saada täsmälleen väärän vastauksen siitä, milloin hakemuksesi on määrä tehdä tai millainen häätösääntö on tässä valtiossa", hän sanoo ja mainitsee esimerkin. "Koska se kertoo sinulle New Yorkin tai Kalifornian lain, toisin kuin lain, jolla on todella merkitystä oman lainkäyttöalueenne olosuhteisiin."

Tutkijat päättelevät, että tällaisten suosittujen mallien käytön riskit oikeudellisiin tehtäviin ovat suurimmat niillä, jotka jättävät paperitöitä pienempien osavaltioiden alemmille tuomioistuimille, varsinkin jos heillä on vähemmän asiantuntemusta ja he kyselevät malleja väärien oletusten perusteella. Nämä ihmiset ovat todennäköisemmin lakimiehiä, joilla on vähemmän vaikutusvaltaa pienemmistä lakitoimistoista, joilla on vähemmän resursseja, tai ihmisiä, jotka haluavat edustaa itseään.

"Lyhyesti sanottuna huomaamme, että riskit ovat suurimmat niille, jotka hyötyisivät eniten LLM:istä", lehti toteaa. ®

Aikaleima:

Lisää aiheesta Rekisteri