LLM-urile de top se luptă să producă informații juridice precise

LLM-urile de top se luptă să producă informații juridice precise

LLM-urile de top se luptă să producă informații juridice precise PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Interviu Dacă credeți că IA generativă are un loc automat la masă în lumea dreptului, gândiți-vă din nou.

Cele mai mari modele lingvistice tind să genereze informații juridice inexacte și nu ar trebui să se bazeze pe acestea pentru litigii, au arătat cercetări noi.

Anul trecut, când a apărut OpenAI GPT-4 a fost capabil să treacă examenul Baroului, a fost vestit ca o descoperire în AI și i-a determinat pe unii oameni să se întrebe dacă tehnologia ar putea în curând înlocui avocati. Unii au sperat că aceste tipuri de modele ar putea da puterea oamenilor care nu își permit avocații scumpi să urmărească justiția legală, făcând accesul la ajutor juridic mai echitabil. Realitatea, totuși, este că LLM-urile nici măcar nu pot ajuta în mod eficient avocații profesioniști, potrivit unui studiu recent.

Cea mai mare îngrijorare este că AI fabrică adesea informații false, punând o problemă uriașă, mai ales într-o industrie care se bazează pe dovezi faptice. O echipă de cercetători de la Universitatea Yale și Stanford, care analizează ratele de halucinație în modelele populare de limbaj mari, a constatat că acestea nu regăsesc cu exactitate sau generează informații legale relevante sau nu înțeleg și argumentează cu privire la diferite legi.

De fapt, GPT-3.5 de la OpenAI, care alimentează în prezent versiunea gratuită a ChatGPT, halucinează aproximativ 69% din timp când este testat în diferite sarcini. Rezultatele au fost mai rele pentru PaLM-2, sistemul care a fost anterior în spatele chatbot-ului Google Bard, și Llama 2, modelul de limbaj mare lansat de Meta, care a generat falsități la rate de 72, respectiv 88 la sută.

Deloc surprinzător, modelele se luptă să îndeplinească sarcini mai complexe, spre deosebire de cele mai ușoare. A cere AI să compare diferite cazuri și să vadă dacă sunt de acord cu o problemă, de exemplu, este o provocare și va genera mai probabil informații inexacte decât atunci când se confruntă cu o sarcină mai ușoară, cum ar fi verificarea în ce instanță a fost depus un caz. 

Deși LLM excelează la procesarea unor cantități mari de text și pot fi instruiți pe cantități uriașe de documente juridice – mai mult decât ar putea citi orice avocat uman în timpul vieții lor – ei nu înțeleg legea și nu pot forma argumente solide.

„Deși am văzut că aceste tipuri de modele fac progrese foarte mari în forme de raționament deductiv în probleme de codificare sau matematică, acesta nu este genul de abilități care caracterizează avocatura de top”, Daniel Ho, co-autor al lucrării. ziarul Yale-Stanford, spune Registrul.

„La ceea ce avocații sunt cu adevărat buni și unde excelează este adesea descris ca o formă de raționament analogic într-un sistem de drept comun, pentru a raționa bazat pe precedente”, a adăugat Ho, care este director asociat al facultății al Institutului Stanford pentru Centrat pe Uman. Inteligenţă artificială.

Mașinile eșuează adesea și în sarcini simple. Când li se cere să inspecteze un nume sau o citare pentru a verifica dacă un caz este real, GPT-3.5, PaLM-2 și Llama 2 pot inventa informații false în răspunsuri.

„Modelul nu trebuie să știe nimic despre lege pentru a răspunde corect la această întrebare. Trebuie doar să știe dacă există sau nu un caz sau nu și poate vedea asta oriunde în corpus de instruire”, spune Matthew Dahl, doctorand în drept la Universitatea Yale.

Arată că AI nu poate regăsi informații cu acuratețe și că există o limită fundamentală a capabilităților tehnologiei. Aceste modele sunt adesea pregătite pentru a fi plăcute și utile. De obicei, nu se vor deranja să corecteze presupunerile utilizatorilor și, în schimb, vor fi de partea lor. Dacă chatboților li se cere să genereze o listă de cazuri în sprijinul unui argument juridic, de exemplu, ei sunt mai predispuși să inventeze procese decât să răspundă fără nimic. O pereche de avocați au învățat asta la greu când au fost consacrat pentru că a citat cazuri care au fost complet inventate de ChatGPT de la OpenAI în dosarul lor în instanță.

Cercetătorii au descoperit, de asemenea, că cele trei modele pe care le-au testat aveau mai multe șanse să aibă cunoștințe în litigiile federale legate de Curtea Supremă a SUA, comparativ cu procedurile juridice localizate referitoare la instanțe mai mici și mai puțin puternice. 

Deoarece GPT-3.5, PaLM-2 și Llama 2 au fost instruite pe textul răzuit de pe internet, este logic că ar fi mai familiarizați cu opiniile juridice ale Curții Supreme din SUA, care sunt publicate public, în comparație cu documentele juridice depuse în alte tipuri. de instanțe care nu sunt la fel de ușor accesibile. 

De asemenea, au avut mai multe șanse să se lupte în sarcini care implicau reamintirea informațiilor din cazuri vechi și noi. 

„Halucinațiile sunt cele mai frecvente printre cele mai vechi și mai noi cazuri ale Curții Supreme și cel mai puțin frecvente printre cazurile de după război Warren Court (1953-1969)”, potrivit ziarului. „Acest rezultat sugerează o altă limitare importantă a cunoștințelor juridice ale LLM, de care utilizatorii ar trebui să fie conștienți: performanța de vârf a LLM-urilor poate rămâne cu câțiva ani în urma stadiului actual al doctrinei, iar LLM-urile pot eșua în interiorizarea jurisprudenței care este foarte veche, dar încă aplicabilă. și legislația relevantă.”

Prea multă inteligență artificială ar putea crea o „monocultură”

Cercetătorii au fost, de asemenea, îngrijorați de faptul că dependența excesivă de aceste sisteme ar putea crea o „monocultură” legală. Deoarece AI este instruit pe o cantitate limitată de date, se va referi la cazuri mai proeminente, binecunoscute, care îi conduc pe avocați să ignore alte interpretări legale sau precedente relevante. Ei pot trece cu vederea alte cazuri care i-ar putea ajuta să vadă perspective sau argumente diferite, care s-ar putea dovedi cruciale în litigiu. 

„Legea în sine nu este monolitică”, spune Dahl. „O monocultură este deosebit de periculoasă într-un cadru legal. În Statele Unite, avem un sistem federal de drept comun în care legea se dezvoltă diferit în diferite state în diferite jurisdicții. Există un fel de linii sau tendințe diferite de jurisprudență care se dezvoltă în timp.”

„Ar putea duce la rezultate eronate și la o încredere nejustificată într-un mod care ar putea dăuna justițiabililor”, adaugă Ho. El a explicat că un model ar putea genera răspunsuri inexacte avocaților sau persoanelor care doresc să înțeleagă ceva de genul legilor privind evacuarea. 

„Când căutați ajutorul unui model lingvistic mare, s-ar putea să primiți răspunsul exact greșit cu privire la momentul în care trebuie să vă depuneți declarația sau care este tipul de regulă de evacuare în acest stat”, spune el, citând un exemplu. „Pentru că ceea ce îți spune este legea din New York sau legea din California, spre deosebire de legea care contează de fapt pentru circumstanțele tale particulare din jurisdicția ta.”

Cercetătorii au ajuns la concluzia că riscurile utilizării acestor tipuri de modele populare pentru sarcini juridice sunt cele mai mari pentru cei care depun documente în instanțele inferioare din statele mai mici, în special dacă au mai puțină experiență și interogează modelele pe baza unor presupuneri false. Acești oameni sunt mai probabil să fie avocați, care sunt mai puțin puternici din firmele de avocatură mai mici, cu mai puține resurse, sau oameni care doresc să se reprezinte.

„Pe scurt, constatăm că riscurile sunt cele mai mari pentru cei care ar beneficia cel mai mult de pe urma LLM”, se arată în lucrare. ®

Timestamp-ul:

Mai mult de la Registrul