Los mejores LLM luchan por producir información legal precisa

Los mejores LLM luchan por producir información legal precisa

Los mejores LLM luchan por producir información legal precisa PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Entrevista Si cree que la IA generativa tiene un lugar automático en la mesa del mundo del derecho, piénselo de nuevo.

Los grandes modelos lingüísticos tienden a generar información jurídica inexacta y no se debe confiar en ellos para litigios, según ha demostrado una nueva investigación.

El año pasado, cuando OpenAI mostró GPT-4 fue capaz de aprobar el examen de la abogacía, fue anunciado como un gran avance en la IA y llevó a algunas personas a preguntarse si la tecnología podría pronto reemplazar abogados. Algunos esperaban que este tipo de modelos pudieran empoderar a las personas que no pueden pagar abogados costosos para buscar justicia legal, haciendo que el acceso a la ayuda legal sea más equitativo. Sin embargo, la realidad es que los LLM ni siquiera pueden ayudar a los abogados profesionales de manera efectiva, según un estudio reciente.

La mayor preocupación es que la IA a menudo fabrica información falsa, lo que plantea un gran problema, especialmente en una industria que se basa en pruebas objetivas. Un equipo de investigadores de Yale y la Universidad de Stanford que analizó las tasas de alucinaciones en modelos populares de lenguaje grande descubrió que a menudo no recuperan ni generan con precisión información legal relevante, ni comprenden ni razonan sobre diversas leyes.

De hecho, GPT-3.5 de OpenAI, que actualmente impulsa la versión gratuita de ChatGPT, alucina alrededor del 69 por ciento de las veces cuando se prueba en diferentes tareas. Los resultados fueron peores para PaLM-2, el sistema que anteriormente estuvo detrás del chatbot Bard de Google, y Llama 2, el modelo de lenguaje grande lanzado por Meta, que generó falsedades en tasas de 72 y 88 por ciento, respectivamente.

Como era de esperar, los modelos tienen dificultades para completar tareas más complejas que las más fáciles. Pedirle a AI que compare diferentes casos y ver si están de acuerdo sobre un tema, por ejemplo, es un desafío, y es más probable que genere información inexacta que cuando se enfrenta a una tarea más fácil, como verificar en qué tribunal se presentó un caso. 

Aunque los LLM se destacan en el procesamiento de grandes cantidades de texto y pueden capacitarse en enormes cantidades de documentos legales (más de los que cualquier abogado humano podría leer en su vida), no entienden la ley y no pueden formar argumentos sólidos.

"Si bien hemos visto que este tipo de modelos logran grandes avances en formas de razonamiento deductivo en codificación o problemas matemáticos, ese no es el tipo de habilidades que caracteriza a los abogados de primer nivel", Daniel Ho, coautor de el periódico de Yale-Stanford, dice El registro.

"Lo que los abogados son realmente buenos y en qué destacan se describe a menudo como una forma de razonamiento analógico en un sistema de derecho consuetudinario, razonar basándose en precedentes", añadió Ho, director asociado de la facultad del Instituto Stanford para Estudios Centrados en el Humano. Inteligencia artificial.

Las máquinas también suelen fallar en tareas sencillas. Cuando se les pide que inspeccionen un nombre o una cita para comprobar si un caso es real, GPT-3.5, PaLM-2 y Llama 2 pueden inventar información falsa en las respuestas.

“El modelo no necesita saber nada acerca de la ley honestamente para responder esa pregunta correctamente. Solo necesita saber si existe un caso o no, y puede verlo en cualquier parte del corpus de capacitación”, dice Matthew Dahl, estudiante de doctorado en derecho en la Universidad de Yale.

Muestra que la IA ni siquiera puede recuperar información con precisión y que existe un límite fundamental a las capacidades de la tecnología. Estos modelos suelen estar preparados para ser agradables y útiles. Por lo general, no se molestan en corregir las suposiciones de los usuarios y, en cambio, se ponen de su lado. Si a los chatbots se les pide que generen una lista de casos en apoyo de algún argumento legal, por ejemplo, están más predispuestos a inventar demandas que a responder sin nada. Un par de abogados aprendieron esto de la manera más difícil cuando estaban sancionada por citar casos que fueron completamente inventados por ChatGPT de OpenAI en su expediente judicial.

Los investigadores también descubrieron que los tres modelos que probaron tenían más probabilidades de tener conocimientos sobre litigios federales relacionados con la Corte Suprema de Estados Unidos en comparación con procedimientos legales localizados relacionados con tribunales más pequeños y menos poderosos. 

Dado que GPT-3.5, PaLM-2 y Llama 2 fueron entrenados con texto extraído de Internet, tiene sentido que estén más familiarizados con las opiniones legales de la Corte Suprema de los EE. UU., que se publican públicamente en comparación con los documentos legales presentados en otros tipos. de tribunales que no son tan fácilmente accesibles. 

También eran más propensos a tener dificultades en tareas que implicaban recordar información de casos nuevos y antiguos. 

"Las alucinaciones son más comunes entre los casos más antiguos y más nuevos de la Corte Suprema, y ​​menos comunes entre los casos de la posguerra en el Tribunal Warren (1953-1969)", según el documento. “Este resultado sugiere otra limitación importante en el conocimiento jurídico de los LLM que los usuarios deben tener en cuenta: el rendimiento máximo de los LLM puede retrasarse varios años con respecto al estado actual de la doctrina, y los LLM pueden no internalizar la jurisprudencia que es muy antigua pero aún aplicable. y la ley pertinente”.

Demasiada IA ​​podría crear una “monocultura”

A los investigadores también les preocupaba que una dependencia excesiva de estos sistemas pudiera crear un "monocultivo" legal. Dado que la IA se entrena con una cantidad limitada de datos, se referirá a casos más destacados y conocidos que llevarán a los abogados a ignorar otras interpretaciones legales o precedentes relevantes. Es posible que pasen por alto otros casos que podrían ayudarles a ver diferentes perspectivas o argumentos, lo que podría resultar crucial en un litigio. 

"La ley en sí no es monolítica", dice Dahl. “Un monocultivo es particularmente peligroso en un entorno legal. En los Estados Unidos, tenemos un sistema de derecho consuetudinario federal donde la ley se desarrolla de manera diferente en diferentes estados en diferentes jurisdicciones. Hay diferentes líneas o tendencias de jurisprudencia que se desarrollan con el tiempo”.

"Podría conducir a resultados erróneos y a una confianza injustificada de una manera que podría perjudicar a los litigantes", añade Ho. Explicó que un modelo podría generar respuestas inexactas a abogados o personas que buscan comprender algo como las leyes de desalojo. 

“Cuando buscas la ayuda de un modelo de lenguaje extenso, es posible que obtengas exactamente la respuesta incorrecta sobre cuándo debes presentar tu solicitud o cuál es el tipo de regla de desalojo en este estado”, dice, citando un ejemplo. "Porque lo que te dice es la ley de Nueva York o la ley de California, a diferencia de la ley que realmente importa para tus circunstancias particulares en tu jurisdicción".

Los investigadores concluyen que los riesgos de utilizar este tipo de modelos populares para tareas legales son mayores para quienes presentan trámites en tribunales inferiores en estados más pequeños, particularmente si tienen menos experiencia y cuestionan los modelos basándose en suposiciones falsas. Es más probable que estas personas sean abogados, que son menos poderosos y provienen de firmas de abogados más pequeñas con menos recursos, o personas que buscan representarse a sí mismas.

"En resumen, encontramos que los riesgos son mayores para aquellos que se beneficiarían más de los LLM", afirma el documento. ®

Sello de tiempo:

Mas de El registro