Os principais LLMs lutam para produzir informações jurídicas precisas

Os principais LLMs lutam para produzir informações jurídicas precisas

Os principais LLMs lutam para produzir informações jurídicas precisas PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Entrevista Se você acha que a IA generativa tem um lugar automático na mesa do mundo do direito, pense novamente.

Os principais modelos linguísticos de grande porte tendem a gerar informações jurídicas imprecisas e não devem ser utilizados para litígios, mostraram novas pesquisas.

No ano passado, quando OpenAI mostrou GPT-4 foi capaz de passar no Exame da Ordem, foi anunciado como um avanço em IA e levou algumas pessoas a questionar se a tecnologia poderia em breve substituir advogados. Alguns esperavam que estes tipos de modelos pudessem capacitar as pessoas que não podem pagar advogados caros para buscar justiça legal, tornando o acesso à ajuda jurídica mais equitativo. A realidade, porém, é que os LLMs nem sequer conseguem ajudar os advogados profissionais de forma eficaz, de acordo com um estudo recente.

A maior preocupação é que a IA fabrica frequentemente informações falsas, o que representa um enorme problema, especialmente numa indústria que depende de provas factuais. Uma equipe de pesquisadores das Universidades de Yale e Stanford, analisando as taxas de alucinação em grandes modelos de linguagem populares, descobriu que eles muitas vezes não recuperam ou geram com precisão informações jurídicas relevantes, nem entendem e raciocinam sobre várias leis.

Na verdade, o GPT-3.5 da OpenAI, que atualmente alimenta a versão gratuita do ChatGPT, alucina cerca de 69% das vezes quando testado em diferentes tarefas. Os resultados foram piores para o PaLM-2, o sistema que anteriormente estava por trás do chatbot Bard do Google, e o Llama 2, o grande modelo de linguagem lançado pela Meta, que gerou falsidades a taxas de 72 e 88 por cento, respectivamente.

Não é novidade que os modelos lutam para concluir tarefas mais complexas em vez de tarefas mais fáceis. Pedir à IA para comparar diferentes casos e ver se concordam sobre uma questão, por exemplo, é um desafio e é mais provável que gere informações imprecisas do que quando se depara com uma tarefa mais fácil, como verificar em que tribunal um caso foi apresentado. 

Embora os LLMs sejam excelentes no processamento de grandes quantidades de texto e possam ser treinados em enormes quantidades de documentos jurídicos – mais do que qualquer advogado humano poderia ler durante a sua vida – eles não compreendem a lei e não conseguem formar argumentos sólidos.

“Embora tenhamos visto esses tipos de modelos fazerem grandes avanços em formas de raciocínio dedutivo em problemas de codificação ou matemática, esse não é o tipo de conjunto de habilidades que caracteriza a advocacia de primeira linha”, Daniel Ho, co-autor de o jornal Yale-Stanford, conta O registro.

“O que os advogados são realmente bons e onde eles se destacam é muitas vezes descrito como uma forma de raciocínio analógico em um sistema de direito consuetudinário, para raciocinar com base em precedentes”, acrescentou Ho, que é diretor associado do corpo docente do Stanford Institute for Human-Centered. Inteligência artificial.

As máquinas também falham frequentemente em tarefas simples. Quando solicitados a inspecionar um nome ou citação para verificar se um caso é real, GPT-3.5, PaLM-2 e Llama 2 podem inventar informações falsas nas respostas.

“O modelo não precisa saber nada sobre a lei honestamente para responder corretamente a essa pergunta. Ele só precisa saber se um caso existe ou não, e pode ver isso em qualquer lugar do corpus de treinamento”, diz Matthew Dahl, estudante de doutorado em direito na Universidade de Yale.

Mostra que a IA não consegue sequer recuperar informações com precisão e que há um limite fundamental para as capacidades da tecnologia. Esses modelos costumam ser preparados para serem agradáveis ​​e úteis. Eles geralmente não se preocupam em corrigir as suposições dos usuários e, em vez disso, ficam do lado deles. Se os chatbots forem solicitados a gerar uma lista de casos em apoio a algum argumento jurídico, por exemplo, eles estarão mais predispostos a inventar ações judiciais do que a responder sem nada. Dois advogados aprenderam isso da maneira mais difícil quando estavam sancionado por citar casos que foram completamente inventados pelo ChatGPT da OpenAI em seus processos judiciais.

Os investigadores também descobriram que os três modelos testados tinham maior probabilidade de ter conhecimento em litígios federais relacionados com o Supremo Tribunal dos EUA, em comparação com processos judiciais localizados relativos a tribunais mais pequenos e menos poderosos. 

Como GPT-3.5, PaLM-2 e Llama 2 foram treinados em texto extraído da Internet, faz sentido que eles estejam mais familiarizados com as opiniões jurídicas da Suprema Corte dos EUA, que são publicadas publicamente em comparação com documentos legais arquivados em outros tipos de tribunais que não são tão facilmente acessíveis. 

Eles também eram mais propensos a ter dificuldades em tarefas que envolviam a recuperação de informações de casos novos e antigos. 

“As alucinações são mais comuns entre os casos mais antigos e mais recentes do Supremo Tribunal, e menos comuns entre os casos do pós-guerra no Tribunal Warren (1953-1969)”, segundo o jornal. “Este resultado sugere outra limitação importante no conhecimento jurídico dos LLMs, da qual os usuários devem estar cientes: o desempenho máximo dos LLMs pode ficar vários anos atrás do estado atual da doutrina, e os LLMs podem não conseguir internalizar a jurisprudência que é muito antiga, mas ainda aplicável e legislação pertinente.”

Muita IA poderia criar uma ‘monocultura’

Os investigadores também estavam preocupados com o facto de a dependência excessiva destes sistemas poder criar uma “monocultura” legal. Como a IA é treinada com base numa quantidade limitada de dados, irá referir-se a casos mais proeminentes e conhecidos, levando os advogados a ignorar outras interpretações jurídicas ou precedentes relevantes. Eles podem ignorar outros casos que poderiam ajudá-los a ver diferentes perspectivas ou argumentos, o que poderia ser crucial em litígios. 

“A lei em si não é monolítica”, diz Dahl. “Uma monocultura é particularmente perigosa num ambiente legal. Nos Estados Unidos, temos um sistema federal de direito consuetudinário, onde a lei se desenvolve de forma diferente em diferentes estados e em diferentes jurisdições. Existem diferentes linhas ou tendências de jurisprudência que se desenvolvem ao longo do tempo.”

“Isso poderia levar a resultados errôneos e a uma confiança injustificada de uma forma que poderia realmente prejudicar os litigantes”, acrescenta Ho. Ele explicou que um modelo poderia gerar respostas imprecisas para advogados ou pessoas que buscam entender algo como leis de despejo. 

“Quando você busca a ajuda de um grande modelo de linguagem, você pode estar recebendo a resposta exatamente errada sobre quando é o prazo do seu pedido ou qual é o tipo de regra de despejo neste estado”, diz ele, citando um exemplo. “Porque o que isso está lhe dizendo é a lei de Nova York ou a lei da Califórnia, em oposição à lei que realmente importa para suas circunstâncias específicas em sua jurisdição.”

Os investigadores concluem que os riscos de utilizar estes tipos de modelos populares para tarefas jurídicas são maiores para aqueles que apresentam documentação em tribunais inferiores em estados mais pequenos, especialmente se tiverem menos experiência e questionarem os modelos com base em suposições falsas. É mais provável que essas pessoas sejam advogados, que têm menos poder em escritórios de advocacia menores e com menos recursos, ou pessoas que procuram se representar.

“Em suma, descobrimos que os riscos são mais elevados para aqueles que mais beneficiariam dos LLMs”, afirma o documento. ®

Carimbo de hora:

Mais de O registro