Les meilleurs LLM ont du mal à produire des informations juridiques précises, selon une étude

Les meilleurs LLM ont du mal à produire des informations juridiques précises, selon une étude

Top LLMs struggle to produce accurate legal info, says study PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Interview Si vous pensez que l’IA générative a automatiquement sa place à la table du monde du droit, détrompez-vous.

Les grands modèles linguistiques ont tendance à générer des informations juridiques inexactes et ne devraient pas être invoqués en cas de litige, selon de nouvelles recherches.

L'année dernière, lorsque OpenAI a montré GPT-4 était capable de réussir l'examen du barreau, cela a été présenté comme une percée dans l'IA et a amené certaines personnes à se demander si la technologie pourrait bientôt remplacer avocats. Certains espéraient que ces types de modèles pourraient permettre aux personnes qui n’ont pas les moyens de se payer des avocats coûteux de poursuivre la justice, rendant ainsi l’accès à l’aide juridique plus équitable. La réalité, cependant, est que les LLM ne peuvent même pas aider efficacement les avocats professionnels, selon une étude récente.

La plus grande préoccupation est que l’IA fabrique souvent de fausses informations, ce qui pose un énorme problème, en particulier dans une industrie qui s’appuie sur des preuves factuelles. Une équipe de chercheurs de Yale et de l'Université de Stanford analysant les taux d'hallucinations dans les grands modèles de langage populaires a constaté que souvent, ils ne récupéraient pas ou ne généraient pas avec précision les informations juridiques pertinentes, ni ne comprenaient et ne raisonnaient pas sur diverses lois.

En fait, le GPT-3.5 d’OpenAI, qui alimente actuellement la version gratuite de ChatGPT, hallucine environ 69 % du temps lorsqu’il est testé sur différentes tâches. Les résultats ont été pires pour PaLM-2, le système qui était auparavant à l’origine du chatbot Bard de Google, et pour Llama 2, le grand modèle de langage publié par Meta, qui ont généré des mensonges à des taux de 72 et 88 %, respectivement.

Sans surprise, les modèles ont du mal à accomplir des tâches plus complexes que des tâches plus faciles. Demander à l'IA de comparer différentes affaires et de voir si elles s'accordent sur une question, par exemple, est un défi, et cela générera plus probablement des informations inexactes que lorsqu'elle est confrontée à une tâche plus facile, comme vérifier auprès du tribunal auprès duquel une affaire a été déposée. 

Bien que les LLM excellent dans le traitement de grandes quantités de textes et puissent être formés sur d’énormes quantités de documents juridiques – plus que ce qu’un avocat humain pourrait lire au cours de sa vie – ils ne comprennent pas le droit et ne peuvent pas formuler des arguments solides.

"Bien que nous ayons vu ce type de modèles faire de grands progrès dans les formes de raisonnement déductif dans les problèmes de codage ou de mathématiques, ce n'est pas le genre de compétences qui caractérisent un avocat de premier ordre", Daniel Ho, co-auteur de le journal Yale-Stanford, raconte Le registre.

"Ce pour quoi les avocats sont vraiment bons et où ils excellent est souvent décrit comme une forme de raisonnement analogique dans un système de common law, pour raisonner sur la base de précédents", a ajouté Ho, directeur associé du Stanford Institute for Human-Centered. Intelligence artificielle.

Les machines échouent souvent également dans des tâches simples. Lorsqu'on leur demande d'inspecter un nom ou une citation pour vérifier si un cas est réel, GPT-3.5, PaLM-2 et Llama 2 peuvent inventer de fausses informations dans leurs réponses.

« Le modèle n’a pas besoin de connaître honnêtement la loi pour répondre correctement à cette question. Il lui suffit de savoir si un cas existe ou non, et de pouvoir le voir n'importe où dans le corpus de formation », explique Matthew Dahl, doctorant en droit à l'Université de Yale.

Cela montre que l’IA ne peut même pas récupérer des informations avec précision et qu’il existe une limite fondamentale aux capacités de la technologie. Ces modèles sont souvent conçus pour être agréables et utiles. Ils ne prennent généralement pas la peine de corriger les hypothèses des utilisateurs et se rangent plutôt de leur côté. Si l’on demande aux chatbots de générer une liste de cas à l’appui d’un argument juridique, par exemple, ils sont plus prédisposés à inventer des poursuites qu’à répondre sans rien. Deux avocats l'ont appris à leurs dépens lorsqu'ils étaient sanctionné pour avoir cité des cas qui ont été complètement inventés par ChatGPT d'OpenAI dans leur dossier judiciaire.

Les chercheurs ont également découvert que les trois modèles testés étaient plus susceptibles de connaître les litiges fédéraux liés à la Cour suprême des États-Unis que les procédures judiciaires localisées concernant des tribunaux plus petits et moins puissants. 

Étant donné que GPT-3.5, PaLM-2 et Llama 2 ont été formés sur du texte récupéré sur Internet, il est logique qu'ils soient plus familiers avec les avis juridiques de la Cour suprême des États-Unis, qui sont publiés publiquement par rapport aux documents juridiques déposés sous d'autres types. de tribunaux qui ne sont pas aussi facilement accessibles. 

Ils étaient également plus susceptibles d’avoir des difficultés dans les tâches impliquant la mémorisation d’informations provenant de cas anciens et nouveaux. 

"Les hallucinations sont les plus courantes parmi les affaires les plus anciennes et les plus récentes de la Cour suprême, et les moins courantes parmi les affaires de la Cour Warren d'après-guerre (1953-1969)", selon le journal. « Ce résultat suggère une autre limitation importante des connaissances juridiques des LLM dont les utilisateurs doivent être conscients : les performances maximales des LLM peuvent être en retard de plusieurs années par rapport à l'état actuel de la doctrine, et les LLM peuvent ne pas réussir à internaliser une jurisprudence très ancienne mais toujours applicable. et la loi pertinente.

Trop d’IA pourrait créer une « monoculture »

Les chercheurs craignaient également qu’une dépendance excessive à l’égard de ces systèmes puisse créer une « monoculture » légale. Étant donné que l’IA est formée sur une quantité limitée de données, elle fera référence à des cas plus importants et bien connus, ce qui amènera les avocats à ignorer d’autres interprétations juridiques ou précédents pertinents. Ils peuvent négliger d’autres affaires qui pourraient les aider à voir des perspectives ou des arguments différents, ce qui pourrait s’avérer crucial dans un litige. 

« La loi elle-même n’est pas monolithique », déclare Dahl. « Une monoculture est particulièrement dangereuse dans un cadre légal. Aux États-Unis, nous avons un système fédéral de common law dans lequel le droit évolue différemment selon les États et les différentes juridictions. Il existe en quelque sorte différentes lignes ou tendances jurisprudentielles qui se développent au fil du temps.

"Cela pourrait conduire à des résultats erronés et à une confiance injustifiée d'une manière qui pourrait en fait nuire aux justiciables", ajoute Ho. Il a expliqué qu'un modèle pourrait générer des réponses inexactes aux avocats ou aux personnes cherchant à comprendre quelque chose comme les lois sur les expulsions. 

"Lorsque vous demandez l'aide d'un grand modèle linguistique, vous risquez d'obtenir une réponse totalement erronée quant à la date d'échéance de votre dépôt ou au type de règle d'expulsion dans cet État", dit-il, citant un exemple. "Parce que ce qu'il vous dit est la loi de New York ou la loi de Californie, par opposition à la loi qui compte réellement dans votre situation particulière dans votre juridiction."

Les chercheurs concluent que les risques liés à l’utilisation de ces types de modèles populaires pour des tâches juridiques sont plus élevés pour ceux qui soumettent des documents aux tribunaux inférieurs des petits États, en particulier s’ils ont moins d’expertise et interrogent les modèles sur la base de fausses hypothèses. Ces personnes sont plus susceptibles d'être des avocats, moins puissants, issus de petits cabinets disposant de moins de ressources, ou de personnes cherchant à se représenter elles-mêmes.

« En bref, nous constatons que les risques sont les plus élevés pour ceux qui bénéficieraient le plus des LLM », indique le document. ®

Horodatage:

Plus de Le registre