Top-LLMs haben laut Studie Schwierigkeiten, genaue rechtliche Informationen bereitzustellen

Top-LLMs haben laut Studie Schwierigkeiten, genaue rechtliche Informationen bereitzustellen

Top-LLMs haben Schwierigkeiten, genaue rechtliche Informationen zu erstellen, heißt es in der Studie PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Interview Wenn Sie glauben, dass generative KI automatisch einen Platz in der Welt des Rechts einnimmt, denken Sie noch einmal darüber nach.

Die besten großen Sprachmodelle neigen dazu, ungenaue rechtliche Informationen zu generieren und sollten bei Rechtsstreitigkeiten nicht herangezogen werden, wie neue Untersuchungen gezeigt haben.

Letztes Jahr, als OpenAI gezeigt wurde GPT-4 Obwohl er in der Lage war, die Anwaltsprüfung zu bestehen, wurde dies als Durchbruch in der KI verkündet und führte bei einigen Menschen zu der Frage, ob die Technologie dies bald schaffen würde ersetzen Anwälte. Einige hofften, dass diese Art von Modellen Menschen, die sich keine teuren Anwälte leisten können, die Möglichkeit geben könnten, vor Gericht zu gehen und so den Zugang zu Rechtshilfe gerechter zu gestalten. Die Realität ist jedoch, dass LLMs laut einer aktuellen Studie nicht einmal professionelle Anwälte effektiv unterstützen können.

Die größte Sorge besteht darin, dass KI oft falsche Informationen fabriziert, was insbesondere in einer Branche, die auf sachliche Beweise angewiesen ist, ein großes Problem darstellt. Ein Forscherteam an der Yale University und der Stanford University analysierte die Halluzinationsraten in beliebten großen Sprachmodellen und stellte fest, dass diese häufig relevante rechtliche Informationen nicht genau abrufen oder generieren oder verschiedene Gesetze nicht verstehen und darüber nicht nachdenken.

Tatsächlich halluziniert GPT-3.5 von OpenAI, das derzeit die kostenlose Version von ChatGPT unterstützt, in etwa 69 Prozent der Fälle, wenn es für verschiedene Aufgaben getestet wird. Die Ergebnisse waren schlechter für PaLM-2, das System, das zuvor hinter Googles Bard-Chatbot stand, und Llama 2, das von Meta veröffentlichte große Sprachmodell, das Unwahrheiten mit einer Rate von 72 bzw. 88 Prozent erzeugte.

Es überrascht nicht, dass die Modelle Schwierigkeiten haben, komplexere Aufgaben zu erledigen als einfachere. KI zu bitten, beispielsweise verschiedene Fälle zu vergleichen und zu sehen, ob sie sich in einem Punkt einig sind, ist eine Herausforderung und führt mit größerer Wahrscheinlichkeit zu ungenauen Informationen, als wenn man mit einer einfacheren Aufgabe konfrontiert wird, wie etwa der Überprüfung, bei welchem ​​Gericht ein Fall eingereicht wurde. 

Obwohl LLMs hervorragend darin sind, große Textmengen zu verarbeiten, und an riesigen Mengen juristischer Dokumente geschult werden können – mehr, als ein menschlicher Anwalt in seinem Leben lesen könnte –, verstehen sie das Recht nicht und können keine stichhaltigen Argumente formulieren.

„Obwohl wir gesehen haben, dass diese Art von Modellen wirklich große Fortschritte bei Formen des deduktiven Denkens bei Codierungs- oder Mathematikproblemen macht, handelt es sich nicht um die Art von Fähigkeiten, die eine erstklassige Anwaltschaft auszeichnen“, sagt Daniel Ho, Co-Autor von das Yale-Stanford-PapierErzählt Das Register.

„Was Anwälte wirklich gut können und wo sie sich auszeichnen, wird oft als eine Form des analogen Denkens in einem System des Common Law beschrieben, das auf Präzedenzfällen basiert“, fügte Ho hinzu, der stellvertretende Fakultätsdirektorin des Stanford Institute for Human-Centered ist Künstliche Intelligenz.

Auch bei einfachen Aufgaben versagen Maschinen oft. Wenn GPT-3.5, PaLM-2 und Llama 2 aufgefordert werden, einen Namen oder ein Zitat zu überprüfen, um zu überprüfen, ob ein Fall echt ist, können sie in ihren Antworten falsche Informationen erfinden.

„Das Model muss nichts über das Gesetz ehrlich wissen, um diese Frage richtig zu beantworten. Es muss lediglich wissen, ob ein Fall vorliegt oder nicht, und kann dies überall im Schulungskorpus sehen“, sagt Matthew Dahl, Doktorand der Rechtswissenschaften an der Yale University.

Es zeigt, dass KI nicht einmal Informationen genau abrufen kann und dass die Fähigkeiten der Technologie grundsätzlich begrenzt sind. Diese Modelle sind oft darauf ausgelegt, angenehm und hilfreich zu sein. Normalerweise machen sie sich nicht die Mühe, die Annahmen der Benutzer zu korrigieren, sondern stellen sich stattdessen auf ihre Seite. Wenn Chatbots beispielsweise gebeten werden, eine Liste von Fällen zur Untermauerung eines rechtlichen Arguments zu erstellen, neigen sie eher dazu, Klagen zu erfinden, als mit nichts zu antworten. Das mussten zwei Anwälte auf die harte Tour lernen sanktionierten für die Berufung auf Fälle, die vollständig von ChatGPT von OpenAI erfunden wurden, in ihren Gerichtsakten.

Die Forscher stellten außerdem fest, dass die drei von ihnen getesteten Modelle mit größerer Wahrscheinlichkeit in bundesstaatlichen Rechtsstreitigkeiten im Zusammenhang mit dem Obersten Gerichtshof der USA kompetent sind als in lokalisierten Gerichtsverfahren, die kleinere und weniger mächtige Gerichte betreffen. 

Da GPT-3.5, PaLM-2 und Llama 2 mit Texten aus dem Internet trainiert wurden, ist es sinnvoll, dass sie mit den Rechtsgutachten des Obersten Gerichtshofs der USA, die öffentlich veröffentlicht werden, besser vertraut sind als mit Rechtsdokumenten, die in anderen Formaten eingereicht werden von Gerichten, die nicht so leicht zugänglich sind. 

Sie hatten auch eher Schwierigkeiten bei Aufgaben, bei denen es darum ging, Informationen aus alten und neuen Fällen abzurufen. 

„Halluzinationen kommen am häufigsten bei den ältesten und neuesten Fällen des Obersten Gerichtshofs vor und am seltensten bei den Warren-Court-Fällen der Nachkriegszeit (1953–1969)“, heißt es in der Zeitung. „Dieses Ergebnis deutet auf eine weitere wichtige Einschränkung des Rechtswissens von LLMs hin, der sich Benutzer bewusst sein sollten: Die Spitzenleistung von LLMs kann mehrere Jahre hinter dem aktuellen Stand der Doktrin zurückbleiben, und LLMs versäumen es möglicherweise, Rechtsprechung zu verinnerlichen, die zwar sehr alt, aber immer noch anwendbar ist.“ und einschlägiges Recht.“

Zu viel KI könnte eine „Monokultur“ schaffen

Die Forscher befürchteten auch, dass eine übermäßige Abhängigkeit von diesen Systemen zu einer legalen „Monokultur“ führen könnte. Da KI auf einer begrenzten Datenmenge trainiert wird, bezieht sie sich auf prominentere, bekanntere Fälle, was dazu führt, dass Anwälte andere Rechtsauslegungen oder relevante Präzedenzfälle ignorieren. Sie übersehen möglicherweise andere Fälle, die ihnen helfen könnten, andere Perspektiven oder Argumente zu erkennen, was sich in einem Rechtsstreit als entscheidend erweisen könnte. 

„Das Gesetz selbst ist nicht monolithisch“, sagt Dahl. „Eine Monokultur ist im rechtlichen Umfeld besonders gefährlich. In den Vereinigten Staaten haben wir ein föderales Common-Law-System, in dem sich das Recht in verschiedenen Bundesstaaten und unterschiedlichen Gerichtsbarkeiten unterschiedlich entwickelt. Es gibt verschiedene Rechtsrichtungen oder Trends, die sich im Laufe der Zeit entwickeln.“

„Es könnte zu falschen Ergebnissen und ungerechtfertigtem Vertrauen führen, was den Prozessparteien tatsächlich schaden könnte“, fügt Ho hinzu. Er erklärte, dass ein Modell bei Anwälten oder Leuten, die etwas wie Räumungsgesetze verstehen wollen, zu ungenauen Antworten führen könnte. 

„Wenn Sie die Hilfe eines großen Sprachmodells in Anspruch nehmen, erhalten Sie möglicherweise die völlig falsche Antwort darauf, wann Ihre Einreichung fällig ist oder welche Art von Räumungsregel in diesem Bundesstaat gilt“, sagt er und nennt ein Beispiel. „Denn was es Ihnen sagt, ist das Gesetz in New York oder das Recht von Kalifornien, im Gegensatz zu dem Gesetz, das für Ihre besonderen Umstände in Ihrem Zuständigkeitsbereich tatsächlich von Bedeutung ist.“

Die Forscher kommen zu dem Schluss, dass die Risiken bei der Verwendung dieser Art populärer Modelle für juristische Aufgaben am höchsten für diejenigen sind, die in kleineren Bundesstaaten Unterlagen bei niedrigeren Gerichten einreichen, insbesondere wenn sie über weniger Fachwissen verfügen und die Modelle auf der Grundlage falscher Annahmen in Frage stellen. Bei diesen Leuten handelt es sich eher um Anwälte, die weniger mächtig sind und aus kleineren Anwaltskanzleien mit weniger Ressourcen stammen, oder um Leute, die sich selbst vertreten möchten.

„Kurz gesagt stellen wir fest, dass die Risiken für diejenigen am höchsten sind, die am meisten von LLMs profitieren würden“, heißt es in dem Papier. ®

Zeitstempel:

Mehr von Das Register