トップLLMは正確な法的情報を提供するのに苦労していると研究結果が発表

トップLLMは正確な法的情報を提供するのに苦労していると研究結果が発表

PlatoBlockchain Data Intelligenceの研究によれば、トップLLMは正確な法的情報を生成するのに苦労しているという。垂直検索。あい。

インタビュー 生成型 AI が法の世界で自動的に議席を獲得すると考えているのなら、考え直してください。

最新の調査によると、上位の大規模言語モデルは不正確な法的情報を生成する傾向があり、訴訟の際に依存すべきではないことが示されています。

昨年、OpenAI が示したとき GPT-4 司法試験に合格することができたが、AI の画期的な進歩として歓迎され、一部の人々はこのテクノロジーがすぐに合格できるかどうか疑問を抱いた replace 弁護士。この種のモデルによって、高額な弁護士に依頼する余裕がない人々が法的正義を追求できるようになり、法的支援をより公平に利用できるようになるのではないかと期待する人もいた。しかし、現実には、LLM はプロの弁護士を効果的に支援することさえできないことが最近の研究で明らかになりました。

最大の懸念は、AI が虚偽の情報を捏造することが多く、特に事実の証拠に依存する業界では大きな問題となることです。イェール大学とスタンフォード大学の研究チームは、一般的な大規模言語モデルの幻覚率を分析したところ、関連する法的情報を正確に取得または生成できなかったり、さまざまな法律を理解して推論したりしていないことが多いことが判明しました。

実際、現在 ChatGPT の無料版を支えている OpenAI の GPT-3.5 は、さまざまなタスクにわたってテストした場合、約 69 パーセントの確率で幻覚を起こします。以前にGoogleのBardチャットボットの背後にあったシステムであるPaLM-2と、Metaによってリリースされた大規模言語モデルであるLlama 2では、結果はさらに悪く、それぞれ72パーセントと88パーセントの割合で虚偽を生成した。

当然のことながら、モデルは簡単なタスクではなく、より複雑なタスクを完了するのに苦労します。たとえば、さまざまな訴訟を比較し、ある問題について同意するかどうかを確認するよう AI に依頼するのは困難であり、訴訟がどの裁判所に提起されたかを確認するなどの簡単なタスクに直面した場合よりも、不正確な情報が生成される可能性が高くなります。 

LLM は大量のテキストの処理に優れており、人間の弁護士が一生かけて読むことのできる量を超える膨大な量の法的文書について訓練を受けることができますが、法律を理解しておらず、健全な議論を行うことができません。

「この種のモデルがコーディングや数学の問題における演繹的推論の形で非常に大きな進歩を遂げるのを私たちは見てきましたが、それは一流の弁護士を特徴づける種類のスキルセットではありません」と共著者のダニエル・ホーは言う。 エール大学とスタンフォード大学の論文、教えて 登録.

「弁護士が本当に得意なこと、また得意とすることは、判例に基づいて推論する、コモンロー制度における類推の一形態としてよく説明されます」とスタンフォード大学人間中心研究所の副所長であるホー氏は付け加えた。人工知能。

機械は単純なタスクでも失敗することがよくあります。事件が本物かどうかを確認するために名前や引用を検査するよう求められた場合、GPT-3.5、PaLM-2、および Llama 2 は応答で偽の情報をでっち上げる可能性があります。

「モデルがその質問に正しく答えるために、法律について何も知る必要はありません。必要なのは、ケースが存在するかどうかを知ることだけで、トレーニング コーパスのどこにでもそれを確認できるのです」とイェール大学の法学博士課程の学生、マシュー ダール氏は言います。

これは、AI が情報を正確に取得することさえできず、テクノロジーの能力には根本的な限界があることを示しています。これらのモデルは、多くの場合、快適で役に立つように準備されています。彼らは通常、ユーザーの思い込みを修正することを気にせず、代わりにユーザーの側に立つことになります。たとえば、チャットボットが何らかの法的議論を裏付ける訴訟のリストを作成するように求められた場合、チャットボットは何も答えないよりも訴訟をでっち上げる傾向が高くなります。二人の弁護士は、このことを苦労して学んだ。 制裁 裁判所への提出書類の中で、OpenAI の ChatGPT によって完全にでっち上げられた訴訟を引用したことに対して。

研究者らはまた、テストした 3 つのモデルは、小規模で権限の低い裁判所に関する局所的な訴訟手続きと比較して、米国最高裁判所に関連する連邦訴訟に精通している可能性が高いことも発見しました。 

GPT-3.5、PaLM-2、および Llama 2 はインターネットから収集したテキストでトレーニングされているため、他の種類で提出された法的文書と比較して、公的に公開されている米国最高裁判所の法的見解により精通していることは当然です。アクセスが容易ではない裁判所。 

また、彼らは、古い事件や新しい事件からの情報を思い出す作業に苦労する可能性が高かった。 

同紙によると、「幻覚は最高裁判所の最古および最新の訴訟で最も一般的であり、戦後のウォーレン裁判所の訴訟(1953年から1969年)では最も一般的ではない」とのこと。 「この結果は、ユーザーが認識すべき、LLM の法的知識に対する別の重要な制限を示唆しています。LLM のピークパフォーマンスは、現在の法理よりも数年遅れている可能性があり、LLM は、非常に古いがまだ適用可能な判例法を社内に取り入れることができない可能性があります」および関連法。」

AIが多すぎると「モノカルチャー」が生まれる可能性がある

研究者らはまた、これらのシステムに過度に依存すると、合法的な「モノカルチャー」が生まれる可能性があると懸念していた。 AI は限られた量のデータに基づいてトレーニングされるため、弁護士が他の法的解釈や関連判例を無視することになる、より著名でよく知られた事件を参照することになります。彼らは、訴訟において重要であることが判明する可能性がある、異なる視点や議論を理解するのに役立つ可能性のある他の訴訟を見逃してしまう可能性があります。 

「法律自体は一枚岩ではありません」とダール氏は言う。 「モノカルチャーは法的な場面では特に危険です。米国には連邦コモンロー制度があり、法域が異なると州ごとに法律の発展が異なります。時間の経過とともに発展する、法学のさまざまな路線や傾向があります。」

「それは誤った結果や不当な信頼につながり、実際に訴訟当事者に損害を与える可能性があります」とホー氏は付け加えた。同氏は、モデルが弁護士や立ち退き法のようなものを理解しようとしている人々に対して不正確な応答を生成する可能性があると説明した。 

「大規模な言語モデルの助けを求めると、申請期限がいつなのか、あるいはこの州における立ち退きのルールはどのようなものなのかについて、全く間違った答えが得られるかもしれません」と彼は例を挙げて言う。 「なぜなら、あなたに伝えているのは、あなたの司法管轄区の特定の状況にとって実際に重要な法律ではなく、ニューヨーク州の法律またはカリフォルニア州の法律だからです。」

研究者らは、この種の一般的なモデルを法的業務に使用するリスクは、特に専門知識が少なく、誤った仮定に基づいてモデルをクエリしている場合、小規模な州の下級裁判所に書類を提出する人にとって最も高いと結論付けています。これらの人々は弁護士である可能性が高く、リソースが少ない小規模法律事務所からの力が弱いか、自分自身の代理人を探している人々です。

「要するに、LLM から最も利益を得る人々のリスクが最も高いことがわかりました」と論文は述べています。 ®

タイムスタンプ:

より多くの 登録