최고의 LLM은 정확한 법률 정보를 생성하기 위해 고군분투하고 있다고 연구 결과

플라톤에 의해 재발행

팔로워 : 0

PlatoBlockchain Data Intelligence 연구에 따르면 최고의 LLM은 정확한 법률 정보를 생성하는 데 어려움을 겪고 있습니다. 수직 검색. 일체 포함.

인터뷰 생성 AI가 법의 세계에서 자동으로 자리를 잡았다고 생각한다면 다시 생각해 보십시오.

최신 연구에 따르면 최고의 대규모 언어 모델은 부정확한 법적 정보를 생성하는 경향이 있으므로 소송에 의존해서는 안 되는 것으로 나타났습니다.

지난해 OpenAI가 선보였을 때 GPT-4 변호사 시험에 합격할 수 있었음에도 불구하고 AI의 획기적인 발전이 예고되었으며 일부 사람들은 이 기술이 곧 성공할 수 있을지 의문을 제기했습니다. 교체 변호사. 일부 사람들은 이러한 유형의 모델이 값비싼 변호사를 선임할 여유가 없는 사람들이 법적 정의를 추구할 수 있는 권한을 부여하여 법적 지원에 대한 접근을 더욱 공평하게 만들 수 있기를 바랐습니다. 그러나 최근 연구에 따르면 LLM은 전문 변호사에게도 효과적으로 도움을 줄 수 없는 것이 현실입니다.

가장 큰 우려는 AI가 허위 정보를 조작하는 경우가 많아, 특히 사실 증거에 의존하는 업계에서 큰 문제를 야기한다는 점이다. 인기 있는 대규모 언어 모델의 환각 비율을 분석한 Yale 및 Stanford University의 연구진은 관련 법적 정보를 정확하게 검색하거나 생성하지 못하거나 다양한 법률을 이해하고 추론하지 못하는 경우가 많다는 사실을 발견했습니다.

실제로 현재 ChatGPT 무료 버전을 지원하는 OpenAI의 GPT-3.5는 다양한 작업에 걸쳐 테스트할 때 약 69%의 시간을 환각으로 표현합니다. 이전에 Google의 Bard 챗봇 뒤에 있던 시스템인 PaLM-2와 Meta가 출시한 대규모 언어 모델인 Llama 2의 결과는 각각 72%와 88%의 비율로 거짓을 생성했습니다.

당연히 모델은 쉬운 작업보다 복잡한 작업을 완료하는 데 어려움을 겪습니다. 예를 들어 AI에게 다양한 사건을 비교하고 문제에 동의하는지 확인하도록 요청하는 것은 어려운 일이며, 사건이 어느 법원에 접수되었는지 확인하는 것과 같은 더 쉬운 작업에 직면했을 때보다 부정확한 정보를 생성할 가능성이 더 높습니다.

LLM은 많은 양의 텍스트를 처리하는 데 탁월하고 인간 변호사가 평생 읽을 수 있는 것보다 많은 양의 법률 문서에 대해 교육을 받을 수 있지만 법률을 이해하지 못하고 건전한 주장을 형성할 수 없습니다.

"우리는 이러한 종류의 모델이 코딩이나 수학 문제의 연역적 추론 형태에서 정말 큰 발전을 이루는 것을 보았지만, 그것은 최고 수준의 변호사를 특징짓는 기술 세트가 아닙니다."라고 공동 저자인 Daniel Ho는 말합니다. 예일-스탠포드 논문, 말한다 등록.

스탠포드 인간 중심 연구소의 교수 부소장인 Ho는 "변호사가 정말 잘하고 뛰어난 점은 보통법 시스템에서 판례를 기반으로 한 추론에 대한 유추 추론의 한 형태로 설명되는 경우가 많습니다"라고 덧붙였습니다. 인공 지능.

기계는 간단한 작업에서도 종종 실패합니다. 사례가 진짜인지 확인하기 위해 이름이나 인용문을 검사하라는 요청을 받으면 GPT-3.5, PaLM-2, Llama 2는 응답에서 가짜 정보를 구성할 수 있습니다.

“모델이 그 질문에 올바르게 답하기 위해 법에 대해 솔직하게 알 필요는 없습니다. 사례가 존재하는지 여부만 알면 되고 훈련 코퍼스 어디에서나 이를 볼 수 있습니다.”라고 Yale University의 법학 박사 과정 학생인 Matthew Dahl은 말합니다.

이는 AI가 정보를 정확하게 검색할 수도 없고, 기술 능력에 근본적인 한계가 있음을 보여줍니다. 이러한 모델은 종종 동의하고 도움이 될 준비가 되어 있습니다. 그들은 일반적으로 사용자의 가정을 수정하는 데 신경을 쓰지 않고 대신 사용자의 편을 듭니다. 예를 들어, 챗봇이 일부 법적 주장을 뒷받침하는 사례 목록을 생성하도록 요청받은 경우 아무런 답변도 하지 않는 것보다 소송을 제기하는 경향이 더 큽니다. 한 쌍의 변호사는 그들이 어렸을 때 이것을 힘들게 배웠습니다. 제재를받은 법원 서류에서 OpenAI의 ChatGPT가 완전히 발명한 사건을 인용했습니다.

연구원들은 또한 그들이 테스트한 세 가지 모델이 더 작고 덜 강력한 법원에 관한 현지화된 법적 절차에 비해 미국 대법원과 관련된 연방 소송에 대해 더 잘 알고 있을 가능성이 더 높다는 것을 발견했습니다.

GPT-3.5, PaLM-2, Llama 2는 인터넷에서 스크랩한 텍스트로 훈련되었기 때문에 다른 유형으로 제출된 법률 문서에 비해 공개적으로 공개되는 미국 대법원의 법적 의견에 더 익숙할 것입니다. 쉽게 접근할 수 없는 법원.

그들은 또한 이전 사례와 새로운 사례에서 정보를 회상하는 작업에 어려움을 겪을 가능성이 더 높았습니다.

“환각은 대법원의 가장 오래되고 최근에 발생한 사건에서 가장 흔하며, 전후 워렌 법원 사건(1953~1969)에서는 가장 흔하지 않습니다.”라고 해당 신문에서는 말합니다. "이 결과는 사용자가 알아야 할 LLM의 법적 지식에 대한 또 다른 중요한 제한 사항을 제시합니다. LLM의 최고 성과는 현재 교리 상태보다 몇 년 뒤처질 수 있으며, LLM은 매우 오래되었지만 여전히 적용 가능한 판례법을 내부화하지 못할 수 있습니다. 및 관련 법률.”

AI가 너무 많으면 '단일문화'가 발생할 수 있습니다.

연구자들은 또한 이러한 시스템에 대한 과도한 의존이 합법적인 “단일 문화”를 조성할 수 있다는 점을 우려했습니다. AI는 제한된 양의 데이터를 학습하기 때문에 변호사들이 다른 법적 해석이나 관련 판례를 무시하게 만드는 더 두드러지고 잘 알려진 사례를 참조하게 됩니다. 그들은 소송에서 결정적인 역할을 할 수 있는 다양한 관점이나 주장을 보는 데 도움이 될 수 있는 다른 사례를 간과할 수 있습니다.

“법 자체는 단일체가 아닙니다.”라고 Dahl은 말합니다. “단일문화는 법적 환경에서 특히 위험합니다. 미국에는 연방 관습법 시스템이 있는데, 법은 주마다, 관할권마다 다르게 전개됩니다. 시간이 지남에 따라 발전하는 법학의 다양한 노선이나 추세가 있습니다.”

Ho는 "소송 당사자에게 실제로 해를 끼칠 수 있는 방식으로 잘못된 결과와 부당한 의존으로 이어질 수 있습니다"라고 덧붙였습니다. 그는 모델이 퇴거법과 같은 것을 이해하려는 변호사나 사람들에게 부정확한 반응을 생성할 수 있다고 설명했습니다.

“대규모 언어 모델의 도움을 구할 때, 제출 기한이 언제인지, 이 주의 퇴거 규칙이 무엇인지에 대해 정확하고 잘못된 답변을 얻을 수도 있습니다.”라고 그는 예를 인용하면서 말합니다. "왜냐하면 그것이 당신에게 말하는 것은 당신의 관할권에서 당신의 특별한 상황에 실제로 중요한 법이 아니라 뉴욕이나 캘리포니아의 법이기 때문입니다."

연구자들은 소규모 주 전역의 하급 법원에 서류를 제출하는 사람들, 특히 전문 지식이 부족하고 잘못된 가정을 기반으로 모델을 쿼리하는 경우 법적 업무에 이러한 유형의 인기 모델을 사용할 위험이 가장 높다고 결론지었습니다. 이 사람들은 변호사일 가능성이 더 높으며, 자원이 적은 소규모 법률 회사에서 영향력이 약하거나 자신을 대변하려는 사람들입니다.

“요컨대, 우리는 LLM으로부터 가장 많은 혜택을 얻을 수 있는 사람들의 위험이 가장 높다는 것을 발견했습니다.”라고 논문은 말합니다. ®