Ведущие LLM-специалисты с трудом предоставляют точную юридическую информацию, говорится в исследовании

Ведущие LLM-специалисты с трудом предоставляют точную юридическую информацию, говорится в исследовании

Ведущие LLM-специалисты с трудом предоставляют точную юридическую информацию, говорится в исследовании PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Интервью Если вы думаете, что генеративный ИИ автоматически занимает место за столом переговоров в мире права, подумайте еще раз.

Свежие исследования показали, что самые популярные модели больших языков имеют тенденцию генерировать неточную юридическую информацию, и на них не следует полагаться в судебных разбирательствах.

В прошлом году, когда OpenAI показала GPT-4 была способна сдать экзамен на адвоката, она была провозглашена прорывом в области искусственного интеллекта и заставила некоторых людей задаться вопросом, сможет ли эта технология вскоре замещать юристы. Некоторые надеялись, что подобные модели помогут людям, которые не могут позволить себе дорогих адвокатов, добиваться правосудия, делая доступ к юридической помощи более справедливым. Однако реальность такова, что, согласно недавнему исследованию, программы LLM не могут эффективно помогать даже профессиональным юристам.

Наибольшее беспокойство вызывает то, что ИИ часто фабрикует ложную информацию, что представляет собой огромную проблему, особенно в отрасли, которая опирается на фактические данные. Группа исследователей из Йельского и Стэнфордского университетов, анализировавшая уровень галлюцинаций в популярных моделях большого языка, обнаружила, что они часто не точно извлекают или не генерируют соответствующую юридическую информацию, а также не понимают и не рассуждают о различных законах.

Фактически, GPT-3.5 OpenAI, который в настоящее время используется в бесплатной версии ChatGPT, галлюцинирует примерно в 69 процентах случаев при тестировании на различных задачах. Результаты были хуже для PaLM-2, системы, которая ранее использовалась в чат-боте Google Bard, и Llama 2, большой языковой модели, выпущенной Meta, которая генерировала ложь с уровнем 72 и 88 процентов соответственно.

Неудивительно, что модели с трудом справляются с более сложными задачами, а не с более простыми. Например, попросить ИИ сравнить различные дела и посмотреть, согласны ли они по какому-либо вопросу, и он с большей вероятностью будет генерировать неточную информацию, чем когда он сталкивается с более простой задачей, например проверкой, в какой суд было подано дело. 

Хотя LLM превосходно справляются с обработкой больших объемов текста и могут быть обучены работе с огромным количеством юридических документов – больше, чем любой юрист-человек мог бы прочитать за свою жизнь – они не понимают право и не могут формулировать веские аргументы.

«Хотя мы видели, что такого рода модели добиваются действительно больших успехов в формах дедуктивного рассуждения при программировании или математических задачах, это не тот набор навыков, который характеризует первоклассного юриста», — Дэниел Хо, соавтор книги газета Йельско-Стэнфордского университета, рассказывает Регистр.

«То, в чем юристы действительно хороши и в чем они преуспевают, часто описывается как форма рассуждений по аналогии в системе общего права, рассуждений, основанных на прецедентах», — добавил Хо, заместитель директора факультета Стэнфордского института гуманитарных исследований. Искусственный интеллект.

Машины часто не справляются и с простыми задачами. Когда их просят проверить имя или цитату, чтобы проверить, является ли случай реальным, GPT-3.5, PaLM-2 и Llama 2 могут предоставить в ответах ложную информацию.

«Модели не нужно ничего знать о законе, чтобы честно ответить на этот вопрос. Ему просто нужно знать, существует ли дело или нет, и это можно увидеть в любом месте учебного корпуса», — говорит Мэтью Даль, аспирант юридического факультета Йельского университета.

Это показывает, что ИИ не может даже точно получить информацию и что существует фундаментальный предел возможностей технологии. Эти модели часто призваны быть приятными и полезными. Обычно они не утруждают себя исправлением предположений пользователей и вместо этого встают на их сторону. Например, если чат-ботов просят составить список дел в поддержку какого-либо юридического аргумента, они более предрасположены к составлению исков, чем к тому, чтобы ничего не отвечать. Пара адвокатов усвоила это на собственном горьком опыте, когда они санкционированные за цитирование в своих судебных документах дел, которые были полностью выдуманы OpenAI's ChatGPT.

Исследователи также обнаружили, что три протестированные ими модели с большей вероятностью будут хорошо осведомлены в федеральных судебных разбирательствах, связанных с Верховным судом США, по сравнению с локальными судебными разбирательствами, касающимися меньших и менее влиятельных судов. 

Поскольку GPT-3.5, PaLM-2 и Llama 2 обучались на тексте, полученном из Интернета, имеет смысл, что они будут лучше знакомы с юридическими заключениями Верховного суда США, которые публикуются публично, по сравнению с юридическими документами, поданными в других типах. судов, которые не так легко доступны. 

Им также чаще приходилось сталкиваться с трудностями при выполнении задач, связанных с вспоминанием информации из старых и новых дел. 

«Галлюцинации наиболее распространены среди старых и новейших дел Верховного суда и наименее распространены среди послевоенных дел Уорренского суда (1953-1969 годы)», — говорится в статье. «Этот результат предполагает еще одно важное ограничение правовых знаний LLM, о котором пользователи должны знать: максимальная производительность LLM может отставать на несколько лет от текущего состояния доктрины, и LLM могут не усвоить прецедентное право, которое очень старое, но все еще применимо. и соответствующий закон».

Слишком много искусственного интеллекта может создать «монокультуру»

Исследователи также были обеспокоены тем, что чрезмерная зависимость от этих систем может создать легальную «монокультуру». Поскольку ИИ обучается на ограниченном объеме данных, он будет ссылаться на более известные и известные дела, что заставляет юристов игнорировать другие правовые интерпретации или соответствующие прецеденты. Они могут упустить из виду другие дела, которые могли бы помочь им увидеть другие точки зрения или аргументы, которые могут оказаться решающими в судебном процессе. 

«Закон сам по себе не монолитен», — говорит Даль. «Монокультура особенно опасна в правовом контексте. В Соединенных Штатах существует федеральная система общего права, в которой законы развиваются по-разному в разных штатах и ​​в разных юрисдикциях. Существуют различные направления или тенденции в юриспруденции, которые развиваются с течением времени».

«Это может привести к ошибочным результатам и необоснованному доверию, что может нанести реальный вред истцам», — добавляет Хо. Он объяснил, что модель может дать неточные ответы юристам или людям, желающим понять что-то вроде законов о выселении. 

«Когда вы обращаетесь за помощью к большой языковой модели, вы можете получить совершенно неверный ответ относительно того, когда наступает срок подачи вашей заявки или каковы правила выселения в этом штате», — говорит он, приводя пример. «Потому что он говорит вам о законе Нью-Йорка или законе Калифорнии, а не о законе, который действительно имеет значение для ваших конкретных обстоятельств в вашей юрисдикции».

Исследователи приходят к выводу, что риски использования этих типов популярных моделей для решения юридических задач наиболее высоки для тех, кто подает документы в суды низшей инстанции в небольших штатах, особенно если у них меньше опыта и они проверяют модели, основанные на ложных предположениях. Эти люди, скорее всего, будут юристами, которые менее влиятельны в небольших юридических фирмах с меньшими ресурсами, или людьми, желающими представлять себя.

«Короче говоря, мы обнаруживаем, что риски наиболее высоки для тех, кто больше всего выиграет от LLM», — говорится в документе. ®

Отметка времени:

Больше от Регистр