LLM teratas kesulitan menghasilkan informasi hukum yang akurat

LLM teratas kesulitan menghasilkan informasi hukum yang akurat

LLM teratas berjuang untuk menghasilkan informasi hukum yang akurat PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Wawancara Jika menurut Anda AI generatif memiliki kedudukan otomatis di dunia hukum, pikirkan lagi.

Model bahasa besar yang populer cenderung menghasilkan informasi hukum yang tidak akurat dan tidak boleh diandalkan dalam proses litigasi, menurut penelitian terbaru.

Tahun lalu, saat OpenAI muncul GPT-4 mampu lulus Ujian Pengacara, hal ini digembar-gemborkan sebagai terobosan dalam AI dan membuat beberapa orang mempertanyakan apakah teknologi tersebut dapat segera menggantikan pengacara. Beberapa orang berharap model seperti ini dapat memberdayakan masyarakat yang tidak mampu membayar pengacara yang mahal untuk mendapatkan keadilan hukum, sehingga membuat akses terhadap bantuan hukum menjadi lebih adil. Namun kenyataannya, LLM bahkan tidak dapat membantu pengacara profesional secara efektif, menurut sebuah penelitian baru-baru ini.

Kekhawatiran terbesarnya adalah AI sering kali memalsukan informasi palsu, sehingga menimbulkan masalah besar terutama dalam industri yang mengandalkan bukti faktual. Sebuah tim peneliti di Universitas Yale dan Stanford yang menganalisis tingkat halusinasi dalam model bahasa besar yang populer menemukan bahwa model tersebut sering kali tidak secara akurat mengambil atau menghasilkan informasi hukum yang relevan, atau memahami dan bernalar tentang berbagai undang-undang.

Faktanya, GPT-3.5 OpenAI, yang saat ini mendukung versi gratis ChatGPT, berhalusinasi sekitar 69 persen saat diuji pada berbagai tugas. Hasil yang lebih buruk terjadi pada PaLM-2, sistem yang sebelumnya berada di balik chatbot Google Bard, dan Llama 2, model bahasa besar yang dirilis oleh Meta, yang menghasilkan kebohongan dengan tingkat masing-masing sebesar 72 dan 88 persen.

Tidak mengherankan, model-model tersebut kesulitan menyelesaikan tugas-tugas yang lebih kompleks dibandingkan tugas-tugas yang lebih mudah. Meminta AI untuk membandingkan kasus-kasus yang berbeda dan melihat apakah mereka menyetujui suatu permasalahan, misalnya, merupakan hal yang menantang, dan kemungkinan besar akan menghasilkan informasi yang tidak akurat dibandingkan ketika dihadapkan pada tugas yang lebih mudah, seperti memeriksa di pengadilan mana suatu kasus diajukan. 

Meskipun LLM unggul dalam memproses teks dalam jumlah besar, dan dapat dilatih tentang dokumen hukum dalam jumlah besar โ€“ lebih banyak daripada yang dapat dibaca oleh pengacara manusia mana pun seumur hidup mereka โ€“ mereka tidak memahami hukum dan tidak dapat memberikan argumen yang masuk akal.

โ€œMeskipun kita telah melihat model-model semacam ini membuat kemajuan besar dalam bentuk penalaran deduktif dalam masalah coding atau matematika, itu bukanlah jenis keterampilan yang menjadi ciri pengacara terbaik,โ€ Daniel Ho, salah satu penulis buku tersebut. makalah Yale-Stanford, mengatakan Pendaftaran.

โ€œApa yang benar-benar ahli dalam bidang pengacara, dan keunggulan mereka sering digambarkan sebagai bentuk penalaran analogis dalam sistem hukum umum, untuk bernalar berdasarkan preseden,โ€ tambah Ho, yang merupakan direktur asosiasi fakultas di Stanford Institute for Human-Centered Kecerdasan buatan.

Mesin juga sering gagal dalam tugas-tugas sederhana. Saat diminta memeriksa nama atau kutipan untuk memeriksa apakah suatu kasus itu nyata, GPT-3.5, PaLM-2, dan Llama 2 dapat membuat informasi palsu sebagai tanggapan.

โ€œModel tersebut tidak perlu mengetahui apa pun tentang hukum secara jujur โ€‹โ€‹untuk menjawab pertanyaan tersebut dengan benar. Mereka hanya perlu mengetahui apakah suatu kasus ada atau tidak, dan dapat melihatnya di mana saja dalam korpus pelatihan,โ€ kata Matthew Dahl, mahasiswa PhD hukum di Universitas Yale.

Hal ini menunjukkan bahwa AI bahkan tidak dapat mengambil informasi secara akurat, dan terdapat batasan mendasar pada kemampuan teknologi tersebut. Model-model ini sering kali dirancang agar menyenangkan dan bermanfaat. Mereka biasanya tidak mau repot-repot mengoreksi asumsi pengguna, dan malah memihak mereka. Jika chatbots diminta untuk membuat daftar kasus untuk mendukung beberapa argumen hukum, misalnya, mereka lebih cenderung mengarang tuntutan hukum daripada tidak menjawab apa pun. Sepasang pengacara mempelajari hal ini dengan susah payah ketika mereka berada sanksi karena mengutip kasus-kasus yang sepenuhnya ditemukan oleh ChatGPT OpenAI dalam pengajuan pengadilan mereka.

Para peneliti juga menemukan bahwa ketiga model yang mereka uji lebih cenderung memiliki pengetahuan dalam litigasi federal yang berkaitan dengan Mahkamah Agung AS dibandingkan dengan proses hukum lokal mengenai pengadilan yang lebih kecil dan kurang berkuasa. 

Karena GPT-3.5, PaLM-2, dan Llama 2 dilatih berdasarkan teks yang diambil dari internet, masuk akal jika mereka lebih memahami pendapat hukum Mahkamah Agung AS, yang dipublikasikan secara publik dibandingkan dengan dokumen hukum yang diajukan dalam jenis lain pengadilan yang tidak mudah diakses. 

Mereka juga lebih cenderung kesulitan dalam tugas-tugas yang melibatkan mengingat informasi dari kasus lama dan baru. 

โ€œHalusinasi paling umum terjadi pada kasus-kasus tertua dan terbaru di Mahkamah Agung, dan paling jarang terjadi pada kasus-kasus Pengadilan Warren pascaperang (1953-1969),โ€ menurut surat kabar tersebut. โ€œHasil ini menunjukkan keterbatasan penting lainnya pada pengetahuan hukum LLM yang harus diwaspadai oleh pengguna: kinerja puncak LLM mungkin tertinggal beberapa tahun dari doktrin yang ada saat ini, dan LLM mungkin gagal dalam menginternalisasi kasus hukum yang sudah sangat tua namun masih dapat diterapkan. dan hukum yang relevan.โ€

Terlalu banyak AI dapat menciptakan โ€˜monokulturโ€™

Para peneliti juga khawatir bahwa ketergantungan yang berlebihan pada sistem ini dapat menciptakan โ€œmonokulturโ€ yang legal. Karena AI dilatih pada sejumlah data yang terbatas, AI akan merujuk pada kasus-kasus yang lebih menonjol dan terkenal yang menyebabkan para pengacara mengabaikan interpretasi hukum lain atau preseden yang relevan. Mereka mungkin mengabaikan kasus-kasus lain yang dapat membantu mereka melihat perspektif atau argumen yang berbeda, yang mungkin terbukti penting dalam proses litigasi. 

โ€œHukum itu sendiri tidak bersifat monolitik,โ€ kata Dahl. โ€œMonokultur sangat berbahaya dalam konteks hukum. Di Amerika Serikat, kita mempunyai sistem common law federal yang mana hukum berkembang secara berbeda di berbagai negara bagian dan yurisdiksi berbeda. Ada berbagai macam aliran atau tren yurisprudensi yang berkembang seiring berjalannya waktu.โ€

โ€œHal ini dapat mengakibatkan hasil yang salah dan ketergantungan yang tidak beralasan sehingga dapat merugikan pihak yang berperkara,โ€ tambah Ho. Ia menjelaskan bahwa sebuah model dapat menimbulkan tanggapan yang tidak akurat terhadap pengacara atau orang yang ingin memahami sesuatu seperti undang-undang penggusuran. 

โ€œSaat Anda mencari bantuan model bahasa yang besar, Anda mungkin mendapatkan jawaban yang salah mengenai kapan pengajuan Anda jatuh tempo atau apa aturan penggusuran di negara bagian ini,โ€ katanya, mengutip sebuah contoh. โ€œKarena yang disampaikan kepada Anda adalah hukum di New York atau hukum California, dan bukan hukum yang benar-benar penting bagi keadaan khusus di yurisdiksi Anda.โ€

Para peneliti menyimpulkan bahwa risiko penggunaan model-model populer ini untuk tugas-tugas hukum paling tinggi bagi mereka yang mengajukan dokumen di pengadilan yang lebih rendah di negara-negara yang lebih kecil, terutama jika mereka memiliki keahlian yang lebih sedikit dan menanyakan model-model tersebut berdasarkan asumsi yang salah. Orang-orang ini kemungkinan besar adalah pengacara, yang kurang berkuasa di firma hukum kecil dengan sumber daya lebih sedikit, atau orang yang ingin mewakili diri mereka sendiri.

โ€œSingkatnya, kami menemukan bahwa risiko tertinggi terjadi pada mereka yang paling mendapat manfaat dari LLM,โ€ tulis makalah tersebut. ยฎ

Stempel Waktu:

Lebih dari Pendaftaran