Drama LLaMA sebagai model mega bahasa Meta bocor

Drama LLaMA sebagai model mega bahasa Meta bocor

Drama LLaMA sebagai model bahasa mega Meta membocorkan Intelijen Data PlatoBlockchain. Pencarian Vertikal. Ai.

LLaMA, model bahasa besar Meta terbaru, telah bocor secara online dan tersedia untuk diunduh, meskipun ada upaya nyata untuk membatasi akses hanya untuk tujuan penelitian.

Pemilik Facebook mengumumkan pada bulan Februari merilis model secara terbatas untuk memilih akademisi, tipe pemerintah, dan perusahaan untuk bermain di tengah ketakutan Panggilan bisa disalahgunakan. Tetapi informasi ingin gratis, atau setidaknya orang-orang tertentu menginginkannya, dan kreasi Meta tetap menemukan jalannya online, dimulai dengan kebocoran torrent.

Model bahasa besar yang memprediksi kalimat, yang menghasilkan bagian teks dari petunjuk input, terus berkembang, dari melengkapi tulisan seseorang secara otomatis hingga chatbot yang mampu melakukan tugas saat diminta melakukannya menggunakan bahasa alami.

Para ahli telah memperingatkan teknologi ini dapat digunakan untuk mengotomatiskan pembuatan berita palsu dalam jumlah besar, spam, email phishing, disinformasi, penghasutan, apa saja, untuk tahun-tahun mendatang. Organisasi yang membangun model ini sering menyembunyikan perangkat lunak, di balik API, atau merilis versi terbatas atau demo. 

โ€œMasih banyak penelitian yang perlu dilakukan untuk mengatasi risiko bias, komentar beracun, dan halusinasi dalam model bahasa besar,โ€ Meta tersebut minggu lalu.

โ€œSeperti model lainnya, LLaMA berbagi tantangan ini. Sebagai model dasar, LLaMA dirancang agar serbaguna dan dapat diterapkan pada banyak kasus penggunaan yang berbeda, dibandingkan dengan model yang disesuaikan yang dirancang untuk tugas tertentu.

โ€œUntuk menjaga integritas dan mencegah penyalahgunaan, kami merilis model kami di bawah lisensi nonkomersial yang berfokus pada kasus penggunaan penelitian. Akses ke model akan diberikan berdasarkan kasus per kasus kepada peneliti akademis; mereka yang berafiliasi dengan organisasi di pemerintahan, masyarakat sipil, dan akademisi; dan laboratorium penelitian industri di seluruh dunia.โ€

Panduan cara kerja

Namun upaya Meta untuk mengontrol akses ke LLaMA tampaknya sia-sia, atau begitulah tampaknya. Tak lama setelah berbagi model dengan boffins terpilih, dan orang-orang di industri dan masyarakat sipil, seseorang di 4Chan memposting detail tentang cara mendapatkan seluruh model melalui berbagi file peer-to-peer, dan akhirnya petunjuk tentang cara mengunduh semuanya diterbitkan di GitHub.

Seperti biasa, berhati-hatilah saat mengambil barang seperti ini dari torrent jika ada orang yang menyembunyikan sesuatu yang jahat di sana. Model 65 miliar parameter membutuhkan sekitar 220GB ruang disk, kami diberi tahu.

Salinan LLaMA yang tersedia melalui GitHub tampaknya sah, kami perhatikan. Shawn Presser, an Insinyur AI yang menulis petunjuk pengunduhan di situs berbagi kode Microsoft, menunjukkan kepada kami tangkapan layar dirinya yang berhasil membuat teks dari model tersebut. Dia percaya seorang peneliti yang diberi akses ke model dari Meta membocorkannya, yang mengarah ke distribusinya yang mungkin lebih luas dari perkiraan.

Mulai mesin teori konspirasi Anda.

Presser menganggap merilis model secara bebas tanpa peringatan lebih baik daripada hanya membatasinya untuk akademisi yang disetujui. โ€œSaya pikir yang baik akan lebih banyak daripada yang buruk, setidaknya sepuluh kali lipat. Mungkin mendekati 100x, โ€katanya Pendaftaran

Melatih dan menjalankan model bahasa besar yang canggih itu mahal, secara umum; hanya organisasi yang memiliki akses ke tumpukan GPU dan infrastruktur lainnya yang dapat membangun, menyesuaikan, dan mengujinya. Peneliti AI di Meta membangun LLaMA menjadi lebih kecil, membuatnya lebih kompak daripada model komersial saat ini dan dengan demikian lebih mudah diakses oleh akademisi dan pengembang tanpa anggaran TI yang tidak sepele. 

Pakar pembelajaran mesin Meta mengklaim sistem mereka mengungguli GPT-3 OpenAI dan sama bagusnya dengan model bahasa besar lainnya, seperti PaLM 540 miliar parameter Google atau Chinchilla 70 miliar parameter DeepMind. Ukuran yang lebih kecil berarti lebih mudah digunakan untuk ilmuwan yang memiliki sumber daya komputasi yang lebih sedikit. Dan ya, ada banyak sekali model bahasa di luar sana dalam berbagai bentuk dan ukuran; itu lebih dari sekedar OpenAI dan Facebook.

LLaMA masih membutuhkan penyimpanan ratusan gigabyte dan jumlah komputasi yang layak untuk menjalankannya. Mengaktifkan dan menjalankan model juga tidak mudah, kecuali jika Anda terbiasa menangani sistem semacam ini, dan menggunakannya kembali untuk aktivitas yang lebih jahat juga akan membutuhkan keahlian teknis lebih lanjut. Meski modelnya bocor, Meta mengatakan akan terus membagikan LLaMA hanya dengan peneliti terpilih. 

Kami yakin strategi rilis saat ini memungkinkan kami untuk menyeimbangkan tanggung jawab dan keterbukaan

โ€œAdalah tujuan Meta untuk berbagi model AI yang canggih dengan anggota komunitas riset untuk membantu kami mengevaluasi dan meningkatkan model tersebut,โ€ kata seorang juru bicara kepada Pendaftaran.

โ€œLLaMA dibagikan untuk tujuan penelitian, konsisten dengan cara kami berbagi model bahasa besar sebelumnya. Meskipun model ini tidak dapat diakses oleh semua orang, dan beberapa telah mencoba menghindari proses persetujuan, kami yakin strategi rilis saat ini memungkinkan kami untuk menyeimbangkan tanggung jawab dan keterbukaan.โ€

Dengan kata lain, grup Facebook mendukung pendekatannya untuk mendistribusikan teknologinya.

Upaya Meta baru-baru ini untuk merilis model bahasa besar tidak berjalan lancar. Tahun lalu BlenderBot-nya cerewet dikritik untuk menyebarkan informasi yang salah dan pandangan anti-Semit. Galactica, dirancang untuk meringkas pengetahuan ilmiah, adalah dihapus tiga hari setelah diluncurkan karena menghasilkan konten palsu dan rasis. ยฎ

Stempel Waktu:

Lebih dari Pendaftaran