4chan dan selokan web lainnya dimasukkan ke perpustakaan besar Google untuk melatih ML

4chan dan selokan web lainnya dimasukkan ke perpustakaan besar Google untuk melatih ML

4chan dan saluran web lainnya dimasukkan ke dalam perpustakaan besar Google untuk melatih ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Konten web bermasalah, rasis, dan pornografi tampaknya digunakan untuk melatih model bahasa besar Google, meskipun ada upaya untuk menyaring strata teks beracun dan berbahaya tersebut.

An investigasi oleh The Washington Post dan Institut Allen untuk AI menganalisis publik Google yang sangat besar kumpulan data C4, dirilis untuk penelitian akademik, untuk mendapatkan pemahaman yang lebih baik tentang jenis situs web apa yang biasanya diambil untuk melatih model bahasa besar.

Dataset C4 digunakan untuk melatih Transformator Transfer Teks-ke-Teks T5 Google serta Meta AI Model Bahasa Besar Facebook (LLaMA), varian yang lonceng alarm yang dibunyikan.

Tampaknya C4 telah menyerap materi, yang digunakan untuk membangun sistem pembelajaran mesin generasi berikutnya. Itu berpotensi dapat menyebabkan sistem tersebut berperilaku tidak tepat dan tidak dapat diandalkan.

Reguler Daftar pembaca akan menyadari bahwa kami telah menunjukkan masalah dengan kumpulan data pelatihan berulang kali, seperti perut yang mengerikan dari kumpulan yang banyak dikutip dikuratori oleh MIT.

Penyelidikan terbaru

Analis The Post dan Allen Institute memeringkat 10 juta situs web teratas yang termasuk dalam C4 dengan mencocokkan teks yang muncul sebagai konten internet. Meskipun C4 adalah versi yang lebih kecil dan lebih bersih dari kumpulan data Perayapan Umum, yang terdiri dari teks dari miliaran situs web, CXNUMX masih berisi materi yang tidak diinginkan dari sudut gelap internet.

Teks rasis, anti-trans, dan beracun dihapus dari situs web seperti Stormfront, forum doxxing Kiwi Farms, dan papan pesan beracun 4chan. Oleh karena itu, tidak mengherankan jika model bahasa berdasarkan korpus tersebut dapat menghasilkan konten yang tidak pantas, berbicara tentang teori konspirasi, atau memunculkan ideologi yang meragukan.

C4 juga terdiri dari situs web yang menghosting derajat informasi pribadi, seperti database pendaftaran pemilih. Di latar belakang ini, beberapa badan pengatur di Italia, Kanada, Spanyol, dan Prancis telah meluncurkan penyelidikan terhadap ChatGPT OpenAI atas masalah privasi data, karena model tersebut dapat menyerap dan menghasilkan informasi sensitif.

Model bahasa besar yang mendukung AI chatbots tidak cerdas atau sadar, tidak peduli seberapa ajaib kelihatannya: mereka menulis dengan memprediksi aliran kata dan kalimat sebagai tanggapan atas permintaan, pertanyaan, dan instruksi dari pengguna atau bahkan bot lain. Ini melibatkan pengambilan data yang telah mereka latih, dan belajar darinya, untuk meniru apa yang akan ditulis seseorang.

Oleh karena itu, prediksi ini mencerminkan pola dalam jenis teks yang dihasilkan manusia, seperti postingan internet, artikel berita, puisi, dan novel, yang semuanya disedot ke dalam kumpulan data pelatihan yang sangat besar.

Sistem ini tidak dapat membedakan fakta dari fiksi, diberi data dalam jumlah besar yang diambil dari internet, dan dapat menghasilkan hasil yang tidak akurat serta memuntahkan informasi. 

Perusahaan yang membuat model bahasa besar mencoba menyaring konten yang tidak diinginkan, dalam tahap pelatihan dan inferensi, meskipun proses peninjauannya tidak sempurna. Yang juga membuat frustrasi adalah pembuat model AI komersial โ€“ seperti ChatGPT OpenAI, Bing baru Microsoft, atau obrolan Bard Google โ€“ tidak selalu mengungkapkan bagaimana mereka mengambil, menggosok, dan memproses data pelatihan mereka. 

Untungnya, kumpulan data C4 tidak seburuk yang lain: sebagian besar berisi materi yang diambil dari situs web yang lebih jinak yang mencakup jurnalisme, pengembangan perangkat lunak, obat-obatan, dan pembuatan konten. Sebagian besar teksnya berasal dari paten Google, Wikipedia, dan Scribd. The New York Times dan jurnal ilmiah dari penerbit akademik PLOS masing-masing menempati peringkat keempat dan kelima berdasarkan volume dalam kumpulan data. C4 juga menampilkan konten dari blog individu, situs web keagamaan, dan banyak lagi. 

Materi berhak cipta juga tersapu dalam kumpulan data, dengan simbol ยฉ muncul lebih dari 200 juta kali. Tidak jelas apakah perusahaan yang membuat produk AI berdasarkan data pelatihan yang berisi karya yang dilindungi bertanggung jawab atas pelanggaran kekayaan intelektual.

Stabilitas AI, alat teks-ke-gambar bangunan startup telah dituntut karena menggores gambar berhak cipta dari platform stok foto. OpenAI juga menghadapi gugatan yang menantang kumpulan kode publiknya yang dihosting di GitHub yang digunakan untuk membuat alat Copilot pemrogram AI-pasangan Microsoft.

Reddit saja mengumumkan pembaruan syarat dan ketentuan untuk layanan API-nya, yang mengharuskan perusahaan membayar lisensi untuk mengikis datanya. โ€œKami memperkenalkan titik akses premium baru untuk pihak ketiga yang membutuhkan kemampuan tambahan, batas penggunaan yang lebih tinggi, dan hak penggunaan yang lebih luas,โ€ katanya, Selasa.

C4 berisi konten dari internet hingga 2019, tetapi karena model lain yang lebih baru dibangun dengan praktik pengumpulan data yang serupa, penelitian ini menyoroti bagaimana chatbot AI dapat menghasilkan hasil yang bermasalah.

Pendaftaran telah meminta Allen Institute of AI untuk komentar lebih lanjut. ยฎ

Stempel Waktu:

Lebih dari Pendaftaran