Pekerja yang dipekerjakan melalui layanan crowdsource seperti Amazon Mechanical Turk menggunakan model bahasa besar untuk menyelesaikan tugas mereka – yang dapat berdampak negatif pada model AI di masa mendatang.
Data sangat penting untuk AI. Pengembang membutuhkan kumpulan data yang bersih dan berkualitas tinggi untuk membangun sistem pembelajaran mesin yang akurat dan andal. Namun, mengumpulkan data yang berharga dan terbaik bisa jadi membosankan. Perusahaan sering beralih ke platform pihak ketiga seperti Amazon Mechanical Turk untuk menginstruksikan kumpulan pekerja murah untuk melakukan tugas berulang – seperti memberi label objek, mendeskripsikan situasi, menyalin bagian, dan menganotasi teks.
Keluaran mereka dapat dibersihkan dan dimasukkan ke dalam model untuk melatihnya mereproduksi pekerjaan itu pada skala otomatis yang jauh lebih besar.
Model AI dengan demikian dibangun di atas punggung tenaga manusia: orang bekerja keras, memberikan banyak contoh pelatihan untuk sistem AI yang dapat digunakan perusahaan untuk menghasilkan miliaran dolar.
Tetapi percobaan yang dilakukan oleh para peneliti di École polytechnique fédérale de Lausanne (EPFL) di Swiss telah menyimpulkan bahwa para pekerja crowdsourced ini menggunakan sistem AI – seperti chatbot ChatGPT OpenAI – untuk melakukan pekerjaan sambilan secara online.
Melatih model pada keluarannya sendiri tidak disarankan. Kita bisa melihat model AI dilatih berdasarkan data yang dihasilkan bukan oleh manusia, tetapi oleh model AI lainnya – bahkan mungkin model yang sama. Itu dapat menyebabkan kualitas hasil yang buruk, lebih banyak bias, dan efek yang tidak diinginkan lainnya.
Percobaan
Para akademisi merekrut 44 budak Turk Mekanik untuk meringkas abstrak dari 16 makalah penelitian medis, dan memperkirakan bahwa 33 hingga 46 persen bagian teks yang dikirimkan oleh para pekerja dihasilkan menggunakan model bahasa besar. Pekerja kerumunan sering dibayar dengan upah rendah – menggunakan AI untuk menghasilkan respons secara otomatis memungkinkan mereka bekerja lebih cepat dan melakukan lebih banyak pekerjaan untuk meningkatkan gaji.
Tim Swiss melatih pengklasifikasi untuk memprediksi apakah kiriman dari Turker dibuat oleh manusia atau AI. Para akademisi juga mencatat penekanan tombol pekerja mereka untuk mendeteksi apakah para budak menyalin dan menempelkan teks ke platform, atau mengetik entri mereka sendiri. Selalu ada kemungkinan bahwa seseorang menggunakan chatbot dan kemudian secara manual mengetikkan output – tapi itu tidak mungkin, kami kira.
“Kami mengembangkan metodologi yang sangat spesifik yang bekerja sangat baik untuk mendeteksi teks sintetik dalam skenario kami,” Manoel Ribeiro, rekan penulis penelitian dan seorang mahasiswa PhD di EPFL, diceritakan Pendaftaran minggu ini.
“Sementara metode tradisional mencoba mendeteksi teks sintetik 'dalam konteks apa pun', pendekatan kami difokuskan untuk mendeteksi teks sintetik dalam skenario spesifik kami.”
Pengklasifikasi tidak sempurna dalam mengidentifikasi apakah seseorang menggunakan sistem AI atau menghasilkan karya mereka sendiri. Para akademisi menggabungkan output classifier mereka dengan data keystroke untuk lebih memastikan ketika seseorang menyalin-menempel dari bot atau membuat materi mereka sendiri.
Data manusia adalah standar emas, karena manusialah yang kita sayangi
“Kami berhasil memvalidasi hasil kami menggunakan data penekanan tombol yang juga kami kumpulkan dari MTurk,” kata Ribeiro kepada kami. “Misalnya, kami menemukan bahwa semua teks yang tidak disalin-tempel diklasifikasikan oleh kami sebagai 'asli', yang menunjukkan bahwa hanya ada sedikit positif palsu.”
Kode dan data yang digunakan untuk menjalankan pengujian dapat ditemukan di sini, di GitHub.
Ada alasan lain mengapa eksperimen ini tidak mungkin menjadi representasi yang benar-benar adil tentang berapa banyak pekerja yang benar-benar menggunakan AI untuk mengotomatiskan tugas crowdsource. Para penulis mencatat bahwa tugas meringkas teks sangat cocok untuk model bahasa besar dibandingkan dengan jenis pekerjaan lainnya – yang berarti bahwa hasilnya mungkin lebih condong ke jumlah pekerja yang lebih tinggi menggunakan alat seperti ChatGPT.
Kumpulan data mereka yang terdiri dari 46 tanggapan dari 44 pekerja juga kecil. Para pekerja dibayar $1 untuk setiap ringkasan teks, yang sekali lagi hanya dapat mendorong penggunaan AI.
Model bahasa besar akan menjadi lebih buruk jika mereka semakin dilatih tentang konten palsu yang dihasilkan oleh AI yang dikumpulkan dari platform crowdsource, menurut para peneliti. Pakaian seperti OpenAI merahasiakan persis bagaimana mereka melatih model terbaru mereka, dan mungkin tidak terlalu bergantung pada hal-hal seperti Mechanical Turk, jika memang ada. Yang mengatakan, banyak model lain mungkin bergantung pada pekerja manusia, yang pada gilirannya dapat menggunakan bot untuk menghasilkan data pelatihan, yang merupakan masalah.
Mechanical Turk, misalnya, dipasarkan sebagai penyedia "solusi pelabelan data untuk mendukung model pembelajaran mesin".
“Data manusia adalah standar emas, karena manusialah yang kita pedulikan, bukan model bahasa yang besar,” kata Riberio. “Saya tidak akan meminum obat yang hanya diuji dalam model biologis Drosophila,” ujarnya sebagai contoh.
Tanggapan yang dihasilkan oleh model AI saat ini biasanya cukup hambar atau sepele, dan tidak menangkap kompleksitas dan keragaman kreativitas manusia, kata para peneliti.
“Kadang-kadang apa yang ingin kita pelajari dengan data crowdsourced justru menunjukkan ketidaksempurnaan manusia,” Robert West, rekan penulis makalah dan asisten profesor di sekolah ilmu komputer dan komunikasi EPFL, memberi tahu kami.
Saat AI terus meningkat, kemungkinan pekerjaan crowdsourced akan berubah. Riberio berspekulasi bahwa model bahasa besar dapat menggantikan beberapa pekerja pada tugas tertentu. “Namun, secara paradoks, data manusia mungkin lebih berharga dari sebelumnya dan dengan demikian platform ini dapat menerapkan cara untuk mencegah penggunaan model bahasa yang besar dan memastikannya tetap menjadi sumber data manusia.”
Siapa tahu - mungkin manusia bahkan mungkin akan berkolaborasi dengan model bahasa besar untuk menghasilkan tanggapan juga, tambahnya. ®
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- Keuangan EVM. Antarmuka Terpadu untuk Keuangan Terdesentralisasi. Akses Di Sini.
- Grup Media Kuantum. IR/PR Diperkuat. Akses Di Sini.
- PlatoAiStream. Kecerdasan Data Web3. Pengetahuan Diperkuat. Akses Di Sini.
- Sumber: https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/
- :memiliki
- :adalah
- :bukan
- $NAIK
- 16
- 7
- a
- Sanggup
- Tentang Kami
- abstrak
- akademisi
- tepat
- menambahkan
- lagi
- AI
- Semua
- memungkinkan
- juga
- selalu
- Amazon
- an
- dan
- Lain
- Apa pun
- pendekatan
- ADALAH
- berdebat
- buatan
- kecerdasan buatan
- AS
- Asisten
- At
- penulis
- mengotomatisasikan
- Otomatis
- secara otomatis
- jauh
- BE
- karena
- makhluk
- prasangka
- miliaran
- hambar
- Bot
- bot
- membangun
- dibangun di
- tapi
- by
- CAN
- menangkap
- yang
- tertentu
- kesempatan
- perubahan
- ChatBot
- ChatGPT
- murah
- tergolong
- Penyelesaian
- CO
- Penulis Bersama
- kode
- berkolaborasi
- bergabung
- Komunikasi
- Perusahaan
- dibandingkan
- lengkap
- sama sekali
- kompleksitas
- komputer
- Disimpulkan
- dilakukan
- Konten
- konteks
- terus
- Perusahaan
- bisa
- kreativitas
- kritis
- orang banyak
- data
- kumpulan data
- dikembangkan
- pengembang
- bencana
- Keragaman
- do
- dolar
- setiap
- efek
- mendorong
- akhir
- memastikan
- diperkirakan
- Bahkan
- pERNAH
- persis
- contoh
- contoh
- eksperimen
- adil
- gadungan
- palsu
- lebih cepat
- Fed
- beberapa
- terfokus
- Untuk
- ditemukan
- dari
- masa depan
- menghasilkan
- dihasilkan
- mendapatkan
- GitHub
- Gold
- Gold Standard
- Memiliki
- he
- berat
- berkualitas tinggi
- lebih tinggi
- Seterpercayaapakah Olymp Trade? Kesimpulan
- Namun
- HTTPS
- manusia
- Manusia
- i
- mengidentifikasi
- if
- melaksanakan
- memperbaiki
- in
- Meningkatkan
- makin
- Intelijen
- ke
- adalah n
- IT
- NYA
- Jobs
- jpg
- Menjaga
- pelabelan
- tenaga kerja
- bahasa
- besar
- lebih besar
- Terbaru
- memimpin
- pengetahuan
- 'like'
- Mungkin
- login
- Rendah
- mesin
- Mesin belajar
- membuat
- berhasil
- manual
- banyak
- bahan
- Mungkin..
- makna
- mekanis
- medis
- penelitian medis
- obat
- Metodologi
- metode
- mungkin
- model
- model
- lebih
- banyak
- Perlu
- negatif
- jumlah
- objek
- of
- sering
- on
- ONE
- secara online
- hanya
- OpenAI
- or
- Lainnya
- kami
- keluaran
- sendiri
- dibayar
- kertas
- dokumen
- pihak
- Membayar
- Konsultan Ahli
- persen
- sempurna
- Melakukan
- mungkin
- Platform
- Platform
- plato
- Kecerdasan Data Plato
- Data Plato
- Cukup
- Kolam renang
- kekuasaan
- Berharga
- tepat
- meramalkan
- mencegah
- Masalah
- Diproduksi
- Profesor
- pemberi
- menyediakan
- kualitas
- nyata
- benar-benar
- alasan
- direkomendasikan
- dapat diandalkan
- mengandalkan
- sisa
- berulang-ulang
- menggantikan
- perwakilan
- penelitian
- peneliti
- tanggapan
- Hasil
- ROBERT
- Run
- s
- Tersebut
- sama
- Skala
- skenario
- Sekolah
- Ilmu
- Rahasia
- melihat
- Layanan
- situasi
- kecil
- Solusi
- beberapa
- Seseorang
- sumber
- tertentu
- standar
- mahasiswa
- Belajar
- Submissions
- disampaikan
- seperti itu
- Menyarankan
- meringkaskan
- RINGKASAN
- Swiss
- Swiss
- sintetis
- sistem
- sistem
- Mengambil
- tugas
- tugas
- tim
- uji
- diuji
- dari
- bahwa
- Grafik
- Masa depan
- mereka
- Mereka
- diri
- kemudian
- Sana.
- Ini
- mereka
- hal
- Ketiga
- ini
- minggu ini
- untuk
- hari ini
- terlalu
- alat
- terhadap
- tradisional
- Pelatihan VE
- terlatih
- Pelatihan
- mencoba
- MENGHIDUPKAN
- jenis
- mungkin
- tidak diinginkan
- us
- penggunaan
- menggunakan
- bekas
- kegunaan
- menggunakan
- biasanya
- MENGESAHKAN
- Berharga
- sangat
- melalui
- upah
- ingin
- adalah
- cara
- we
- minggu
- BAIK
- adalah
- Barat
- Apa
- ketika
- apakah
- yang
- sementara
- akan
- dengan
- Kerja
- bekerja
- pekerja
- lebih buruk
- zephyrnet.dll