OpenAI: Tidak mungkin melatih AI tingkat atas dan menghindari hak cipta

OpenAI: Tidak mungkin melatih AI tingkat atas dan menghindari hak cipta

OpenAI: Tidak mungkin melatih AI tingkat atas dan menghindari hak cipta PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

OpenAI mengatakan โ€œtidak mungkinโ€ membangun jaringan saraf tingkat atas yang memenuhi kebutuhan saat ini tanpa menggunakan karya berhak cipta milik orang lain. Laboratorium yang didukung Microsoft, yang yakin bahwa mereka secara sah mengambil konten tersebut untuk melatih modelnya, mengatakan bahwa penggunaan materi domain publik yang tidak memiliki hak cipta akan menghasilkan perangkat lunak AI di bawah standar.

Penegasan ini muncul pada saat dunia pembelajaran mesin sedang menghadapi hambatan yaitu undang-undang hak cipta. Baru minggu ini laporan IEEE menyimpulkan Midjourney dan DALL-E 3 OpenAI, dua layanan AI utama yang mengubah perintah teks menjadi gambar, dapat membuat ulang adegan berhak cipta dari film dan video game berdasarkan data pelatihan mereka.

Grafik belajar, yang ditulis bersama oleh Gary Marcus, seorang pakar dan kritikus AI, dan Reid Southen, seorang ilustrator digital, mendokumentasikan beberapa contoh โ€œkeluaran plagiaristikโ€ di mana OpenAI dan DALL-E 3 membuat versi adegan dari film, gambar terkenal yang secara substansial mirip. aktor, dan konten video game.

Marcus dan Southen mengatakan hampir pasti Midjourney dan OpenAI melatih model pembuatan gambar AI mereka masing-masing pada materi berhak cipta.

Apakah hal tersebut legal, dan apakah vendor AI atau pelanggannya berisiko dimintai pertanggungjawaban, masih menjadi pertanyaan yang kontroversial. Namun, temuan laporan tersebut dapat mendukung mereka yang menuntut Midjourney dan pembuat DALL-E OpenAI atas pelanggaran hak cipta.

Pengguna mungkin tidak mengetahui, saat mereka membuat gambar, apakah mereka melakukan pelanggaran

โ€œBaik OpenAI dan Midjourney sepenuhnya mampu menghasilkan materi yang tampaknya melanggar hak cipta dan merek dagang,โ€ tulis mereka. โ€œSistem ini tidak memberi tahu pengguna saat mereka melakukannya. Mereka tidak memberikan informasi apapun tentang asal muasal gambar yang mereka hasilkan. Pengguna mungkin tidak tahu, saat mereka membuat gambar, apakah mereka melanggar.โ€

Tidak ada perusahaan yang sepenuhnya mengungkapkan data pelatihan yang digunakan untuk membuat model AI mereka.

Bukan hanya adil seniman digital menantang perusahaan AI. New York Times baru-baru ini menggugat OpenAI karena model teks ChatGPT-nya akan mengeluarkan salinan artikel-artikel surat kabar yang berdinding berbayar hampir secara verbatim. Penulis buku telah mengajukan klaim serupa, seperti yang telah dilakukan pengembang perangkat lunak.

Sebelumnya penelitian telah mengindikasikan bahwa ChatGPT OpenAI dapat dibujuk untuk mereproduksi teks pelatihan. Dan mereka yang menggugat Microsoft dan GitHub berpendapat bahwa model asisten pengkodean Copilot akan mereproduksi kode kurang lebih kata demi kata.

Southen mengamati bahwa Midjourney menagih pelanggan yang membuat konten yang melanggar dan mengambil keuntungan dari pendapatan berlangganan. โ€œPengguna MJ [Midjourney] tidak perlu menjual gambarnya karena berpotensi terjadi pelanggaran hak cipta, MJ sudah mendapat untung dari pembuatannya,โ€ dia berpendapat, menggemakan argumen yang dibuat dalam laporan IEEE.

OpenAI juga membebankan biaya berlangganan dan karenanya mendapat keuntungan dengan cara yang sama. Baik OpenAI dan Midjourney tidak menanggapi permintaan komentar.

Namun, OpenAI pada hari Senin menerbitkan a posting blog menangani gugatan New York Times, yang menurut penjual AI tidak pantas. Yang mengherankan, laboratorium tersebut mengatakan bahwa jika jaringan sarafnya menghasilkan konten yang melanggar, itu adalah โ€œbugโ€.

Secara keseluruhan, para pemula saat ini berpendapat bahwa: Mereka secara aktif berkolaborasi dengan organisasi-organisasi berita; pelatihan tentang data berhak cipta memenuhi syarat untuk pembelaan penggunaan wajar berdasarkan undang-undang hak cipta; โ€œ'regurgitasi' adalah bug langka yang sedang kami upayakan untuk menghilangkannyaโ€; dan New York Times memiliki contoh reproduksi teks pilihan yang tidak mewakili perilaku umum.

Hukum akan memutuskan

Tyler Ochoa, seorang profesor di departemen hukum di Santa Clara University di California, menceritakan Pendaftaran bahwa meskipun temuan-temuan dalam laporan IEEE kemungkinan besar akan membantu pihak-pihak yang berperkara terkait klaim hak cipta, namun hal tersebut tidak seharusnya terjadi โ€“ karena menurut pendapatnya, penulis artikel tersebut telah salah mengartikan apa yang terjadi.

โ€œMereka menulis: 'Dapatkah model penghasil gambar dibujuk untuk menghasilkan keluaran plagiat berdasarkan materi hak cipta? โ€ฆ [Kami] menemukan bahwa jawabannya jelas ya, bahkan tanpa secara langsung meminta hasil plagiat.'โ€

Ochoa mempertanyakan kesimpulan tersebut, dengan alasan bahwa petunjuk yang diberikan oleh penulis laporan tersebut โ€œmenunjukkan bahwa mereka, memang, secara langsung meminta hasil plagiarisme. Setiap perintah menyebutkan judul film tertentu, menentukan rasio aspek, dan kecuali satu kasus, kata 'film' dan 'tangkapan layar' atau 'screencap'. (Satu-satunya pengecualian menjelaskan gambar yang ingin ditiru. )โ€

Prof hukum mengatakan masalah hukum hak cipta adalah menentukan siapa yang bertanggung jawab atas keluaran plagiarisme ini: Pencipta model AI atau orang yang meminta model AI untuk mereproduksi adegan populer.

โ€œModel AI generatif mampu menghasilkan keluaran asli, dan juga mampu mereproduksi adegan yang menyerupai adegan dari masukan berhak cipta saat diminta,โ€ jelas Ochoa. โ€œIni harus dianalisis sebagai kasus pelanggaran yang berkontribusi: Orang yang mendorong model tersebut adalah pelanggar utama, dan pembuat model hanya bertanggung jawab jika mereka mengetahui pelanggaran utama tersebut dan tidak mengambil langkah yang wajar untuk menghentikannya. dia."

Ochoa mengatakan model AI generatif lebih mungkin mereproduksi gambar tertentu ketika ada beberapa contoh gambar tersebut dalam kumpulan data pelatihannya.

โ€œDalam hal ini, sangat kecil kemungkinannya bahwa data pelatihan mencakup seluruh film; kemungkinan besar data pelatihan menyertakan gambar diam dari film yang didistribusikan sebagai gambar diam publisitas untuk film tersebut,โ€ katanya. โ€œGambar-gambar itu direproduksi beberapa kali dalam data pelatihan karena media didorong untuk mendistribusikan gambar-gambar itu untuk tujuan publisitas dan mereka melakukannya.

โ€œPada dasarnya tidak adil bagi pemilik hak cipta untuk mendorong penyebaran gambar diam untuk tujuan publisitas, dan kemudian mengeluh bahwa gambar tersebut ditiru oleh AI karena data pelatihan menyertakan banyak salinan dari gambar yang sama.โ€

Ochoa mengatakan ada langkah-langkah untuk membatasi perilaku seperti itu pada model AI. โ€œPertanyaannya adalah apakah mereka harus melakukan hal tersebut, ketika orang yang memasukkan perintah tersebut jelas ingin agar AI mereproduksi gambar yang dapat dikenali, dan studio film yang menghasilkan gambar diam asli jelas ingin agar gambar diam tersebut didistribusikan secara luas. ," dia berkata.

โ€œPertanyaan yang lebih baik adalah: Seberapa sering hal ini terjadi ketika perintah tidak menyebutkan film tertentu atau mendeskripsikan karakter atau adegan tertentu? Saya pikir peneliti yang tidak memihak kemungkinan besar akan menemukan bahwa jawabannya jarang (mungkin hampir tidak pernah).โ€

Meskipun demikian, konten berhak cipta tampaknya menjadi bahan bakar penting agar model ini dapat berfungsi dengan baik.

OpenAI membela diri terhadap Lords

Dalam menanggapi sebuah pertanyaan mengenai risiko dan peluang model AI oleh Komite Komunikasi dan Digital House of Lords Inggris, OpenAI menyajikan a pengajuan [PDF] memperingatkan bahwa modelnya tidak akan berfungsi tanpa pelatihan tentang konten berhak cipta.

โ€œKarena hak cipta saat ini mencakup hampir semua jenis ekspresi manusia โ€“ termasuk postingan blog, foto, postingan forum, potongan kode perangkat lunak, dan dokumen pemerintah โ€“ mustahil untuk melatih model AI terkemuka saat ini tanpa menggunakan materi yang dilindungi hak cipta,โ€ kata laboratorium super tersebut. .

โ€œMembatasi data pelatihan pada buku dan gambar domain publik yang dibuat lebih dari satu abad yang lalu mungkin akan menghasilkan eksperimen yang menarik, namun tidak akan menyediakan sistem AI yang memenuhi kebutuhan masyarakat saat ini.โ€

Bisnis AI mengatakan bahwa mereka yakin bahwa mereka mematuhi undang-undang hak cipta dan bahwa pelatihan tentang materi berhak cipta adalah sah, meskipun hal ini memungkinkan bahwa โ€œmasih ada pekerjaan yang harus dilakukan untuk mendukung dan memberdayakan pencipta.โ€

Sentimen tersebut, yang terdengar seperti pengakuan diplomatis atas keprihatinan etis mengenai kompensasi atas penggunaan wajar karya berhak cipta, harus dipertimbangkan sehubungan dengan klaim laporan IEEE bahwa, โ€œkami telah menemukan bukti bahwa seorang insinyur perangkat lunak senior di Midjourney ikut serta dalam sebuah percakapan pada bulan Februari 2022 tentang cara menghindari undang-undang hak cipta dengan โ€˜mencuciโ€™ data โ€˜melalui kodeks yang telah disesuaikan.'โ€

Marcus, salah satu penulis laporan IEEE, menyatakan keraguannya terhadap upaya OpenAI untuk mendapatkan lampu hijau peraturan di Inggris untuk praktik bisnisnya saat ini.

โ€œTerjemahan Kasar: Kami tidak akan menjadi kaya raya jika Anda tidak membiarkan kami mencuri, jadi tolong jangan jadikan mencuri sebagai kejahatan!โ€ tulisnya di media sosial pos. โ€œJangan paksa kami membayar lisensi biaya juga! Tentu saja Netflix mungkin membayar biaya lisensi miliaran per tahun, tapi we tidak harus! Lebih banyak uang untuk kita, moar!โ€

OpenAI telah menawarkan untuk mengganti kerugian pelanggan ChatGPT dan API perusahaan terhadap klaim hak cipta, meskipun tidak jika pelanggan atau pengguna akhir pelanggan โ€œmengetahui atau seharusnya mengetahui bahwa Output tersebut melanggar atau kemungkinan besar akan melanggarโ€ atau jika pelanggan mengabaikan fitur keselamatan, antara lain keterbatasan. Oleh karena itu, meminta DALL-E 3 untuk membuat ulang adegan film terkenal โ€“ yang pengguna harus tahu bahwa kemungkinan besar dilindungi hak cipta โ€“ tidak memenuhi syarat untuk mendapatkan ganti rugi.

Midjourney mengambil pendekatan sebaliknya, berjanji untuk memburu dan menuntut pelanggan yang terlibat dalam pelanggaran untuk memulihkan biaya hukum yang timbul dari klaim terkait.

โ€œJika Anda dengan sengaja melanggar kekayaan intelektual orang lain, dan hal itu merugikan kami, kami akan datang mencari Anda dan meminta uang tersebut dari Anda,โ€ kata Midjourney. Ketentuan Layanan negara. โ€œKami mungkin juga melakukan hal lain, seperti mencoba meminta pengadilan agar Anda membayar biaya hukum kami. Jangan lakukan itu.โ€ ยฎ

Stempel Waktu:

Lebih dari Pendaftaran