David Holz, pendiri generator seni AI Midjourney, tentang masa depan pencitraan PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

David Holz, pendiri generator seni AI Midjourney, tentang masa depan pencitraan

Wawancara Pada tahun 2008, David Holz mendirikan perusahaan perangkat keras yang disebut Leap Motion. Dia menjalankannya sampai tahun lalu ketika dia pergi untuk menciptakan Midjourey.

tengah perjalanan dalam bentuknya yang sekarang adalah jaringan sosial untuk membuat seni yang dihasilkan AI dari prompt teks - ketik kata atau frasa pada prompt input dan Anda akan menerima gambar yang menarik atau mungkin indah di layar setelah sekitar satu menit perhitungan. Ini mirip dalam beberapa hal dengan OpenAI DALL-E2.

Gambar langit dan awan di tengah perjalanan, menggunakan teks prompt "Semua keindahan yang tidak berguna ini." Sumber: dihasilkan oleh tengah perjalanan

Keduanya adalah hasil dari model AI besar yang dilatih pada sejumlah besar gambar. Namun Midjourney memiliki gaya tersendiri, seperti terlihat dari utas Twitter ini. Keduanya dalam beberapa hari terakhir telah memasuki pengujian beta publik (meskipun akses DALL-E 2 sedang diperluas secara perlahan).

Kemampuan untuk membuat gambar berkualitas tinggi dari model AI menggunakan input teks menjadi aktivitas populer tahun lalu setelah rilis OpenAI CLIP (Contrastive Languageโ€“Image Pre-training), yang dirancang untuk mengevaluasi seberapa baik gambar yang dihasilkan selaras dengan deskripsi teks. Setelah rilis, artis Ryan Murdock (@advadnoun di Twitter) menemukan bahwa prosesnya dapat dibalik โ€“ dengan memberikan input teks, Anda bisa mendapatkan output gambar dengan bantuan model AI lainnya.

Setelah itu, komunitas seni generatif memulai periode eksplorasi yang terburu-buru, menerbitkan kode Python untuk membuat gambar menggunakan berbagai model dan teknik.

โ€œBeberapa tahun lalu, kami melihat ada area tertentu dari AI yang berkembang dengan cara yang sangat menarik,โ€ jelas Holz dalam sebuah wawancara dengan Pendaftaran. โ€œSalah satunya adalah kemampuan AI untuk memahami bahasa.โ€

Holz menunjuk pada perkembangan seperti transformer, model pembelajaran mendalam yang menginformasikan CLIP, dan model difusi, alternatif untuk GAN. โ€œYang benar-benar mengejutkan saya secara pribadi adalah difusi yang dipandu CLIP,โ€ katanya, yang dikembangkan oleh Katherine Crawson (dikenal di Twitter sebagai @RiversHaveWings).

Bukan pria Florida yang distereotipkan

Holz dibesarkan di Florida dan memiliki bisnis desain di sekolah menengah di mana dia belajar matematika dan fisika. Dia sedang mengerjakan PhD matematika terapan dan mengambil cuti pada tahun 2008 untuk memulai Leap Motion. Tahun berikutnya, ia menghabiskan satu tahun sebagai peneliti mahasiswa di Institut Max Planck, diikuti oleh dua tahun di NASA Langley Research Center sebagai peneliti mahasiswa pascasarjana yang mengerjakan LiDAR, misi Mars, dan ilmu atmosfer.

"Saya seperti, mengapa saya mengerjakan semua ini?" dia menjelaskan. โ€œSaya hanya ingin mengerjakan satu hal keren yang saya pedulikan.โ€

Jadi dia fokus pada Leap Motion, yang mengembangkan perangkat keras untuk melacak gerakan tangan dan menggunakannya untuk input perangkat. Dia menjalankan perusahaan selama dua belas tahun, dan ketika dia meninggalkannya mempekerjakan sekitar 100 orang.

Midjourney, katanya, cukup kecil sekarang. "Kami seperti sekitar 10 orang," jelasnya. โ€œKami mendanai sendiri. Kami tidak memiliki investor. Kami tidak benar-benar termotivasi secara finansial. Kami hanya di sini untuk mengerjakan hal-hal yang kami sukai dan bersenang-senang. Dan kami mengerjakan banyak proyek berbeda.โ€

Holz mengatakan aspek teknologi AI dan sejauh mana itu akan meningkat cukup mudah untuk diramalkan. โ€œTetapi konsekuensi manusia dari itu sangat sulit dibayangkan,โ€ katanya. โ€œAda sesuatu di sini yang berada di persimpangan antara kemanusiaan dan teknologi. Untuk benar-benar mengetahui apa ini dan apa yang seharusnya, kita benar-benar perlu melakukan banyak eksperimen. โ€

Jalan di depan

Sifat tidak pasti dari teknologi gambar AI terlihat dalam perbedaan antara alat seperti Midjourney dan aplikasi grafis open source yang dapat diunduh seperti Blender, atau aplikasi komersial yang diinstal secara lokal seperti Adobe Photoshop (sebelum menjadi layanan cloud).

Midjourney ada dalam konteks sosial. Front-endnya adalah layanan obrolan Discord. Pengguna baru masuk ke server Midjourney Discord dan kemudian dapat mengirimkan petunjuk teks untuk menghasilkan gambar bersama banyak pengguna lain di salah satu dari berbagai saluran pemula.

Gambar yang dihasilkan untuk semua pengguna di saluran itu muncul dalam waktu sekitar satu menit, yang membantu memperkuat gagasan tentang komunitas. Mereka yang memutuskan untuk meningkatkan ke langganan $10/bulan atau $30/bulan dapat mengirimkan teks ke bot Midjourney di aplikasi Discord sebagai Direct Message pribadi dan menerima gambar sebagai tanggapan tanpa interaksi bergulir layar dari pengguna lain di tempat umum saluran. Gambar yang dihasilkan tetap dapat dilihat secara publik secara default.

Sebagai aplikasi sosial, Midjourney tunduk pada aturan tentang konten yang diizinkan โ€“ sesuatu yang tidak perlu dikhawatirkan oleh pengguna Blender atau aplikasi yang dipasang secara lokal. Persyaratan Layanan Midjourney menyatakan: โ€œTidak ada konten dewasa atau gore. Harap hindari membuat konten yang mengejutkan atau mengganggu secara visual. Kami akan memblokir beberapa input teks secara otomatis.โ€

DALL-E 2 tunduk pada batasan serupa meskipun lebih luas, seperti yang dijelaskan dalam Kebijakan Konten.

โ€œSaya pikir jika kita hidup di dunia yang tidak memiliki media sosial, maka kita tidak perlu memiliki batasan apa pun,โ€ kata Holz. โ€œโ€ฆKetika Photoshop ditemukan, sebenarnya ada pers tentang itu, di mana itu seperti, 'oh, Anda bisa memalsukan apa pun dan itu sedikit menakutkan.' [Tapi sekarang], menjadi sensasional jauh lebih menguntungkan daripada sebelumnya.โ€

โ€œSaat ini, siapa pun bisa menjadi sensasional, dan pada dasarnya mengambil untung dari itu, Anda tahu,โ€ kata Holz. โ€œJadi apa yang dilakukannya adalah menciptakan pasar untuk drama dan sensasionalisme. Itu sebabnya saya pikir kita harus sedikit lebih berhati-hati, karena pada titik tertentu, apa yang akan dilakukan orang adalah mereka akan berkata, 'oke, saya bisa membuat gambar ini, apa hal yang paling dramatis dan menyinggung dan mengerikan yang saya lakukan? dapat membuat?'"

Tidak ada jawaban yang mudah

Holz mengizinkan bahwa ada hal-hal yang dapat dilakukan platform sosial untuk mengurangi masalah ini tetapi mengatakan tidak ada jawaban sederhana. โ€œSayangnya, tidak ada cara yang jelas untuk mengatasinya, kecuali sebagai masyarakat, untuk mengurangi sensasionalisme,โ€ katanya. โ€œNamun, kesan saya adalah tidak ada yang benar-benar mencoba mengubah platform sosial untuk mengurangi sensasionalisme, karena itu menghasilkan uang saat ini.โ€

Terlebih lagi, katanya, karena Midjourney bertujuan untuk menjadi ruang sosial bagi siapa saja yang berusia di atas 13 tahun, maka perlu ada aturan yang melarang konten ekstrem atau vulgar.

โ€œKami sebenarnya tidak ingin ada ruang yang tersegmentasi untuk orang yang suka membuat mayat atau suka foto telanjang,โ€ jelas Holz. โ€œKami hanya tidak ingin berurusan dengan itu. Kami tidak berpikir bahwa kami memiliki kewajiban moral untuk melakukan itu pada tahap ini. Kami ingin satu ruang sosial yang indah bagi orang-orang untuk membuat sesuatu bersama-sama dan tidak tersinggung, pada dasarnya, dan merasa aman.โ€

Untuk itu, perusahaan memiliki sekitar 40 moderator yang mengawasi gambar yang dibuat pengguna.

Aspek sosial Midjourney baru-baru ini mulai meningkatkan kualitas gambar. Holz mengatakan insinyur perusahaan baru-baru ini memperkenalkan versi tiga dari perangkat lunaknya, yang untuk pertama kalinya memasukkan loop umpan balik berdasarkan aktivitas dan respons pengguna.

โ€œJika Anda melihat hal-hal v3, ada peningkatan besar ini,โ€ katanya. โ€œIni jauh lebih baik dan kami tidak benar-benar memasukkan seni lagi ke dalamnya. Kami hanya mengambil data tentang gambar apa yang disukai pengguna, dan bagaimana mereka menggunakannya. Dan itu benar-benar membuatnya lebih baik.โ€

Ditanya tentang tumpukan teknologi Midjourney, Holz menolak. โ€œPada titik tertentu, kami mungkin akan melakukan siaran pers khusus tentang vendor mana yang kami gunakan,โ€ katanya. โ€œApa yang bisa saya katakan adalah bahwa kami memiliki model AI besar ini dengan miliaran parameter. Mereka dilatih lebih dari miliaran gambar. โ€

Holz mengatakan pengguna membuat jutaan dan jutaan gambar setiap hari, dan melakukannya menggunakan penyedia komputasi energi hijau โ€“ yang tidak benar-benar mempersempit bidang penyedia komputasi awan utama karena mereka semua mengklaim setidaknya netral karbon.

โ€œSetiap gambar mengambil petaops,โ€ katanya, sebuah istilah yang berarti 10^15 operasi per detik. โ€œJadi 1000-an triliun operasi. Saya tidak tahu persis apakah itu lima atau 10 atau 50. Tapi itu adalah 1000 triliunan operasi untuk membuat sebuah gambar. Ini mungkin yang paling mahal โ€ฆ jika Anda menyebut Midjourney, layanan โ€“ seperti Anda menyebutnya layanan atau produk โ€“ tanpa diragukan lagi, belum pernah ada layanan sebelumnya di mana orang biasa menggunakan komputasi sebanyak ini.โ€

Menjaga kami dalam makanan dan pakaian

Namun Midjourney tidak berada di jalur untuk meningkatkan pelanggan yang dibawa oleh layanan gratis ke tingkat berbayar dan kemudian menarik klien perusahaan yang membayar dengan baik sebelum go public atau diakuisisi.

โ€œKami tidak seperti startup yang mengumpulkan banyak uang dan kemudian tidak yakin apa bisnis atau produk mereka dan kehilangan uang untuk waktu yang lama,โ€ kata Holz. โ€œKami seperti laboratorium penelitian yang didanai sendiri. Kita bisa kehilangan sejumlah uang. Kami tidak akan kehilangan 100 juta dolar dari uang orang lain. Sejujurnya, kami sudah untung, dan kami baik-baik saja.โ€

โ€œIni adalah model bisnis yang cukup sederhana, yaitu, apakah orang senang menggunakannya? Kemudian jika mereka melakukannya, mereka harus membayar biaya penggunaannya karena biaya mentahnya sebenarnya cukup mahal. Dan kemudian kami menambahkan persentase di atas itu, yang mudah-mudahan cukup untuk memberi makan dan menampung kami. Dan itulah yang sedang kami lakukan.โ€

Adapun untuk masa depan, penskalaan bisa menjadi masalah. Holz mengatakan Midjourney saat ini memiliki ratusan ribu orang yang menggunakan layanan ini, yang membutuhkan sekitar 10,000 server.

โ€œJika ada 10 juta orang yang mencoba menggunakan teknologi seperti ini,โ€ katanya, โ€œsebenarnya tidak ada cukup komputer. Tidak ada sejuta server gratis untuk melakukan AI di dunia. Saya pikir dunia akan kehabisan komputer sebelum teknologi benar-benar sampai ke semua orang yang ingin menggunakannya.โ€

Untuk apa orang menggunakannya? Nah, jika Anda masuk ke akun Midjourney, Anda dapat melihat apa yang dibuat orang melalui Umpan Komunitas halaman. Ini adalah aliran gambar yang menarik, sering kali mengejutkan.

โ€œMayoritas orang hanya bersenang-senang,โ€ kata Holz. โ€œSaya pikir itu hal terbesar karena sebenarnya ini bukan tentang seni, ini tentang imajinasi.โ€

Menjadi profesional

Tetapi untuk sekitar 30 persen pengguna, ini profesional. Holz mengatakan banyak seniman grafis menggunakan Midjourney sebagai bagian dari alur kerja pengembangan konsep mereka. Mereka menghasilkan beberapa variasi pada sebuah ide dan menyajikannya kepada klien untuk melihat arah mana yang harus mereka kejar.

โ€œPara profesional menggunakannya untuk meningkatkan proses kreatif atau komunikasi mereka,โ€ jelas Holz. "Dan kemudian banyak orang hanya bermain-main dengannya."

Mungkin 20 persen orang menggunakan Midjourney untuk apa yang digambarkan Holz sebagai terapi seni. Misalnya, membuat gambar anjing setelah anjingnya mati. "Mereka menggunakannya sebagai alat reflektif emosional dan intelektual," katanya. โ€œDan itu sangat keren.โ€

Holz tidak menyukai ide menggunakan Midjourney untuk membuat foto palsu. "Menggunakannya secara editorial untuk membuat foto palsu sangat berbahaya," katanya. โ€œTidak ada yang harus melakukan itu.โ€ Tapi dia lebih terbuka untuk Midjourney sebagai sumber ilustrasi komersial, mencatat bahwa The Economist menjalankan grafik Midjourney di sampulnya pada bulan Juni.

โ€œKami baru-baru ini mengizinkan orang untuk menggunakannya secara komersial,โ€ kata Holz. โ€œUntuk waktu yang lama, itu hanya non-komersial. Dan salah satu hal yang kami lakukan adalah kami hanya menontonnya, apa yang dilakukan orang, dan kami mungkin memutuskan bahwa kami tidak nyaman dengan beberapa dari itu dan kemudian kami akan membuat aturan yang mengatakan Anda tidak bisa lagi menggunakannya hanya untuk hal-hal itu.โ€

Holz mengatakan dia melihat alat AI seperti Midjourney membuat seniman lebih baik dalam apa yang mereka lakukan daripada membuat semua orang menjadi seniman profesional. โ€œSeorang seniman yang menggunakan alat ini selalu lebih baik daripada orang biasa yang menggunakan alat ini. Pada titik tertentu, mungkinkah ada tekanan untuk menggunakan alat-alat ini karena Anda dapat membuat hal-hal yang begitu hebat? Saya pikir ya. Tapi sekarang, saya rasa itu belum cukup. Tapi itu akan menjadi lebih baik secara mengejutkan selama dua tahun ke depan. โ€

Midjourney dan DALL-E 2 telah menarik lebih banyak perhatian pada kekhawatiran lama tentang apakah model AI besar, yang dibuat dari karya di bawah hak cipta atau lisensi tertentu, dapat didamaikan dengan undang-undang hak cipta dan dengan perasaan pembuat konten sendiri tentang bagaimana karya mereka harus diperlakukan.

Amerika, tanah gugatan

Dalam hal keluaran Midjourney, yurisprudensi AS saat ini menolak kemungkinan pemberian hak cipta atas gambar yang dihasilkan AI. Pada bulan Februari, Dewan Peninjau Kantor Hak Cipta AS ditolak [PDF] permintaan kedua untuk memberikan hak cipta atas lanskap yang dihasilkan komputer berjudul โ€œPintu Masuk Terakhir ke Surgaโ€ karena dibuat tanpa hak cipta manusia.

Dalam sebuah wawancara telepon, Tyler Ochoa, seorang profesor di departemen Hukum di Universitas Santa Clara, mengatakan Pendaftaran, โ€œKantor Hak Cipta AS telah mengatakan bahwa [dapat diterima] jika seorang seniman menggunakan AI untuk membantu mereka dalam menciptakan sebuah karya selama ada beberapa kreativitas manusia yang terlibat. Jika Anda hanya mengetik teks, dan AI menghasilkan sebuah karya, itu jelas tidak tunduk pada perlindungan hak cipta berdasarkan undang-undang saat ini.โ€

Persyaratan Layanan Midjourney menyatakan "Anda memiliki semua Aset yang Anda buat dengan Layanan," tetapi perusahaan memerlukan lisensi hak cipta dari pengguna untuk mereproduksi konten yang dibuat dengan layanan - tindakan pencegahan yang diperlukan untuk meng-host gambar pengguna, meskipun terlihat meragukan bahwa membuat gambar Midjourney hanya melalui input teks memiliki hak cipta untuk disampaikan atau ditegakkan.

Itu mungkin tidak selalu demikian. Ochoa mengatakan bahwa dia yakin Steven Thaler, yang menciptakan โ€œA Recent Entrance to Paradise,โ€ mungkin ingin menantang penolakan Kantor Hak Cipta atas kepenulisan berbasis AI di pengadilan, meskipun itu belum terjadi.

Ada juga potensi masalah hak cipta yang timbul dari model AI yang dilatih tentang materi berhak cipta. โ€œPertanyaannya adalah apakah penggunaan gambar-gambar itu untuk pelatihan dan AI merupakan penggunaan yang wajar atau tidak,โ€ kata Ochoa. โ€œDan saya pikir kasus penggunaan wajar dalam konteks itu cukup kuat.โ€

Selain itu, ada potensi tanggung jawab bagi mereka yang menghasilkan gambar yang secara substansial mirip dengan materi berhak cipta yang ada. โ€œJika set pelatihan Anda tidak cukup besar, apa yang dimuntahkan AI mungkin terlihat sangat mirip dengan apa yang dicernanya,โ€ Ochoa menjelaskan, mencatat bahwa masalahnya adalah apakah itu pelanggaran hak cipta. โ€œSecara tidak langsung, saya pikir sangat mungkin.โ€

Mengenai potensi risiko hukum bagi klien yang menggunakan aset yang dihasilkan Midjourney, Ochoa mengatakan menurutnya itu cukup rendah. Jika pelatihan model AI melanggar hak cipta, itu dilakukan sebelum klien terlibat, jelasnya. โ€œJadi, kecuali klien mensponsori pembuatan AI dalam beberapa cara, saya tidak berpikir [klien] akan bertanggung jawab atas pelanggaran set pelatihan,โ€ katanya. โ€œDan itulah klaim terkuat di sini. Jadi saya pikir klien berada di tanah yang cukup kokoh dalam menggunakan gambar-gambar ini, dengan asumsi itu dilakukan dengan baik. โ€

Holz mengakui bahwa situasi hukumnya kurang jelas.

โ€œPada saat ini, undang-undang tidak benar-benar memiliki apa-apa tentang hal semacam ini,โ€ katanya. โ€œSepengetahuan saya, setiap model AI besar pada dasarnya dilatih tentang hal-hal yang ada di internet. Dan tidak apa-apa, sekarang. Tidak ada undang-undang khusus tentang itu. Mungkin di masa depan, akan ada. Tapi itu semacam area baru, seperti GPL adalah semacam hal hukum baru di sekitar kode pemrograman. Dan butuh waktu sekitar 20 atau 30 tahun untuk benar-benar menjadi sesuatu yang mulai dipahami oleh sistem hukum.โ€

Holz mengatakan dia percaya bahwa lebih penting saat ini untuk memahami bagaimana perasaan pihak-pihak terkait tentang teknologi ini. โ€œKami memiliki banyak artis yang menggunakan barang-barang kami, dan kami terus-menerus memeriksa mereka seperti, 'apakah Anda merasa baik-baik saja tentang ini?'โ€ katanya.

Holz mengatakan jika ada cukup ketidakpuasan dengan status quo, mungkin ada baiknya memikirkan semacam struktur pembayaran di masa depan untuk seniman yang karyanya masuk ke model pelatihan. Tapi dia mengamati bahwa menilai sejauh mana kontribusi sulit saat ini. โ€œTantangan untuk hal seperti itu saat ini adalah tidak jelas apa yang membuat model AI bekerja dengan baik,โ€ katanya. โ€œJika saya menaruh gambar seekor anjing di sana, seberapa banyak itu benar-benar membantu [model AI] membuat gambar anjing. Sebenarnya tidak jelas bagian mana dari data yang sebenarnya memberikan [model] kemampuan apa.โ€

Ditanya apa yang membuat Midjourney memiliki estetika yang khas, Holz mengatakan bahwa dia tidak dapat benar-benar membandingkan apa yang dilakukan Midjourney dengan DALL-E 2, tetapi secara umum peneliti AI cenderung mendapatkan apa yang mereka optimalkan. Jika mereka memasukkan kata โ€œanjingโ€ maka mereka mungkin menginginkan gambar seekor anjing.

โ€œBagi kami, ketika kami mengoptimalkannya, kami ingin itu terlihat cantik, dan cantik tidak selalu berarti realistis. โ€ฆ Kalaupun ada, sebenarnya kami memang bias sedikit menjauh dari foto. โ€ฆ Saya tahu teknologi ini dapat digunakan sebagai mesin super palsu yang dalam. Dan saya tidak berpikir dunia membutuhkan lebih banyak foto palsu. Saya tidak benar-benar ingin menjadi sumber foto palsu di dunia.โ€

โ€œSaya sebenarnya agak merasa tidak nyaman jika barang-barang kami membuat sesuatu yang terlihat seperti foto. Dan itu tidak berarti bahwa kita tidak akan pernah membiarkan orang membuat hal-hal yang lebih realistis. Ada kasus penggunaan yang sah untuk mencoba membuat hal-hal yang terlihat lebih realistis. Namun, saya sangat yakin bahwa, secara default, ketika seseorang menggunakan sistem kami, itu tidak boleh membuat foto palsu.โ€

โ€œTapi saya pikir dunia membutuhkan lebih banyak keindahan. Pada dasarnya, jika saya membuat sesuatu yang memungkinkan orang untuk membuat hal-hal yang indah, dan ada hal-hal yang lebih indah di dunia, itulah yang saya inginkan secara default.โ€ ยฎ

Stempel Waktu:

Lebih dari Pendaftaran