David Holz, Pendiri Midjourney Generator Seni AI, Tentang Masa Depan Pencitraan

Diterbitkan Ulang Oleh Plato

Followers: 0

Wawancara Pada tahun 2008, David Holz mendirikan perusahaan perangkat keras yang disebut Leap Motion. Dia menjalankannya sampai tahun lalu ketika dia pergi untuk menciptakan Midjourey.

tengah perjalanan dalam bentuknya yang sekarang adalah jaringan sosial untuk membuat seni yang dihasilkan AI dari prompt teks - ketik kata atau frasa pada prompt input dan Anda akan menerima gambar yang menarik atau mungkin indah di layar setelah sekitar satu menit perhitungan. Ini mirip dalam beberapa hal dengan OpenAI DALL-E2.

Gambar langit dan awan di tengah perjalanan, menggunakan teks prompt "Semua keindahan yang tidak berguna ini." Sumber: dihasilkan oleh tengah perjalanan

Keduanya adalah hasil dari model AI besar yang dilatih pada sejumlah besar gambar. Namun Midjourney memiliki gaya tersendiri, seperti terlihat dari utas Twitter ini. Keduanya dalam beberapa hari terakhir telah memasuki pengujian beta publik (meskipun akses DALL-E 2 sedang diperluas secara perlahan).

Kemampuan untuk membuat gambar berkualitas tinggi dari model AI menggunakan input teks menjadi aktivitas populer tahun lalu setelah rilis OpenAI CLIP (Contrastive Language–Image Pre-training), yang dirancang untuk mengevaluasi seberapa baik gambar yang dihasilkan selaras dengan deskripsi teks. Setelah rilis, artis Ryan Murdock (@advadnoun di Twitter) menemukan bahwa prosesnya dapat dibalik – dengan memberikan input teks, Anda bisa mendapatkan output gambar dengan bantuan model AI lainnya.

Setelah itu, komunitas seni generatif memulai periode eksplorasi yang terburu-buru, menerbitkan kode Python untuk membuat gambar menggunakan berbagai model dan teknik.

“Beberapa tahun lalu, kami melihat ada area tertentu dari AI yang berkembang dengan cara yang sangat menarik,” jelas Holz dalam sebuah wawancara dengan Pendaftaran. “Salah satunya adalah kemampuan AI untuk memahami bahasa.”

Holz menunjuk pada perkembangan seperti transformer, model pembelajaran mendalam yang menginformasikan CLIP, dan model difusi, alternatif untuk GAN. “Yang benar-benar mengejutkan saya secara pribadi adalah difusi yang dipandu CLIP,” katanya, yang dikembangkan oleh Katherine Crawson (dikenal di Twitter sebagai @RiversHaveWings).

Bukan pria Florida yang distereotipkan

Holz dibesarkan di Florida dan memiliki bisnis desain di sekolah menengah di mana dia belajar matematika dan fisika. Dia sedang mengerjakan PhD matematika terapan dan mengambil cuti pada tahun 2008 untuk memulai Leap Motion. Tahun berikutnya, ia menghabiskan satu tahun sebagai peneliti mahasiswa di Institut Max Planck, diikuti oleh dua tahun di NASA Langley Research Center sebagai peneliti mahasiswa pascasarjana yang mengerjakan LiDAR, misi Mars, dan ilmu atmosfer.

"Saya seperti, mengapa saya mengerjakan semua ini?" dia menjelaskan. “Saya hanya ingin mengerjakan satu hal keren yang saya pedulikan.”

Jadi dia fokus pada Leap Motion, yang mengembangkan perangkat keras untuk melacak gerakan tangan dan menggunakannya untuk input perangkat. Dia menjalankan perusahaan selama dua belas tahun, dan ketika dia meninggalkannya mempekerjakan sekitar 100 orang.

Midjourney, katanya, cukup kecil sekarang. "Kami seperti sekitar 10 orang," jelasnya. “Kami mendanai sendiri. Kami tidak memiliki investor. Kami tidak benar-benar termotivasi secara finansial. Kami hanya di sini untuk mengerjakan hal-hal yang kami sukai dan bersenang-senang. Dan kami mengerjakan banyak proyek berbeda.”

Holz mengatakan aspek teknologi AI dan sejauh mana itu akan meningkat cukup mudah untuk diramalkan. “Tetapi konsekuensi manusia dari itu sangat sulit dibayangkan,” katanya. “Ada sesuatu di sini yang berada di persimpangan antara kemanusiaan dan teknologi. Untuk benar-benar mengetahui apa ini dan apa yang seharusnya, kita benar-benar perlu melakukan banyak eksperimen. ”

Jalan di depan

Sifat tidak pasti dari teknologi gambar AI terlihat dalam perbedaan antara alat seperti Midjourney dan aplikasi grafis open source yang dapat diunduh seperti Blender, atau aplikasi komersial yang diinstal secara lokal seperti Adobe Photoshop (sebelum menjadi layanan cloud).

Midjourney ada dalam konteks sosial. Front-endnya adalah layanan obrolan Discord. Pengguna baru masuk ke server Midjourney Discord dan kemudian dapat mengirimkan petunjuk teks untuk menghasilkan gambar bersama banyak pengguna lain di salah satu dari berbagai saluran pemula.

Gambar yang dihasilkan untuk semua pengguna di saluran itu muncul dalam waktu sekitar satu menit, yang membantu memperkuat gagasan tentang komunitas. Mereka yang memutuskan untuk meningkatkan ke langganan $10/bulan atau $30/bulan dapat mengirimkan teks ke bot Midjourney di aplikasi Discord sebagai Direct Message pribadi dan menerima gambar sebagai tanggapan tanpa interaksi bergulir layar dari pengguna lain di tempat umum saluran. Gambar yang dihasilkan tetap dapat dilihat secara publik secara default.

“Koleksi kupu-kupu mati yang hidup”@gambar_ai, @ai_curio, #pertengahan perjalanan pic.twitter.com/OFKRJtJq5w

— Thomas Claburn (@ThomasClaburn) Juni 10, 2022

Sebagai aplikasi sosial, Midjourney tunduk pada aturan tentang konten yang diizinkan – sesuatu yang tidak perlu dikhawatirkan oleh pengguna Blender atau aplikasi yang dipasang secara lokal. Persyaratan Layanan Midjourney menyatakan: “Tidak ada konten dewasa atau gore. Harap hindari membuat konten yang mengejutkan atau mengganggu secara visual. Kami akan memblokir beberapa input teks secara otomatis.”

DALL-E 2 tunduk pada batasan serupa meskipun lebih luas, seperti yang dijelaskan dalam Kebijakan Konten.

“Saya pikir jika kita hidup di dunia yang tidak memiliki media sosial, maka kita tidak perlu memiliki batasan apa pun,” kata Holz. “…Ketika Photoshop ditemukan, sebenarnya ada pers tentang itu, di mana itu seperti, 'oh, Anda bisa memalsukan apa pun dan itu sedikit menakutkan.' [Tapi sekarang], menjadi sensasional jauh lebih menguntungkan daripada sebelumnya.”

“Saat ini, siapa pun bisa menjadi sensasional, dan pada dasarnya mengambil untung dari itu, Anda tahu,” kata Holz. “Jadi apa yang dilakukannya adalah menciptakan pasar untuk drama dan sensasionalisme. Itu sebabnya saya pikir kita harus sedikit lebih berhati-hati, karena pada titik tertentu, apa yang akan dilakukan orang adalah mereka akan berkata, 'oke, saya bisa membuat gambar ini, apa hal yang paling dramatis dan menyinggung dan mengerikan yang saya lakukan? dapat membuat?'"

Tidak ada jawaban yang mudah

Holz mengizinkan bahwa ada hal-hal yang dapat dilakukan platform sosial untuk mengurangi masalah ini tetapi mengatakan tidak ada jawaban sederhana. “Sayangnya, tidak ada cara yang jelas untuk mengatasinya, kecuali sebagai masyarakat, untuk mengurangi sensasionalisme,” katanya. “Namun, kesan saya adalah tidak ada yang benar-benar mencoba mengubah platform sosial untuk mengurangi sensasionalisme, karena itu menghasilkan uang saat ini.”

Terlebih lagi, katanya, karena Midjourney bertujuan untuk menjadi ruang sosial bagi siapa saja yang berusia di atas 13 tahun, maka perlu ada aturan yang melarang konten ekstrem atau vulgar.

“Kami sebenarnya tidak ingin ada ruang yang tersegmentasi untuk orang yang suka membuat mayat atau suka foto telanjang,” jelas Holz. “Kami hanya tidak ingin berurusan dengan itu. Kami tidak berpikir bahwa kami memiliki kewajiban moral untuk melakukan itu pada tahap ini. Kami ingin satu ruang sosial yang indah bagi orang-orang untuk membuat sesuatu bersama-sama dan tidak tersinggung, pada dasarnya, dan merasa aman.”

Untuk itu, perusahaan memiliki sekitar 40 moderator yang mengawasi gambar yang dibuat pengguna.

Aspek sosial Midjourney baru-baru ini mulai meningkatkan kualitas gambar. Holz mengatakan insinyur perusahaan baru-baru ini memperkenalkan versi tiga dari perangkat lunaknya, yang untuk pertama kalinya memasukkan loop umpan balik berdasarkan aktivitas dan respons pengguna.

“Jika Anda melihat hal-hal v3, ada peningkatan besar ini,” katanya. “Ini jauh lebih baik dan kami tidak benar-benar memasukkan seni lagi ke dalamnya. Kami hanya mengambil data tentang gambar apa yang disukai pengguna, dan bagaimana mereka menggunakannya. Dan itu benar-benar membuatnya lebih baik.”

Ditanya tentang tumpukan teknologi Midjourney, Holz menolak. “Pada titik tertentu, kami mungkin akan melakukan siaran pers khusus tentang vendor mana yang kami gunakan,” katanya. “Apa yang bisa saya katakan adalah bahwa kami memiliki model AI besar ini dengan miliaran parameter. Mereka dilatih lebih dari miliaran gambar. ”

Holz mengatakan pengguna membuat jutaan dan jutaan gambar setiap hari, dan melakukannya menggunakan penyedia komputasi energi hijau – yang tidak benar-benar mempersempit bidang penyedia komputasi awan utama karena mereka semua mengklaim setidaknya netral karbon.

“Setiap gambar mengambil petaops,” katanya, sebuah istilah yang berarti 10^15 operasi per detik. “Jadi 1000-an triliun operasi. Saya tidak tahu persis apakah itu lima atau 10 atau 50. Tapi itu adalah 1000 triliunan operasi untuk membuat sebuah gambar. Ini mungkin yang paling mahal … jika Anda menyebut Midjourney, layanan – seperti Anda menyebutnya layanan atau produk – tanpa diragukan lagi, belum pernah ada layanan sebelumnya di mana orang biasa menggunakan komputasi sebanyak ini.”

Menjaga kami dalam makanan dan pakaian

Namun Midjourney tidak berada di jalur untuk meningkatkan pelanggan yang dibawa oleh layanan gratis ke tingkat berbayar dan kemudian menarik klien perusahaan yang membayar dengan baik sebelum go public atau diakuisisi.

“Kami tidak seperti startup yang mengumpulkan banyak uang dan kemudian tidak yakin apa bisnis atau produk mereka dan kehilangan uang untuk waktu yang lama,” kata Holz. “Kami seperti laboratorium penelitian yang didanai sendiri. Kita bisa kehilangan sejumlah uang. Kami tidak akan kehilangan 100 juta dolar dari uang orang lain. Sejujurnya, kami sudah untung, dan kami baik-baik saja.”

“Ini adalah model bisnis yang cukup sederhana, yaitu, apakah orang senang menggunakannya? Kemudian jika mereka melakukannya, mereka harus membayar biaya penggunaannya karena biaya mentahnya sebenarnya cukup mahal. Dan kemudian kami menambahkan persentase di atas itu, yang mudah-mudahan cukup untuk memberi makan dan menampung kami. Dan itulah yang sedang kami lakukan.”

Adapun untuk masa depan, penskalaan bisa menjadi masalah. Holz mengatakan Midjourney saat ini memiliki ratusan ribu orang yang menggunakan layanan ini, yang membutuhkan sekitar 10,000 server.

“Jika ada 10 juta orang yang mencoba menggunakan teknologi seperti ini,” katanya, “sebenarnya tidak ada cukup komputer. Tidak ada sejuta server gratis untuk melakukan AI di dunia. Saya pikir dunia akan kehabisan komputer sebelum teknologi benar-benar sampai ke semua orang yang ingin menggunakannya.”

Untuk apa orang menggunakannya? Nah, jika Anda masuk ke akun Midjourney, Anda dapat melihat apa yang dibuat orang melalui Umpan Komunitas halaman. Ini adalah aliran gambar yang menarik, sering kali mengejutkan.

Rumah awan kecil 2 #pertengahan perjalanan #airartcommunity pic.twitter.com/uL9WlJDMC6

— AI puitis (@generated_paint) Juli 24, 2022

“Mayoritas orang hanya bersenang-senang,” kata Holz. “Saya pikir itu hal terbesar karena sebenarnya ini bukan tentang seni, ini tentang imajinasi.”

Menjadi profesional

Tetapi untuk sekitar 30 persen pengguna, ini profesional. Holz mengatakan banyak seniman grafis menggunakan Midjourney sebagai bagian dari alur kerja pengembangan konsep mereka. Mereka menghasilkan beberapa variasi pada sebuah ide dan menyajikannya kepada klien untuk melihat arah mana yang harus mereka kejar.

“Para profesional menggunakannya untuk meningkatkan proses kreatif atau komunikasi mereka,” jelas Holz. "Dan kemudian banyak orang hanya bermain-main dengannya."

Mungkin 20 persen orang menggunakan Midjourney untuk apa yang digambarkan Holz sebagai terapi seni. Misalnya, membuat gambar anjing setelah anjingnya mati. "Mereka menggunakannya sebagai alat reflektif emosional dan intelektual," katanya. “Dan itu sangat keren.”

Holz tidak menyukai ide menggunakan Midjourney untuk membuat foto palsu. "Menggunakannya secara editorial untuk membuat foto palsu sangat berbahaya," katanya. “Tidak ada yang harus melakukan itu.” Tapi dia lebih terbuka untuk Midjourney sebagai sumber ilustrasi komersial, mencatat bahwa The Economist menjalankan grafik Midjourney di sampulnya pada bulan Juni.

“Kami baru-baru ini mengizinkan orang untuk menggunakannya secara komersial,” kata Holz. “Untuk waktu yang lama, itu hanya non-komersial. Dan salah satu hal yang kami lakukan adalah kami hanya menontonnya, apa yang dilakukan orang, dan kami mungkin memutuskan bahwa kami tidak nyaman dengan beberapa dari itu dan kemudian kami akan membuat aturan yang mengatakan Anda tidak bisa lagi menggunakannya hanya untuk hal-hal itu.”

Holz mengatakan dia melihat alat AI seperti Midjourney membuat seniman lebih baik dalam apa yang mereka lakukan daripada membuat semua orang menjadi seniman profesional. “Seorang seniman yang menggunakan alat ini selalu lebih baik daripada orang biasa yang menggunakan alat ini. Pada titik tertentu, mungkinkah ada tekanan untuk menggunakan alat-alat ini karena Anda dapat membuat hal-hal yang begitu hebat? Saya pikir ya. Tapi sekarang, saya rasa itu belum cukup. Tapi itu akan menjadi lebih baik secara mengejutkan selama dua tahun ke depan. ”

Midjourney dan DALL-E 2 telah menarik lebih banyak perhatian pada kekhawatiran lama tentang apakah model AI besar, yang dibuat dari karya di bawah hak cipta atau lisensi tertentu, dapat didamaikan dengan undang-undang hak cipta dan dengan perasaan pembuat konten sendiri tentang bagaimana karya mereka harus diperlakukan.

Amerika, tanah gugatan

Dalam hal keluaran Midjourney, yurisprudensi AS saat ini menolak kemungkinan pemberian hak cipta atas gambar yang dihasilkan AI. Pada bulan Februari, Dewan Peninjau Kantor Hak Cipta AS ditolak [PDF] permintaan kedua untuk memberikan hak cipta atas lanskap yang dihasilkan komputer berjudul “Pintu Masuk Terakhir ke Surga” karena dibuat tanpa hak cipta manusia.

Dalam sebuah wawancara telepon, Tyler Ochoa, seorang profesor di departemen Hukum di Universitas Santa Clara, mengatakan Pendaftaran, “Kantor Hak Cipta AS telah mengatakan bahwa [dapat diterima] jika seorang seniman menggunakan AI untuk membantu mereka dalam menciptakan sebuah karya selama ada beberapa kreativitas manusia yang terlibat. Jika Anda hanya mengetik teks, dan AI menghasilkan sebuah karya, itu jelas tidak tunduk pada perlindungan hak cipta berdasarkan undang-undang saat ini.”

Persyaratan Layanan Midjourney menyatakan "Anda memiliki semua Aset yang Anda buat dengan Layanan," tetapi perusahaan memerlukan lisensi hak cipta dari pengguna untuk mereproduksi konten yang dibuat dengan layanan - tindakan pencegahan yang diperlukan untuk meng-host gambar pengguna, meskipun terlihat meragukan bahwa membuat gambar Midjourney hanya melalui input teks memiliki hak cipta untuk disampaikan atau ditegakkan.

Itu mungkin tidak selalu demikian. Ochoa mengatakan bahwa dia yakin Steven Thaler, yang menciptakan “A Recent Entrance to Paradise,” mungkin ingin menantang penolakan Kantor Hak Cipta atas kepenulisan berbasis AI di pengadilan, meskipun itu belum terjadi.

Ada juga potensi masalah hak cipta yang timbul dari model AI yang dilatih tentang materi berhak cipta. “Pertanyaannya adalah apakah penggunaan gambar-gambar itu untuk pelatihan dan AI merupakan penggunaan yang wajar atau tidak,” kata Ochoa. “Dan saya pikir kasus penggunaan wajar dalam konteks itu cukup kuat.”

Selain itu, ada potensi tanggung jawab bagi mereka yang menghasilkan gambar yang secara substansial mirip dengan materi berhak cipta yang ada. “Jika set pelatihan Anda tidak cukup besar, apa yang dimuntahkan AI mungkin terlihat sangat mirip dengan apa yang dicernanya,” Ochoa menjelaskan, mencatat bahwa masalahnya adalah apakah itu pelanggaran hak cipta. “Secara tidak langsung, saya pikir sangat mungkin.”

Mengenai potensi risiko hukum bagi klien yang menggunakan aset yang dihasilkan Midjourney, Ochoa mengatakan menurutnya itu cukup rendah. Jika pelatihan model AI melanggar hak cipta, itu dilakukan sebelum klien terlibat, jelasnya. “Jadi, kecuali klien mensponsori pembuatan AI dalam beberapa cara, saya tidak berpikir [klien] akan bertanggung jawab atas pelanggaran set pelatihan,” katanya. “Dan itulah klaim terkuat di sini. Jadi saya pikir klien berada di tanah yang cukup kokoh dalam menggunakan gambar-gambar ini, dengan asumsi itu dilakukan dengan baik. ”

Holz mengakui bahwa situasi hukumnya kurang jelas.

“Pada saat ini, undang-undang tidak benar-benar memiliki apa-apa tentang hal semacam ini,” katanya. “Sepengetahuan saya, setiap model AI besar pada dasarnya dilatih tentang hal-hal yang ada di internet. Dan tidak apa-apa, sekarang. Tidak ada undang-undang khusus tentang itu. Mungkin di masa depan, akan ada. Tapi itu semacam area baru, seperti GPL adalah semacam hal hukum baru di sekitar kode pemrograman. Dan butuh waktu sekitar 20 atau 30 tahun untuk benar-benar menjadi sesuatu yang mulai dipahami oleh sistem hukum.”

Holz mengatakan dia percaya bahwa lebih penting saat ini untuk memahami bagaimana perasaan pihak-pihak terkait tentang teknologi ini. “Kami memiliki banyak artis yang menggunakan barang-barang kami, dan kami terus-menerus memeriksa mereka seperti, 'apakah Anda merasa baik-baik saja tentang ini?'” katanya.

Holz mengatakan jika ada cukup ketidakpuasan dengan status quo, mungkin ada baiknya memikirkan semacam struktur pembayaran di masa depan untuk seniman yang karyanya masuk ke model pelatihan. Tapi dia mengamati bahwa menilai sejauh mana kontribusi sulit saat ini. “Tantangan untuk hal seperti itu saat ini adalah tidak jelas apa yang membuat model AI bekerja dengan baik,” katanya. “Jika saya menaruh gambar seekor anjing di sana, seberapa banyak itu benar-benar membantu [model AI] membuat gambar anjing. Sebenarnya tidak jelas bagian mana dari data yang sebenarnya memberikan [model] kemampuan apa.”

Ditanya apa yang membuat Midjourney memiliki estetika yang khas, Holz mengatakan bahwa dia tidak dapat benar-benar membandingkan apa yang dilakukan Midjourney dengan DALL-E 2, tetapi secara umum peneliti AI cenderung mendapatkan apa yang mereka optimalkan. Jika mereka memasukkan kata “anjing” maka mereka mungkin menginginkan gambar seekor anjing.

“Bagi kami, ketika kami mengoptimalkannya, kami ingin itu terlihat cantik, dan cantik tidak selalu berarti realistis. … Kalaupun ada, sebenarnya kami memang bias sedikit menjauh dari foto. … Saya tahu teknologi ini dapat digunakan sebagai mesin super palsu yang dalam. Dan saya tidak berpikir dunia membutuhkan lebih banyak foto palsu. Saya tidak benar-benar ingin menjadi sumber foto palsu di dunia.”

“Saya sebenarnya agak merasa tidak nyaman jika barang-barang kami membuat sesuatu yang terlihat seperti foto. Dan itu tidak berarti bahwa kita tidak akan pernah membiarkan orang membuat hal-hal yang lebih realistis. Ada kasus penggunaan yang sah untuk mencoba membuat hal-hal yang terlihat lebih realistis. Namun, saya sangat yakin bahwa, secara default, ketika seseorang menggunakan sistem kami, itu tidak boleh membuat foto palsu.”

“Tapi saya pikir dunia membutuhkan lebih banyak keindahan. Pada dasarnya, jika saya membuat sesuatu yang memungkinkan orang untuk membuat hal-hal yang indah, dan ada hal-hal yang lebih indah di dunia, itulah yang saya inginkan secara default.” ®

Stempel Waktu: 1 Agustus 20221 Agustus 2022

Stempel Waktu: Oktober 15, 2022

David Holz, pendiri generator seni AI Midjourney, tentang masa depan pencitraan

Diterbitkan Ulang Oleh Plato

Bukan pria Florida yang distereotipkan

Jalan di depan

Tidak ada jawaban yang mudah

Menjaga kami dalam makanan dan pakaian

Menjadi profesional

Amerika, tanah gugatan

Lebih dari Pendaftaran

AI dan ML dapat menyelamatkan planet ini – atau menambahkan lebih banyak bahan bakar ke kebakaran iklim

Inggris memblokir China dari melisensikan teknologi visi robot Manchester Uni

Pengguna non-perusahaan? Microsoft dapat menyimpan obrolan Bing Anda

Asisten pemrograman AI berarti memikirkan kembali pendidikan ilmu komputer

Maukah Anda membayar $ 10 untuk membuat chatbot AI untuk berbicara lagi dengan orang yang dicintai yang sudah meninggal?

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun