AI sanat yaratıcısı Midjourney'in kurucusu David Holz, PlatoBlockchain Veri Zekasını görüntülemenin geleceği hakkında. Dikey Arama. Ai.

AI sanat üreticisi Midjourney'in kurucusu David Holz, görüntülemenin geleceği hakkında

görüşme 2008'de David Holz, Leap Motion adlı bir donanım çevre birimi firmasının kurucu ortağı oldu. Geçen sene Midjourey'i yaratmak için ayrıldığı zamana kadar yönetti.

yolculuk Mevcut haliyle, bir metin isteminden AI tarafından oluşturulan sanat oluşturmak için bir sosyal ağdır - giriş istemine bir kelime veya cümle yazın ve yaklaşık bir dakikalık hesaplamadan sonra ekranda ilginç veya belki de harika bir görüntü alacaksınız. Bazı açılardan OpenAI'lere benzer. DALL-E2.

"Bütün bu işe yaramaz güzellik" metin istemini kullanarak gökyüzünün ve bulutların yolculuk ortası görüntüsü. Kaynak: tarafından oluşturuldu yolculuk

Her ikisi de çok sayıda görüntü üzerinde eğitilmiş büyük AI modellerinin sonucudur. Ancak Midjourney'in kendine özgü bir tarzı vardır. bu Twitter dizisi. Her ikisi de son günlerde genel beta testine girdi (ancak DALL-E 2 erişimi yavaş yavaş genişletiliyor).

Metin girişi kullanarak AI modellerinden yüksek kaliteli görüntüler oluşturma yeteneği, OpenAI'nin piyasaya sürülmesinin ardından geçen yıl popüler bir etkinlik haline geldi. CLIP (Karşıtlıklı Dil–Görüntü Ön Eğitimi), oluşturulan görüntülerin metin açıklamalarıyla ne kadar iyi hizalandığını değerlendirmek için tasarlanmıştır. Serbest bırakılmasının ardından, sanatçı Ryan Murdock (@advadnoun on Twitter) sürecin tersine çevrilebileceğini keşfetti - metin girişi sağlayarak, diğer AI modellerinin yardımıyla görüntü çıktısı alabilirsiniz.

Bundan sonra, üretken sanat topluluğu, çeşitli modeller ve teknikler kullanarak görüntüler oluşturmak için Python kodunu yayınlayarak ateşli bir keşif dönemine girdi.

Holz, "Geçen yıl bir ara, AI'nın gerçekten ilginç şekillerde ilerleyen belirli alanları olduğunu gördük" dedi. Kayıt. “Bunlardan biri yapay zekanın dili anlama yeteneğiydi.”

Holz, CLIP'i bilgilendiren bir derin öğrenme modeli olan transformatörler ve GAN'lara alternatif olan difüzyon modelleri gibi gelişmelere dikkat çekti. Katherine Crawson (Twitter'da @RiversHaveWings olarak bilinir) tarafından geliştirilen "Kişisel olarak gerçekten gözüme çarpan CLIP güdümlü yayılma oldu" dedi.

Basmakalıp Florida adamı değil

Holz Florida'da büyüdü ve lisede matematik ve fizik okuduğu bir tasarım işine sahipti. Uygulamalı matematik doktorası üzerinde çalışıyordu ve 2008'de Leap Motion'ı başlatmak için izin aldı. Ertesi yıl, bir yılını Max Planck Enstitüsü'nde öğrenci araştırmacı olarak, ardından iki yılını NASA Langley Araştırma Merkezi'nde LiDAR, Mars misyonları ve atmosfer bilimi üzerinde çalışan bir lisansüstü öğrenci araştırmacısı olarak geçirdi.

“Neden bütün bu şeyler üzerinde çalışıyorum?” dedim. açıkladı. "Sadece önemsediğim harika bir şey üzerinde çalışmak istiyorum."

Bu nedenle, el hareketini izlemek ve onu cihaz girişi için kullanmak için bir donanım cihazı geliştiren Leap Motion'a odaklandı. Şirketi on iki yıl yönetti ve ayrıldığında yaklaşık 100 kişiyi istihdam etti.

Midjourney, dedi, şu anda oldukça küçük. "Yaklaşık 10 kişiyiz," diye açıkladı. “Biz kendi kendimizi finanse ediyoruz. Yatırımcımız yok. Gerçekten maddi olarak motive değiliz. Biz sadece tutkulu olduğumuz şeyler üzerinde çalışmak ve eğlenmek için buradayız. Ve birçok farklı proje üzerinde çalışıyorduk.”

Holz, AI'nın teknolojik yönünü ve ne ölçüde gelişeceğini öngörmenin oldukça kolay olduğunu söyledi. “Ama bunun insani sonuçlarını hayal etmek çok zor” dedi. “Burada insanlık ve teknolojinin kesiştiği noktada bir şey var. Bunun gerçekten ne olduğunu ve ne olması gerektiğini anlamak için gerçekten çok fazla deney yapmamız gerekiyor.”

Öndeki yol

AI görüntü teknolojisinin kararsız doğası, Midjourney gibi araçlar ile Blender gibi indirilebilir bir açık kaynaklı grafik uygulaması veya Adobe Photoshop gibi yerel olarak yüklenmiş bir ticari uygulama (bir bulut hizmeti haline gelmeden önce) arasındaki farkta belirgindir.

Midjourney sosyal bir bağlamda var olur. Ön ucu, sohbet servisi Discord'dur. Yeni kullanıcılar Discord'un Midjourney sunucusuna giriş yapar ve daha sonra çeşitli acemi kanallarından herhangi birinde çok sayıda diğer kullanıcının yanında görüntü oluşturmak için metin istemleri gönderebilir.

Bu kanaldaki tüm kullanıcılar için ortaya çıkan görüntüler, yaklaşık bir dakika içinde ortaya çıkıyor ve bu da topluluk kavramını güçlendirmeye yardımcı oluyor. Aylık 10 ABD Doları veya 30 ABD Doları tutarında bir aboneliğe yükseltmeye karar verenler, Discord uygulamasındaki Midjourney botuna özel bir Direkt Mesaj olarak metin gönderebilir ve halka açık bir ortamda diğer kullanıcıların ekran kaydırmalı etkileşim şelalesi olmadan yanıt olarak görüntüler alabilirler. kanal. Ancak oluşturulan görüntüler varsayılan olarak herkese açık olarak görüntülenebilir durumda kalır.

Bir sosyal uygulama olarak Midjourney, izin verilen içerikle ilgili kurallara tabidir - Blender veya diğer yerel olarak yüklenmiş uygulamaların kullanıcılarının endişelenmesine gerek olmayan bir şey. Midjourney'in Hizmet Şartları şunları belirtir: “Yetişkinlere uygun içerik veya kan yok. Lütfen görsel olarak şok edici veya rahatsız edici içerik yapmaktan kaçının. Bazı metin girişlerini otomatik olarak engelleyeceğiz.”

DALL-E 2, kendi bölümünde açıklandığı gibi benzer olsa da daha kapsamlı sınırlamalara tabidir. İçerik Politikası.

Holz, “Bence sosyal medyanın olmadığı bir dünyada yaşıyor olsaydık, o zaman herhangi bir kısıtlamaya ihtiyacımız olmazdı” dedi. “…Photoshop icat edildiğinde, aslında bununla ilgili bir basın vardı, 'oh, her şeyi taklit edebilirsin ve bu biraz korkutucu' gibi. [Ama şimdi] sansasyonel olmak eskisinden çok daha kazançlı.”

Holz, "Günümüzde herkes sansasyonel olabilir ve temelde bundan faydalanabilir, bilirsiniz," dedi. “Ve böylece drama ve sansasyon için bir pazar yaratıyor. Bu yüzden biraz daha dikkatli olmamız gerektiğini düşünüyorum, çünkü bir noktada insanların yapacakları şey, 'tamam, bunun resimlerini yapabilirim, gördüğüm en dramatik, saldırgan ve korkunç şey nedir? yapabilir?'"

Kolay cevaplar yok

Holz, sosyal platformların bu sorunları azaltmak için yapabileceği şeyler olduğuna izin veriyor, ancak basit cevaplar olmadığını söylüyor. “Ne yazık ki, sansasyonizmi daha az ödüllendirmek dışında bir toplum olarak bunu ele almanın net bir yolu yok” dedi. "Ancak benim izlenimim şu ki, hiç kimse sansasyonu azaltmak için sosyal platformları değiştirmeye çalışmıyor, çünkü bu onlara şu anda para kazandırıyor."

Dahası, Midjourney 13 yaşın üzerindeki herkes için sosyal bir alan olmayı amaçladığından, aşırı veya grafik içeriğe karşı kurallara sahip olmak gerektiğini söyledi.

Holz, “Ceset yapmayı seven veya çıplak fotoğrafları seven insanlar için gerçekten bölümlere ayrılmış alanlara sahip olmak istemiyoruz” dedi. "Sadece bununla uğraşmak istemiyoruz. Bu aşamada bunu yapmak için ahlaki bir yükümlülüğümüz olduğunu düşünmüyoruz. İnsanların birlikte bir şeyler yapabilecekleri, temelde gücenmeyecekleri ve kendilerini güvende hissedebilecekleri güzel bir sosyal alan istiyoruz.”

Bu amaçla şirketin, kullanıcıların oluşturduğu görselleri izleyen yaklaşık 40 moderatörü var.

Midjourney'in sosyal yönü son zamanlarda görüntü kalitesini artırmaya başladı. Holz, şirket mühendislerinin kısa süre önce yazılımının üçüncü sürümünü piyasaya sürdüklerini ve bunun ilk kez kullanıcı etkinliğine ve yanıtına dayalı bir geri bildirim döngüsü içerdiğini söyledi.

"V3 konularına bakarsanız, çok büyük bir gelişme var," dedi. “Akıllara durgunluk verecek şekilde daha iyi ve aslında içine daha fazla sanat koymadık. Kullanıcıların hangi görselleri beğendiği ve onu nasıl kullandıklarıyla ilgili verileri aldık. Ve bu aslında onu daha iyi yaptı.”

Midjourney teknoloji yığını hakkında soru sorulduğunda, Holz itiraz etti. “Bir noktada, muhtemelen özellikle hangi satıcıları kullandığımız konusunda bir basın açıklaması yapacağız” dedi. “Milyarlarca parametreye sahip bu büyük AI modellerine sahip olduğumuzu söyleyebilirim. Milyarlarca görüntü üzerinde eğitildiler.”

Holz, kullanıcıların her gün milyonlarca ve milyonlarca görüntü oluşturduğunu ve bunu yeşil enerji hesaplama sağlayıcılarını kullanarak yaptığını söylüyor; bu, hepsi en azından karbon nötr olduğunu iddia ettikleri için büyük bulut bilişim sağlayıcılarının alanını gerçekten daraltmıyor.

Saniyede 10^15 işlem anlamına gelen bir terimle "Her görüntü petaops alıyor" dedi. “Yani 1000 trilyonlarca operasyon. Tam olarak beş mi, 10 mu, yoksa 50 mi bilmiyorum. Ama bir görüntü oluşturmak için 1000'lerce trilyonlarca işlem var. Muhtemelen en pahalısı… Midjourney'i bir hizmet olarak adlandırırsanız – buna hizmet veya ürün diyeceğiniz gibi – şüphesiz, daha önce sıradan bir kişinin bu kadar çok bilgi işlem kullandığı bir hizmet olmamıştı.”

Bizi yiyecek ve giysi içinde tutmak

Yine de Midjourney, ücretsiz bir hizmetin ücretli katmanlara getirdiği müşterilere ek satış yapma ve daha sonra halka açılmadan veya satın alınmadan önce iyi ödeme yapan kurumsal müşterileri çekme yolunda değil.

Holz, “Biz çok para toplayan ve sonra işinin veya ürününün ne olduğundan emin olmayan ve uzun süre para kaybeden bir girişim gibi değiliz” dedi. “Kendi kendini finanse eden bir araştırma laboratuvarı gibiyiz. Bir miktar para kaybedebiliriz. Başkasının kaybedecek 100 milyon dolarlık parası yok. Dürüst olmak gerekirse, zaten kârlıyız ve iyiyiz.”

“Bu oldukça basit bir iş modeli, yani insanlar onu kullanmaktan keyif alıyor mu? O zaman yaparlarsa, onu kullanmanın maliyetini ödemek zorundalar çünkü ham maliyet aslında oldukça pahalıdır. Sonra bunun üzerine bir yüzde ekleriz, bu da bizi beslemek ve barındırmak için yeterli olduğunu umarız. İşte biz de bunu yapıyoruz.”

Geleceğe gelince, ölçekleme bir sorun olabilir. Holz, Midjourney'in şu anda 10,000 sunucu gibi bir şey gerektiren hizmeti kullanan yüz binlerce kişiye sahip olduğunu söyledi.

"Teknolojiyi bu şekilde kullanmaya çalışan 10 milyon insan olsaydı," dedi, "aslında yeterli bilgisayar yok. Dünyada yapay zeka yapacak bir milyon ücretsiz sunucu yok. Teknoloji, onu kullanmak isteyen herkese ulaşmadan önce dünyanın bilgisayarlarının tükeneceğini düşünüyorum.”

İnsanlar ne için kullanıyor? Bir Midjourney hesabında oturum açtıysanız, insanların Topluluk Feed'i sayfa. Bu, ilginç, genellikle şaşırtıcı iyi görüntülerin sürekli akışıdır.

Holz, "İnsanların çoğu sadece eğleniyor" dedi. “Bence en büyük şey bu çünkü aslında sanatla ilgili değil, hayal gücüyle ilgili.”

profesyonel olmak

Ancak kullanıcıların yaklaşık yüzde 30'u için profesyonel. Holz, birçok grafik sanatçısının konsept geliştirme iş akışlarının bir parçası olarak Midjourney'i kullandığını söyledi. Bir fikir üzerinde birkaç varyasyon üretirler ve hangi yöne gitmeleri gerektiğini görmek için müşterilere sunarlar.

Holz, "Profesyoneller bunu yaratıcı veya iletişim süreçlerini güçlendirmek için kullanıyorlar" dedi. “Ve sonra birçok insan onunla oynuyordu.”

Belki de insanların yüzde 20'si Holz'un sanat terapisi olarak tanımladığı şey için Midjourney'i kullanıyor. Örneğin, köpekleri öldükten sonra köpek resimleri oluşturmak. “Bunu duygusal ve entelektüel bir yansıtma aracı olarak kullanıyorlar” dedi. “Ve bu gerçekten harika.”

Holz, Midjourney'i sahte fotoğraflar oluşturmak için kullanma fikrinden hoşlanmaz. "Sahte fotoğraflar oluşturmak için editoryal olarak kullanmak son derece tehlikeli" dedi. "Kimse bunu yapmamalı." Ancak ticari bir örnekleme kaynağı olarak Midjourney'e daha açık olduğunu belirterek, The Economist bir Midjourney grafiği yayınladı Haziran ayında kapağında.

Holz, "Son zamanlarda insanların ticari olarak kullanmasına izin verdik" dedi. “Uzun bir süre sadece ticari amaçlı değildi. Ve yaptığımız şeylerden biri, sadece izliyoruz, insanların ne yaptığını, ve bunlardan bazılarıyla rahat olmadığımıza karar verebiliriz ve sonra size şunu söyleyen bir kural koyacağız. artık sadece bu şeyler için kullanamaz.”

Holz, Midjourney gibi yapay zeka araçlarının, herkesi profesyonel bir sanatçı yapmak yerine sanatçıları yaptıkları işte daha iyi hale getirdiğini gördüğünü söyledi. “Bu araçları kullanan bir sanatçı, bu araçları kullanan sıradan bir kişiden her zaman daha iyidir. Bir noktada, bu kadar harika şeyler yapabildiğiniz için bu araçları kullanma baskısı olabilir mi? Bence evet. Ama şu anda, henüz tam olarak orada olduğunu sanmıyorum. Ancak önümüzdeki iki yıl içinde şok edici bir şekilde daha iyi olacak.”

Midjourney ve DALL-E 2, telif hakkı veya belirli lisanslar altındaki çalışmalardan oluşturulan büyük AI modellerinin telif hakkı yasasıyla ve içerik oluşturucuların çalışmalarının nasıl ele alınması gerektiğine dair kendi anlayışlarıyla uzlaştırılıp uzlaştırılamayacağı konusunda uzun süredir devam eden endişelere daha fazla dikkat çekti.

Amerika, dava ülkesi

Midjourney çıktısı açısından, mevcut ABD içtihatları, AI tarafından oluşturulan görüntülere telif hakkı verilmesi olasılığını reddediyor. Şubat ayında, ABD Telif Hakkı Bürosu İnceleme Kurulu reddetti [PDF] "Cennete Yakın Zamanda Giriş" başlıklı bilgisayar tarafından oluşturulan bir manzaraya telif hakkı verilmesi için ikinci bir talep, çünkü insan yazarlığı olmadan yaratılmıştır.

Santa Clara Üniversitesi Hukuk bölümünde profesör olan Tyler Ochoa, bir telefon görüşmesinde şunları söyledi: Kayıt, “ABD Telif Hakkı Bürosu, bir sanatçının yapay zekayı bir eser yaratmalarına yardımcı olmak için kullanmasının [kabul edilebilir] olduğunu, sürece dahil olan bir miktar insan yaratıcılığı olduğunu söyledi. Yalnızca siz metin yazarsanız ve yapay zeka bir çalışma oluşturursa, bu, mevcut yasalara göre telif hakkı korumasına tabi değildir.”

Midjourney'in Hizmet Şartları, "Hizmetler ile oluşturduğunuz tüm Varlıkların sahibi olduğunuzu" belirtir, ancak şirket, hizmetle oluşturulan içeriği çoğaltmak için kullanıcılardan bir telif hakkı lisansı talep eder - bu, kullanıcıların resimlerini barındırmak için gerekli bir önlemdir, şüpheli görünseler bile Midjourney görüntülerini yalnızca metin girişi yoluyla yapmak, iletmek veya uygulamak için herhangi bir telif hakkına sahiptir.

Bu her zaman böyle olmayabilir. Ochoa, “Cennete Yakın Zamanda Giriş”i yaratan Steven Thaler'ın, Telif Hakkı Bürosu'nun AI tabanlı yazarlığı mahkemede reddetmesine itiraz etmek isteyebileceğine inandığını söyledi, ancak bu henüz gerçekleşmedi.

Telif hakkıyla korunan materyal üzerinde eğitilmiş AI modellerinden kaynaklanan potansiyel telif hakkı endişeleri de vardır. Ochoa, "Soru, bu görüntüleri eğitim ve AI için kullanmanın adil bir kullanım olup olmayacağıdır" dedi. "Ve bence bu bağlamda adil kullanım durumu oldukça güçlü."

Ek olarak, mevcut telif hakkıyla korunan materyale büyük ölçüde benzeyen görüntüler oluşturanlar için potansiyel sorumluluk vardır. Ochoa, "Eğitim setiniz yeterince büyük değilse, AI'nın tükürdükleri, yuttuklarına çok fazla benzeyebilir," diye açıkladı Ochoa, o zaman sorunun bunun bir telif hakkı ihlali olup olmadığı olduğunu belirtti. “Dolaylı olarak, bunun çok muhtemel olabileceğini düşünüyorum.”

Ochoa, Midjourney tarafından oluşturulan varlıkları kullanan müşterilere yönelik potansiyel yasal riske gelince, bunun oldukça düşük olduğunu düşündüğünü söyledi. Bir AI modelinin eğitimi telif hakkını ihlal ederse, bu müşteri dahil olmadan önce yapıldı, diye açıkladı. “Yani müşteri bir şekilde AI'nın oluşturulmasına sponsor olmadıkça, [müşterinin] eğitim setinin herhangi bir ihlalinden sorumlu olacağını düşünmüyorum” dedi. “Ve buradaki en güçlü iddia da bu. Bu yüzden, iyi yapıldığını varsayarsak, müşterilerin bu görüntüleri kullanma konusunda oldukça sağlam bir zeminde olduğunu düşünüyorum.”

Holz, yasal durumun netlikten yoksun olduğunu kabul ediyor.

“Şu anda, yasanın bu tür şeyler hakkında gerçekten hiçbir şeyi yok” dedi. "Bildiğim kadarıyla, her bir büyük AI modeli temelde internetteki şeyler üzerinde eğitiliyor. Ve sorun değil, şimdi. Bununla ilgili özel bir yasa yok. Belki gelecekte, olacaktır. Ama bu biraz yeni bir alan, GPL'nin programlama koduyla ilgili yeni bir yasal şey olması gibi. Ve yasal sistemin gerçekten anlamaya başladığı bir şey haline gelmesi 20-30 yıl sürdü.”

Holz, ilgili tarafların bu teknoloji hakkında ne düşündüklerini anlamanın şu anda daha önemli olduğuna inandığını söyledi. “Bizim eşyalarımızı kullanan birçok sanatçımız var ve onları sürekli 'bu konuda iyi hissediyor musun?' gibi kontrol ediyoruz” dedi.

Holz, statükodan yeterince memnuniyetsizlik varsa, çalışmaları eğitim modellerine giren sanatçılar için gelecekte bir tür ödeme yapısı hakkında düşünmeye değer olabileceğini söyledi. Ancak katkıların kapsamını değerlendirmenin şu anda zor olduğunu gözlemledi. “Şu anda böyle bir şey için zorluk, AI modellerinin iyi çalışmasını sağlayan şeyin aslında net olmamasıdır” dedi. "Eğer oraya bir köpeğin resmini koyarsam, [AI modelinin] köpek resimleri yapmasına gerçekten ne kadar yardımcı olur. Verilerin hangi kısımlarının gerçekte [modele] hangi yetenekleri verdiği net değil.”

Midjourney'e kendine özgü estetiğini veren şeyin ne olduğu sorulduğunda Holz, Midjourney'in yaptıklarını DALL-E 2 ile gerçekten karşılaştıramadığını, ancak genel olarak AI araştırmacılarının optimize ettikleri şeyi elde etme eğiliminde olduklarını söyledi. "Köpek" kelimesini koyarlarsa, muhtemelen bir köpek resmi isterler.

“Bizim için optimize ederken öyleydik, güzel görünmesini istedik ve güzel mutlaka gerçekçi anlamına gelmez. … Bir şey olursa, aslında onu fotoğraflardan biraz uzaklaştırıyoruz. … Bu teknolojinin derin bir sahte süper makine olarak kullanılabileceğini biliyorum. Ve dünyanın daha fazla sahte fotoğrafa ihtiyacı olduğunu düşünmüyorum. Gerçekten dünyada sahte fotoğrafların kaynağı olmak istemiyorum.”

“Eşyalarımız fotoğrafa benzeyen bir şey yaparsa, aslında biraz rahatsız hissediyorum. Ve bu, insanların daha gerçekçi şeyler yapmasına asla izin vermeyeceğimiz anlamına gelmiyor. Daha gerçekçi görünen şeyleri yapmaya çalışmak için meşru kullanım durumları vardır. Ancak, birileri sistemimizi kullandığında varsayılan olarak sahte fotoğraf yapmaması gerektiğini kuvvetle hissediyorum.”

“Ama dünyanın daha fazla güzelliğe ihtiyacı olduğunu düşünüyorum. Temel olarak, insanların güzel şeyler yapmasına izin veren bir şey yaratırsam ve dünyada daha güzel şeyler varsa, varsayılan olarak bunu istiyorum.” ®

Zaman Damgası:

Den fazla Kayıt