David Holz, fondatore del generatore di arte AI Midjourney, sul futuro dell'imaging PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

David Holz, fondatore del generatore d'arte AI Midjourney, sul futuro dell'imaging

Colloquio Nel 2008, David Holz ha co-fondato un'azienda di periferiche hardware chiamata Leap Motion. Lo ha gestito fino all'anno scorso, quando ha lasciato per creare Midjourey.

Metà viaggio nella sua forma attuale è un social network per creare arte generata dall'intelligenza artificiale da un prompt di testo: digita una parola o una frase al prompt di input e riceverai un'immagine interessante o forse meravigliosa sullo schermo dopo circa un minuto di calcolo. È simile per alcuni aspetti a OpenAI DALL-MI2.

Immagine di metà viaggio del cielo e delle nuvole, utilizzando il messaggio di testo "Tutta questa bellezza inutile". Fonte: generato da Metà viaggio

Entrambi sono il risultato di grandi modelli di intelligenza artificiale addestrati su un vasto numero di immagini. Ma Midjourney ha il suo stile distintivo, come si può vedere da questa discussione su Twitter. Entrambi negli ultimi giorni sono entrati in beta testing pubblico (sebbene l'accesso a DALL-E 2 venga ampliato lentamente).

La capacità di creare immagini di alta qualità da modelli di intelligenza artificiale utilizzando l'input di testo è diventata un'attività popolare lo scorso anno dopo il rilascio di OpenAI CLIP (Contrastive Language–Image Pre-training), progettato per valutare l'allineamento delle immagini ben generate con le descrizioni testuali. Dopo il suo rilascio, artista Ryan Murdock (@advadnoun su Twitter) ha scoperto che il processo potrebbe essere invertito: fornendo un input di testo, è possibile ottenere l'output di immagini con l'aiuto di altri modelli di intelligenza artificiale.

Successivamente, la comunità dell'arte generativa ha intrapreso un periodo di febbrile esplorazione, pubblicando codice Python per creare immagini utilizzando una varietà di modelli e tecniche.

"Qualche volta l'anno scorso, abbiamo visto che alcune aree dell'IA stavano progredendo in modi davvero interessanti", ha spiegato Holz in un'intervista con Il registro. "Uno di questi era la capacità dell'IA di comprendere il linguaggio".

Holz ha indicato sviluppi come i trasformatori, un modello di deep learning che informa CLIP, e i modelli di diffusione, un'alternativa ai GAN. "Quello che mi ha davvero colpito personalmente è stata la diffusione guidata da CLIP", ha detto, sviluppata da Katherine Crawson (conosciuta su Twitter come @RiversHaveWings).

Non l'uomo stereotipato della Florida

Holz è cresciuto in Florida e ha avuto un'attività di design al liceo dove ha studiato matematica e fisica. Stava lavorando a un dottorato di ricerca in matematica applicata e ha preso un congedo nel 2008 per avviare Leap Motion. L'anno successivo, ha trascorso un anno come ricercatore studente presso il Max Planck Institute, seguito da due anni presso il Langley Research Center della NASA come ricercatore laureato lavorando su LiDAR, missioni su Marte e scienze atmosferiche.

"Ero tipo, perché sto lavorando su tutta questa roba?" Lui ha spiegato. "Voglio solo lavorare su una cosa interessante a cui tengo."

Quindi si è concentrato su Leap Motion, che ha sviluppato un dispositivo hardware per tracciare il movimento della mano e utilizzarlo per l'input del dispositivo. Ha guidato l'azienda per dodici anni e quando ha lasciato l'azienda ha impiegato circa 100 persone.

La metà del viaggio, ha detto, è piuttosto piccola in questo momento. "Siamo tipo circa 10 persone", ha spiegato. “Siamo autofinanziati. Non abbiamo investitori. Non siamo davvero motivati ​​finanziariamente. Siamo qui solo per lavorare su cose che ci appassionano e per divertirci. E stavamo lavorando a molti progetti diversi”.

Holz ha affermato che l'aspetto tecnologico dell'IA e la misura in cui migliorerà è abbastanza facile da prevedere. "Ma le ramificazioni umane di ciò sono così difficili da immaginare", ha detto. “C'è qualcosa qui che si trova all'intersezione tra umanità e tecnologia. Per capire davvero di cosa si tratta e cosa dovrebbe essere, abbiamo davvero bisogno di fare molti esperimenti".

La strada da percorrere

La natura instabile della tecnologia delle immagini AI è evidente nella differenza tra strumenti come Midjourney e un'applicazione grafica open source scaricabile come Blender, o un'applicazione commerciale installata localmente come Adobe Photoshop (prima che diventasse un servizio cloud).

Il mezzo viaggio esiste in un contesto sociale. Il suo front-end è il servizio di chat Discord. I nuovi utenti accedono al server Midjourney di Discord e possono quindi inviare messaggi di testo per generare immagini insieme a numerosi altri utenti in uno qualsiasi dei vari canali per principianti.

Le immagini risultanti per tutti gli utenti in quel canale emergono in circa un minuto, il che aiuta a rafforzare la nozione di comunità. Coloro che decidono di passare a un abbonamento da $ 10/mese o $ 30/mese possono inviare testo al bot Midjourney nell'app Discord come messaggio diretto privato e ricevere immagini in risposta senza la cascata a scorrimento dello schermo dell'interazione di altri utenti in un pubblico canale. Le immagini generate rimangono tuttavia pubblicamente visibili per impostazione predefinita.

In quanto app social, Midjourney è soggetta a regole sui contenuti consentiti, qualcosa di cui gli utenti di Blender o altre app installate localmente non devono preoccuparsi. I Termini di servizio di Midjourney affermano: "Nessun contenuto per adulti o gore. Si prega di evitare di creare contenuti visivamente scioccanti o inquietanti. Bloccheremo automaticamente alcuni input di testo".

DALL-E 2 è soggetto a limitazioni simili anche se più estese, come descritto nella sua Politica sui contenuti.

"Penso che se vivessimo in un mondo privo di social media, non avremmo bisogno di alcuna restrizione", ha affermato Holz. "...Quando è stato inventato Photoshop, c'era effettivamente la stampa al riguardo, dove si diceva, 'oh, potresti fingere qualsiasi cosa ed è un po' spaventoso.' [Ma ora] è molto più redditizio essere sensazionalisti di quanto non lo fosse prima.

"Oggigiorno, chiunque può essere sensazionalista e fondamentalmente trarne profitto, sai", ha detto Holz. “E quindi quello che fa è creare un mercato per il dramma e il sensazionalismo. Ecco perché penso che dobbiamo stare un po' più attenti, perché ad un certo punto, ciò che le persone faranno è dire: 'Va bene, posso fare foto di questo, qual è la roba più drammatica, offensiva e orribile che io può fare?'"

Nessuna risposta facile

Holz ammette che ci sono cose che le piattaforme social possono fare per mitigare questi problemi, ma afferma che non ci sono risposte semplici. "Purtroppo, non c'è un modo chiaro per affrontarlo, se non come società, per premiare meno il sensazionalismo", ha detto. "Tuttavia, la mia impressione è che nessuno stia davvero cercando di cambiare le piattaforme social per ridurre il sensazionalismo, perché questo li fa guadagnare in questo momento".

Inoltre, ha detto, poiché Midjourney vuole essere uno spazio sociale per chiunque abbia più di 13 anni, è necessario avere regole contro i contenuti estremi o grafici.

"Non vogliamo davvero avere spazi segmentati per le persone a cui piace fare cadaveri o come foto di nudo", ha spiegato Holz. “Semplicemente non vogliamo avere a che fare con questo. Non pensiamo di avere l'obbligo morale di farlo in questa fase. Vogliamo un bellissimo spazio sociale in cui le persone possano creare cose insieme e non essere offese, in pratica, e sentirsi al sicuro.

A tal fine, l'azienda ha circa 40 moderatori che tengono d'occhio le immagini create dagli utenti.

L'aspetto sociale di Midjourney ha recentemente iniziato a migliorare la qualità dell'immagine. Holz ha affermato che gli ingegneri dell'azienda hanno recentemente introdotto la versione tre del suo software, che per la prima volta ha incorporato un ciclo di feedback basato sull'attività e sulla risposta dell'utente.

"Se guardi le cose v3, c'è questo enorme miglioramento", ha detto. “È incredibilmente migliore e in realtà non ci abbiamo messo più arte. Abbiamo appena preso i dati su quali immagini sono piaciute agli utenti e su come le stavano utilizzando. E questo in realtà lo ha reso migliore”.

Alla domanda sullo stack tecnologico di Midjourney, Holz ha esitato. "Ad un certo punto, probabilmente faremo un comunicato stampa specifico sui fornitori che stiamo utilizzando", ha detto. “Quello che posso dire è che abbiamo questi grandi modelli di intelligenza artificiale con miliardi di parametri. Vengono addestrati su miliardi di immagini".

Holz afferma che gli utenti realizzano milioni e milioni di immagini ogni giorno e lo fanno utilizzando fornitori di elaborazione di energia verde, il che non restringe il campo dei principali fornitori di cloud computing poiché tutti affermano di essere almeno a zero emissioni di carbonio.

"Ogni immagine sta prendendo petaops", ha detto, un termine che significa 10^15 operazioni al secondo. “Quindi migliaia di trilioni di operazioni. Non so esattamente se siano cinque o 1000 o 10. Ma sono migliaia di trilioni di operazioni per creare un'immagine. Probabilmente è il più costoso... se chiami Midjourney, un servizio – come lo chiamereste un servizio o un prodotto – senza dubbio, non c'è mai stato un servizio prima in cui una persona normale utilizza così tanto calcolo.

Tenendoci in cibo e vestiti

Eppure Midjourney non è sulla strada per aumentare la vendita dei clienti portati da un servizio gratuito a livelli a pagamento e quindi attrarre clienti aziendali ben pagati prima di diventare quotati o acquisiti.

"Non siamo come una startup che raccoglie molti soldi e poi non è sicura di quale sia la propria attività o prodotto e perde denaro per molto tempo", ha affermato Holz. “Siamo come un laboratorio di ricerca autofinanziato. Possiamo perdere una certa quantità di denaro. Non abbiamo 100 milioni di dollari da perdere di qualcun altro. Ad essere onesti, siamo già redditizi e stiamo bene".

“È un modello di business piuttosto semplice, ovvero, alle persone piace usarlo? Quindi, se lo fanno, devono pagare il costo dell'utilizzo perché il costo grezzo è in realtà piuttosto costoso. E poi aggiungiamo una percentuale in più, che si spera sia sufficiente per nutrirci e ospitarci. E quindi è quello che stiamo facendo”.

Per quanto riguarda il futuro, il ridimensionamento potrebbe essere un problema. Holz ha affermato che Midjourney ha attualmente centinaia di migliaia di persone che utilizzano il servizio, che richiede qualcosa come 10,000 server.

“Se ci fossero 10 milioni di persone che tentano di usare una tecnologia come questa”, ha detto, “in realtà non ci sono abbastanza computer. Non ci sono un milione di server gratuiti per fare IA nel mondo. Penso che il mondo finirà i computer prima che la tecnologia arrivi effettivamente a tutti coloro che vogliono usarla".

Per cosa lo usano le persone? Bene, se hai effettuato l'accesso a un account Midjourney puoi vedere cosa stanno creando le persone tramite il Feed della comunità pagina. È un flusso costante di immagini interessanti, spesso sorprendentemente buone.

"La maggior parte delle persone si sta solo divertendo", ha detto Holz. "Penso che sia la cosa più importante perché in realtà non si tratta di arte, ma di immaginazione".

Essere professionali

Ma per circa il 30 percento degli utenti, è professionale. Holz ha affermato che molti artisti grafici utilizzano Midjourney come parte del flusso di lavoro di sviluppo del concetto. Generano alcune variazioni su un'idea e la presentano ai clienti per vedere quale direzione dovrebbero seguire.

"I professionisti lo usano per potenziare il loro processo creativo o di comunicazione", ha spiegato Holz. "E poi molte persone ci stavano solo giocando".

Forse il 20 percento delle persone usa Midjourney per quella che Holz descrive come arteterapia. Ad esempio, creare immagini di cani dopo che il loro cane è morto. "Lo stanno usando come uno strumento di riflessione emotivo e intellettuale", ha detto. "Ed è davvero fantastico."

A Holz non piace l'idea di utilizzare Midjourney per creare fotografie false. "Utilizzarlo a livello editoriale per creare foto false è estremamente pericoloso", ha affermato. "Nessuno dovrebbe farlo." Ma è più aperto a Midjourney come fonte di illustrazioni commerciali, notando questo L'Economist ha pubblicato un grafico di Midjourney in copertina a giugno.

"Solo di recente abbiamo consentito alle persone di utilizzarlo commercialmente", ha affermato Holz. “Per molto tempo è stato solo non commerciale. E quindi una delle cose che stiamo facendo è che lo stiamo solo guardando, cosa stanno facendo le persone, e potremmo decidere che non ci sentiamo a nostro agio con alcune di queste e poi inseriremo una regola dicendoti non può più usarlo solo per quelle cose.

Holz ha affermato di vedere strumenti di intelligenza artificiale come Midjourney che migliorano gli artisti in quello che fanno piuttosto che rendere tutti artisti professionisti. “Un artista che usa questi strumenti è sempre meglio di una persona normale che usa questi strumenti. Ad un certo punto, potrebbe esserci pressione per usare questi strumenti perché puoi creare cose così grandiose? Penso di si. Ma in questo momento, non penso che sia ancora lì. Ma andrà incredibilmente meglio nei prossimi due anni”.

Midjourney e DALL-E 2 hanno attirato maggiore attenzione sulle preoccupazioni di vecchia data sul fatto che i grandi modelli di IA, creati dall'opera sotto copyright o con licenze specifiche, possano essere conciliati con la legge sul copyright e con il senso personale dei creatori di contenuti su come dovrebbe essere trattato il loro lavoro.

America, terra della querela

In termini di output di Midjourney, l'attuale giurisprudenza statunitense nega la possibilità di concedere il copyright alle immagini generate dall'IA. A febbraio, il Comitato di revisione dell'Ufficio per il copyright degli Stati Uniti respinto [PDF] una seconda richiesta per concedere il copyright a un paesaggio generato dal computer intitolato "A Recent Entrance to Paradise" perché è stato creato senza la paternità umana.

In un'intervista telefonica, ha detto Tyler Ochoa, professore nel dipartimento di giurisprudenza dell'Università di Santa Clara Il registro, "L'Ufficio per il copyright degli Stati Uniti ha affermato che è [accettabile] se un artista utilizza l'intelligenza artificiale per assisterlo nella creazione di un'opera purché sia ​​coinvolta un po' di creatività umana. Se sei semplicemente tu che digiti del testo e l'IA genera un'opera, questo chiaramente non è soggetto alla protezione del copyright ai sensi della legge attuale".

I Termini di servizio di Midjourney affermano "tu sei il proprietario di tutte le risorse che crei con i Servizi", ma la società richiede agli utenti una licenza di copyright per riprodurre i contenuti creati con il servizio, una precauzione necessaria per ospitare le immagini degli utenti, anche se sembra dubbio che quelle la creazione di immagini di Midjourney semplicemente tramite l'input di testo ha diritti d'autore da trasmettere o far rispettare.

Potrebbe non essere sempre così. Ochoa ha affermato di ritenere che Steven Thaler, che ha creato "A Recent Entrance to Paradise", potrebbe voler contestare in tribunale il rifiuto del Copyright Office della paternità basata sull'intelligenza artificiale, anche se non è ancora successo.

Ci sono anche potenziali problemi di copyright derivanti da modelli di IA addestrati su materiale protetto da copyright. "La domanda è se sarebbe un uso corretto o meno utilizzare quelle immagini per l'allenamento e l'IA", ha affermato Ochoa. "E penso che le ragioni per il fair use in quel contesto siano abbastanza forti."

Inoltre, esiste una potenziale responsabilità per coloro che generano immagini sostanzialmente simili al materiale esistente protetto da copyright. "Se il tuo set di allenamento non è abbastanza grande, ciò che l'IA sputa fuori potrebbe assomigliare moltissimo a ciò che ha ingerito", ha spiegato Ochoa, notando che il problema è se si tratta di una violazione del copyright. "Indirettamente, penso che molto probabilmente potrebbe essere."

Per quanto riguarda il potenziale rischio legale per i clienti che utilizzano asset generati da Midjourney, Ochoa ha affermato che pensa che sia piuttosto basso. Se la formazione di un modello di intelligenza artificiale violava il copyright, ciò veniva fatto prima che il cliente fosse coinvolto, ha spiegato. "Quindi, a meno che il cliente non abbia sponsorizzato in qualche modo la creazione dell'IA, non credo che [il cliente] sarebbe responsabile per qualsiasi violazione del set di formazione", ha affermato. “E questa è l'affermazione più forte qui. Quindi penso che i clienti abbiano una base abbastanza solida nell'utilizzo di queste immagini, supponendo che sia stato fatto bene".

Holz riconosce che la situazione giuridica manca di chiarezza.

"Al momento, la legge non ha davvero nulla su questo genere di cose", ha detto. “Per quanto ne so, ogni singolo grande modello di intelligenza artificiale è fondamentalmente addestrato su cose che si trovano su Internet. E va bene, adesso. Non ci sono leggi specifiche in merito. Forse in futuro ci sarà. Ma è una specie di nuova area, come se la GPL fosse una specie di novità legale intorno al codice di programmazione. E ci sono voluti circa 20 o 30 anni perché diventasse davvero qualcosa che il sistema legale sta iniziando a capire".

Holz ha affermato di ritenere che al momento sia più importante capire come si sentono le parti preoccupate per questa tecnologia. "Abbiamo molti artisti che usano le nostre cose e controlliamo costantemente con loro come, 'ti senti bene con questo?'", ha detto.

Holz ha detto che se c'è abbastanza insoddisfazione per lo status quo, potrebbe valere la pena pensare a una sorta di struttura di pagamento in futuro per gli artisti il ​​cui lavoro va in modelli di formazione. Ma ha osservato che valutare l'entità dei contributi è attualmente difficile. "La sfida per qualcosa del genere in questo momento è che in realtà non è chiaro cosa stia facendo funzionare bene i modelli di intelligenza artificiale", ha affermato. "Se metto la foto di un cane lì dentro, quanto aiuta effettivamente [il modello AI] a fare foto di cani. In realtà non è chiaro quali parti dei dati stiano effettivamente dando [al modello] quali abilità".

Alla domanda su cosa dia a Midjourney la sua estetica distintiva, Holz ha detto che non poteva davvero confrontare ciò che Midjourney sta facendo con DALL-E 2, ma che in generale i ricercatori di IA tendono a ottenere ciò per cui ottimizzano. Se mettono la parola "cane", probabilmente vogliono la foto di un cane.

“Per noi, lo stavamo ottimizzando, volevamo che fosse bello e bello non significa necessariamente realistico. ... Semmai, in realtà lo spostiamo un po' lontano dalle foto. ... So che questa tecnologia può essere utilizzata come una super macchina finta profonda. E non credo che il mondo abbia bisogno di altre foto false. Non voglio davvero essere una fonte di foto false nel mondo".

“In realtà mi sento a disagio se le nostre cose fanno qualcosa che sembra una foto. E questo non vuol dire che non permetteremo mai alle persone di realizzare cose più realistiche. Ci sono casi d'uso legittimi per cercare di rendere le cose che sembrano più realistiche. Tuttavia, sono fermamente convinto che, per impostazione predefinita, quando qualcuno usa il nostro sistema, non dovrebbe fare una foto falsa".

“Ma penso che il mondo abbia bisogno di più bellezza. Fondamentalmente, se creo qualcosa che permetta alle persone di fare cose belle e ci sono cose più belle nel mondo, è quello che voglio per impostazione predefinita. ®

Timestamp:

Di più da Il registro