Come l'IA generativa sconvolgerà tutto nell'attuale decennio

Molti rimarranno sorpresi

Immagine dell'autore con diffusione stabile

In Negli ultimi mesi, sistemi di intelligenza artificiale come Midjourney, DALL-E, Stable Diffusion, LaMDA e PaLM hanno fatto grandi passi avanti in domini apparentemente diversi come la generazione di immagini e testo. Le capacità di questi sistemi sono impressionanti: producono immagini altamente suggestive, creano testi di vendita efficaci per la pubblicità e molto, molto altro ancora, tutto partendo da semplici "suggerimenti" che descrivono ciò che l'utente desidera ottenere.

Tutto questo viene fatto con l’intelligenza artificiale generativa.

“AI generativa” si riferisce a sistemi alimentati da reti neurali profonde che attuare Grandi modelli linguistici (LLM) al fine di creare una sorta di contenuto. Qui dico “creare”, intendendo che non si tratta di una copia di qualcosa già esistente, non in senso filosofico (e poi cos'è una “creazione”?).

Nuove grandi aziende stanno emergendo in questo mondo nuovo e coraggioso Diaspro, che offre la generazione sia di testi di vendita che di immagini per la pubblicità: Jasper ha ora una valutazione di oltre un miliardo di dollari, diventando da un giorno all'altro un unicorno.

La prima piattaforma di intelligenza artificiale generativa a lasciare davvero il segno è stata GPT-3, rilasciata solo un paio di anni fa! Successivamente, una serie di pubblicazioni da parte di diversi attori del settore (OpenAI, Google, StableDiffusion, Google, DeepMind e altri) è apparsa a un ritmo vertiginoso, tanto che è difficile rimanere aggiornati.

Ma al di là di quanto sia divertente e fantastico trascorrere un po’ di tempo con Midjourney per creare immagini partendo dai nostri suggerimenti, molti appassionati di tecnologia faticano a dare un senso a questa ondata di IA generativa.

L’IA generativa è una tendenza solida o è solo una moda passeggera?

Io andrò per "andamento solido” perché trasformerà migliaia di attività professionali e ricreative nell’ambito di questo decennio. Vorrei iniziare con un esempio.

Sono un grande fan del tennis (almeno nel senso televisivo). Ma le partite di tennis dal vivo impiegano ore per finire e ho altre attività e interessi, quindi di solito ricorro a guardare i replay o semplicemente a evidenziare video con i 4 minuti più divertenti circa di una partita.

Ma cosa succede se invece di un video di 4 minuti ne voglio uno di 10 o 15 minuti? O se voglio includere ogni punto nei tie-break? Al momento sono sfortunato.

Ora metti al lavoro il tuo cappello di Generative IA: un generatore di video sportivi di Generative IA creerebbe un video solo per te in base alle specifiche inserite in modo informale in un messaggio di testo come il seguente:

"Video di circa 15 minuti con i punti più divertenti della partita Rafa Nadal vs. Tommy Paul di Parigi Bercy 2022, compresi eventuali tiebreak completi, nonché ogni breakpoint convertito"

Questo è tutto. Ottieni un collegamento con il tuo video personalizzato, diverso da un video guardato da chiunque altro nel mondo. E questo servizio video sarebbe economicamente fattibile quanto DALL-E e Midjourney.

La ricerca è diversa dall’innovazione. Il primo riguarda i risultati originali pubblicati, il secondo ha più a che fare con la scoperta di come costruire un business a partire da tali risultati: l’innovazione non si preoccupa dell’originalità ma della crescita, della difendibilità, del rendimento degli investimenti, ecc.

Spesso le cose diventano confuse perché la ricerca viene svolta da aziende come Google, che in linea di principio sono lì per realizzare un profitto, ma capiscono che il loro business è high-tech e la tecnologia non è elevata senza la ricerca. Quindi vengono coinvolti nel finanziamento della ricerca, oltre ad avvicinarsi al mondo accademico: molti dei loro migliori ricercatori sono stati assunti dal mondo accademico. Essendo io stesso un ricercatore, alcuni anni fa sono stato invitato a un Summit dei docenti presso la loro sede a Mountain View e mi hanno ospitato in una suite presso l'hotel Four Seasons: qualunque cosa serva per fare una buona impressione sulla comunità accademica!

Ma anche se potrebbe essere difficile – e perfino artificioso – tracciare una linea netta tra ricerca e innovazione, la differenza qui è cruciale perché, nel caso dell’IA generativa, le due saranno sviluppate da attori diversi, e saranno associate con due diversi livelli nello stack software –as sottolineato da J. Currier:

  1. Lo strato software inferiore è il Modello di apprendimento profondo, costruito attorno a implementazioni di Large Language Models (LLM) o rappresentazioni interne equivalenti. I modelli forniscono l'elemento base da cui è possibile sviluppare le applicazioni.
  2. Il livello software superiore è il applicazione uno, che si basa sul modello di Deep Learning per svolgere un'attività specifica, ad esempio, per produrre un'immagine da un messaggio di testo.

Questa architettura a due livelli alimenterà una nuova era di innovazione accelerata perché una volta che lo strato inferiore sarà sviluppato da aziende molto grandi come Google, OpenAI e altre, le aziende più piccole forniranno il livello applicativo, dando, ovviamente, una riduzione dei loro profitti. al fornitore di livello inferiore.

Attualmente, il livello inferiore è stato rapidamente migliorato e spesso è stato distribuito insieme a un'applicazione sopra. Ad esempio, LaMDA e PaLM offrono funzionalità di dialogo pronte all'uso, mentre DALL-E e Midjourney offrono servizi di richiesta immagine. Ma presto, la proliferazione di alternative open source per lo strato inferiore renderà possibile sviluppare solo lo strato applicativo superiore e collegarlo a uno strato inferiore già disponibile. Più facile a dirsi che a farsi, ovviamente, ma il fatto è che lo strato inferiore è ordini di grandezza più complesso di quello superiore.

Direi che l'IA generativa permeerà quasi ogni singola attività lavorativa e ricreativa della conoscenza perché fornirà strumenti per eliminare la complessità da attività precedentemente difficili e perché può fornire un livello completamente nuovo di personalizzazione che definirei “personalizzazione generativa”.

Puoi vedere cos'è la "personalizzazione generativa" dall'esempio del video sportivo sopra: a ogni utente viene fornito un video di highlights nuovo e unico invece di una semplice selezione tra due o tre opzioni.

È difficile esagerare l’impatto cumulativo di tutte le applicazioni di IA generativa:

  1. La creazione grafica semplice è già alla portata dei non professionisti con strumenti come DALL-E, Midjourney e Stable Diffusion, almeno per semplici scopi utilitaristici come ottenere un'immagine di intestazione per questo post. Prima di quest’anno non ero assolutamente in grado di disegnare le mie immagini e gli esperti di blog mi consigliavano di non perdere tempo nella progettazione grafica delle tue storie.
  2. Gli utenti di fotoritocco non dovranno sopportare una dura curva di apprendimento per padroneggiare l'intricato set di strumenti di Photoshop o Affinity Photo (io uso quest'ultimo ed è così complesso che devo consultare i tutorial di YouTube per imparare come apportare la maggior parte delle modifiche). Con l'intelligenza artificiale generativa, gli utenti chiederanno semplicemente al software di eseguire una determinata trasformazione e voilà! L'immagine verrà corretta. Se Adobe non riesce a fornire l’intelligenza artificiale generativa con i propri strumenti, verrà interrotta dalle nuove startup che li offrono e seguirà la strada di Blockbuster.
  3. Gli strumenti di presentazione come PowerPoint, invece di limitarsi a fornire modelli come fanno ora, genereranno e ottimizzeranno intere presentazioni di livello professionale partendo da idee generali. Attualmente, la differenza tra presentazioni professionali e amatoriali è enorme: non sarà più così.
  4. La scrittura del testo sarà un processo altamente potenziato dagli strumenti di intelligenza artificiale generativa. Molte forme di scrittura stanno già ricevendo aiuto da strumenti sofisticati come Grammarly, ma l’intelligenza artificiale generativa offrirà agli scrittori un livello di aiuto qualitativamente nuovo, ad esempio generando una prima versione completa di un blog. La scrittura sarà un processo collaborativo tra gli esseri umani e lo strumento AI.
  5. Qualsiasi software destinato a un utente finale dovrà essere semplice da usare con comandi testuali o vocali. Manuali utente e video didattici apparterranno al passato e non appena gli utenti si abitueranno al nuovo modo semplice di utilizzare il software, tutto dovrà offrirlo per rimanere rilevante.
  6. L’apprendimento delle lingue verrà effettuato principalmente con l’aiuto di assistenti vocali, che saranno alimentati – avete indovinato – dall’intelligenza artificiale generativa. Gli assistenti vocali, che agiranno come istruttori linguistici personali, utilizzeranno le loro straordinarie capacità di dialogo in linguaggio naturale, viste per la prima volta in sistemi come LaMDA di Google, per guidare lo studente umano ad acquisire vocabolario ed espressioni, migliorare la pronuncia, ecc. gli assistenti vocali non sono una fantasia futuristica: al momento hanno semplicemente senso dal punto di vista economico.
  7. Anche i prodotti hardware (come le automobili) avranno sistemi di aiuto basati su dialoghi di intelligenza artificiale generativa. Hai provato a eseguire un'operazione complessa come la regolazione del display nelle auto moderne? Non è facile, te lo posso dire. Invece di addentrarti in manuali complessi, chiederai semplicemente all'assistente vocale di ricevere istruzioni o di eseguire direttamente le regolazioni.

Molte professioni saranno trasformate fino a diventare irriconoscibili. I graphic designer avvertono già il dolore di questa interruzione. Intere professioni scompariranno e ne verranno create altre. Le aziende più potenti andranno in bancarotta e quelle nuove diventeranno dominanti, a seconda di quanto bene gestiranno la rivoluzione tecnologica portata dall’intelligenza artificiale generativa.

E tutto questo avverrà entro questo decennio.

Potrei sbagliarmi, ma mi sembra che fosse difficile, anche per gli esperti tecnici esperti, prevedere le enormi capacità degli attuali generatori di immagini e testi: fino a qualche anno fa non era evidente che enormi modelli e set di addestramento avrebbero portano a capacità qualitativamente diverse.

Oserei dire che è stata una scoperta fortunata, quasi casuale. Ma ora che disponiamo di strumenti generativi, le porte sono aperte alle aziende innovative che svilupperanno applicazione dopo applicazione a ritmo serrato: si tratta soprattutto di capire cosa può essere migliorato radicalmente e trovare il modello di business adatto da cui partire per fare business. un’idea di IA generativa.

Qualche anno fa, sembrava che altre tendenze tecnologiche, come le auto a guida autonoma, la realtà virtuale o la blockchain, avrebbero presto preso il sopravvento, ma la tecnologia della guida autonoma è stata limitata da ostacoli legislativi, la blockchain è stata colpita dalla crisi economica e la realtà virtuale l'adozione è limitata dai costi elevati dell'hardware. L'intelligenza artificiale generativa, invece, non è ancora limitata dalla legislazione (ehi, rifinire una presentazione PowerPoint o generare un video sportivo non è una questione di vita o di morte) e non necessita di hardware costoso da acquistare da parte dell'utente.

E non pensavamo che le attività creative sarebbero state interrotte così presto. Ma lo erano.

Stiamo entrando in tempi nuovi e talvolta strani, in cui la creatività umana si mescola con le nuove capacità delle macchine al punto che è difficile distinguerle. COME J. Currier sottolinea:

“Oggi e per i prossimi anni, questo sembrerà sorprendente e per molti versi spaventoso. Perché quei momenti creativi in ​​cui passi da zero a idee iniziali sono sempre stati così straordinariamente umani, perché sono stati così misteriosi.

Come l'IA generativa sconvolgerà tutto nell'attuale decennio Ripubblicato dalla fonte https://towardsdatascience.com/how-generative-ia-will-disrupt-everything-in-the-current-decade-b4e8ce7dd4f1?source=rss—-7f60cf5620c9— 4 tramite https://towardsdatascience.com/feed

<!–

->

Timestamp:

Di più da Consulenti Blockchain