Hur generativ IA kommer att störa allt under det nuvarande decenniet

Många kommer att bli förvånade

Bild av författaren med Stable Diffusion

In De senaste månaderna har AI-system som Midjourney, DALL-E, Stable Diffusion, LaMDA och PaLM gjort stora framsteg inom domäner som uppenbarligen är lika olika som bild- och textgenerering. Förmågan hos dessa system är imponerande: de producerar mycket suggestiva bilder, skapar effektiva säljande kopior för reklam och mycket, mycket mer – allt från bara "uppmaningar" som beskriver vad användaren vill få.

Allt detta görs med Generativ AI.

"Generativ AI" hänvisar till system som drivs av djupa neurala nätverk som implementerar Stora språkmodeller (LLM) för att skapa något slags innehåll. Här säger jag "skapa", vilket betyder att det inte är en kopia av något som redan finns, inte i en filosofisk mening (vad är en "skapelse" egentligen?).

Stora nya företag växer fram i denna modiga nya värld, som Jaspis, som erbjuder generering av både säljande kopior och även bilder för reklam: Jasper har nu en värdering på mer än en miljard dollar och blir en enhörning över natten.

Den första generativa AI-plattformen som verkligen gjorde en buckla var GPT-3 – som släpptes för bara ett par år sedan! Därefter har en rad releaser av flera aktörer inom området (OpenAI, Google, StableDiffusion, Google, DeepMind och andra) dykt upp i en halsbrytande takt, så mycket att det är svårt att hålla sig uppdaterad.

Men utöver hur roligt och fantastiskt det är att spendera ett tag med Midjourney för att skapa bilder från våra uppmaningar, kämpar många teknikentusiaster för att förstå denna Generativa IA-våg.

Är Generative IA en solid trend, eller är det bara en modefluga?

jag går för "solid trend” eftersom det kommer att förändra tusentals yrkes- och fritidsaktiviteter inom ramen för detta decennium. Låt mig börja med ett exempel.

Jag är ett stort tennisfan (åtminstone i TV-bemärkelse). Men live tennismatcher tar timmar att avsluta, och jag har andra aktiviteter och intressen, så jag brukar titta på repriser eller bara lyfta fram videor med de mest underhållande 4 minuterna från en match.

Men vad händer om jag vill ha en video på 4 eller 10 minuter istället för en 15-minuters video? Eller om jag vill ha med varje poäng i tie-breaks? Jag har inte tur just nu.

Sätt nu din Generative-IA-hatt på jobbet: en Generativ IA-sportvideogenerator skulle skapa en video bara för dig enligt specifikationerna som du informellt lägger i en textuppmaning som följande:

"Video på cirka 15 minuter med de mest underhållande poängen från Rafa Nadal mot Tommy Paul-matchen i Paris Bercy 2022, inklusive kompletta tiebreaks om några, såväl som varje konverterad brytpunkt"

Det är allt. Du får en länk till din personliga video, som skiljer sig från en video som någon annan i världen tittat på. Och den här videotjänsten skulle vara lika ekonomiskt genomförbar som DALL-E och Midjourney.

Forskning skiljer sig från innovation. Den förra handlar om publicerade ursprungliga resultat, och den senare har mer att göra med att hitta hur man bygger ett företag från dessa resultat: innovation bryr sig inte om originalitet utan om tillväxt, försvarbarhet, investeringsavkastning, etc.

Ofta blir saker förvirrande eftersom forskning görs av företag som Google, som i princip är till för att göra vinst – men de förstår att deras verksamhet är högteknologisk, och Tekniken är inte hög utan forskning. Så de engagerar sig i att finansiera forskning, samt att komma nära akademin – många av deras toppforskare anställdes från akademin. Som forskare själv blev jag inbjuden till ett fakultetstoppmöte på deras huvudkontor i Mountain View för några år sedan, och de inkvarterade mig i en svit på Four Seasons hotel – vad som än krävs för att göra ett gott intryck på den akademiska världen!

Men även om det kan vara svårt – och till och med konstlat – att göra ett tydligt snitt mellan forskning och innovation, är skillnaden avgörande här eftersom, i fallet med Generativ AI, kommer de två att utvecklas av olika aktörer, och de kommer att associeras med två olika lager i mjukvarustacken -as påpekat av J. Currier:

  1. Det nedre mjukvarulagret är Deep Learning-modell, byggd kring implementeringar av stora språkmodeller (LLM) eller motsvarande intern representation. Modeller utgör grundstenen från vilken applikationer kan utvecklas.
  2. Det översta mjukvarulagret är ansökan en, som bygger på modellen Deep Learning för att utföra en specifik uppgift, till exempel att mata ut en bild från en textprompt.

Denna tvåskiktsarkitektur kommer att underblåsa en ny era av accelererad innovation eftersom när det undre lagret väl har utvecklats av mycket stora företag som Google, OpenAI och andra kommer mindre företag att tillhandahålla applikationslagret – vilket naturligtvis ger en minskning av deras vinst till leverantören av bottenskiktet.

För närvarande har det undre lagret förbättrats snabbt – och ofta har det distribuerats tillsammans med en applicering ovanpå. Till exempel erbjuder LaMDA och PaLM dialogfunktioner direkt, medan DALL-E och Midjourney erbjuder prompt-to-image-tjänster. Men snart kommer spridningen av öppen källkodsalternativ för det undre lagret att göra det möjligt att utveckla bara det översta applikationslagret och koppla in det i ett redan tillgängligt bottenlager. Lättare sagt än gjort förstås, men faktum är att det undre lagret är storleksordningar mer komplext än det översta.

Jag skulle hävda att Generativ IA kommer att genomsyra nästan varenda kunskapsarbete och fritidsverksamhet eftersom det kommer att ge verktyg för att få komplexiteten bort från tidigare svåra aktiviteter och eftersom det kan ge en helt ny nivå av personalisering som jag skulle kalla "generativ personalisering."

Du kan se vad som är "generativ anpassning" från sportvideoexemplet ovan: varje användare får en helt ny och unik höjdpunktsvideo istället för att bara välja mellan två eller tre alternativ.

Den kumulativa effekten från alla Generativa IA-applikationer är svår att överdriva:

  1. Enkelt grafiskt skapande är redan inom räckhåll för icke-professionella med verktyg som DALL-E, Midjourney och Stable Diffusion, åtminstone för enkla utilitaristiska syften som att få en rubrikbild för det här inlägget. Innan det här året var jag helt oförmögen att rita mina egna bilder, och bloggexperter avrådde från att slösa tid på grafisk design för dina egna berättelser.
  2. Fotoredigeringsanvändare behöver inte utstå en tuff inlärningskurva för att bemästra den intrikata uppsättningen verktyg i Photoshop eller Affinity Photo (jag använder det senare, och det är så komplicerat att jag måste konsultera YouTube-tutorials för att lära sig hur man gör de flesta justeringarna). Med Generativ AI kommer användarna bara att be programvaran att utföra en given transformation, och voila! Bilden kommer att fixas. Om Adobe misslyckas med att leverera Generativ AI med sina verktyg, kommer de att störas av nya startups som erbjuder dem och kommer att gå samma väg som Blockbuster.
  3. Presentationsverktyg som PowerPoint, istället för att bara tillhandahålla mallar som de gör nu, kommer att generera och finjustera hela presentationer på professionell nivå utifrån idéer. För närvarande är skillnaden mellan professionella och amatörpresentationer enorm – så kommer det inte att vara fallet längre.
  4. Textskrivning kommer att vara en process som kraftigt förbättras av Generativa AI-verktyg. Många former av skrivande får redan hjälp av sofistikerade verktyg som Grammarly, men Generative AI kommer att ge skribenter en kvalitativt ny nivå av hjälp genom att till exempel skapa en komplett första version av en blogg. Att skriva kommer att vara en samarbetsprocess mellan människor och AI-verktyget.
  5. All programvara avsedd för en slutanvändare måste vara enkel att använda med text- eller röstmeddelanden. Användarmanualer och instruktionsfilmer kommer att vara ett minne blott, och så fort användarna vänjer sig vid det nya enkla sättet att använda mjukvara måste allt erbjudas för att förbli relevant.
  6. Språkinlärning kommer huvudsakligen att ske med hjälp av röstassistenter, som kommer att drivas av – du gissade rätt – Generativ AI. Röstassistenter, som kommer att agera som personliga språkcoacher, kommer att använda sina fantastiska funktioner för naturliga språkdialoger, som först sågs i system som Googles LaMDA, för att vägleda den mänskliga språkinläraren för att skaffa sig ordförråd och uttryck, förbättra uttal etc. Språkundervisning röstassistenter är inte en futuristisk fantasi – det är bara ekonomiskt vettigt just nu.
  7. Även hårdvaruprodukter (som bilar) kommer att ha generativa AI-dialogbaserade hjälpsystem. Har du försökt utföra en komplex operation som att justera displayen i moderna bilar? Inte lätt kan jag säga. Istället för att gräva i komplexa manualer ber du bara röstassistenten att antingen få instruktioner eller direkt få justeringarna gjorda.

Många yrken kommer att förändras till oigenkännlighet. Grafiska designers känner redan stinget av denna störning. Hela yrken kommer att försvinna, och andra kommer att skapas. Kraftfulla företag kommer att gå i konkurs och nya kommer att bli dominerande, beroende på hur väl de hanterar den tekniska störningen som Generative AI medför.

Och allt detta kommer att hända inom detta decennium.

Jag kan ha fel, men det förefaller mig som om det var svårt, även för erfarna tekniska experter, att förutse de enorma kapaciteterna hos de nuvarande bild- och textgeneratorerna: det var inte uppenbart för några år sedan att enorma modeller och träningsset skulle leda till kvalitativt olika förmågor.

Jag skulle gå så långt som att säga att det var ett lyckligt, nästan slumpmässigt fynd. Men nu när vi har generativa verktyg är portarna öppna för innovativa företag som kommer att utveckla applikation efter applikation i snabb takt: det handlar mest om att ta reda på vad som kan förbättras radikalt och att hitta den lämpliga affärsmodellen att göra affärer utifrån en generativ IA-idé.

För några år sedan såg det ut som att andra tekniska trender, som självkörande bilar, VR eller blockchain, snart skulle ta över, men självkörande teknologi har begränsats av lagstiftningshinder, blockchain drabbades av den ekonomiska nedgången och VR användningen begränsas av höga hårdvarukostnader. Generativ AI är istället ännu inte begränsad av lagstiftning (hej, att polera en PowerPoint-presentation eller generera en sportvideo är inte en fråga om liv eller död) och behöver inte dyr hårdvara för att köpas av användaren.

Och vi trodde inte att kreativa aktiviteter skulle störas så snart. Men det var de.

Vi går in i nya och ibland konstiga tider, där mänsklig kreativitet blandas med maskiners nya förmågor till den grad att det är svårt att skilja mellan dem. Som J. Currier pekar ut:

”Idag och under de närmaste åren kommer det här att kännas överraskande och på många sätt skrämmande. För de där kreativa ögonblicken där du går från noll-till-initial-idéer har alltid känts så unikt mänskliga, för att det har varit så mystiskt.”

Hur generativ IA kommer att störa allt under det aktuella decenniet Återpublicerad från källa https://towardsdatascience.com/how-generative-ia-will-disrupt-everything-in-the-current-decade-b4e8ce7dd4f1?source=rss—-7f60cf5620c9— 4 via https://towardsdatascience.com/feed

<!–

->

Tidsstämpel:

Mer från Blockchain-konsulter