Hvordan generativ IA vil forstyrre alt i det nåværende tiåret

Publisert av Platon

Følgere: 0

Mange vil bli overrasket

Bilde av forfatteren med stabil diffusjon

In de siste månedene har AI-systemer som Midjourney, DALL-E, Stable Diffusion, LaMDA og PaLM gjort store fremskritt i domener som tilsynelatende er like forskjellige som bilde- og tekstgenerering. Mulighetene til disse systemene er imponerende: de produserer svært suggestive bilder, skaper effektive salgseksemplarer for annonsering og mye, mye mer – alt fra bare "forespørsler" som beskriver hva brukeren ønsker å få.

Alt dette gjøres med Generative AI.

"Generativ AI" refererer til systemer drevet av dype nevrale nettverk som implementerer Store språkmodeller (LLM) for å skape en slags innhold. Her sier jeg "skape", noe som betyr at det ikke er en kopi av noe som allerede eksisterer, ikke i en filosofisk forstand (hva er en "skapelse" likevel?).

Store nye selskaper dukker opp i denne modige nye verden, som Jaspis, som tilbyr generering av både selgende kopi og også bilder for reklame: Jasper har nå en verdi på mer enn en milliard dollar, og blir en enhjørning over natten.

Den første generative AI-plattformen som virkelig gjorde en bulk var GPT-3 – utgitt for bare et par år siden! Etter det har en rekke utgivelser fra flere aktører i feltet (OpenAI, Google, StableDiffusion, Google, DeepMind og andre) dukket opp i et halsbrekkende tempo, så mye at det er vanskelig å holde seg oppdatert.

Men utover hvor morsomt og fantastisk det er å tilbringe en stund med Midjourney for å lage bilder fra spørsmålene våre, sliter mange teknologientusiaster med å forstå denne Generative IA-bølgen.

Er Generative IA en solid trend, eller er det bare en kjepphest?

jeg går for "solid trend” fordi det vil forvandle tusenvis av profesjonelle og fritidsaktiviteter i løpet av dette tiåret. La meg begynne med et eksempel.

Jeg er en massiv tennisfan (i hvert fall i TV-forstand). Men live tenniskamper tar timer å fullføre, og jeg har andre aktiviteter og interesser, så jeg tyr vanligvis til å se repriser eller bare fremheve videoer med de mest underholdende 4 minuttene fra en kamp.

Men hva om jeg vil ha en video på 4 eller 10 minutter i stedet for en 15-minutters video? Eller om jeg vil inkludere hvert poeng i tie-breakene? Jeg er ikke heldig for øyeblikket.

Sett nå Generative-IA-hatten din på jobb: en Generativ IA-sportsvideogenerator vil lage en video bare for deg i henhold til spesifikasjonene som du uformelt legger inn i en tekstmelding som følgende:

"Video på omtrent 15 minutter med de mest underholdende poengene fra Rafa Nadal vs. Tommy Paul-kampen i Paris Bercy 2022, inkludert komplette tiebreaks hvis noen, så vel som hvert breakpoint konvertert"

Det er det. Du får en lenke med den personlige videoen din, forskjellig fra en video som noen andre i verden har sett. Og denne videotjenesten ville være like økonomisk gjennomførbar som DALL-E og Midjourney.

Forskning er forskjellig fra innovasjon. Førstnevnte er opptatt av publiserte originale resultater, og sistnevnte har mer å gjøre med å finne hvordan man bygger en virksomhet fra disse resultatene: innovasjon bryr seg ikke om originalitet, men om vekst, forsvarbarhet, investeringsavkastning, etc.

Ofte blir ting forvirrende fordi forskning gjøres av selskaper som Google, som i prinsippet er der for å tjene penger – men de forstår at virksomheten deres er høyteknologisk, og teknologi er ikke høy uten forskning. Så de engasjerer seg i å finansiere forskning, i tillegg til å komme tett på akademia – mange av toppforskerne deres ble ansatt fra akademia. Som forsker selv ble jeg invitert til et fakultetstoppmøte ved deres hovedkvarter i Mountain View for noen år siden, og de innlosjerte meg i en suite på Four Seasons-hotellet – uansett hva som skal til for å gjøre et godt inntrykk på det akademiske miljøet!

Men selv om det kan være vanskelig – og til og med kunstig – å gjøre et klart kutt mellom forskning og innovasjon, er forskjellen avgjørende her fordi, når det gjelder Generative AI, vil de to bli utviklet av forskjellige aktører, og de vil bli assosiert med to forskjellige lag i programvarestabelen -as påpekt av J. Currier:

Det nederste programvarelaget er Deep Learning modell, bygget rundt implementeringer av store språkmodeller (LLM) eller tilsvarende intern representasjon. Modeller utgjør den grunnleggende byggesteinen som applikasjoner kan utvikles fra.
Det øverste programvarelaget er søknad en, som bygger på toppen av Deep Learning-modellen for å utføre en spesifikk oppgave, for eksempel å sende ut et bilde fra en tekstmelding.

Denne tolagsarkitekturen vil gi næring til en ny æra med akselerert innovasjon, fordi når det nederste laget er utviklet av veldig store selskaper som Google, OpenAI og andre, vil mindre selskaper tilby applikasjonslaget – noe som selvfølgelig gir et kutt i fortjenesten deres til leverandøren av bunnlaget.

For øyeblikket har det nedre laget blitt raskt forbedret – og ofte har det blitt distribuert sammen med en påføring på toppen. For eksempel tilbyr LaMDA og PaLM dialogmuligheter rett ut av esken, mens DALL-E og Midjourney tilbyr prompt-to-image-tjenester. Men snart vil spredningen av åpen kildekode-alternativer for det nederste laget gjøre det mulig å utvikle bare det øverste applikasjonslaget og plugge det inn i et allerede tilgjengelig bunnlag. Lettere sagt enn gjort, selvfølgelig, men faktum er at det nederste laget er størrelsesordener mer komplekst enn det øverste.

Jeg vil påstå at Generativ IA vil gjennomsyre nesten hver eneste kunnskapsarbeid og fritidsaktivitet fordi det vil gi verktøy for å få kompleksitet bort fra tidligere vanskelige aktiviteter og fordi det kan gi et helt nytt nivå av personalisering som jeg vil kalle "generativ personalisering."

Du kan se hva som er "generativ personalisering" fra sportsvideoeksemplet ovenfor: hver bruker får en helt ny og unik høydepunktvideo i stedet for bare et utvalg mellom to eller tre alternativer.

Den kumulative effekten fra alle Generative IA-applikasjoner er vanskelig å overdrive:

Enkel grafisk oppretting er allerede innen rekkevidde for ikke-profesjonelle med verktøy som DALL-E, Midjourney og Stable Diffusion, i det minste for enkle utilitaristiske formål som å få et overskriftsbilde for dette innlegget. Før dette året klarte jeg ikke å tegne mine egne bilder, og bloggeksperter frarådet å kaste bort tid på grafisk design til dine egne historier.
Brukere av bilderedigering trenger ikke å tåle en tøff læringskurve for å mestre det intrikate settet med verktøy i Photoshop eller Affinity Photo (jeg bruker sistnevnte, og det er så komplisert at jeg må konsultere YouTube-veiledninger for å lære hvordan man gjør de fleste justeringer). Med Generativ AI vil brukerne bare be programvaren om å utføre en gitt transformasjon, og vips! Bildet vil bli fikset. Hvis Adobe ikke klarer å levere Generative AI med verktøyene deres, vil de bli forstyrret av nye oppstartsbedrifter som tilbyr dem og vil gå veien om Blockbuster.
Presentasjonsverktøy som PowerPoint, i stedet for bare å tilby maler som de gjør nå, vil generere og finjustere hele presentasjoner på profesjonelt nivå fra skisserte ideer. Foreløpig er forskjellen mellom profesjonelle og amatørpresentasjoner enorm – dette vil ikke være tilfelle lenger.
Tekstskriving vil være en prosess som er sterkt forbedret av Generative AI-verktøy. Mange former for skriving får allerede hjelp fra sofistikerte verktøy som Grammarly, men Generative AI vil gi forfattere et kvalitativt nytt nivå av hjelp ved for eksempel å generere en komplett førsteversjon av en blogg. Å skrive vil være en samarbeidsprosess mellom mennesker og AI-verktøyet.
Enhver programvare beregnet på en sluttbruker må være enkel å bruke med tekst- eller talemeldinger. Brukermanualer og instruksjonsvideoer vil være en saga blott, og så snart brukerne blir vant til den nye enkle måten å bruke programvare på, vil alt måtte tilby det for å forbli relevant.
Språklæring vil hovedsakelig gjøres ved hjelp av stemmeassistenter, som vil bli drevet av – du gjettet riktig – Generativ AI. Stemmeassistenter, som vil fungere som personlige språkveiledere, vil bruke sine fantastiske naturlige språkdialogfunksjoner, først sett i systemer som Googles LaMDA, for å veilede den menneskelige språkeleven for å tilegne seg ordforråd og uttrykk, forbedre uttale osv. Språkundervisning stemmeassistenter er ikke en futuristisk fantasi – det gir bare økonomisk mening akkurat nå.
Selv maskinvareprodukter (som biler) vil ha Generative AI-dialogbaserte hjelpesystemer. Har du prøvd å utføre en kompleks operasjon som å justere skjermen i moderne biler? Ikke lett kan jeg si deg. I stedet for å grave i komplekse manualer, vil du bare be stemmeassistenten enten om å få instruksjoner eller få justeringene gjort direkte.

Mange yrker vil bli transformert til det ugjenkjennelige. Grafiske designere føler allerede brodden av denne forstyrrelsen. Hele yrker vil forsvinne, og andre vil bli opprettet. Kraftige selskaper vil gå konkurs, og nye vil bli dominerende, avhengig av hvor godt de håndterer teknologiavbruddet forårsaket av Generative AI.

Og alt dette vil skje i løpet av dette tiåret.

Jeg kan ta feil, men det virker for meg som om det var vanskelig, selv for erfarne teknologiforskere, å forutsi de enorme egenskapene til de nåværende bilde- og tekstgeneratorene: det var ikke åpenbart for noen år siden at enorme modeller og treningssett ville føre til kvalitativt forskjellige evner.

Jeg vil gå så langt som å si at det var et heldig, nesten tilfeldig funn. Men nå som vi har generative verktøy, er portene åpne for innovative selskaper som vil utvikle applikasjon etter applikasjon i et raskt tempo: det handler mest om å finne ut hva som kan forbedres radikalt og finne den passende forretningsmodellen å lage en virksomhet fra en generativ IA-idé.

For noen år siden så det ut til at andre teknologitrender, som selvkjørende biler, VR eller blokkjede, snart ville ta over, men selvkjørende teknologi har vært begrenset av lovgivningsmessige hindringer, blockchain ble rammet av den økonomiske nedgangen, og VR bruk er begrenset av høye maskinvarekostnader. Generativ AI, i stedet, er ennå ikke begrenset av lovgivning (hei, polering av en PowerPoint-presentasjon eller generering av en sportsvideo er ikke en sak på liv eller død) og trenger ikke dyr maskinvare for å kjøpes av brukeren.

Og vi trodde ikke at kreative aktiviteter kom til å bli forstyrret så fort. Men det var de.

Vi går inn i nye og noen ganger rare tider, hvor menneskelig kreativitet blandes med maskinenes nye evner til det punktet at det er vanskelig å skille mellom dem. Som J. Currier påpeker:

«I dag og de neste årene vil dette føles overraskende og på mange måter skummelt. Fordi de kreative øyeblikkene der du går fra null-til-initielle-ideer alltid har følt seg så unikt menneskelige, fordi det har vært så mystisk.»

Hvordan generativ IA vil forstyrre alt i det nåværende tiåret Republisert fra kilde https://towardsdatascience.com/how-generative-ia-will-disrupt-everything-in-the-current-decade-b4e8ce7dd4f1?source=rss—-7f60cf5620c9— 4 via https://towardsdatascience.com/feed

<!–

Tidstempel: November 10, 2022November 11, 2022