Hoe generatieve IA alles in het huidige decennium zal ontwrichten

Heruitgegeven door Plato

volgers: 0

Velen zullen verrast zijn

Afbeelding van de auteur met stabiele diffusie

In De afgelopen maanden hebben AI-systemen als Midjourney, DALL-E, Stable Diffusion, LaMDA en PaLM grote vooruitgang geboekt op domeinen die ogenschijnlijk zo divers zijn als het genereren van afbeeldingen en tekst. De mogelijkheden van deze systemen zijn indrukwekkend: ze produceren zeer suggestieve afbeeldingen, creëren effectieve verkoopteksten voor advertenties en nog veel, veel meer – allemaal vanuit louter “prompts” die beschrijven wat de gebruiker wil krijgen.

Dit alles gebeurt met Generatieve AI.

‘Generatieve AI’ verwijst naar systemen die worden aangedreven door diepe neurale netwerken die implementeren Grote taalmodellen (LLM) om dat te doen en je merk te creëren een soort inhoud. Hier zeg ik 'creëren', wat betekent dat het geen kopie is van iets dat al bestaat, niet in filosofische zin (wat is eigenlijk een 'creatie'?).

Er ontstaan grote nieuwe bedrijven in deze dappere nieuwe wereld Jasper, dat de mogelijkheid biedt om zowel verkoopkopieën als afbeeldingen voor advertenties te genereren: Jasper heeft nu een waarde van meer dan een miljard dollar en wordt van de ene op de andere dag een eenhoorn.

Het eerste generatieve AI-platform dat echt succes boekte was GPT-3, slechts een paar jaar geleden uitgebracht! Daarna is een opeenvolging van releases van verschillende spelers in het veld (OpenAI, Google, StableDiffusion, Google, DeepMind en anderen) in een duizelingwekkend tempo verschenen, zo erg zelfs dat het moeilijk is om actueel te blijven.

Maar afgezien van hoe leuk en fantastisch het is om een tijdje met Midjourney door te brengen voor het maken van afbeeldingen op basis van onze aanwijzingen, hebben veel tech-enthousiastelingen moeite om deze generatieve IA-golf te begrijpen.

Is Genative IA een solide trend, of is het slechts een rage?

Ik ga voor “solide tendens“Omdat het in de loop van dit decennium duizenden professionele en vrijetijdsactiviteiten zal transformeren. Laat ik beginnen met een voorbeeld.

Ik ben een enorme tennisfan (althans in de zin van tv). Maar live tenniswedstrijden duren uren en ik heb andere activiteiten en interesses, dus ik kijk meestal naar herhalingen of belicht alleen video's met de meest vermakelijke ongeveer vier minuten van een wedstrijd.

Maar wat als ik in plaats van een video van 4 minuten, een video van 10 of 15 minuten wil? Of als ik elk punt in de tiebreaks wil meenemen? Ik heb momenteel pech.

Zet nu uw Generative-IA-hoed aan het werk: een Generative IA-sportvideogenerator zou een video maken enkel voor jou volgens de specificaties die u informeel in een tekstprompt plaatst, zoals de volgende:

"Video van ongeveer 15 minuten met de meest vermakelijke punten van de wedstrijd tussen Rafa Nadal en Tommy Paul in Paris Bercy 2022, inclusief eventuele volledige tiebreaks, evenals elk geconverteerd breakpoint"

Dat is het. U krijgt een link met uw gepersonaliseerde video, anders dan een video die door iemand anders ter wereld wordt bekeken. En deze videodienst zou economisch net zo haalbaar zijn als DALL-E en Midjourney.

Onderzoek is iets anders dan innovatie. Het eerste houdt zich bezig met gepubliceerde originele resultaten, en het laatste heeft meer te maken met het vinden van hoe je op basis van die resultaten een bedrijf kunt opbouwen: innovatie geeft niet om originaliteit, maar om groei, weerbaarheid, investeringsrendement, enz.

Vaak wordt het verwarrend omdat onderzoek wordt gedaan door bedrijven als Google, die er in principe zijn om winst te maken – maar ze begrijpen dat hun bedrijf hightech is, en technologie is niet hoogstaand zonder onderzoek. Ze raken dus betrokken bij de financiering van onderzoek en komen ook nauw in contact met de academische wereld; veel van hun toponderzoekers zijn ingehuurd vanuit de academische wereld. Als onderzoeker werd ik een paar jaar geleden uitgenodigd voor een Faculty Summit op hun hoofdkantoor in Mountain View, en ze brachten me onder in een suite in het Four Seasons hotel – alles wat nodig is om een goede indruk te maken op de academische gemeenschap!

Maar ook al zou het moeilijk – en zelfs kunstmatig – zijn om een duidelijke grens te trekken tussen onderzoek en innovatie, toch is het verschil hier cruciaal omdat, in het geval van generatieve AI, de twee door verschillende actoren zullen worden ontwikkeld en met elkaar zullen worden geassocieerd. met twee verschillende lagen in de softwarestack –as opgemerkt door J. Currier:

De onderste softwarelaag is de Deep Learning-model, opgebouwd rond implementaties van Large Language Models (LLM) of een gelijkwaardige interne representatie. Modellen vormen de basisbouwsteen van waaruit toepassingen kunnen worden ontwikkeld.
De bovenste softwarelaag is de toepassing één, die voortbouwt op het Deep Learning-model om een specifieke taak te volbrengen, bijvoorbeeld het uitvoeren van een afbeelding vanaf een tekstprompt.

Deze tweelaagse architectuur zal een nieuw tijdperk van versnelde innovatie aanwakkeren, omdat zodra de onderste laag is ontwikkeld door zeer grote bedrijven als Google, OpenAI en anderen, kleinere bedrijven de applicatielaag zullen leveren – wat uiteraard een verlaging van hun winst oplevert. aan de aanbieder op de onderste laag.

Momenteel is de onderste laag snel verbeterd – en vaak is deze gedistribueerd samen met een applicatie erbovenop. LaMDA en PaLM bieden bijvoorbeeld kant-en-klare dialoogmogelijkheden, terwijl DALL-E en Midjourney prompt-to-image-services bieden. Maar binnenkort zal de proliferatie van open source-alternatieven voor de onderste laag het mogelijk maken om alleen de bovenste applicatielaag te ontwikkelen en deze aan te sluiten op een reeds beschikbare onderste laag. Makkelijker gezegd dan gedaan natuurlijk, maar feit is dat de onderste laag ordes van grootte complexer is dan de bovenste.

Ik zou zeggen dat Generatieve IA zal in bijna elke afzonderlijke kenniswerk- en vrijetijdsactiviteit doordringen omdat het hulpmiddelen zal bieden om de complexiteit weg te halen uit voorheen moeilijke activiteiten en omdat het een geheel nieuw niveau van personalisatie kan bieden dat ik 'generatieve personalisatie' zou noemen.

Je kunt zien wat 'generatieve personalisatie' is in het bovenstaande voorbeeld van een sportvideo: elke gebruiker krijgt een gloednieuwe video met unieke hoogtepunten in plaats van slechts een selectie tussen twee of drie opties.

De cumulatieve impact van alle Generative IA-toepassingen is moeilijk te overdrijven:

Gemakkelijke grafische creatie is al binnen bereik van niet-professionals met tools als DALL-E, Midjourney en Stable Diffusion, tenminste voor eenvoudige utilitaire doeleinden, zoals het verkrijgen van een headerafbeelding voor dit bericht. Vóór dit jaar was ik helemaal niet in staat om mijn eigen afbeeldingen te tekenen, en blogexperts raadden het af om tijd te verspillen aan grafisch ontwerp voor je eigen verhalen.
Gebruikers van fotobewerking hoeven geen moeilijke leercurve te doorstaan om de ingewikkelde set tools van Photoshop of Affinity Photo onder de knie te krijgen (ik gebruik de laatste, en het is zo complex dat ik YouTube-tutorials moet raadplegen om te leren hoe ik de meeste aanpassingen kan maken). Met Generatieve AI vragen gebruikers de software gewoon om een bepaalde transformatie uit te voeren, en voila! Het beeld wordt hersteld. Als Adobe er niet in slaagt Generatieve AI te leveren met hun tools, zullen ze worden verstoord door nieuwe startups die deze aanbieden en zullen ze de weg van Blockbuster inslaan.
Presentatietools zoals PowerPoint zullen, in plaats van alleen maar sjablonen te bieden zoals nu, volledige presentaties op professioneel niveau genereren en verfijnen op basis van schetsideeën. Momenteel is het verschil tussen professionele en amateurpresentaties enorm; dit zal niet meer het geval zijn.
Tekstschrijven zal een proces zijn dat sterk wordt verbeterd door generatieve AI-tools. Veel vormen van schrijven krijgen al hulp van geavanceerde tools zoals Grammarly, maar Generatieve AI zal schrijvers een kwalitatief nieuw niveau van hulp bieden door bijvoorbeeld een volledige eerste versie van een blog te genereren. Schrijven zal een samenwerkingsproces zijn tussen mensen en de AI-tool.
Alle software die voor een eindgebruiker is bedoeld, moet eenvoudig te gebruiken zijn, met tekst- of gesproken aanwijzingen. Gebruikershandleidingen en instructievideo’s zullen tot het verleden behoren en zodra gebruikers gewend raken aan de nieuwe eenvoudige manier van softwaregebruik zal alles dit te bieden hebben om relevant te blijven.
Het leren van talen zal voornamelijk gebeuren met behulp van stemassistenten, die zullen worden aangedreven door – je raadt het goed – generatieve AI. Stemassistenten, die zullen fungeren als persoonlijke taalcoaches, zullen hun verbazingwekkende mogelijkheden voor natuurlijke taaldialogen, die voor het eerst te zien waren in systemen als Google's LaMDA, gebruiken om de leerling van een menselijke taal te begeleiden bij het verwerven van woordenschat en uitdrukkingen, het verbeteren van de uitspraak, enz. stemassistenten zijn geen futuristische fantasie; het is op dit moment alleen maar economisch zinvol.
Zelfs hardwareproducten (zoals auto's) zullen op generatieve AI-dialogen gebaseerde hulpsystemen hebben. Heb je geprobeerd een complexe handeling uit te voeren, zoals het aanpassen van het display in moderne auto's? Niet makkelijk kan ik je vertellen. In plaats van je in complexe handleidingen te verdiepen, vraag je de stemassistent gewoon om instructies of om de aanpassingen direct uit te voeren.

Veel beroepen zullen onherkenbaar worden getransformeerd. Grafische ontwerpers voelen nu al de angel van deze disruptie. Hele beroepen zullen verdwijnen en er zullen andere ontstaan. Machtige bedrijven zullen failliet gaan en nieuwe zullen dominant worden, afhankelijk van hoe goed ze omgaan met de technologische ontwrichting die door generatieve AI wordt veroorzaakt.

En dit alles zal binnen dit decennium gebeuren.

Ik kan het mis hebben, maar het lijkt mij dat het moeilijk was, zelfs voor doorgewinterde techneuten, om de enorme mogelijkheden van de huidige beeld- en tekstgeneratoren te voorspellen: een paar jaar geleden was het nog niet duidelijk dat enorme modellen en trainingssets dat zouden doen. leiden tot kwalitatief verschillende mogelijkheden.

Ik zou zo ver willen gaan om te zeggen dat het een gelukkige, bijna willekeurige vondst was. Maar nu we over generatieve tools beschikken, staan de poorten open voor innoverende bedrijven die in hoog tempo applicatie na applicatie zullen ontwikkelen: het is vooral een kwestie van uitzoeken wat radicaal kan worden verbeterd en het vinden van het geschikte businessmodel om van te profiteren. een Generatief IA-idee.

Een paar jaar geleden leek het erop dat andere technologische trends, zoals zelfrijdende auto's, VR of blockchain, het snel zouden overnemen, maar zelfrijdende technologie werd beperkt door wettelijke hindernissen, blockchain werd getroffen door de economische neergang en VR adoptie wordt beperkt door de hoge hardwarekosten. Generatieve AI is daarentegen nog niet beperkt door wetgeving (hey, het oppoetsen van een PowerPoint-presentatie of het genereren van een sportvideo is geen kwestie van leven of dood) en vereist geen dure hardware die door de gebruiker moet worden gekocht.

En we hadden niet gedacht dat de creatieve activiteiten zo snel verstoord zouden worden. Maar dat waren ze wel.

We betreden nieuwe en soms vreemde tijden, waarin menselijke creativiteit zo vermengd wordt met de nieuwe mogelijkheden van machines dat het moeilijk is om ze van elkaar te onderscheiden. Als J. Currier wijst erop:

“Vandaag en de komende jaren zal dit verrassend en in veel opzichten beangstigend aanvoelen. Omdat die creatieve momenten waarop je van nul naar initiële ideeën gaat, altijd zo uniek menselijk hebben gevoeld, omdat het zo mysterieus was.”

Hoe generatieve IA alles in het huidige decennium zal ontwrichten, opnieuw gepubliceerd vanuit de bron https://towardsdatascience.com/how-generative-ia-will-disrupt-everything-in-the-current-decade-b4e8ce7dd4f1?source=rss—-7f60cf5620c9— 4 via https://towardsdatascience.com/feed

<!–

Tijdstempel: 10 november 202211 november 2022