Hogyan fog mindent megzavarni a generatív IA a jelenlegi évtizedben

Újra kiadta Platón

Követő: 0

Sokan meg fognak lepődni

In Az elmúlt hónapokban az olyan mesterséges intelligencia rendszerek, mint a Midjourney, a DALL-E, a Stable Diffusion, a LaMDA és a PaLM, nagyot léptek előre a látszólag olyan változatos területeken, mint a kép- és szöveggenerálás. Ezeknek a rendszereknek a képességei lenyűgözőek: rendkívül szuggesztív képeket készítenek, hatékony reklámpéldányt készítenek, és még sok minden mást – mindezt pusztán „felszólításokból”, amelyek leírják, mit szeretne elérni a felhasználó.

Mindez a Generatív AI segítségével történik.

A „generatív mesterségesintelligencia” olyan rendszerekre utal, amelyeket a rendszer működtet mély idegi hálózatok hogy megvalósítja Nagy nyelvi modellek (LLM) annak érdekében teremt valamiféle tartalom. Itt azt mondom, hogy „létrehozni”, vagyis nem valami már létező másolata, nem filozófiai értelemben (mi is az a „teremtés”?).

Nagy új cégek jelennek meg ebben a bátor új világban, mint pl Jáspis, amely eladási példányok és képek generálását kínálja reklámozáshoz: Jasper mostanra több mint egymilliárd dollárra értékelte, és egyik napról a másikra egyszarvúvá válik.

Az első olyan Generative AI platform, amely valóban tönkrement, a GPT-3 volt – alig pár éve adták ki! Ezt követően a mezőny számos szereplőjének (OpenAI, Google, StableDiffusion, Google, DeepMind és mások) sorozata jelent meg nyaktörő ütemben, olyannyira, hogy nehéz naprakészen maradni.

De azon túl, hogy milyen szórakoztató és fantasztikus a Midjourney-vel eltölteni, hogy képeket hozzon létre utasításaink alapján, sok technológiai rajongó küzd azért, hogy megértse ezt a generatív IA hullámot.

A Generatív IA szilárd trend, vagy csak egy hóbort?

megyekszilárd trend” mert több ezer szakmai és szabadidős tevékenységet alakít át ebben az évtizedben. Hadd kezdjem egy példával.

Hatalmas teniszrajongó vagyok (legalábbis tévés értelemben). De az élő teniszmérkőzések órákig tartanak, és más tevékenységeim és érdeklődéseim vannak, ezért általában visszajátszásokat nézek, vagy csak olyan videókat nézek, amelyek a legszórakoztatóbb 4 percet tartalmazzák egy meccsből.

De mi van, ha egy 4 perces videó helyett 10 vagy 15 perceset szeretnék? Vagy ha minden pontot bele akarok venni a döntetlenbe? Jelenleg nincs szerencsém.

Most tedd munkába a Generative-IA kalapodat: a Generative IA sportvideó-generátor készítene videót csak neked az Ön által informálisan egy szöveges promptban megadott specifikációknak megfelelően, például:

"Körülbelül 15 perces videó a Rafa Nadal vs. Tommy Paul mérkőzés legszórakoztatóbb pontjaival a 2022-es Paris Bercy-ben, beleértve a teljes tiebreaket, ha vannak ilyenek, valamint minden átváltott töréspontot"

Ez az. Kapsz egy linket a személyre szabott videódhoz, amely különbözik attól a videótól, amelyet bárki más a világon nézett. És ez a videószolgáltatás olyan gazdaságilag megvalósítható lenne, mint a DALL-E és a Midjourney.

A kutatás különbözik az innovációtól. Az előbbi a publikált eredeti eredményekkel foglalkozik, az utóbbi pedig inkább azzal kapcsolatos, hogy ezekből az eredményekből hogyan lehet vállalkozást felépíteni: az innovációnak nem az eredetiség, hanem a növekedés, a védhetőség, a befektetés megtérülése stb.

A dolgok gyakran zavarba jönnek, mert a kutatásokat olyan cégek végzik, mint a Google, amelyek elvileg azért vannak, hogy profitot termeljenek – de megértik, hogy vállalkozásuk csúcstechnológiás, és a technológia kutatás nélkül nem magas színvonalú. Így részt vesznek a kutatás finanszírozásában, valamint az akadémiához való közeledésben – sok vezető kutatójukat az akadémiától vették fel. Kutatóként néhány évvel ezelőtt meghívást kaptam egy kari csúcstalálkozóra a Mountain View-i főhadiszállásukra, és a Four Seasons hotel egyik lakosztályában szállásoltak el – bármi kell ahhoz, hogy jó benyomást keltsek az akadémiai közösségben!

De még ha nehéz is – sőt mesterséges – egyértelmű határvonalat húzni a kutatás és az innováció között, a különbség itt döntő fontosságú, mert a generatív mesterséges intelligencia esetében a kettőt különböző szereplők fejlesztik, és összekapcsolják őket. két különböző réteggel a szoftververemben –as mutatott rá J. Currier:

Az alsó szoftverréteg a Mélytanulási modell, amely a Large Language Models (LLM) vagy azzal egyenértékű belső reprezentáció megvalósításai köré épül. A modellek jelentik az alap építőelemet, amelyből alkalmazások fejleszthetők.
A legfelső szoftverréteg a alkalmazás az egyik, amely a Deep Learning modellre épít egy adott feladat elvégzésére, például egy kép szöveges promptból történő kiadására.

Ez a kétrétegű architektúra a felgyorsult innováció új korszakát indítja el, mert amint az alsó réteget nagyon nagy cégek, például a Google, az OpenAI és mások kifejlesztik, a kisebb cégek biztosítják majd az alkalmazási réteget – természetesen a profitjuk csökkentését is. az alsó réteg szolgáltatójához.

Jelenleg az alsó réteget gyorsan továbbfejlesztették – és gyakran a tetejére egy alkalmazással együtt osztották el. Például a LaMDA és a PaLM már készenlétben kínál párbeszédpaneleket, míg a DALL-E és a Midjourney azonnali képkészítési szolgáltatásokat kínál. Hamarosan azonban az alsó réteg nyílt forráskódú alternatíváinak elterjedése lehetővé teszi, hogy csak a felső alkalmazási réteget fejlesszük, és csatlakoztassuk egy már elérhető alsó réteghez. Könnyebb mondani, mint megtenni, de tény, hogy az alsó réteg nagyságrendekkel összetettebb, mint a felső.

Azt vitatnám, hogy a Generatív IA szinte minden egyes tudásmunkát és szabadidős tevékenységet áthat majd mert eszközöket fog nyújtani a korábban nehéz tevékenységektől való összetettség elkerüléséhez, és mert a személyre szabás egy teljesen új szintjét biztosíthatja, amit én „generatív személyre szabásnak” neveznék.

A fenti sportvideó példájából láthatja, hogy mi a „generatív személyre szabás”: minden felhasználó kap egy vadonatúj és egyedi kiemelt videót, ahelyett, hogy két vagy három lehetőség közül választhatna.

Az összes Generatív IA-alkalmazás összesített hatását nehéz eltúlozni:

Az egyszerű grafikai készítés már elérhető a nem profik számára olyan eszközökkel, mint a DALL-E, a Midjourney és a Stable Diffusion, legalábbis egyszerű haszonelvű célokra, például fejléckép beszerzésére ehhez a bejegyzéshez. Az idei év előtt teljesen képtelen voltam saját képeket rajzolni, és a blog szakértői azt tanácsolták, hogy ne vesztegess időt a saját történeteid grafikai tervezésére.
A képszerkesztő felhasználóknak nem kell kemény tanulási görbéket elviselniük ahhoz, hogy elsajátítsák a Photoshop vagy az Affinity Photo bonyolult eszközkészletét (én az utóbbit használom, és annyira összetett, hogy a YouTube oktatóanyagaiból megtudom, hogyan kell elvégezni a legtöbb beállítást). A Generative AI esetén a felhasználók csak arra kérik a szoftvert, hogy hajtson végre egy adott átalakítást, és íme! A kép javítva lesz. Ha az Adobe nem tudja biztosítani a Generative AI eszközeit, akkor az őket kínáló új startupok megzavarják őket, és a Blockbuster útját járják.
Az olyan prezentációs eszközök, mint a PowerPoint, ahelyett, hogy csak sablonokat adnának, mint most, teljes professzionális szintű prezentációkat generálnak és finomhangolnak az ötletvázlatokból. Jelenleg óriási a különbség a professzionális és az amatőr előadások között – ez már nem lesz így.
A szövegírás egy olyan folyamat lesz, amelyet a Generative AI eszközök nagymértékben továbbfejlesztenek. Az írás számos formája már most is segítséget kap az olyan kifinomult eszközöktől, mint a Grammarly, de a Generative AI minőségileg új szintű segítséget nyújt az íróknak, például egy blog teljes első verziójának létrehozásával. Az írás az emberek és az AI-eszköz közötti együttműködési folyamat lesz.
A végfelhasználóknak szánt szoftvereknek egyszerűen használhatónak kell lenniük szöveges vagy hangutasításokkal. A felhasználói kézikönyvek és az oktatóvideók a múlté lesznek, és amint a felhasználók megszokják a szoftverhasználat új egyszerű módját, mindent fel kell kínálnia ahhoz, hogy releváns maradjon.
A nyelvtanulás főként hangasszisztensek segítségével történik majd, amelyeket – jól sejtetted – Generatív mesterséges intelligencia hajtja majd meg. A hangos asszisztensek, amelyek személyes nyelvi edzőként működnek, csodálatos természetes nyelvi párbeszéd-képességeiket használják majd, amelyeket először olyan rendszerekben, mint a Google LaMDA, és irányítják az emberi nyelv tanulóit a szókincs és kifejezések elsajátításában, a kiejtés javításában stb. Nyelvtanítás A hangasszisztensek nem futurisztikus fantázia – jelenleg csak gazdaságilag ésszerű.
Még a hardvertermékek (például az autók) is rendelkeznek Generative AI párbeszéd-alapú súgórendszerrel. Próbált már olyan összetett műveletet végrehajtani, mint a kijelző beállítása a modern autókban? Nem könnyű, mondhatom. Ahelyett, hogy elmélyülne az összetett kézikönyvekben, csak meg kell kérnie a hangos asszisztenst, hogy kapjon utasításokat, vagy közvetlenül végezze el a beállításokat.

Sok szakma a felismerhetetlenségig átalakul. A grafikusok már érzik ennek a zavarnak a csípését. Egész szakmák tűnnek el, és újabbak jönnek létre. A nagyhatalmú vállalatok csődbe mennek, és újak válnak dominánssá, attól függően, hogy mennyire jól kezelik a Generative AI okozta technológiai zavarokat.

És mindez ezen az évtizeden belül fog megtörténni.

Lehet, hogy tévedek, de úgy tűnik számomra, hogy még a tapasztalt műszaki szakemberek számára is nehéz volt előre megjósolni a jelenlegi kép- és szöveggenerátorok hatalmas képességeit: néhány éve még nem volt nyilvánvaló, hogy hatalmas modellek és oktatókészletek minőségileg eltérő képességekhez vezetnek.

Odáig elmennék, hogy azt mondanám, szerencsés, szinte véletlenszerű lelet. De most, hogy generatív eszközökkel rendelkezünk, nyitva állnak a kapuk az innovatív cégek előtt, amelyek alkalmazást alkalmazás után gyors ütemben fejlesztenek: leginkább azon múlik, hogy kitaláljuk, mit lehet radikálisan javítani, és megtaláljuk a megfelelő üzleti modellt, amelyből üzletet lehet létrehozni. Generatív IA ötlet.

Néhány évvel ezelőtt úgy tűnt, hogy más technológiai irányzatok, például az önvezető autók, a VR vagy a blokklánc hamarosan átveszik az uralmat, de az önvezető technológiát törvényi akadályok korlátozták, a blokkláncot sújtotta a gazdasági visszaesés, és a VR. átvételét korlátozzák a magas hardverköltségek. Ehelyett a generatív mesterséges intelligencia működését még nem korlátozza a jogszabályok (hé, egy PowerPoint-prezentáció csiszolása vagy egy sportvideó elkészítése nem élet-halál kérdése), és nem kell hozzá drága hardver a felhasználónak.

És nem gondoltuk, hogy a kreatív tevékenységek ilyen hamar megszakadnak. De voltak.

Új és néha furcsa időkbe lépünk, ahol az emberi kreativitás olyannyira keveredik a gépek új képességeivel, hogy nehéz megkülönböztetni őket. Mint J. Currier rámutat:

„Ma és a következő néhány évben ez meglepő és sok szempontból ijesztő lesz. Mert azok a kreatív pillanatok, amikor az ember a nullától a kezdeti ötletig eljut, mindig is olyan egyedien emberinek tűntek, mert olyan titokzatosak voltak.”

Hogyan fog mindent megzavarni a generatív IA a jelenlegi évtizedben? A következő forrásból újra közzétéve: https://towardsdatascience.com/how-generative-ia-will-disrupt-everything-in-the-current-decade-b4e8ce7dd4f1?source=rss—-7f60cf5620c9— 4 a https://towardsdatascience.com/feed oldalon

<!–

Időbélyeg: November 10, 2022November 11, 2022