A művészet nem halott, csak gép által generált

Újra kiadta Platón

Követő: 0

Miért váltják fel az AI-modellek a művészeket jóval azelőtt, hogy leváltanák a programozókat?

A generatív mesterséges intelligencia talán leginkább elgondolkodtató következtetése az, hogy ellentétben azzal az általános vélekedéssel, hogy a kreativitás lesz az emberi találékonyság utolsó bástyája az automatizálással szemben, valójában úgy tűnik, sokkal könnyebb a meglehetősen nehéz kreatív feladatok automatizálására, mint a viszonylag egyszerű programozási feladatok automatizálására. Ennek megértéséhez összehasonlítjuk a generatív mesterséges intelligencia két népszerűbb felhasználási esetét: a kódgenerálást és a képgenerálást. De úgy gondoljuk, hogy ez az állítás általánosabban érvényesül, még akkor is, ha a generatív modellek bonyolultabb alkalmazásokká bővülnek.

Az érvelés rövid változata (amivel az alábbiakban részletesebben foglalkozunk) az, hogy bár egy termék, mint GitHub másodpilóta, jelenlegi formájában némileg hatékonyabbá teheti a kódolást, nem szünteti meg a programozási ismeretekkel rendelkező, alkalmas szoftverfejlesztők szükségességét. Az egyik nagy ok az, hogy amikor egy program felépítéséről van szó, a helyesség valóban számít. Ha a mesterséges intelligencia létrehoz egy programot, akkor is szüksége van egy emberre, hogy ellenőrizze a helyességét – ez az erőfeszítés közel azonos szintű, mint a létrehozása.

Másrészt, aki tud gépelni, használhat egy hasonló modellt Stabil diffúzió percek alatt, sok nagyságrenddel olcsóbban kiváló minőségű, egyedülálló képeket készíteni. A kreatív munkatermékek gyakran nincsenek szigorú korrektségi megkötésekkel, és a modellek kimenetei lenyűgözően teljesek. Nehéz nem látni teljes fáziseltolódást azokban az iparágakban, amelyek kreatív vizualizációra támaszkodnak, mert sok felhasználási célra az AI által előállított látványelemek már elegendőek, és még mindig a technológia kezdeti szakaszában járunk.

Teljes mértékben elismerjük, hogy nehéz bízni bármilyen előrejelzésben a mezőny mozgásának ütemében. Jelenleg azonban úgy tűnik, sokkal nagyobb valószínűséggel látunk olyan alkalmazásokat, amelyek tele vannak kreatív képekkel, amelyeket szigorúan programozók készítettek, mint olyan alkalmazásokat, amelyek emberi tervezésű művészetet tartalmaznak, amelyet szigorúan az alkotók készítettek.

Miért a hype, és miért most?

Mielőtt rátérnénk a kódgenerálás és a képgenerálás sajátosságaira, hasznos képet kapni arról, mennyire népszerű jelenleg az AI általánosságban és konkrétan a generatív AI.

A Generatív mesterséges intelligencia a valaha látott leggyorsabb fejlesztői alkalmazást tapasztalja. Miközben ezt írjuk, a Stable Diffusion könnyedén vezeti a GitHub adattárak trendi listáját.. Növekedése messze megelőzi az infrastruktúra vagy a kriptográfia területén minden új technológiát (lásd a fenti ábrát). Szinte naponta érkeznek bejelentések a technológiát használó startupok indulásáról és finanszírozásáról, az online közösségi hálózatokat pedig elárasztják a generatív modellek által létrehozott tartalmak.

Az elmúlt évtized mesterségesintelligencia-befektetéseinek általános szintjét szintén nehéz túlbecsülni. A 2010-es évek közepe óta exponenciális növekedést tapasztaltunk a publikációk számában (lásd az alábbi ábrát). Ma az arXiv-en közzétett cikkek körülbelül 20%-a az AI-ról, az ML-ről és az NLP-ről szól. Fontos, hogy az elméleti eredmények átléptek egy kritikus küszöböt, ahol könnyen fogyaszthatóvá váltak, és az új technikák, szoftverek és induló vállalkozások kambriumi robbanását váltották ki.

A fenti ábrán látható legutóbbi kiugrás nagyrészt a generatív MI-nek köszönhető. Egyetlen évtized leforgása alatt a képeket osztályozni és szóbeágyazást létrehozni képes, csak szakértők által készített mesterséges intelligencia modellektől olyan nyilvánosan használható modellekké váltunk, amelyek hatékony kódot tudnak írni, és rendkívül pontos képeket készítenek természetes nyelvi utasítások segítségével. Nem meglepő, hogy az innováció üteme csak felgyorsult, és nem lehet meglepő, ha a generatív modellek elkezdenek behatolni más területekre, amelyeket egykor az emberek uraltak.

Generatív AI és programozás

A generatív mesterséges intelligencia egyik legkorábbi felhasználása programozói segédeszköz volt. Úgy működik, hogy egy modellt egy nagy kódtömbre képeznek ki (pl. a GitHub összes nyilvános repójára), majd javaslatot tesz egy programozónak, amikor kódolják. Az eredmények kiemelkedőek. Olyannyira, hogy ésszerű, hogy ez a megközelítés a jövőben a programozás szinonimájává válik.

A művészet nem halt meg, csak gép által generált PlatoBlockchain adatintelligencia. Függőleges keresés. Ai. — Generált kód: biztonságos a pontosvesszőt nem használó támadások ellen.

A termelékenységnövekedés azonban szerény volt a képalkotáshoz képest, amelyet alább tárgyalunk. Ennek részben az az oka, mint fentebb említettük, hogy a helyesség kritikus a programozásban (és valóban a mérnöki problémák tágabb értelemben, de ebben a bejegyzésben a programozásra koncentrálunk). Például, egy friss tanulmány megállapította hogy a magas kockázatú forgatókönyvek esetében CWE-k (gyakori gyengeségek felsorolása), az AI által generált kód 40%-a tartalmazott sebezhetőséget.

Így a felhasználónak egyensúlyt kell találnia aközött, hogy elegendő kódot generáljon a termelékenység jelentős növeléséhez, miközben korlátozza azt, hogy ellenőrizni tudja a helyességet. Ennek eredményeként a Copilot megvan segített a fejlesztők termelékenységének javítása – legújabb tanulmányok (itt és a itt) 2-szeresére vagy kisebbre teszi a nyereséget – de olyan szinten, mint amit a fejlesztői nyelvek és eszközök korábbi fejlesztései során tapasztaltunk. Az összeszerelésről a C-re való ugrás például egyes becslések szerint 2-5-szörösére javította a termelékenységet.

A tapasztaltabb programozók aggályai túlmutathatnak a kód helyességén és az általános kódminőségen. Mint gyorsan.aiJeremy Howard magyarázta az OpenAI Codex modell legújabb verzióival kapcsolatban: „[Én] nem írok bőbeszédű kódot, mert generál átlagos kód. Számomra átlagos kódot venni és olyan kódot készíteni belőle, amit szeretek, és tudom, hogy helyes, sokkal lassabb, mint a nulláról írni – legalábbis azokon a nyelveken, amelyeket jól ismerek.”

Tehát bár egyértelmű, hogy a generatív programozás lépcsőzetes funkció a fejlesztői termelékenységben, nem egyértelmű, hogy a javulás drámai mértékben különbözik a korábban látottaktól. A generatív mesterséges intelligencia jobb programozókat tesz lehetővé, de programozniuk kell.

Generatív AI és látványelemek

Másrészt a generatív modellek hatása a kreatív munkára, például a képalkotásra rendkívüli. Sok nagyságrendű hatékonyságnövekedést és költségnövekedést eredményezett, és nehéz nem látni, hogy az iparág egészére kiterjedő fáziseltolódást eredményez.

A generatív mesterséges intelligencia ezen a téren úgy működik, hogy egyszerű szöveges inputokat vesz a felhasználótól, úgynevezett promptokat, majd a modell vizuális kimenetet generál. Jelenleg számos kimeneti formátum, köztük képek, videók, 3D modellek és textúrák létrehozására szolgáló modellek léteznek.

Ami különösen érdekes, hogy ezek a modellek hogyan bővíthetők ki új vagy tartományspecifikus képek létrehozására szinte kreatív beavatkozás nélkül. Például Guido (az egyik szerző) készített egy előre betanított képmodellt, és néhány tucat fotón átképezte magáról. Innen már képes volt képeket generálni a segítségével a promptban. Az alábbiakban a következő promptokból generált fényképek láthatók: ” as captain america"," in paris"," in a painting".

Ahol a képgenerálás jelentős eltérést jelent a kódgenerálástól üzleti környezetben, az a generatív mesterséges intelligencia milyen mértékben változtatja meg a gazdasági számításokat. A fenti képek elkészítéséhez Guido megtanította a modellt egy maroknyi fotóra, amelyek infrastrukturális erőforrásai körülbelül 50 dollárba kerülnek.. Képzés után a képek létrehozása körülbelül 0.001 dollárba kerül számítási erőforrásokban és a felhőben, ill egy legújabb generációs laptopon. Ezenkívül a kép létrehozása csak néhány másodpercet vesz igénybe.

Generatív mesterséges intelligencia nélkül az egyetlen módja annak, hogy egyedi képet készítsünk, ha felveszünk egy művészt, vagy saját kezűleg csináljuk meg. Még akkor is, ha abból indulunk ki, hogy egy személy 10 dollárért egy órán belül teljesen egyedi, fotorealisztikus képet készíthet, a generatív AI megközelítés könnyen négy nagyságrenddel olcsóbb és egy nagyságrenddel gyorsabb. Reálisabban fogalmazva, minden egyedi alkotás vagy grafikai tervezési projekt valószínűleg napokat vagy heteket vesz igénybe, és több száz, ha nem több ezer dollárba kerül.

A fenti programozási segédletekhez hasonlóan a generatív AI is az lesz eszközként fogadták el művészek által, és mindkettő bizonyos fokú felhasználói felügyeletet igényel. De nehéz túlbecsülni azt a gazdasági különbséget, amelyet egy képmodell képes utánozni a teljes művészi teljesítményt. Kódgenerálási modell használatával még egy nagyon egyszerű funkcionális program megírásához is, amely egy szabványos számítási feladatot hajt végre, számos kódrészlet áttekintését, szerkesztését és tesztek hozzáadását igényli. De egy alapkép esetén egy prompt beírása és egy tucatnyi javaslat közül egy kép kiválasztása egy perc alatt elvégezhető.

Vegyük például saját karikaturistánkat (és befektetési partnerünket), Yoko Li-t (@stuffyokodraws). Egy modellt 70 korábbi képének felhasználásával képeztünk ki, és a modell hátborzongató szintű mimikával képes volt képeket generálni. Minden művésznek ki kell találnia, hogy mit hozzon létre ezután, és még azt is megállapította, hogy a képzett modellek több lehetőséget is fel tudnak tárni, mint amennyire ő gondolt – legalábbis akkor, ha arra kényszerülnek, hogy egy adott idő alatt készítsenek valamit. Ugyanazt az objektumot több száz módon lehet megrajzolni, de a generatív modellek azonnal nyilvánvalóvá tették, mely utakat érdemes felfedezni.

Tehát amikor ilyen feladatokról van szó, nem vitatjuk, hogy a számítógépek feltétlenül jobb mint az emberek 1:1 alapon. De mint sok más feladatnál, amikor a számítógépek teljes munkavégzésre képesek, egyszerűen megölnek minket skála.

Próbáld kitalálni, hogy az alábbi rajzok közül melyiket rajzolta közvetlenül Yoko, és melyeket generált.

A közgazdaságtan hatalmas fejlődése, az új stílusok és koncepciók kidolgozásának rugalmassága, valamint a teljes vagy csaknem teljes munkaeredmény létrehozásának képessége azt sugallja számunkra, hogy készen állunk arra, hogy jelentős változást tapasztaljunk minden olyan iparágban, ahol a kreatív eszközök az üzlet jelentős része. És ez nem korlátozódik a képekre, hanem az egész tervezési területre vonatkozik. Például:

A generatív mesterséges intelligencia 2D-s művészetet, textúrákat, 3D-s modelleket tud létrehozni, és segítséget nyújt a játékok szintű tervezésében.
A marketingben úgy tűnik, készen áll a stock art, a termékfotózás és az illusztráció helyettesítésére.
Már látunk alkalmazásokat webdizájnban, belsőépítészetben és tájtervezésben.

És valójában még az elején vagyunk. Ha egy használati eset kreatív tartalomgenerálást tesz szükségessé, nehéz belátni az érvet, hogy a generatív mesterséges intelligencia miért nem zavarja meg, vagy legalábbis a folyamat részévé válik.

Rendben, akkor mi ennek a bejegyzésnek a lényege? Bár kissé szűken a kódgenerálásra és a képgenerálásra összpontosít, gyanítjuk, hogy az eredmények szélesebb körben érvényesek. Különösen, hogy a kreatív törekvéseket – legyen az vizuális, szöveges vagy zenei – valószínűleg megzavarja a mesterséges intelligencia jóval a rendszerek kiépítése előtt.

Az általunk fentebb használt helyességi érv mellett az is előfordulhat, hogy az összes korábbi technika kombinálása és újrakombinálása elegendő lehet a kreatív eredmények gyakorlati skálájához. A zene- és filmipar például történelmileg számtalan népszerű albumot és filmet hozott létre. Teljesen elképzelhető, hogy a generatív modellek idővel automatizálhatják ezeket a funkciókat. A Stable Diffusion és a DALL-E 2 által készített képek közül azonban az a figyelemre méltó, hogy tényleg jók és a igazán érdekes. Nem nehéz elképzelni egy olyan mesterséges intelligencia-modellt, amely valóban érdekes zenei stílusok fúzióját produkálja, vagy akár olyan egész estés filmeket „ír”, amelyek érdekesek a koncepciók és stílusok összekapcsolásában.

Éppen ellenkezőleg, nehéz elképzelni, hogy a korábbi rendszerek tartalmazzák az összes olyan eszközt, amelyre az összes jövőbeli rendszer fejlesztéséhez szükségünk lesz. Vagy akár azt is, hogy az összetett rendszerek olyan könnyen kombinálhatók, mint a különböző művészeti vagy zenei stílusok. A rendszer értéke gyakran a részletek hosszú farkában rejlik, és hogy miért olyan nehéz felépíteni őket – az összes kompromisszumban, megkerülő megoldásban, az adott tervezési területre vonatkozó optimalizálásban és az intézményi/látens tudásban. Tehát folytatnunk kell az építkezést.

Ellenállunk a jóslás késztetésének pontosan milyen hatással lesz a generatív AI a kreatív iparágra. Azonban, a történelem azt sugallja, hogy az új eszközök hajlamosak kiterjed ahelyett, hogy szerződést kötne a művészet meghatározásával, és elérhetővé tenni az új típusú művészek számára. Ebben az esetben az új művészek rendszerépítők. Így, A technológiai alapítók számára úgy gondoljuk, hogy a generatív AI szigorúan pozitív eszköz a szoftverek hatókörének kiterjesztésére – a játékok szebbek, a marketing vonzóbb, az írott tartalom vonzóbb, a filmek pedig inspirálóbbak lesznek.

Ki tudja: Egy napon az internet 2022 végén készült archívuma az utolsó, többnyire ember által generált tartalomtárak egyikeként becsülhető. Ennek a cikknek a szövegét legalábbis teljes egészében emberek hozták létre.

***

Az itt kifejtett nézetek az AH Capital Management, LLC („a16z”) egyes alkalmazottainak nézetei, és nem az a16z vagy leányvállalatai nézetei. Az itt található bizonyos információk harmadik féltől származnak, többek között az a16z által kezelt alapok portfólióvállalataitól. Noha megbízhatónak vélt forrásokból származnak, az a16z nem ellenőrizte önállóan ezeket az információkat, és nem tesz kijelentést az információk aktuális vagy tartós pontosságáról, illetve annak egy adott helyzetre való megfelelőségéről. Ezenkívül ez a tartalom harmadik féltől származó hirdetéseket is tartalmazhat; az a16z nem vizsgálta át az ilyen hirdetéseket, és nem támogatja az abban található reklámtartalmat.

Ez a tartalom csak tájékoztatási célokat szolgál, és nem támaszkodhat rá jogi, üzleti, befektetési vagy adótanácsadásként. Ezekkel a kérdésekkel kapcsolatban konzultáljon saját tanácsadójával. Bármely értékpapírra vagy digitális eszközre történő hivatkozások csak illusztrációs célt szolgálnak, és nem minősülnek befektetési ajánlásnak vagy ajánlatnak befektetési tanácsadási szolgáltatások nyújtására. Ezen túlmenően ez a tartalom nem befektetőknek vagy leendő befektetőknek szól, és nem is szánható felhasználásra, és semmilyen körülmények között nem támaszkodhat rá az a16z által kezelt alapokba történő befektetésről szóló döntés meghozatalakor. (A16z alapba történő befektetésre vonatkozó ajánlatot csak az ilyen alap zártkörű kibocsátási memoranduma, jegyzési szerződése és egyéb vonatkozó dokumentációja tesz, és azokat teljes egészében el kell olvasni.) Minden említett, hivatkozott befektetés vagy portfóliótársaság, ill. A leírtak nem reprezentatívak az a16z által kezelt járművekbe történő összes befektetésre, és nem garantálható, hogy a befektetések nyereségesek lesznek, vagy a jövőben végrehajtott egyéb beruházások hasonló tulajdonságokkal vagy eredménnyel járnak. Az Andreessen Horowitz által kezelt alapok befektetéseinek listája (kivéve azokat a befektetéseket, amelyek esetében a kibocsátó nem adott engedélyt az a16z számára a nyilvánosságra hozatalra, valamint a nyilvánosan forgalmazott digitális eszközökbe történő be nem jelentett befektetéseket) a https://a16z.com/investments oldalon érhető el. /.

A benne található diagramok és grafikonok kizárólag tájékoztató jellegűek, és nem szabad rájuk hagyatkozni befektetési döntések meghozatalakor. A múltbeli teljesítmény nem jelzi a jövőbeli eredményeket. A tartalom csak a feltüntetett dátum szerint beszél. Az ezekben az anyagokban megfogalmazott előrejelzések, becslések, előrejelzések, célok, kilátások és/vagy vélemények előzetes értesítés nélkül változhatnak, és mások véleményétől eltérhetnek vagy ellentétesek lehetnek. További fontos információkért látogasson el a https://a16z.com/disclosures oldalra.

Időbélyeg: November 16, 2022November 16, 2022