Sztuka nie umarła, jest po prostu generowana maszynowo

Opublikowane ponownie przez Plato

Obserwuje: 0

Dlaczego modele AI zastąpią artystów na długo przed tym, zanim zastąpią programistów

Być może najbardziej zaskakującą konsekwencją generatywnej sztucznej inteligencji jest to, że w przeciwieństwie do powszechnego poglądu, że kreatywność będzie ostatnim bastionem ludzkiej pomysłowości w obliczu automatyzacji, w rzeczywistości wydaje się być znaczenie łatwiej do automatyzacji raczej trudnych zadań twórczych niż do automatyzacji stosunkowo prostych zadań programistycznych. Aby to zrozumieć, porównujemy dwa najpopularniejsze przypadki użycia generatywnej sztucznej inteligencji: generowanie kodu i generowanie obrazu. Uważamy jednak, że twierdzenie to jest bardziej ogólne, nawet gdy modele generatywne rozszerzają się na bardziej złożone zastosowania.

Krótka wersja argumentu (który omówimy bardziej szczegółowo poniżej) jest taka, że chociaż produkt taki jak Drugi pilot GitHub, w swojej obecnej formie, może sprawić, że kodowanie będzie nieco bardziej wydajne, nie eliminuje to zapotrzebowania na zdolnych programistów ze znajomością programowania. Jednym z głównych powodów jest to, że jeśli chodzi o budowanie programu, poprawność naprawdę ma znaczenie. Jeśli sztuczna inteligencja generuje program, nadal wymaga od człowieka sprawdzenia, czy jest on poprawny — wysiłek na prawie takim samym poziomie, jak jego stworzenie na początku.

Z drugiej strony każdy, kto potrafi pisać, może używać modelu takiego jak Stabilna dyfuzja do tworzenia wysokiej jakości, jedynych w swoim rodzaju obrazów w ciągu kilku minut, przy wielu rzędach wielkości mniejszym kosztem. Produkty pracy twórczej często nie mają ścisłych ograniczeń poprawności, a wyniki modeli są zdumiewająco kompletne. Trudno nie dostrzec pełnego przesunięcia fazowego w branżach, które opierają się na kreatywnych wizualizacjach, ponieważ w wielu zastosowaniach wizualizacje, które sztuczna inteligencja jest w stanie teraz wytworzyć, są już wystarczające, a my wciąż jesteśmy na bardzo wczesnym etapie tej technologii.

W pełni zdajemy sobie sprawę, że trudno jest być pewnym jakichkolwiek przewidywań w tempie, w jakim rozwija się pole. Obecnie jednak wydaje się, że znacznie częściej zobaczymy aplikacje pełne kreatywnych obrazów tworzonych wyłącznie przez programistów niż aplikacje z grafiką zaprojektowaną przez ludzi, tworzone wyłącznie przez twórców.

Dlaczego hype i dlaczego teraz?

Zanim przejdziemy do specyfiki generowania kodu w porównaniu z generowaniem obrazu, warto zorientować się, jak popularna jest obecnie sztuczna inteligencja, a w szczególności generatywna sztuczna inteligencja.

Generatywna sztuczna inteligencja jest najszybciej wdrażana przez programistów, jaką kiedykolwiek widzieliśmy. Kiedy to piszemy, Stable Diffusion z łatwością znajduje się na szczycie wykresów trendów repozytoriów GitHub z dużym marginesem. Jego wzrost znacznie wyprzedza wszelkie najnowsze technologie w infrastrukturze lub kryptografii (patrz rysunek powyżej). Prawie codziennie pojawiają się ogłoszenia o uruchomieniu i finansowaniu start-upów korzystających z tej technologii, a sieci społecznościowe online są zalewane treściami tworzonymi przez modele generatywne.

Ogólny poziom inwestycji w sztuczną inteligencję w ciągu ostatniej dekady jest również trudny do przecenienia. Od połowy 2010 roku obserwujemy wykładniczy wzrost samych publikacji (patrz rysunek poniżej). Obecnie około 20% wszystkich artykułów publikowanych na arXiv dotyczy AI, ML i NLP. Co ważne, teoretyczne wyniki przekroczyły krytyczny próg, w którym stały się łatwo konsumpcyjne i wywołały kambryjską eksplozję nowych technik, oprogramowania i startupów.

Ostatni wzrost na powyższym rysunku jest w dużej mierze spowodowany generatywną sztuczną inteligencją. W ciągu jednej dekady przeszliśmy od modeli sztucznej inteligencji przeznaczonych wyłącznie dla ekspertów, które potrafiły klasyfikować obrazy i tworzyć osadzone słowa, do modeli użytku publicznego, które mogą pisać skuteczny kod i tworzyć niezwykle dokładne obrazy przy użyciu podpowiedzi w języku naturalnym. Nie jest niespodzianką, że tempo innowacji dopiero wzrosło i nie powinno być niespodzianką, gdy modele generatywne zaczynają wkraczać na inne obszary niegdyś zdominowane przez ludzi.

Generatywna sztuczna inteligencja i programowanie

Jednym z najwcześniejszych zastosowań generatywnej sztucznej inteligencji była pomoc programisty. Sposób działania polega na tym, że model jest szkolony na dużym zbiorze kodu (np. na wszystkich publicznych repozytoriach w GitHub), a następnie przekazuje sugestie programiście podczas kodowania. Wyniki są znakomite. Tak bardzo, że to rozsądne podejście stanie się synonimem programowania w przyszłości.

Sztuka nie umarła, to tylko generowana maszynowo inteligencja danych PlatoBlockchain. Wyszukiwanie pionowe. AI. — Wygenerowany kod: zabezpieczenie przed atakami, które nie używają średników.

Jednak wzrost wydajności był niewielki w stosunku do generowania obrazu, co omówimy poniżej. Jednym z powodów tego, jak wspomniano powyżej, jest to, że poprawność ma kluczowe znaczenie w programowaniu (i rzeczywiście problemach inżynierskich szerzej, ale skupiamy się na programowaniu w tym poście). Na przykład, niedawno znaleziono badanie że dla scenariuszy pasujących do wysokiego ryzyka CWE (wyliczenia typowych słabych stron)40% kodu wygenerowanego przez sztuczną inteligencję zawierało luki w zabezpieczeniach.

W związku z tym użytkownik musi znaleźć równowagę między wygenerowaniem wystarczającej ilości kodu, aby zapewnić znaczący wzrost wydajności, a jednocześnie ograniczyć go, aby można było sprawdzić poprawność. W rezultacie Copilot ma pomógł poprawić produktywność programistów — ostatnie badania (tutaj i tutaj) osiągnąć zyski rzędu 2x lub mniej — ale do poziomu porównywalnego z tym, co widzieliśmy w poprzednich postępach w zakresie języków programistycznych i narzędzi. Na przykład skok z montażu do C poprawił produktywność 2-5 razy według niektórych szacunków.

W przypadku bardziej doświadczonych programistów obawy mogą wykraczać poza poprawność kodu i dotyczyć ogólnej jakości kodu. Jak szybki.aiJeremy'ego Howarda wyjaśnił w odniesieniu do najnowszych wersji modelu OpenAI Codex, „[I] t pisze pełny kod, ponieważ generuje średni kod. Dla mnie przekształcenie przeciętnego kodu w kod, który mi się podoba i wiem, że jest poprawny, jest znacznie wolniejsze niż pisanie go od zera — przynajmniej w językach, które dobrze znam”.

Tak więc, choć jasne jest, że programowanie generatywne jest funkcją krokową w produktywności programistów, nie jest jasne, czy poprawa znacząco różni się od tych, które widzieliśmy wcześniej. Generatywna sztuczna inteligencja czyni lepszych programistów, ale nadal muszą programować.

Generatywna sztuczna inteligencja i efekty wizualne

Z drugiej strony wpływ modeli generatywnych na wyniki pracy twórczej, takie jak generowanie obrazów, jest ekstremalny. Doprowadziło to do poprawy wydajności i kosztów o wiele rzędów wielkości i trudno nie zauważyć, że zapoczątkowało to przesunięcie fazowe w całej branży.

Sposób, w jaki generatywna sztuczna inteligencja działa w tej przestrzeni, polega na pobieraniu od użytkownika prostych danych tekstowych, zwanych monitami, a następnie model generuje wizualne dane wyjściowe. Obecnie istnieją modele do tworzenia wielu formatów wyjściowych, w tym obrazów, filmów, modeli 3D i tekstur.

Szczególnie interesujące jest to, jak te modele można rozszerzyć, aby generować nowe lub specyficzne dla domeny obrazy prawie bez kreatywnej interwencji. Na przykład Guido (jeden z autorów) wziął wcześniej wytrenowany model obrazu i przeszkolił go na kilkudziesięciu swoich zdjęciach. Stamtąd był w stanie generować obrazy za pomocą w monicie. Poniżej znajdują się zdjęcia wygenerowane z następujących monitów: ” jako Kapitan Ameryka"," w Paryżu"," w obrazie".

Tam, gdzie generowanie obrazu jest masowym odejściem od generowania kodu w kontekście biznesowym, jest zakres, w jakim generatywna sztuczna inteligencja zmienia rachunek ekonomiczny. Aby stworzyć powyższe zdjęcia, Guido przeszkolił model na kilku zdjęciach, które kosztowały około 50 USD w zasobach infrastrukturalnych. Po przeszkoleniu generowanie obrazów kosztuje około 0.001 USD w zasobach obliczeniowych i można to zrobić w chmurze lub na laptopie najnowszej generacji. Ponadto wygenerowanie obrazu zajmuje tylko kilka sekund.

Bez generatywnej sztucznej inteligencji jedynym sposobem na uzyskanie niestandardowego obrazu jest zatrudnienie artysty lub zrobienie tego samodzielnie. Nawet jeśli wyjdziemy z założenia, że w ciągu godziny za 10 dolarów człowiek może stworzyć zupełnie niestandardowy, fotorealistyczny obraz, generatywne podejście AI jest z łatwością o cztery rzędy wielkości tańsze i o rząd wielkości szybsze. Mówiąc bardziej realistycznie, każda niestandardowa grafika lub projekt graficzny prawdopodobnie zajmie dni lub tygodnie i będzie kosztować setki, jeśli nie tysiące dolarów.

Podobnie jak w przypadku powyższych pomocy programistycznych, generatywna sztuczna inteligencja będzie przyjęty jako narzędzie przez artystów i oba wymagają pewnego stopnia nadzoru użytkownika. Ale trudno przecenić różnicę w ekonomii, jaką tworzy zdolność modelki do naśladowania pełnego dorobku artysty. Używając modelu generowania kodu, napisanie nawet bardzo podstawowego programu funkcjonalnego, który wykonuje standardowe zadanie obliczeniowe, wymaga przeglądania, edytowania i dodawania testów dla wielu fragmentów kodu. Ale w przypadku podstawowego obrazu wprowadzenie monitu i wybranie obrazu z tuzina sugestii można wykonać w niecałą minutę.

Weźmy na przykład naszego własnego rysownika (i partnera inwestycyjnego) Yoko Li (@stuffyokodraws). Przeszkoliliśmy modelkę, używając 70 jej poprzednich zdjęć, a modelka była w stanie wygenerować obrazy o niesamowitym poziomie mimikry. Każdy artysta musi wymyślić, co dalej stworzyć, a ona odkryła nawet, że wyszkolone modelki mogą ujawnić więcej opcji niż to, co miała na myśli — przynajmniej wtedy, gdy zostaną zmuszone do wyprodukowania czegoś w określonym czasie. Istnieją setki sposobów na narysowanie tego samego obiektu, ale modele generatywne od razu pokazały, które ścieżki warto zbadać.

Więc jeśli chodzi o takie zadania, nie twierdzimy, że komputery są koniecznie lepszy niż ludzie w stosunku 1:1. Ale podobnie jak w przypadku wielu innych zadań, kiedy komputery mogą generować pełne wyniki pracy, po prostu nas zabijają skala.

Spróbuj zgadnąć, które z poniższych rysunków zostały narysowane bezpośrednio przez Yoko, a które zostały wygenerowane.

Ogromny postęp w ekonomii, elastyczność w tworzeniu nowych stylów i koncepcji oraz możliwość generowania kompletnych lub prawie kompletnych wyników pracy sugeruje nam, że jesteśmy gotowi na wyraźną zmianę we wszystkich branżach, w których aktywa kreatywne są większą część biznesu. I to nie ogranicza się do obrazów, ale dotyczy całej dziedziny projektowania. Na przykład:

Generative AI może tworzyć grafiki 2D, tekstury, modele 3D i pomagać w projektowaniu poziomów do gier.
W marketingu wygląda na to, że może zastąpić grafikę stockową, fotografię produktów i ilustracje.
Widzimy już zastosowania w projektowaniu stron internetowych, projektowaniu wnętrz i projektowaniu krajobrazu.

A tak naprawdę jesteśmy dopiero na samym początku. Jeśli przypadek użycia wymaga kreatywnego generowania treści, trudno jest znaleźć argument, dlaczego generatywna sztuczna inteligencja nie zakłóci go lub przynajmniej nie stanie się częścią procesu.

OK, więc o co chodzi z tym postem? Chociaż jest nieco wąsko skoncentrowany na generowaniu kodu i generowaniu obrazów, podejrzewamy, że wyniki mają szerszy zakres. W szczególności, że kreatywne przedsięwzięcia we wszystkich obszarach — wizualne, tekstowe lub muzyczne — mogą zostać zakłócone przez sztuczną inteligencję na długo przed zbudowaniem systemów.

Oprócz argumentu słuszności, którego używamy powyżej, może się również zdarzyć, że łączenie i ponowne łączenie całego wcześniejszego stanu techniki może być wystarczające dla praktycznego zakresu twórczych wyników. Na przykład branża muzyczna i filmowa wyprodukowała w przeszłości niezliczone podróbki popularnych albumów i filmów. Jest całkiem możliwe, że modele generatywne mogą z czasem pomóc zautomatyzować te funkcje. Jednak niezwykłą rzeczą w tak wielu obrazach tworzonych przez Stable Diffusion i DALL-E 2 jest to, że są naprawdę dobre i naprawdę interesujące. Nietrudno wyobrazić sobie model sztucznej inteligencji, który tworzy naprawdę interesujące fuzje stylów muzycznych, a nawet „tworzy” pełnometrażowe filmy, które są intrygujące w sposobie, w jaki łączą ze sobą koncepcje i style.

Wręcz przeciwnie, trudno sobie wyobrazić, że wcześniejsze systemy będą zawierały wszystkie narzędzia potrzebne do opracowania wszystkich przyszłych systemów. Lub nawet, że złożone systemy można łączyć równie łatwo, jak różne style sztuki lub muzyki. Tak często wartość systemu i to, dlaczego są tak trudne do zbudowania, tkwi w długim ogonie szczegółów — wszystkich kompromisach, obejściach, optymalizacjach dla danej przestrzeni projektowej oraz zawartej w nich wiedzy instytucjonalnej/ukrytej. Więc nadal budować musimy.

Oprzemy się pokusie przewidywania dokładnie jak generatywna sztuczna inteligencja wpłynie na branżę kreatywną. Jednakże, historia sugeruje, że nowe narzędzia mają tendencję rozszerzać zamiast zawrzeć definicję arti udostępnić go nowym typom artystów. W tym przypadku nowi artyści są konstruktorami systemów. Więc, dla twórców technologii wierzymy, że generatywna sztuczna inteligencja jest wyłącznie pozytywnym narzędziem za rozszerzenie zasięgu oprogramowania – gry będą piękniejsze, marketing bardziej atrakcyjny, pisane treści bardziej wciągające, filmy bardziej inspirujące.

Kto wie: pewnego dnia archiwum internetowe z końca 2022 r. może zostać uznane za jedno z ostatnich repozytoriów treści tworzonych głównie przez ludzi. Przynajmniej ten tekst do tego artykułu został wygenerowany w całości przez ludzi.

***

Wyrażone tutaj poglądy są poglądami poszczególnych cytowanych pracowników AH Capital Management, LLC („a16z”) i nie są poglądami a16z ani jej podmiotów stowarzyszonych. Niektóre informacje w nim zawarte zostały pozyskane ze źródeł zewnętrznych, w tym od spółek portfelowych funduszy zarządzanych przez a16z. Chociaż pochodzą ze źródeł uważanych za wiarygodne, a16z nie zweryfikowało niezależnie takich informacji i nie składa żadnych oświadczeń dotyczących aktualnej lub trwałej dokładności informacji lub ich adekwatności w danej sytuacji. Ponadto treści te mogą zawierać reklamy osób trzecich; a16z nie przeglądał takich reklam i nie popiera żadnych zawartych w nich treści reklamowych.

Te treści są udostępniane wyłącznie w celach informacyjnych i nie należy ich traktować jako porady prawnej, biznesowej, inwestycyjnej lub podatkowej. Powinieneś skonsultować się w tych sprawach z własnymi doradcami. Odniesienia do jakichkolwiek papierów wartościowych lub aktywów cyfrowych służą wyłącznie celom ilustracyjnym i nie stanowią rekomendacji inwestycyjnej ani oferty świadczenia usług doradztwa inwestycyjnego. Ponadto treść ta nie jest skierowana ani przeznaczona do użytku przez jakichkolwiek inwestorów lub potencjalnych inwestorów iw żadnym wypadku nie można na nich polegać przy podejmowaniu decyzji o zainwestowaniu w jakikolwiek fundusz zarządzany przez a16z. (Oferta inwestycji w fundusz a16z zostanie złożona wyłącznie na podstawie memorandum dotyczącego oferty prywatnej, umowy subskrypcyjnej i innej odpowiedniej dokumentacji takiego funduszu i należy ją przeczytać w całości.) Wszelkie inwestycje lub spółki portfelowe wymienione, wymienione lub opisane nie są reprezentatywne dla wszystkich inwestycji w pojazdy zarządzane przez a16z i nie można zapewnić, że inwestycje będą opłacalne lub że inne inwestycje dokonane w przyszłości będą miały podobne cechy lub wyniki. Lista inwestycji dokonanych przez fundusze zarządzane przez Andreessena Horowitza (z wyłączeniem inwestycji, w przypadku których emitent nie wyraził zgody na publiczne ujawnienie przez a16z oraz niezapowiedzianych inwestycji w aktywa cyfrowe będące w obrocie publicznym) jest dostępna pod adresem https://a16z.com/investments /.

Wykresy i wykresy zamieszczone w niniejszym dokumencie służą wyłącznie celom informacyjnym i nie należy na nich polegać przy podejmowaniu jakichkolwiek decyzji inwestycyjnych. Wyniki osiągnięte w przeszłości nie wskazują na przyszłe wyniki. Treść mówi dopiero od wskazanej daty. Wszelkie prognozy, szacunki, prognozy, cele, perspektywy i/lub opinie wyrażone w tych materiałach mogą ulec zmianie bez powiadomienia i mogą się różnić lub być sprzeczne z opiniami wyrażanymi przez innych. Dodatkowe ważne informacje można znaleźć na stronie https://a16z.com/disclosures.

Znak czasu: Listopad 16, 2022Listopad 16, 2022