Jak generatywna IA zakłóci wszystko w obecnej dekadzie

Wielu będzie zaskoczonych

Zdjęcie autora ze stabilną dyfuzją

In w ostatnich miesiącach systemy sztucznej inteligencji, takie jak Midjourney, DALL-E, Stable Diffusion, LaMDA i PaLM, poczyniły duże postępy w dziedzinach pozornie tak różnorodnych, jak generowanie obrazów i tekstu. Możliwości tych systemów są imponujące: generują wysoce sugestywne obrazy, tworzą skutecznie sprzedające się teksty reklamowe i wiele, wiele więcej – a wszystko to za pomocą zwykłych „podpowiedzi”, które opisują, co użytkownik chce uzyskać.

Wszystko to odbywa się za pomocą generatywnej sztucznej inteligencji.

„Generatywna sztuczna inteligencja” odnosi się do systemów zasilanych przez głębokie sieci neuronowe to narzędzie Duże modele językowe (LLM), aby Stwórz jakąś treść. Mówię tutaj „stwórz”, co oznacza, że ​​nie jest to kopia czegoś już istniejącego, nie w sensie filozoficznym (czym w ogóle jest „kreacja”?).

W tym nowym, wspaniałym świecie pojawiają się nowe, duże firmy, np Jaspis, która oferuje generowanie zarówno kopii do sprzedaży, jak i obrazów do celów reklamowych: Jasper ma obecnie wycenę na ponad miliard dolarów, stając się z dnia na dzień jednorożcem.

Pierwszą platformą generatywnej sztucznej inteligencji, która naprawdę zrobiła postęp, była GPT-3 – wydana zaledwie kilka lat temu! Potem seria wydań kilku graczy w tej dziedzinie (OpenAI, Google, StableDiffusion, Google, DeepMind i innych) pojawiła się w zawrotnym tempie, tak bardzo, że trudno być na bieżąco.

Ale poza tym, jak zabawne i fantastyczne jest spędzenie czasu z Midjourney na tworzeniu obrazów na podstawie naszych wskazówek, wielu entuzjastów technologii ma trudności ze zrozumieniem tej fali generatywnego IA.

Czy Generacyjna IA to trwały trend, czy tylko chwilowa moda?

pójdę po „solidny trend”, ponieważ w ciągu tej dekady przekształci tysiące form aktywności zawodowej i rekreacyjnej. Zacznę od przykładu.

Jestem wielkim fanem tenisa (przynajmniej w sensie telewizyjnym). Jednak mecze tenisowe na żywo trwają godzinami, a ja mam inne zajęcia i zainteresowania, więc zazwyczaj uciekam się do oglądania powtórek lub po prostu podkreślam filmy z najbardziej zabawnymi około 4 minutami meczu.

Ale co, jeśli zamiast 4-minutowego filmu chcę 10 lub 15 minut? A może chcę uwzględnić każdy punkt w tie-breakach? Obecnie nie mam szczęścia.

Teraz załóż kapelusz Generatywnej-IA do pracy: generator wideo sportowego Generative IA utworzy wideo tylko dla Ciebie zgodnie ze specyfikacjami, które nieformalnie umieściłeś w podpowiedzi tekstowej, takiej jak następująca:

"Film około 15 minut z najciekawszymi punktami meczu Rafa Nadal vs. Tommy Paul w Paris Bercy 2022, w tym pełne dogrywki, jeśli takie wystąpią, a także każdy przeliczony punkt przerwania"

Otóż ​​to. Otrzymasz link do swojego spersonalizowanego filmu, innego niż film oglądany przez kogokolwiek innego na świecie. A ta usługa wideo byłaby tak samo wykonalna ekonomicznie jak DALL-E i Midjourney.

Badania różnią się od innowacji. Pierwsza dotyczy opublikowanych oryginalnych wyników, a druga ma więcej wspólnego ze znalezieniem sposobu na zbudowanie biznesu na podstawie tych wyników: innowacja nie dba o oryginalność, ale o wzrost, obronność, zwrot z inwestycji itp.

Często sprawy stają się niejasne, ponieważ badania przeprowadzają firmy takie jak Google, które w zasadzie istnieją po to, aby osiągać zyski – ale rozumieją, że ich działalność opiera się na zaawansowanych technologiach i technologia nie jest wysoka bez badań. Angażują się więc w finansowanie badań, a także zbliżają się do środowiska akademickiego – wielu z ich czołowych badaczy zostało zatrudnionych w środowisku akademickim. Jako badacz kilka lat temu zostałem zaproszony na Szczyt Wydziału w ich siedzibie w Mountain View i zakwaterowano mnie w apartamencie w hotelu Four Seasons – zrobiłem wszystko, aby zrobić dobre wrażenie na społeczności akademickiej!

Ale nawet jeśli wyraźne oddzielenie badań od innowacji mogłoby być trudne – a nawet sztuczne – różnica jest tutaj kluczowa, ponieważ w przypadku generatywnej sztucznej inteligencji oba będą rozwijane przez różnych aktorów i będą powiązane z dwiema różnymi warstwami w stosie oprogramowania – as na co zwrócił uwagę J. Currier:

  1. Dolna warstwa oprogramowania to Model głębokiego uczenia się, zbudowane wokół implementacji modeli dużego języka (LLM) lub równoważnej reprezentacji wewnętrznej. Modele stanowią podstawowy element konstrukcyjny, na podstawie którego można tworzyć aplikacje.
  2. Najwyższą warstwą oprogramowania jest aplikacja jeden, który opiera się na modelu Deep Learning w celu wykonania określonego zadania, na przykład wygenerowania obrazu z podpowiedzi tekstowej.

Ta dwuwarstwowa architektura będzie napędzać nową erę przyspieszonych innowacji, ponieważ gdy dolna warstwa zostanie opracowana przez bardzo duże firmy, takie jak Google, OpenAI i inne, mniejsze firmy zapewnią warstwę aplikacji – co oczywiście da im część zysków do dostawcy najniższej warstwy.

Obecnie dolna warstwa została szybko udoskonalona – i często była rozprowadzana wraz z aplikacją na górze. Na przykład LaMDA i PaLM oferują gotowe możliwości dialogu, podczas gdy DALL-E i Midjourney oferują usługi szybkiego wyświetlania obrazu. Jednak wkrótce rozpowszechnienie się alternatyw typu open source dla dolnej warstwy umożliwi opracowanie tylko górnej warstwy aplikacji i podłączenie jej do już dostępnej dolnej warstwy. Oczywiście łatwiej powiedzieć niż zrobić, ale faktem jest, że dolna warstwa jest o rząd wielkości bardziej złożona niż górna.

Twierdzę, że generatywna IA przeniknie niemal każdą pracę związaną z wiedzą i rozrywkę ponieważ zapewni narzędzia umożliwiające odejście od złożoności wcześniej trudnych działań i ponieważ może zapewnić zupełnie nowy poziom personalizacji, który nazwałbym „personalizacją generatywną”.

Na powyższym przykładzie filmu sportowego możesz zobaczyć, co to jest „personalizacja generatywna”: każdy użytkownik otrzymuje zupełnie nowy i niepowtarzalny film z najważniejszymi momentami, a nie tylko do wyboru pomiędzy dwiema lub trzema opcjami.

Trudno przecenić skumulowany wpływ wszystkich aplikacji Generative IA:

  1. Łatwe tworzenie grafiki jest już w zasięgu nieprofesjonalistów dzięki narzędziom takim jak DALL-E, Midjourney i Stable Diffusion, przynajmniej w prostych celach użytkowych, takich jak uzyskanie obrazu nagłówka tego posta. Przed tym rokiem zupełnie nie umiałam samodzielnie rysować obrazów, a blogowi eksperci odradzali marnowanie czasu na projektowanie graficzne własnych historii.
  2. Użytkownicy zajmujący się obróbką zdjęć nie będą musieli przechodzić trudnej nauki, aby opanować skomplikowany zestaw narzędzi Photoshopa lub Affinity Photo (ja używam tego drugiego i jest to tak skomplikowane, że muszę przeglądać samouczki na YouTube, aby dowiedzieć się, jak wprowadzić większość zmian). Dzięki Generative AI użytkownicy po prostu poproszą oprogramowanie o wykonanie danej transformacji i voila! Obraz zostanie naprawiony. Jeśli Adobe nie dostarczy generatywnej sztucznej inteligencji za pomocą swoich narzędzi, zakłócą ją nowe oferujące je start-upy i pójdą drogą Blockbuster.
  3. Narzędzia do prezentacji, takie jak PowerPoint, zamiast po prostu udostępniać szablony, jak to ma miejsce obecnie, będą generować i dopracowywać całe prezentacje na profesjonalnym poziomie na podstawie szkicowych pomysłów. Obecnie różnica pomiędzy prezentacjami profesjonalnymi i amatorskimi jest ogromna – to już nie będzie takie zjawisko.
  4. Pisanie tekstu będzie procesem znacznie usprawnionym przez narzędzia generatywnej sztucznej inteligencji. Wiele form pisania korzysta już z pomocy zaawansowanych narzędzi, takich jak Gramatyka, ale generatywna sztuczna inteligencja zapewni pisarzom jakościowo nowy poziom pomocy, na przykład poprzez wygenerowanie pełnej pierwszej wersji bloga. Pisanie będzie procesem opartym na współpracy ludzi i narzędzia AI.
  5. Każde oprogramowanie przeznaczone dla użytkownika końcowego będzie musiało być proste w obsłudze i obsługiwać komunikaty tekstowe lub głosowe. Instrukcje obsługi i filmy instruktażowe staną się przeszłością i gdy tylko użytkownicy przyzwyczają się do nowego, prostego sposobu korzystania z oprogramowania, wszystko będzie musiało je oferować, aby zachować aktualność.
  6. Nauka języków odbywać się będzie głównie za pomocą asystentów głosowych, których zasilaniem będzie – jak się domyślacie – Generatywna AI. Asystenci głosowi, którzy będą działać jak osobisty trenerzy języka, wykorzystają swoje niesamowite możliwości dialogu w języku naturalnym, po raz pierwszy zaprezentowane w systemach takich jak LaMDA firmy Google, aby poprowadzić osobę uczącą się języka w celu zdobycia słownictwa i wyrażeń, poprawy wymowy itp. asystenci głosowi nie są futurystyczną fantazją – na chwilę obecną ma to po prostu sens ekonomiczny.
  7. Nawet produkty sprzętowe (takie jak samochody) będą miały systemy pomocy oparte na oknach dialogowych Generative AI. Czy próbowałeś wykonać skomplikowaną operację, taką jak regulacja wyświetlacza w nowoczesnych samochodach? Nie jest to łatwe, mówię ci. Zamiast zagłębiać się w skomplikowane instrukcje, po prostu poprosisz asystenta głosowego o instrukcje lub bezpośrednie wykonanie regulacji.

Wiele zawodów ulegnie przemianie nie do poznania. Projektanci graficzni już odczuwają skutki tego zakłócenia. Znikną całe zawody, powstaną inne. Potężne firmy zbankrutują, a nowe staną się dominujące, w zależności od tego, jak dobrze poradzą sobie z zakłóceniami technologicznymi wywołanymi przez generatywną sztuczną inteligencję.

A wszystko to wydarzy się w ciągu tej dekady.

Być może się mylę, ale wydaje mi się, że nawet doświadczonym ekspertom w dziedzinie technologii trudno było przewidzieć ogromne możliwości obecnych generatorów obrazów i tekstu: kilka lat temu nie było oczywiste, że ogromne modele i zbiory szkoleniowe będą prowadzić do jakościowo odmiennych możliwości.

Posunąłbym się nawet do stwierdzenia, że ​​było to szczęśliwe, niemal przypadkowe znalezisko. Jednak teraz, gdy dysponujemy narzędziami generatywnymi, bramy są otwarte dla innowacyjnych firm, które w szybkim tempie będą opracowywać aplikację za aplikacją: głównie chodzi o to, aby dowiedzieć się, co można radykalnie ulepszyć i znaleźć odpowiedni model biznesowy, na którym można zrobić biznes. pomysł na generatywną IA.

Kilka lat temu wydawało się, że inne trendy technologiczne, takie jak samochody autonomiczne, VR czy blockchain, wkrótce przejmą kontrolę, ale technologia autonomicznej jazdy została ograniczona przeszkodami legislacyjnymi, blockchain ucierpiał w wyniku pogorszenia koniunktury gospodarczej, a VR przyjęcie jest ograniczone przez wysokie koszty sprzętu. Zamiast tego generatywna sztuczna inteligencja nie jest jeszcze ograniczona przepisami (hej, dopracowanie prezentacji w programie PowerPoint lub wygenerowanie wideo sportowego to nie sprawa życia i śmierci) i nie wymaga zakupu drogiego sprzętu przez użytkownika.

I nie sądziliśmy, że działalność twórcza tak szybko zostanie przerwana. Ale byli.

Wkraczamy w nowe, czasem dziwne czasy, w których ludzka kreatywność miesza się z nowymi możliwościami maszyn do tego stopnia, że ​​trudno je rozróżnić. Jak J. Currier zwraca uwagę:

„Dziś i przez kilka następnych lat będzie to zaskakujące i pod wieloma względami przerażające. Ponieważ te twórcze momenty, w których przechodzisz od zera do początkowych pomysłów, zawsze wydawały się wyjątkowo ludzkie, ponieważ były tak tajemnicze.

Jak generatywna IA zakłóci wszystko w obecnej dekadzie Opublikowano ponownie ze źródła https://towardsdatascience.com/how-generative-ia-will-disrupt-everything-in-the-current-decade-b4e8ce7dd4f1?source=rss—-7f60cf5620c9— 4 na stronie https://towardsdatascience.com/feed

<!–

->

Znak czasu:

Więcej z Konsultanci Blockchain