Як Generative IA зруйнує все в поточному десятилітті

Перевидано Платоном

читають: 0

Багато хто здивується

Зображення автора зі стабільною дифузією

In Останніми місяцями такі системи штучного інтелекту, як Midjourney, DALL-E, Stable Diffusion, LaMDA та PaLM, досягли великих успіхів у таких різноманітних сферах, як генерація зображень і тексту. Можливості цих систем вражають: вони створюють надзвичайно цікаві зображення, створюють ефективні рекламні копії, що продаються, і багато, багато іншого – все це з простих «підказок», які описують, що користувач хоче отримати.

Все це робиться за допомогою Generative AI.

«Генеративний штучний інтелект» відноситься до систем, що працюють від глибокі нейронні мережі що реалізують Великі мовні моделі (LLM) для того, щоб створювати якийсь контент. Тут я кажу «створити», маючи на увазі, що це не копія чогось уже існуючого, не у філософському сенсі (що взагалі таке «творіння»?).

У цьому чарівному новому світі з’являються нові великі компанії Jasper, який пропонує створення копій для продажу, а також зображень для реклами: Джаспер тепер оцінюється в понад мільярд доларів, ставши миттєво єдинорогом.

Першою генеративною платформою штучного інтелекту стала GPT-3, випущена лише пару років тому! Після цього низка випусків кількох гравців у цій галузі (OpenAI, Google, StableDiffusion, Google, DeepMind та інших) з’явилася з приголомшливою швидкістю, так що важко бути в курсі.

Але окрім того, наскільки цікаво та фантастично провести час із Midjourney для створення зображень із наших підказок, багатьом ентузіастам технологій важко зрозуміти цю хвилю Generative IA.

Generative IA – це серйозний тренд чи це просто примха?

Я піду на "тверда тенденція», тому що це змінить тисячі видів професійної діяльності та дозвілля в рамках цього десятиліття. Дозвольте мені почати з прикладу.

Я великий фанат тенісу (принаймні в телевізійному сенсі). Але тенісні матчі в прямому ефірі тривають годинами, а у мене є інші заняття та інтереси, тому я зазвичай переглядаю повтори або просто висвітлююче відео з найцікавішими 4 хвилинами матчу.

Але що, якщо замість 4-хвилинного відео я хочу 10 або 15 хвилин? Або якщо я хочу включити кожне очко на тай-брейк? Зараз мені не пощастило.

А тепер запустіть свій капелюх Generative-IA: генератор спортивного відео Generative IA створить відео тільки для вас відповідно до специфікацій, які ви неофіційно розміщуєте в текстовому запиті, наприклад:

"Приблизно 15-хвилинне відео з найцікавішими моментами матчу Рафа Надаль проти Томмі Пола в Парижі, Берсі 2022, включаючи повні тай-брейки, якщо такі є, а також конвертований кожен брейкпойнт"

Це воно. Ви отримуєте посилання на своє персоналізоване відео, яке відрізняється від відео, яке дивився хтось інший у світі. І цей відеосервіс був би настільки ж економічно доцільним, як DALL-E та Midjourney.

Дослідження відрізняються від інновацій. Перший стосується опублікованих оригінальних результатів, а другий більше пов’язаний із пошуком того, як побудувати бізнес на основі цих результатів: інновації не піклуються про оригінальність, а про зростання, захист, повернення інвестицій тощо.

Часто все стає заплутаним, оскільки дослідження проводять такі компанії, як Google, які, в принципі, створені для отримання прибутку, але вони розуміють, що їхній бізнес є високотехнологічним, і технології невисокі без досліджень. Тож вони беруть участь у фінансуванні досліджень, а також наближаються до академічних кіл – багатьох їхніх найкращих дослідників було найнято з академічних кіл. Мене, як дослідника, кілька років тому запросили на саміт факультету в їхній штаб-квартирі в Маунтін-В’ю, і вони поселили мене в номері в готелі Four Seasons – все, що потрібно, щоб справити гарне враження на академічну спільноту!

Але навіть якщо важко – і навіть штучно – провести чітку межу між дослідженнями та інноваціями, різниця тут є вирішальною, оскільки у випадку Generative AI ці два розроблятимуть різні учасники, і вони будуть пов’язані з двома різними рівнями в програмному стеку – як вказав Дж. Кар'є:

Нижній рівень програмного забезпечення – це Модель глибокого навчання, побудований навколо реалізацій великих мовних моделей (LLM) або еквівалентного внутрішнього представлення. Моделі забезпечують базовий будівельний блок, з якого можна розробляти програми.
Верхній рівень програмного забезпечення – це додатку один, який будується на основі моделі Deep Learning для виконання конкретного завдання, наприклад, для виведення зображення з текстового підказки.

Ця дворівнева архітектура започаткує нову еру прискорених інновацій, тому що після того, як нижній рівень буде розроблений дуже великими компаніями, такими як Google, OpenAI та інші, менші компанії забезпечать прикладний рівень, що, звичайно, зменшить їхній прибуток. до постачальника нижнього рівня.

Наразі нижній рівень швидко вдосконалено – і часто він розповсюджується разом із програмою поверх. Наприклад, LaMDA та PaLM пропонують діалогові можливості з коробки, тоді як DALL-E та Midjourney пропонують послуги підказки до зображення. Але незабаром поширення альтернатив з відкритим вихідним кодом для нижнього рівня дозволить розробити лише верхній рівень програми та підключити його до вже доступного нижнього рівня. Звичайно, простіше сказати, ніж зробити, але справа в тому, що нижній шар на порядки складніший за верхній.

Я б стверджував, що Generative IA пронизуватиме майже кожну окрему роботу та дозвілля тому що він надасть інструменти для усунення складності від колишніх складних завдань і тому, що він може забезпечити абсолютно новий рівень персоналізації, який я б назвав «генеративною персоналізацією».

Ви можете побачити, що таке «генеративна персоналізація», на прикладі спортивного відео вище: кожному користувачеві надається абсолютно нове та унікальне відео з найкращими моментами, а не просто вибір між двома-трьома варіантами.

Важко перебільшити сукупний вплив усіх програм Generative IA:

Легке створення графіки вже доступне непрофесіоналам за допомогою таких інструментів, як DALL-E, Midjourney і Stable Diffusion, принаймні для простих утилітарних цілей, як-от отримання зображення заголовка для цієї публікації. До цього року я взагалі не міг малювати власні зображення, а експерти блогу радили не витрачати час на графічне оформлення власних історій.
Користувачам, які займаються редагуванням фотографій, не доведеться важко вчитися, щоб освоїти складний набір інструментів Photoshop або Affinity Photo (я використовую останній, і він настільки складний, що мені доводиться дивитися підручники YouTube, щоб навчитися робити більшість коригувань). За допомогою Generative AI користувачі просто попросять програмне забезпечення виконати задане перетворення, і вуаля! Зображення буде виправлено. Якщо Adobe не зможе запропонувати Generative AI зі своїми інструментами, вони будуть зірвані новими стартапами, які пропонують їх, і підуть шляхом Blockbuster.
Інструменти для презентацій, такі як PowerPoint, замість того, щоб просто надавати шаблони, як це роблять зараз, створюватимуть і налаштовуватимуть цілі презентації професійного рівня на основі планових ідей. Зараз різниця між професійними та аматорськими презентаціями величезна – цього більше не буде.
Написання тексту буде процесом, значно вдосконаленим інструментами Generative AI. Багато форм письма вже отримують допомогу від складних інструментів, таких як Grammarly, але Generative AI надасть авторам якісно новий рівень допомоги, наприклад, створивши повну першу версію блогу. Написання буде процесом співпраці між людьми та інструментом ШІ.
Будь-яке програмне забезпечення, призначене для кінцевого користувача, повинно бути простим у використанні з текстовими або голосовими підказками. Посібники користувача та навчальні відео підуть у минуле, і як тільки користувачі звикнуть до нового простого способу використання програмного забезпечення, все повинно буде пропонувати його, щоб залишатися актуальним.
Вивчення мови здійснюватиметься в основному за допомогою голосових помічників, які працюватимуть на основі – ви правильно вгадали – Generative AI. Голосові помічники, які діятимуть як персональні мовні тренери, використовуватимуть свої дивовижні діалогові можливості природної мови, які вперше були помічені в таких системах, як Google LaMDA, щоб направляти людину, яка вивчає мову, щоб отримати словниковий запас і вирази, покращити вимову тощо. Голосові помічники – це не футуристична фантазія – вони просто мають економічний сенс прямо зараз.
Навіть апаратні продукти (наприклад, автомобілі) матимуть діалогові довідкові системи Generative AI. Чи пробували ви виконати таку складну операцію, як налаштування дисплея в сучасних автомобілях? Непросто, можу вам сказати. Замість того, щоб копатися в складних посібниках, ви просто попросите голосового помічника отримати інструкції або безпосередньо виконати налаштування.

Багато професій трансформуються до невпізнання. Графічні дизайнери вже відчувають жало цього зриву. Зникнуть цілі професії, створюватимуться інші. Потужні компанії збанкрутують, а нові стануть домінуючими, залежно від того, наскільки добре вони впораються з технологічним зривом, викликаним Generative AI.

І все це відбудеться протягом цього десятиліття.

Можливо, я помиляюся, але мені здається, що навіть досвідченим фахівцям у техніці було важко передбачити величезні можливості поточних генераторів зображень і тексту: кілька років тому було неочевидно, що величезні моделі та навчальні набори будуть призводять до якісно інших можливостей.

Я б зайшов так далеко, щоб сказати, що це була щаслива, майже випадкова знахідка. Але тепер, коли ми маємо генеративні інструменти, двері відкриті для інноваційних компаній, які швидко розроблятимуть програму за програмою: це здебільшого питання з’ясування того, що можна радикально вдосконалити, і пошуку відповідної бізнес-моделі для створення бізнесу ідея Generative IA.

Кілька років тому здавалося, що інші технологічні тенденції, як-от безпілотні автомобілі, віртуальна реальність або блокчейн, незабаром візьмуть верх, але технологія автономного керування була обмежена законодавчими перешкодами, блокчейн постраждав від економічного спаду, а VR впровадження обмежене високою вартістю обладнання. Натомість генеративний штучний інтелект поки що не обмежений законодавством (агов, шліфування презентації PowerPoint чи генерування спортивного відео не є питанням життя чи смерті) і не потребує дорогого обладнання, яке купує користувач.

І ми не думали, що творча діяльність так швидко припиниться. Але вони були.

Ми вступаємо в нові, іноді дивні часи, коли людська творчість змішується з новими можливостями машин настільки, що їх важко розрізнити. як Дж. Кар'єр вказує на те:

«Сьогодні та протягом наступних кількох років це буде дивно і багато в чому страшно. Тому що ті творчі моменти, коли ти переходиш від нуля до початкових ідей, завжди здавалися такими унікальними людськими, тому що це було так загадково».

Як Generative IA зруйнує все в поточному десятилітті Перепубліковано з джерела https://towardsdatascience.com/how-generative-ia-will-disrupt-everything-in-the-current-decade-b4e8ce7dd4f1?source=rss—-7f60cf5620c9— 4 через https://towardsdatascience.com/feed

<!–

Часова мітка: Листопад 10, 2022Листопад 11, 2022