Как генеративная ИИ изменит все в текущем десятилетии

Переиздано Платоном

Читают: 0

Многие будут удивлены

Изображение автора со стабильной диффузией

In В последние месяцы системы искусственного интеллекта, такие как Midjourney, DALL-E, Stable Diffusion, LaMDA и PaLM, добились больших успехов в таких разнообразных областях, как генерация изображений и текста. Возможности этих систем впечатляют: они создают весьма впечатляющие изображения, создают эффективные продающие тексты для рекламы и многое, многое другое – и все это с помощью простых «подсказок», описывающих, что хочет получить пользователь.

Все это делается с помощью генеративного искусственного интеллекта.

«Генераторный ИИ» относится к системам, работающим на глубокие нейронные сети что реализовать Большие языковые модели (LLM), чтобы Создайте какой-то контент. Здесь я говорю «создать», имея в виду, что это не копия чего-то уже существующего, не в философском смысле (что вообще такое «творение»?).

В этом дивном новом мире появляются новые крупные компании, такие как Jasper, который предлагает создание как продающих текстов, так и изображений для рекламы: сейчас Джаспер имеет оценку более миллиарда долларов и в одночасье становится единорогом.

Первой платформой генеративного искусственного интеллекта, которая действительно добилась успеха, была GPT-3, выпущенная всего пару лет назад! После этого череда релизов нескольких игроков в этой области (OpenAI, Google, StableDiffusion, Google, DeepMind и других) появлялась с головокружительной скоростью, настолько, что трудно оставаться в курсе.

Но помимо того, что проводить время с Midjourney за созданием изображений на основе наших подсказок весело и фантастично, многие технические энтузиасты изо всех сил пытаются понять смысл этой волны Генеративного IA.

Генеративный IA — устойчивая тенденция или это просто прихоть?

Я пойду на «устойчивая тенденция», потому что это изменит тысячи профессиональных и развлекательных мероприятий в рамках этого десятилетия. Позвольте мне начать с примера.

Я большой поклонник тенниса (по крайней мере, в телевизионном смысле). Но теннисные матчи в прямом эфире занимают часы, а у меня есть другие занятия и интересы, поэтому я обычно прибегаю к просмотру повторов или просто выделяю видео с самыми интересными 4 минутами матча или около того.

А что, если вместо 4-минутного видео я хочу 10- или 15-минутное? Или если я хочу включить каждое очко в тай-брейк? Мне сейчас не повезло.

Теперь примените свою шляпу Generative-IA к работе: генератор спортивного видео Generative IA создаст видео. для тебя в соответствии со спецификациями, которые вы неофициально вставили в текстовую подсказку, подобную следующей:

Видео продолжительностью около 15 минут с самыми зрелищными моментами матча Рафа Надаль против Томми Пола в Париже, Берси 2022, включая полные тай-брейки, если таковые имеются, а также каждый реализованный брейк-пойнт.

Вот и все. Вы получаете ссылку на свое персонализированное видео, отличное от видео, которое смотрит кто-либо еще в мире. И этот видеосервис будет столь же экономически целесообразен, как DALL-E и Midjourney.

Исследования отличаются от инноваций. Первое касается опубликованных оригинальных результатов, а второе больше связано с поиском того, как построить бизнес на основе этих результатов: инновации заботятся не об оригинальности, а о росте, защищенности, возврате инвестиций и т. д.

Часто все становится запутанным, потому что исследования проводят такие компании, как Google, которые в принципе созданы для получения прибыли, но они понимают, что их бизнес высокотехнологичный, и технология не высока без исследований. Таким образом, они участвуют в финансировании исследований, а также сближаются с академическими кругами: многие из их ведущих исследователей были наняты из академических кругов. Несколько лет назад меня, как исследователя, пригласили на саммит факультетов в их штаб-квартире в Маунтин-Вью, и меня поселили в номере отеля Four Seasons – все, что нужно, чтобы произвести хорошее впечатление на академическое сообщество!

Но даже если было бы сложно (и даже искусственно) провести четкую грань между исследованиями и инновациями, разница здесь имеет решающее значение, потому что в случае с генеративным ИИ они будут разрабатываться разными участниками и будут связаны между собой. с двумя разными уровнями в стеке программного обеспечения – как указал Дж. Карриер:

Нижний программный уровень – это Модель глубокого обучения, построенный на реализациях моделей большого языка (LLM) или эквивалентного внутреннего представления. Модели представляют собой базовый строительный блок, на основе которого можно разрабатывать приложения.
Верхний уровень программного обеспечения – это приложению one, который основан на модели глубокого обучения для выполнения конкретной задачи, например, для вывода изображения из текстовой подсказки.

Эта двухуровневая архитектура будет способствовать новой эре ускоренных инноваций, поскольку как только очень крупные компании, такие как Google, OpenAI и другие, будут разрабатывать нижний уровень, более мелкие компании будут обеспечивать уровень приложений, что, конечно же, дает часть их прибыли. провайдеру нижнего уровня.

В настоящее время нижний уровень быстро совершенствуется – и зачастую он распространяется вместе с приложением на верхнем уровне. Например, LaMDA и PaLM предлагают возможности диалога «из коробки», а DALL-E и Midjourney предлагают услуги быстрого создания изображения. Но вскоре распространение альтернатив нижнего уровня с открытым исходным кодом позволит разработать только верхний уровень приложений и подключить его к уже доступному нижнему уровню. Конечно, легче сказать, чем сделать, но факт в том, что нижний слой на порядки сложнее верхнего.

Я бы сказал, что Генеративный IA будет пронизывать почти каждую познавательную работу и досуговую деятельность потому что он предоставит инструменты для устранения сложности ранее трудных действий и потому что он может обеспечить совершенно новый уровень персонализации, который я бы назвал «генеративной персонализацией».

Вы можете увидеть, что такое «генеративная персонализация», на примере спортивного видео выше: каждому пользователю предоставляется совершенно новое и уникальное видео с яркими моментами, а не просто выбор между двумя или тремя вариантами.

Совокупный эффект от всех приложений генеративного IA трудно переоценить:

Легкое создание графики уже доступно непрофессионалам с помощью таких инструментов, как DALL-E, Midjourney и Stable Diffusion, по крайней мере, для простых утилитарных целей, таких как получение изображения заголовка для этого поста. До этого года я совершенно не умел рисовать собственные изображения, и эксперты блога советовали не тратить время на графический дизайн собственных историй.
Пользователям редактирования фотографий не придется преодолевать трудности в обучении, чтобы освоить сложный набор инструментов Photoshop или Affinity Photo (я использую последний, и он настолько сложен, что мне приходится обращаться к руководствам YouTube, чтобы научиться вносить большинство корректировок). При использовании генеративного искусственного интеллекта пользователи просто попросят программу выполнить заданное преобразование, и вуаля! Изображение зафиксируется. Если Adobe не сможет предоставить генеративный искусственный интеллект с помощью своих инструментов, им помешают новые стартапы, предлагающие их, и они пойдут по пути Blockbuster.
Инструменты для презентаций, такие как PowerPoint, вместо того, чтобы просто предоставлять шаблоны, как сейчас, будут создавать и настраивать целые презентации профессионального уровня на основе общих идей. В настоящее время разница между профессиональными и любительскими презентациями огромна – такой ситуации больше не будет.
Написание текста станет процессом, значительно улучшенным с помощью инструментов генеративного искусственного интеллекта. Многие формы письма уже получают помощь от сложных инструментов, таких как Grammarly, но генеративный искусственный интеллект предоставит писателям качественно новый уровень помощи, например, создав полную первую версию блога. Написание будет совместным процессом между людьми и инструментом искусственного интеллекта.
Любое программное обеспечение, предназначенное для конечного пользователя, должно быть простым в использовании и иметь текстовые или голосовые подсказки. Руководства пользователя и обучающие видеоролики уйдут в прошлое, и как только пользователи привыкнут к новому простому способу использования программного обеспечения, все должно будет предлагать его, чтобы оставаться актуальным.
Изучение языка будет осуществляться в основном с помощью голосовых помощников, которые будут работать на основе, как вы уже догадались, генеративного искусственного интеллекта. Голосовые помощники, которые будут действовать как персональные языковые тренеры, будут использовать свои удивительные возможности диалога на естественном языке, впервые появившиеся в таких системах, как LaMDA от Google, чтобы направлять изучающего человеческий язык в целях приобретения словарного запаса и выражений, улучшения произношения и т. д. голосовые помощники — это не футуристическая фантазия, на данный момент они просто имеют экономический смысл.
Даже аппаратные продукты (например, автомобили) будут иметь справочные системы на основе диалогового окна Generative AI. Пробовали ли вы выполнить такую сложную операцию, как регулировка дисплея в современных автомобилях? Нелегко, я вам скажу. Вместо того, чтобы копаться в сложных руководствах, вы просто попросите голосового помощника либо получить инструкции, либо напрямую выполнить настройки.

Многие профессии преобразятся до неузнаваемости. Графические дизайнеры уже ощутили на себе последствия этого изменения. Исчезнут целые профессии и будут созданы другие. Могущественные компании обанкротятся, а новые станут доминирующими, в зависимости от того, насколько хорошо они справятся с технологическими изменениями, вызванными Генеративным ИИ.

И все это произойдет в течение этого десятилетия.

Возможно, я ошибаюсь, но мне кажется, что даже опытным экспертам в области технологий было сложно спрогнозировать огромные возможности нынешних генераторов изображений и текста: еще несколько лет назад не было очевидно, что огромные модели и обучающие наборы будут приводят к качественно иным возможностям.

Я бы даже сказал, что это была удачная, почти случайная находка. Но теперь, когда у нас есть генеративные инструменты, ворота открыты для инновационных компаний, которые будут разрабатывать приложение за приложением в быстром темпе: в основном это вопрос выяснения того, что можно радикально улучшить, и поиска подходящей бизнес-модели, на которой можно построить бизнес. Генеративная идея IA.

Несколько лет назад казалось, что другие технологические тенденции, такие как беспилотные автомобили, VR или блокчейн, скоро возьмут верх, но технология беспилотного вождения была ограничена законодательными препятствиями, блокчейн пострадал от экономического спада, а VR внедрение ограничено высокой стоимостью аппаратного обеспечения. Напротив, генеративный ИИ еще не ограничен законодательством (эй, доработка презентации PowerPoint или создание спортивного видео — это не вопрос жизни и смерти) и не требует покупки дорогостоящего оборудования.

И мы не думали, что творческая деятельность так скоро прервется. Но они были.

Мы вступаем в новые и порой странные времена, когда человеческое творчество смешивается с новыми возможностями машин до такой степени, что их становится трудно различить. Как Дж. Карриер указывает на то:

«Сегодня и в ближайшие несколько лет это будет удивительно и во многом пугающе. Потому что те творческие моменты, когда вы переходите от нуля к первоначальным идеям, всегда ощущались по-человечески, потому что они были такими загадочными».

Как генеративный IA разрушит все в текущем десятилетии. Опубликовано из источника 4 через https://towardsdatascience.com/feed

<!–

Отметка времени: 10 ноября 202211 ноября 2022