Generative IA가 현재 XNUMX년 동안 모든 것을 혼란에 빠뜨리는 방법

많은 분들이 놀라실 거에요

Stable Diffusion을 사용한 작성자의 이미지

In 최근 몇 달 동안 Midjourney, DALL-E, Stable Diffusion, LaMDA 및 PaLM과 같은 AI 시스템은 이미지 및 텍스트 생성만큼 다양한 영역에서 큰 진전을 이루었습니다. 이러한 시스템의 기능은 인상적입니다. 암시적인 이미지를 생성하고, 광고를 위한 효과적인 판매 카피를 생성하는 등 훨씬 더 많은 기능이 사용자가 원하는 것을 설명하는 단순한 "프롬프트"를 통해 이루어집니다.

이 모든 작업은 Generative AI를 통해 수행됩니다.

"제너레이티브 AI(Generative AI)"는 AI로 구동되는 시스템을 의미합니다. 깊은 신경망 구현하는 대규모 언어 모델 (LLM)을 위해서는 만들 일종의 콘텐츠. 여기서 내가 "창조하다"고 말한 것은 이미 존재하는 것의 복사본이 아니며 철학적인 의미가 아니라는 의미입니다(어차피 "창조"란 무엇입니까?).

이 용감한 신세계에서 다음과 같은 대형 신생 기업이 등장하고 있습니다. 벽옥, 판매 카피와 광고용 이미지 생성을 모두 제공합니다. Jasper는 현재 10억 달러 이상의 가치를 보유하고 있으며 하루아침에 유니콘이 되었습니다.

실제로 성공을 거둔 최초의 생성적 AI 플랫폼은 불과 몇 년 전에 출시된 GPT-3이었습니다! 그 후, 해당 분야의 여러 플레이어(OpenAI, Google, StableDiffusion, Google, DeepMind 등)의 연속 릴리스가 엄청난 속도로 등장하여 최신 상태를 유지하기가 어렵습니다.

그러나 Midjourney를 사용하여 프롬프트에서 이미지를 생성하는 것이 얼마나 재미 있고 환상적인지 외에도 많은 기술 애호가는 이러한 Generative IA 물결을 이해하는 데 어려움을 겪고 있습니다.

Generative IA는 확고한 추세입니까, 아니면 단순한 유행입니까?

나는 갈 것이다 “견고한 추세” 이는 이번 10년 동안 수천 개의 전문 및 여가 활동을 변화시킬 것이기 때문입니다. 예를 들어 시작해 보겠습니다.

나는 열렬한 테니스 팬입니다(적어도 TV 측면에서는). 하지만 라이브 테니스 경기를 마치는 데 몇 시간이 걸리고 다른 활동이나 관심 사항이 있기 때문에 보통 리플레이를 보거나 경기 중 가장 재미있는 4분 정도의 하이라이트 동영상을 시청합니다.

하지만 4분짜리 비디오 대신 10~15분짜리 비디오를 원한다면 어떻게 될까요? 아니면 타이브레이크에 모든 포인트를 포함시키고 싶은가요? 나는 현재 운이 좋지 않습니다.

이제 Generative-IA를 활용해 보세요. Generative IA 스포츠 비디오 생성기가 비디오를 생성합니다. 너만을 위해서 다음과 같이 비공식적으로 텍스트 프롬프트에 입력한 사양에 따라:

"15 파리 베르시에서 열린 라파 나달 대 토미 폴 경기의 가장 재미있는 포인트가 포함된 약 2022분 분량의 비디오(있는 경우 전체 타이브레이크 및 변환된 모든 브레이크포인트 포함)"

그게 다야. 전 세계 다른 사람이 보는 비디오와는 다른 맞춤형 비디오 링크를 얻을 수 있습니다. 그리고 이 비디오 서비스는 DALL-E 및 Midjourney만큼 경제적으로 실현 가능합니다.

연구는 혁신과 다릅니다. 전자는 출판된 원본 결과와 관련이 있고 후자는 그 결과로부터 비즈니스를 구축하는 방법을 찾는 것과 더 관련이 있습니다. 혁신은 독창성에 관심이 없고 성장, 방어 가능성, 투자 수익 등에 관심이 있습니다.

원칙적으로 이익을 내기 위해 존재하는 Google과 같은 회사에서 연구를 수행하기 때문에 상황이 혼란스러울 때가 많습니다. 기술은 연구 없이는 높지 않다. 그래서 그들은 연구 자금 조달에 참여하고 학계와도 가까워졌습니다. 최고의 연구원 중 다수는 학계에서 고용되었습니다. 연구자로서 저는 몇 년 전 마운틴뷰에 있는 본사에서 열리는 교수 회담에 초대받았고, 학계에 좋은 인상을 남기기 위해 무엇이든지 저를 Four Seasons 호텔의 스위트룸에 묵게 했습니다!

그러나 연구와 혁신 사이를 명확하게 구분하는 것이 어렵고 심지어 인위적이라고 할지라도 여기서 차이점은 매우 중요합니다. 왜냐하면 제너레이티브 AI의 경우 두 가지가 서로 다른 행위자에 의해 개발되고 연관될 것이기 때문입니다. 소프트웨어 스택에 두 개의 서로 다른 계층이 있음 J. Currier가 지적함:

  1. 맨 아래 소프트웨어 계층은 딥러닝 모델, LLM(Large Language Models) 또는 이에 상응하는 내부 표현의 구현을 중심으로 구축되었습니다. 모델은 애플리케이션을 개발할 수 있는 기본 빌딩 블록을 제공합니다.
  2. 최상위 소프트웨어 계층은 신청 하나는 딥러닝 모델을 기반으로 특정 작업(예: 텍스트 프롬프트에서 이미지 출력)을 수행하는 것입니다.

이 2계층 아키텍처는 혁신을 가속화하는 새로운 시대를 촉진할 것입니다. Google, OpenAI 등과 같은 대기업이 하위 계층을 개발하면 소규모 기업이 애플리케이션 계층을 제공하여 물론 이익도 줄어들기 때문입니다. 최하위 계층 공급자에게.

현재는 하위 레이어가 빠르게 개선되어 상위 애플리케이션과 함께 배포되는 경우가 많습니다. 예를 들어 LaMDA와 PaLM은 기본 대화 상자 기능을 제공하는 반면 DALL-E와 Midjourney는 프롬프트 이미지 서비스를 제공합니다. 그러나 곧 하위 계층에 대한 오픈 소스 대안이 확산되면서 상위 애플리케이션 계층만 개발하고 이미 사용 가능한 하위 계층에 연결할 수 있게 될 것입니다. 물론 말은 쉽지만 실제로는 맨 아래 레이어가 맨 위 레이어보다 훨씬 더 복잡합니다.

나는 Generative IA가 거의 모든 지식 작업과 여가 활동에 스며들 것입니다. 왜냐하면 이전에는 어려웠던 활동에서 복잡성을 제거하는 도구를 제공하고 "생성적 개인화"라고 부르는 완전히 새로운 수준의 개인화를 제공할 수 있기 때문입니다.

위의 스포츠 비디오 예에서 "생성적 개인화"가 무엇인지 확인할 수 있습니다. 각 사용자에게는 두세 가지 옵션 중 하나를 선택하는 대신 새롭고 고유한 하이라이트 비디오가 제공됩니다.

모든 Generative IA 애플리케이션의 누적 영향은 과장하기 어렵습니다.

  1. 적어도 이 게시물의 헤더 이미지를 얻는 것과 같은 단순한 실용적인 목적을 위해 DALL-E, Midjourney 및 Stable Diffusion과 같은 도구를 사용하여 비전문가도 손쉬운 그래픽 생성이 이미 가능합니다. 올해 이전에는 나는 내 자신의 이미지를 전혀 그릴 수 없었고 블로그 전문가들은 자신의 이야기를 위해 그래픽 디자인에 시간을 낭비하지 말라고 조언했습니다.
  2. 사진 편집 사용자는 Photoshop 또는 Affinity Photo의 복잡한 도구 세트를 마스터하기 위해 힘든 학습 곡선을 견딜 필요가 없습니다. (저는 후자를 사용하는데 너무 복잡해서 대부분의 조정 방법을 배우려면 YouTube 튜토리얼을 참조해야 합니다.) Generative AI를 사용하면 사용자는 소프트웨어에 주어진 변환을 수행하도록 요청하기만 하면 됩니다. 이미지가 수정됩니다. Adobe가 Generative AI 도구를 제공하지 못하면 이를 제공하는 새로운 스타트업에 의해 방해를 받고 블록버스터의 길을 가게 될 것입니다.
  3. PowerPoint와 같은 프레젠테이션 도구는 지금처럼 템플릿만 제공하는 것이 아니라 개요 아이디어를 바탕으로 전체 전문가 수준의 프레젠테이션을 생성하고 세부적으로 조정할 수 있습니다. 현재 프로 프레젠테이션과 아마추어 프레젠테이션의 차이는 엄청납니다. 더 이상은 그렇지 않을 것입니다.
  4. 텍스트 작성은 Generative AI 도구를 통해 고도로 강화된 프로세스가 될 것입니다. 많은 형태의 글쓰기가 이미 Grammarly와 같은 정교한 도구의 도움을 받고 있지만 Generative AI는 예를 들어 블로그의 완전한 첫 번째 버전을 생성하여 작가에게 질적으로 새로운 수준의 도움을 제공합니다. 글쓰기는 인간과 AI 도구 간의 협업 과정이 될 것입니다.
  5. 최종 사용자를 대상으로 하는 모든 소프트웨어는 텍스트나 음성 안내를 통해 사용이 간편해야 합니다. 사용자 매뉴얼과 교육 비디오는 과거의 일이 될 것이며, 사용자가 소프트웨어를 사용하는 새롭고 간단한 방법에 익숙해지면 관련성을 유지하기 위해 모든 것이 이를 제공해야 할 것입니다.
  6. 언어 학습은 주로 생성 AI(Generative AI)를 통해 구동되는 음성 비서의 도움으로 수행됩니다. 개인 언어 코치 역할을 하는 음성 도우미는 Google의 LaMDA와 같은 시스템에서 처음으로 볼 수 있는 놀라운 자연어 대화 기능을 사용하여 인간 언어 학습자가 어휘와 표현을 습득하고 발음을 향상할 수 있도록 안내합니다. 음성 비서는 미래 지향적인 환상이 아닙니다. 현재로서는 경제적으로 타당할 뿐입니다.
  7. 자동차와 같은 하드웨어 제품에도 Generative AI 대화 상자 기반 도움말 시스템이 있습니다. 현대 자동차의 디스플레이 조정과 같은 복잡한 작업을 수행해 보셨나요? 쉽지는 않다고 말씀드릴 수 있습니다. 복잡한 매뉴얼을 파헤치는 대신 음성 지원자에게 지시를 받거나 직접 조정을 완료하도록 요청하면 됩니다.

많은 직업이 인식할 수 없을 정도로 변화될 것입니다. 그래픽 디자이너들은 이미 이러한 혼란의 고통을 느끼고 있습니다. 직업 전체가 사라지고, 다른 직업이 생성됩니다. Generative AI로 인한 기술 혁신을 얼마나 잘 처리하느냐에 따라 강력한 기업은 파산하고 새로운 기업이 지배하게 될 것입니다.

그리고 이 모든 일은 앞으로 10년 안에 일어날 것입니다.

내가 틀렸을 수도 있지만, 노련한 기술 전문가라도 현재 이미지 및 텍스트 생성기의 엄청난 기능을 예측하는 것은 어려운 것 같습니다. 몇 년 전에는 거대한 모델과 훈련 세트가 질적으로 다른 능력을 발휘하게 됩니다.

나는 그것이 운 좋게 거의 무작위로 발견된 것이라고까지 말하고 싶습니다. 그러나 이제 생성 도구가 있으므로 빠른 속도로 계속해서 응용 프로그램을 개발할 혁신적인 회사에 문이 열려 있습니다. 이는 근본적으로 개선할 수 있는 것이 무엇인지 파악하고 비즈니스를 창출하는 데 적합한 비즈니스 모델을 찾는 것이 대부분입니다. 생성적 IA 아이디어.

몇 년 전만 해도 자율주행차, VR, 블록체인 등 다른 기술 트렌드가 곧 장악할 것처럼 보였지만, 자율주행 기술은 입법상의 장애물로 인해 제한을 받았고, 블록체인은 경기 침체로 인해 타격을 입었으며, VR 하드웨어의 높은 비용으로 인해 채택이 제한됩니다. 대신 생성형 AI는 아직 법률로 제한되지 않으며(파워포인트 프레젠테이션을 다듬거나 스포츠 비디오를 생성하는 것은 생사 문제가 아님) 사용자가 구입하기 위해 값비싼 하드웨어가 필요하지 않습니다.

그리고 우리는 창작 활동이 이렇게 빨리 중단될 것이라고는 생각하지 못했습니다. 하지만 그들은 그랬습니다.

우리는 인간의 창의성과 기계의 새로운 능력이 혼합되어 구별하기 어려울 정도로 새롭고 때로는 이상한 시대에 들어서고 있습니다. 처럼 J. 커리어 지적:

“오늘과 앞으로 몇 년 동안 이것은 놀랍고 여러 면에서 두렵게 느껴질 것입니다. 0에서 초기 아이디어로 이동하는 창의적인 순간은 항상 매우 독특하고 신비로웠기 때문입니다.”

Generative IA가 어떻게 현 4년의 모든 것을 뒤흔들 것인가? 출처 https://towardsdatascience.com/how-generative-ia-will-disrupt-everything-in-the-current-decade-b8e7ce4dd1f7?source=rss—-60f5620cf9c4— XNUMX https://towardsdatascience.com/feed를 통해

<!–

–>

타임 스탬프 :

더보기 블록 체인 컨설턴트