ジェネレーティブ IA が現在の XNUMX 年間でどのようにすべてを破壊するか

多くの人は驚くだろう

安定拡散による著者による画像

In ここ数カ月、Midjourney、DALL-E、Stable Diffusion、LaMDA、PaLM などの AI システムが、画像やテキストの生成と同様に明らかに多様な領域で大きな進歩を遂げました。これらのシステムの機能は印象的です。これらは、ユーザーが得たいものを説明する単なる「プロンプト」から、非常に示唆に富んだ画像を生成したり、広告用の効果的なセールスコピーを作成したり、その他多くのことを行います。

これらはすべてジェネレーティブ AI によって行われます。

「生成 AI」とは、次のようなシステムを指します。 ディープニューラルネットワーク その実装 大規模な言語モデル (LLM) するために 作ります ある種のコンテンツ。ここで私が「創造」と言っているのは、哲学的な意味ではなく、すでに存在するもののコピーではないという意味です(そもそも「創造」とは何でしょうか?)。

この素晴らしい新しい世界では、次のような大規模な新興企業が出現しています。 碧玉は、販売コピーと広告用画像の両方の生成を提供します。Jasper の評価額は現在 10 億ドルを超え、一夜にしてユニコーンになりました。

実際に大きな影響を与えた最初の生成 AI プラットフォームは、わずか 3 年前にリリースされた GPT-XNUMX でした。その後、この分野の複数のプレーヤー (OpenAI、Google、StableDiffusion、Google、DeepMind など) による一連のリリースが驚異的なペースで登場し、最新情報を把握し続けるのが困難なほどです。

しかし、Midjourney でプロンプトから画像を作成するのにしばらく時間を費やすのはとても楽しくて素晴らしいことですが、多くのテクノロジー愛好家は、この Generative IA の波を理解するのに苦労しています。

ジェネレーティブ IA は確実なトレンドですか、それとも単なる流行ですか?

「」に行きます堅実な傾向なぜなら、この10年間で何千もの職業上の活動や余暇の活動が変わるからです。例から始めましょう。

私は大のテニスファンです(少なくともテレビの意味では)。しかし、ライブのテニスの試合は終了するまでに何時間もかかり、私には他のアクティビティや興味があるので、通常はリプレイを見るか、試合の最も面白い 4 分程度のハイライト ビデオだけを視聴することに頼っています。

しかし、4 分のビデオではなく 10 分または 15 分のビデオが必要な場合はどうすればよいでしょうか?それとも、すべてのポイントをタイブレークに含めたい場合ですか?今は運が悪いんです。

さあ、Generative-IA を実際に使ってみましょう。Generative IA スポーツ ビデオ ジェネレーターがビデオを作成します。 貴方のために 次のようなテキスト プロンプトに非公式に入力した仕様に従ってください。

15年パリ・ベルシーでのラファ・ナダル対トミー・ポールの試合の最も興味深いポイントを収めた約2022分間のビデオ(完全なタイブレークがあった場合、変換されたすべてのブレークポイントを含む) 

それでおしまい。世界中の他の人が視聴するビデオとは異なり、自分だけのビデオへのリンクが得られます。そして、このビデオサービスは、DALL-E や Midjourney と同じくらい経済的に実現可能です。

研究はイノベーションとは異なります。前者は公開されたオリジナルの結果に関係しており、後者はそれらの結果からビジネスを構築する方法を見つけることに関係しています。イノベーションは独創性ではなく、成長、防御可能性、投資収益などを重視します。

研究はGoogleのような企業によって行われており、原則として利益を上げるために存在しているため、物事が混乱することがよくありますが、彼らは自分たちのビジネスがハイテクであることを理解しています。 研究がなければ技術は高くない。そのため、彼らは研究への資金提供や学界との親密な関係に関与しています。トップ研究者の多くは学界から雇用されています。私自身も研究者として、数年前にマウンテンビューの本部で開催されたファカルティサミットに招待され、フォーシーズンズホテルのスイートに宿泊させてもらいました。学術コミュニティに良い印象を与えるために何が必要であれ!

しかし、たとえ研究とイノベーションを明確に区別することが困難であり、人為的であるとしても、生成 AI の場合、この 2 つは異なる主体によって開発され、関連付けられるため、ここでの違いは重要です。ソフトウェアスタック内の 2 つの異なるレイヤー –as J. Currier によって指摘された:

  1. 最下位のソフトウェア層は、 深層学習モデル、大規模言語モデル (LLM) または同等の内部表現の実装を中心に構築されています。モデルは、アプリケーションを開発するための基本的な構成要素を提供します。
  2. 最上位のソフトウェア層は、 1 つは、テキスト プロンプトから画像を出力するなど、特定のタスクを実行するために深層学習モデルの上に構築されます。

この 2 層アーキテクチャは、イノベーションが加速する新時代を促進します。最下層が Google、OpenAI などの大企業によって開発されると、中小企業がアプリケーション層を提供し、当然、利益の一部が得られるからです。最下層プロバイダーに送信します。

現在、下位層は急速に改良されており、多くの場合、上位層のアプリケーションとともに配布されています。たとえば、LaMDA と PaLM はすぐに使用できるダイアログ機能を提供し、DALL-E と Midjourney は画像へのプロンプト サービスを提供します。しかし間もなく、最下層のオープンソースの代替品の急増により、最上位のアプリケーション層だけを開発して、それをすでに利用可能な最下層にプラグインできるようになるでしょう。もちろん、言うは易く行うは難しですが、実際には、最下層は最上層よりも桁違いに複雑です。

私はジェネレーティブ IA だと主張します。 ほぼすべての知識労働と余暇活動に浸透するだろう なぜなら、これまで困難だったアクティビティから複雑さを取り除くためのツールが提供され、私が「生成的パーソナライゼーション」と呼ぶまったく新しいレベルのパーソナライゼーションを提供できるからです。

上記のスポーツ ビデオの例から、「生成的なパーソナライゼーション」が何であるかがわかります。各ユーザーには、2 つまたは 3 つのオプションから選択するだけではなく、まったく新しい独自のハイライト ビデオが提供されます。

すべての Generative IA アプリケーションによる累積的な影響は、誇張することはできません。

  1. DALL-E、Midjourney、Stable Diffusion などのツールを使えば、少なくともこの投稿のヘッダー画像を取得するような単純な実用的な目的であれば、プロでなくても簡単にグラフィックを作成できるようになりました。この年になるまで、私は自分で画像を描くことがまったくできず、ブログの専門家からは、自分のストーリーのグラフィック デザインに時間を浪費しないようアドバイスを受けていました。
  2. 写真編集ユーザーは、Photoshop や Affinity Photo の複雑なツール セットをマスターするために、厳しい学習曲線に耐える必要はありません (私は後者を使用していますが、非常に複雑なので、ほとんどの調整方法を学ぶには YouTube チュートリアルを参照する必要があります)。 Generative AI を使用すると、ユーザーはソフトウェアに特定の変換を実行するよう要求するだけで、出来上がりです。イメージが固まってしまいます。 Adobe が自社のツールで Generative AI を提供できなければ、それを提供する新興企業によって混乱が生じ、Blockbuster の道を歩むことになるでしょう。
  3. PowerPoint などのプレゼンテーション ツールは、現在のようにテンプレートを提供するだけでなく、アウトラインのアイデアからプロフェッショナル レベルのプレゼンテーション全体を生成し、微調整します。現在、プロのプレゼンテーションとアマチュアのプレゼンテーションの間には大きな違いがありますが、これはもう当てはまらないでしょう。
  4. テキスト執筆は、生成 AI ツールによって高度に強化されたプロセスになります。多くの形式のライティングはすでに Grammarly などの洗練されたツールの助けを得ていますが、Generative AI は、たとえばブログの完全な最初のバージョンを生成することにより、ライターに質的に新しいレベルのサポートを提供します。執筆は人間と AI ツールの間の共同プロセスになります。
  5. 最終ユーザー向けのソフトウェアは、テキストまたは音声プロンプトで簡単に使用できる必要があります。ユーザーマニュアルや説明ビデオは過去のものとなり、ユーザーがソフトウェアの新しいシンプルな使用方法に慣れるとすぐに、関連性を維持するためにすべてがそれを提供する必要があります。
  6. 言語学習は主に、ご想像のとおり、生成 AI を活用した音声アシスタントの助けを借りて行われます。パーソナル言語コーチのように機能する音声アシスタントは、Google の LaMDA などのシステムで初めて見られた驚くべき自然言語対話機能を使用して、人間の言語学習者が語彙や表現を習得し、発音を改善できるようにガイドします。音声アシスタントは未来的な空想ではありません。現時点では経済的に合理的です。
  7. ハードウェア製品 (自動車など) にも、Generative AI ダイアログベースのヘルプ システムが搭載されるようになるでしょう。最近の車でディスプレイの調整などの複雑な操作を実行しようとしたことがありますか?簡単なことではないと言えます。複雑なマニュアルを詳しく調べる代わりに、音声アシスタントに指示を求めるか、直接調整を行うように依頼するだけです。

多くの職業が認識を超えて変革されるでしょう。グラフィックデザイナーはすでにこの混乱の痛みを感じています。職業全体が消滅し、別の職業が生​​み出されるでしょう。ジェネレーティブ AI によってもたらされる技術的破壊にどれだけうまく対処できるかに応じて、有力な企業が倒産し、新しい企業が支配的になるでしょう。

そしてこれらすべてはこの10年以内に起こるでしょう。

私は間違っているかもしれませんが、経験豊富な技術専門家であっても、現在の画像ジェネレーターとテキストジェネレーターの膨大な機能を予測するのは困難だったようです。数年前には、巨大なモデルとトレーニングセットが機能することは明らかではありませんでした。質的に異なる能力をもたらします。

それは幸運な、ほとんど偶然の発見だったとさえ言えるでしょう。しかし、生成ツールがある今、速いペースで次から次へとアプリケーションを開発する革新的な企業への門が開かれています。重要なのは、根本的に改善できるものを見つけ出し、そこからビジネスを生み出すのに適したビジネス モデルを見つけることです。ジェネレーティブ IA のアイデア。

数年前には、自動運転車、VR、ブロックチェーンなどの他の技術トレンドがすぐに引き継がれるように見えましたが、自動運転技術は法的ハードルによって制限されており、ブロックチェーンは景気低迷の影響を受けており、VRハードウェアのコストが高いため、採用は制限されています。その代わり、生成 AI はまだ法律によって制限されておらず (PowerPoint プレゼンテーションを洗練したり、スポーツ ビデオを生成したりすることは生死に関わる問題ではありません)、ユーザーが高価なハードウェアを購入する必要もありません。

そして、創作活動がこんなに早く中断されるとは思っていませんでした。しかし、彼らはそうでした。

私たちは、人間の創造性と機械の新機能が混ざり合って、両者を区別するのが難しい、新しく、時には奇妙な時代に突入しています。として J. カリエ 指摘している:

「今日そして今後数年間、これは驚くべきことであり、多くの意味で恐ろしいことになるだろう。ゼロから最初のアイデアに向かう創造的な瞬間は、とても神秘的で、いつもとても人間らしいものに感じられるからです。」

ジェネレーティブ IA がこの 4 年間にすべてを破壊する方法 https://towardsdatascience.com/how-generative-ia-will-disrupt-everything-in-the-current-decade-b8e7ce4dd1f7?source=rss—-60f5620cf9c4— より転載XNUMX https://towardsdatascience.com/feed 経由

<!–

–>

タイムスタンプ:

より多くの ブロックチェーンコンサルタント