AI アート ジェネレーター Midjourney の創設者である David Holz 氏が、イメージング PlatoBlockchain Data Intelligence の将来について語っています。 垂直検索。 あい。

AIアートジェネレーターMidjourneyの創設者であるDavidHolzが、イメージングの未来について語る

インタビュー 2008 年、David Holz は Leap Motion というハードウェア周辺機器会社を共同設立しました。 彼は昨年、Midjourey を作成するために会社を去るまで、この会社を運営していました。

ミッドジャーニー 現在の形は、テキスト プロンプトから AI 生成アートを作成するためのソーシャル ネットワークです。入力プロンプトで単語またはフレーズを入力すると、約 XNUMX 分間の計算の後、画面上に興味深い画像またはおそらく素晴らしい画像が表示されます。 これは、いくつかの点で OpenAI のものに似ています。 DALL-E2.

「このすべての役に立たない美しさ」というテキストプロンプトを使用した、空と雲の旅の途中の画像。 出典:作成者 ミッドジャーニー

どちらも、膨大な数の画像でトレーニングされた大規模な AI モデルの結果です。 しかし、Midjourney には独自の独特のスタイルがあります。 このTwitterスレッド. 両方とも最近パブリック ベータ テストに入りました (ただし、DALL-E 2 アクセスはゆっくりと拡大されています)。

テキスト入力を使用して AI モデルから高品質の画像を作成する機能は、OpenAI のリリースに続いて、昨年人気のあるアクティビティになりました。 CLIP (Contrastive Language–Image Pre-training) は、生成された画像がテキストの説明とどの程度一致しているかを評価するために設計されました。 その発売後、 アーティスト ライアン・マードック (Twitterの@advadnoun)は、プロセスを逆にすることができることを発見しました。テキスト入力を提供することで、他のAIモデルの助けを借りて画像出力を得ることができます。

その後、ジェネレーティブ アート コミュニティは、さまざまなモデルや手法を使用して画像を作成するための Python コードを公開し、熱狂的な探求の時代に乗り出しました。

「昨年のある時点で、AI の特定の領域が非常に興味深い方法で進歩していることがわかりました」と Holz 氏はインタビューで説明しました。 登録. 「そのうちの XNUMX つは、AI の言語を理解する能力でした。」

Holzは、CLIPに情報を提供する深層学習モデルであるトランスフォーマーやGANの代替となる拡散モデルなどの開発を指摘しました。 「個人的に本当に印象に残ったのは、CLIPガイドによる拡散でした」とKatherine Crawson(Twitterでは@RiversHaveWingsとして知られています)によって開発されました。

型にはまったフロリダの男ではない

ホルツはフロリダで育ち、高校で数学と物理学を学んだデザイン ビジネスを行っていました。 彼は応用数学の博士号取得に取り組んでいましたが、2008 年に休職して Leap Motion を開始しました。 翌年、マックス プランク研究所で学生研究者として XNUMX 年間過ごした後、NASA ラングレー研究センターで大学院生研究者として LiDAR、火星ミッション、大気科学に取り組む XNUMX 年間を過ごしました。

「私は、なぜ私はこのすべてのものに取り組んでいるのですか?」 彼が説明しました。 「私が気にかけているクールなことに取り組みたいだけです。」

そこで彼は、手の動きを追跡してデバイス入力に使用するハードウェアデバイスを開発したLeapMotionに焦点を当てました。 彼は会社を100年間経営し、会社を辞めたとき、約XNUMX人の従業員を雇用していました。

ミッドジャーニーは今のところかなり小さいと彼は言いました。 「私たちは約10人です」と彼は説明しました。 「私たちは自己資金で運営しています。 投資家はいません。 私たちは本当に経済的に動機づけられていません。 私たちは、情熱を持って楽しんでいることに取り組むためにここにいるだけです。 そして、私たちはさまざまなプロジェクトに取り組んでいました。」

Holz 氏は、AI の技術的側面と AI がどの程度改善されるかは、かなり容易に予測できると述べています。 「しかし、その人間への影響は想像するのが非常に難しい」と彼は言った. 「ここには、人類とテクノロジーの交差点にある何かがあります。 これが何であり、どうあるべきかを本当に理解するには、本当に多くの実験を行う必要があります。」

前方の道路

AI画像技術の不安定な性質は、Midjourneyのようなツールと、Blenderのようなダウンロード可能なオープンソースグラフィックアプリケーション、またはAdobe Photoshopのようなローカルにインストールされた商用アプリケーション(クラウドサービスになる前)の違いから明らかです。

ミッドジャーニーは社会的な文脈で存在します。 そのフロントエンドはチャットサービスDiscordです。 新規ユーザーはDiscordのMidjourneyサーバーにログインし、テキストプロンプトを送信して、さまざまな初心者チャネルのいずれかで他の多数のユーザーと一緒に画像を生成できます。

そのチャネル内のすべてのユーザーの結果の画像が約 10 分で表示され、コミュニティの概念を強化するのに役立ちます。 月額 30 ドルまたは月額 XNUMX ドルのサブスクリプションにアップグレードすることを決定した人は、Discord アプリの Midjourney ボットにプライベート ダイレクト メッセージとしてテキストを送信し、他のユーザーからの公共の場での対話の画面スクロール ウォーターフォールなしで、応答として画像を受け取ることができます。チャネル。 ただし、生成された画像はデフォルトで公開されたままです。

ソーシャル アプリとして、Midjourney は許可されるコンテンツに関する規則の対象となります。これは、Blender またはローカルにインストールされた他のアプリのユーザーが心配する必要はありません。 Midjourney の利用規約には次のように記載されています。 視覚的に衝撃的または不快なコンテンツの作成は避けてください。 一部のテキスト入力を自動的にブロックします。」

DALL-E 2 は、その コンテンツポリシー.

「ソーシャルメディアのない世界に住んでいれば、制限は必要ないと思います」とホルツ氏は言います。 「…Photoshopが発明されたとき、実際にそれについての報道がありました、それは、「ああ、あなたは何でも偽造することができて、それは少し怖いです」のようなものです。 [しかし今]、以前よりもセンセーショナルになることははるかに儲かっています。」

「今日では、誰もがセンセーショナリストになり、基本的にそれで利益を得ることができます」とホルツは言いました。 「そして、ドラマやセンセーショナリズムの市場を作り出すのです。 だからこそ、私たちはもう少し注意を払う必要があると思います。なぜなら、ある時点で、人々はこう言うからです。作れます?'"

簡単な答えはありません

Holz 氏は、これらの問題を軽減するためにソーシャル プラットフォームができることはあると認めていますが、単純な答えはないと言います。 「残念ながら、センセーショナリズムへの報いを少なくするという社会としての以外に、それに対処する明確な方法はありません」と彼は言いました。 「しかし、センセーショナリズムを減らすためにソーシャルプラットフォームを変更しようとしている人は誰もいないというのが私の印象です。なぜなら、それは今のところお金を稼いでいるからです。」

さらに、Midjourneyは13歳以上の誰にとってもソーシャルスペースを目指しているため、極端なコンテンツやグラフィックコンテンツに対するルールを設ける必要があると彼は言いました。

「私たちは、死体を作るのが好きな人やヌード写真が好きな人のために、スペースを分割したくありません」と Holz 氏は説明します。 「私たちはそれに対処する必要はありません。 現段階では、それを行う道徳的義務があるとは考えていません。 私たちは、人々が一緒に何かを作り、基本的に気分を害することなく、安心できる美しいソーシャル スペースを XNUMX つにしたいと考えています。」

そのために、同社には約40人のモデレーターがいて、ユーザーが作成する画像を監視しています。

Midjourney の社会的側面は、最近画質を向上させ始めました。 Holz 氏によると、同社のエンジニアは最近、ユーザーのアクティビティと応答に基づくフィードバック ループを初めて組み込んだソフトウェアのバージョン XNUMX を導入しました。

「v3 のものを見ると、この大きな改善があります」と彼は言いました。 「気が遠くなるほど良くなっていて、実際にはこれ以上アートを入れていません。 ユーザーがどの画像を気に入り、どのように使用しているかについてのデータを取得しただけです。 そして、それは実際にそれをより良くしました。」

Midjourney の技術スタックについて尋ねられると、Holz 氏は異議を唱えました。 「どこかの時点で、私たちが使用しているベンダーについて具体的にプレス リリースを行う予定です」と彼は言いました。 「私が言えることは、私たちは数十億のパラメーターを持つこれらの大きな AI モデルを持っているということです。 彼らは何十億もの画像で訓練されています。」

ホルツ氏によると、ユーザーは毎日何百万もの画像を作成しており、グリーンエネルギーコンピューティングプロバイダーを使用しています。これは、すべてが少なくともカーボンニュートラルであると主張しているため、主要なクラウドコンピューティングプロバイダーの分野を実際に絞り込むことはありません。

「すべての画像がペタオプを撮影しています」と彼は言いました。これは、10秒あたり15^1000回の操作を意味する用語です。 「つまり、数千兆の操作があります。 10、50、1000のどれなのか正確にはわかりませんが、画像を作成するのに数千兆回の操作が必要です。 これはおそらく最も高価です…Midjourneyと呼ぶと、サービスや製品と呼ぶようなサービスであることに疑いの余地はありません。これまで、一般の人がこれほど多くのコンピューティングを使用しているサービスはありませんでした。」

食べ物や服を着て

しかし、Midjourney は、無料サービスによって持ち込まれた顧客を有料層にアップセルし、高給のエンタープライズ クライアントを引き付けてから上場または買収するという道をたどっていません。

「私たちは、多額の資金を調達した後、自社のビジネスや製品が何であるかわからず、長い間損失を被るスタートアップとは異なります」と Holz 氏は言います。 「私たちは自己資金による研究所のようなものです。 いくらかのお金を失う可能性があります。 他の誰かのお金を 100 億ドルも失うことはありません。 正直なところ、私たちはすでに利益を上げており、問題ありません。」

「これは非常にシンプルなビジネスモデルです。つまり、人々はそれを楽しんで使用していますか? もしそうなら、生の費用は実際にはかなり高いので、彼らはそれを使用する費用を支払わなければなりません。 そして、その上にパーセンテージを追加します。これは、うまくいけば、私たちを養い、収容するのに十分です。 そして、それが私たちがしていることです。」

将来的には、スケーリングが問題になる可能性があります。 Holz 氏によると、Midjourney には現在、数十万人がサービスを利用しており、これには 10,000 台のサーバーが必要です。

「このようなテクノロジーを使おうとしている人が 10 万人いたとしたら」と彼は言いました。 世界には、AI を実行するための無料サーバーが XNUMX 万もありません。 テクノロジーが実際にそれを使用したいすべての人に届く前に、世界はコンピューターを使い果たすと思います。」

人々は何のためにそれを使用していますか? Midjourney アカウントにサインインしている場合は、 コミュニティフィード ページ。 それは、興味深い、しばしば驚くべき良い画像の絶え間ない流れです。

「大多数の人はただ楽しんでいます」と Holz 氏は言います。 「実際には芸術ではなく、想像力に関するものなので、それが最大のことだと思います。」

プロであること

しかし、約 30% のユーザーにとって、それはプロフェッショナルです。 Holz 氏によると、多くのグラフィック アーティストがコンセプト開発ワークフローの一部として Midjourney を使用しています。 彼らはアイデアのいくつかのバリエーションを生成し、それをクライアントに提示して、クライアントが追求すべき方向性を確認します。

「専門家は、クリエイティブまたはコミュニケーション プロセスを強化するためにそれを使用しています」と Holz 氏は説明します。 「そして、多くの人がそれで遊んでいました。」

おそらく 20% の人が、Holz 氏がアート セラピーと表現する目的で Midjourney を使用しています。 たとえば、犬が亡くなった後に犬の画像を作成します。 「彼らはそれを感情的で知的な反省ツールとして使用しています」と彼は言いました。 「そして、それは本当にクールです。」

Holz は、Midjourney を使用して偽の写真を作成するという考えを嫌います。 「偽の写真を作成するためにエディトリアルで使用することは非常に危険です」と彼は言いました。 「誰もそんなことをしてはいけません。」 しかし、彼は商用イラストのソースとして Midjourney に対してよりオープンであり、 The Economist はミッドジャーニーのグラフィックを掲載しました XNUMX月の表紙です。

Holz 氏は次のように述べています。 「長い間、それは非営利のみでした。 私たちが行っていることの XNUMX つは、人々が何をしているかを観察しているだけであり、その一部に満足していないと判断する場合があります。それらのためだけに使用することはできなくなりました。

Holz 氏は、Midjourney のような AI ツールは、すべての人をプロのアーティストにするのではなく、アーティストの仕事をより良くするものだと考えていると述べました。 「これらのツールを使用するアーティストは、これらのツールを使用する通常の人より常に優れています。 非常に優れたものを作成できるため、これらのツールを使用しなければならないというプレッシャーが、ある時点で発生する可能性はありますか? 私はイエスと思う。 しかし、現時点では、まだそこまで達していないと思います。 しかし、今後XNUMX年間で驚くほど良くなるでしょう。」

Midjourney と DALL-E 2 は、著作権または特定のライセンスに基づいて作品から作成された大規模な AI モデルが、著作権法および作品をどのように扱うべきかについてのコンテンツ作成者自身の感覚と調和できるかどうかについての長年の懸念に、より多くの注目を集めました。

訴訟の国アメリカ

Midjourney の出力に関して、現在の米国の法学は、AI が生成した画像に著作権を付与する可能性を否定しています。 XNUMX 月に、米国著作権局審査委員会 拒否されました [PDF] 「楽園への最近の入り口」というタイトルのコンピューター生成風景に著作権を付与する XNUMX 番目の要求は、それが人間の作成者なしで作成されたためです。

電話インタビューで、サンタクララ大学の法学部の教授であるタイラーオチョアは言った 登録、「米国著作権局は、人間の創造性が関与している限り、アーティストがAIを使用して作品の作成を支援することは[許容可能]であると述べています。 単にテキストを入力するだけで、AIが作品を生成する場合、それは明らかに現行法の下での著作権保護の対象ではありません。」

Midjourney の利用規約には、「あなたは、サービスで作成したすべてのアセットを所有しています」と記載されていますが、会社は、サービスで作成されたコンテンツを複製するために、ユーザーに著作権ライセンスを要求しています。テキスト入力だけでミッドジャーニーの画像を作成することには、伝達または強制する著作権があります。

常にそうであるとは限りません。 オチョア氏は、「楽園への最近の入り口」を作成したスティーブン・セイラー氏が、著作権局が AI ベースの著作権を法廷で却下したことに異議を唱えたいと考えていると考えているが、まだ実現していないと述べた。

著作権で保護された素材でトレーニングされたAIモデルから生じる潜在的な著作権の懸念もあります。 「問題は、これらの画像をトレーニングやAIに使用することがフェアユースになるかどうかです」とOchoa氏は述べています。 「そして、その文脈でのフェアユースの主張はかなり強いと思います。」

さらに、既存の著作権で保護された素材に実質的に類似した画像を作成した人には、責任が生じる可能性があります。 「トレーニング セットが十分に大きくない場合、AI が吐き出すものは、それが取り込んだものと非常によく似ている可能性があります」と Ochoa は説明し、問題はそれが著作権侵害であるかどうかであると指摘しました。 「間接的には、そうなる可能性が非常に高いと思います。」

Midjourneyが生成した資産を使用するクライアントに対する潜在的な法的リスクについては、Ochoa氏はそれはかなり低いと考えていると述べました。 AIモデルのトレーニングが著作権を侵害している場合、それはクライアントが関与する前に行われたと彼は説明しました。 「したがって、クライアントが何らかの方法でAIの作成を後援しない限り、[クライアント]がトレーニングセットの違反に対して責任を負うことはないと思います」と彼は言いました。 「そしてそれがここでの最強の主張です。 ですから、うまくいったとすれば、クライアントはこれらの画像を使用する上でかなり堅実な立場にあると思います。」

Holz は、法的状況が明確に欠けていることを認めています。

「現時点では、法律はこの種のことについて実際には何も持っていません」と彼は言いました. 「私の知る限り、すべての大規模な AI モデルは、基本的にインターネット上にあるものでトレーニングされています。 そして、それは今のところ大丈夫です。 それについて特に法律はありません。 たぶん、将来、あるでしょう。 しかし、GPL がプログラミング コードに関する斬新な法的事項であったように、それは一種の斬新な領域です。 そして、それが実際に法制度が把握し始めているものになるまでには、20 年か 30 年かかりました。」

ホルツ氏は、現時点では、関係者がこの技術についてどのように感じているかを理解することがより重要であると考えている. 「私たちの製品を使用しているアーティストはたくさんいます。私たちは、『これについて大丈夫ですか?』などと常に確認しています」と彼は言いました。

ホルツ氏は、現状に十分な不満がある場合は、トレーニングモデルに取り組むアーティストのために、将来、何らかの支払い構造について検討する価値があるかもしれないと述べました。 しかし、彼は、貢献の程度を評価することは現在難しいと述べました。 「現時点でのそのようなものの課題は、AIモデルがうまく機能する理由が実際には明確でないことです」と彼は言いました。 「そこに犬の写真を入れたら、実際に[AIモデル]が犬の写真を作るのにどれだけ役立ちますか。 データのどの部分が実際に[モデル]にどのような能力を与えているのかは実際には明らかではありません。」

何がミッドジャーニーに独特の美学を与えるのかと尋ねられたホルツは、ミッドジャーニーが行っていることをDALL-E 2と実際に比較することはできないが、一般的にAI研究者は彼らが最適化するものを手に入れる傾向があると述べた。 彼らが「犬」という言葉を入れるなら、彼らはおそらく犬の写真が欲しいでしょう。

「私たちにとって、私たちはそれを最適化していたとき、それが美しく見えるようにしたかったのですが、美しいとは必ずしも現実的であるとは限りません. …どちらかといえば、実際には写真から少し離れて偏っています. … この技術は、ディープフェイクのスーパーマシンとして使用できることを知っています。 そして、世界がこれ以上偽の写真を必要としているとは思いません。 偽の写真の発信源になりたくありません。」

「私たちのものが写真のように見えると、実際には少し不快に感じます。 だからといって、人々がより現実的なものを作ることを決して許さないと言っているわけではありません。 物事をよりリアルに見せようとする正当な使用例があります。 ただし、デフォルトでは、誰かが私たちのシステムを使用するときに、偽の写真を作成するべきではないと強く感じています。」

「しかし、私は世界がもっと美しさを必要としていると思います。 基本的に、人が美しいものを作れるようなものを作り、世界にもっと美しいものがあれば、それがデフォルトで欲しいのです。」 ®

タイムスタンプ:

より多くの 登録