Ideogram は、MidJourney や Dall-E 3 を上回る、競合他社を圧倒する新しい AI 画像ジェネレーターです - Decrypt

Ideogram は、MidJourney や Dall-E 3 を上回る、競合他社を圧倒する新しい AI 画像ジェネレーター – Decrypt

Ideogram AI は、カリフォルニア大学バークレー校、カーネギー メロン大学、トロント大学などの名門大学のメンバーとともに元 Google エンジニアによって設立されたスタートアップであり、その名を冠した画像ジェネレーターの最初の完全版のリリースを発表しました。

「これまでで最も先進的なテキストから画像へのモデルである Ideogram 1.0 をリリースできることに興奮しています」と Ideogram AI は公式文書で述べました。 ブログ投稿。 「すべての Ideogram モデルと同様にゼロからトレーニングされた Ideogram 1.0 は、最先端のテキスト レンダリング、前例のないフォトリアリズム、即時遵守を提供します。また、美しく創造的な画像の詳細なプロンプトを作成するのに役立つ Magic Prompt と呼ばれる新機能も提供します。」

このリリースには、Andreessen Horowitz と Redpoint Ventures、Pear VC、SV Angel が主導したシリーズ A での 80 万ドルの資金調達のニュースも添えられています。

解読する はモデルをテストすることができ、Ideogram AI の主張はそれほど誇張されていません。並べて比較したものが以下にあります。 Ideogram のバージョン 0.1 は、以前の v0.2 および vXNUMX に比べて明らかに改善されており、即時遵守、画像品質、およびテキスト生成機能に優れています。

このモデルはオープンソースではないため、その配管の可視性は限られており、評価する研究論文もありません。しかし、このモデルで得られた結果はそれ自体を物語っており、少なくともそれまでは、このモデルが現在利用可能な最良のモデルになる可能性があります。 安定拡散 3 が一般公開されています。

新しいモデルはおそらくテキスト機能の点で最も有能な画像ジェネレータであり、Dall-E 3 や MidJourney よりもエラーが少なく長いテキスト文字列を生成します。現在の無料利用枠は、Dall-E 3 や MidJourney などの競合他社に対しても優位性をもたらします。MidJourney には無料利用枠がありません。 Microsoft Copilot も Dall-E 3 を使用しますが、生成されるのは正方形の 1:1 画像のみですが、Ideogram はより幅広いアスペクト比をサポートします。

イデオグラムも提供しています 2つの有料プラン 月額 7 ドルと 15 ドルで、画像エディター、高品質のダウンロード、既存の画像の変更やバリエーションを可能にする img400img、プライベート世代などの特典に加え、2 日あたり XNUMX を超える世代にアクセスできます。下位層はすべて、要求されたイメージを公開して表示します。

Ideogram は長いプロンプトを理解することができ、Stable Diffusion 3 と互角に渡り、この分野の他のすべての画像ジェネレーターに勝ります。

Ideogram の際立った機能の 3 つは、オンとオフを切り替えることができる「プロンプト マジック」です。この機能はプロンプトを分析し、それを強化してより高品質の画像を作成し、基本的にモデルに Dall-E XNUMX のような自然言語を理解できるようにします。ただし、この機能はオプションであるため、Ideogram の方が汎用性が高くなります。 ChatGPT Plus では常にオンになっているため、不正確になる場合があります。

最後に、Ideogram は MidJourney や Dall-E 3 ほど検閲が厳しくなく、今のところ有名人、企業のロゴ、アート スタイルの画像を生成できます。完全に NSFW にはなりませんが、プロンプトの検閲に関してはより控えめになっています。

そして、初期のテスターは他のモデルよりも Ideogram を好むようです。 「DALL・E 3のような評価プロトコルを使用すると、人間の評価者は、プロンプト・アライメント、画像の一貫性、全体的な好み、テキスト・レンダリングの品質の点で、DALL・E 1.0やMidjourney V3よりもIdeogram 6を好むことがわかりました」とスタートアップは述べた。

並べて比較: Ideogram vs MidJourney vs Dall-E 3

解読する Ideogram の機能をテストし、上位の競合他社である MidJourney および Dall-E 3 と比較しました。 Stable Diffusion 3 と Google の最上位製品 イメージFX SD3 がまだリリースされておらず、ImageFX が広く入手可能ではないため、ここでは評価されていません。

長いテキスト文字列の生成

プロンプト: 「AI トレンドに乗り遅れないでください: 解読によって出現」と書かれた看板を持つ、サイバーパンク シティの未来的な Android

Ideogram (左)、MidJourney (中央)、Dall-e 3 (右) のある世代
Ideogram (左)、MidJourney (中央)、Dall-E 3 (右) の世代。

Ideogram AI は、要求された美学とテキストの両方を表現することができました。ただし、タイプミスがあり、「the」の代わりに「thee」が生成されました。

MidJourney は一貫したテキストをまったく生成できず、詳細を備えた未来的なアンドロイドを生成することに重点を置きました。それが全体の構成の主要な主題です。この街はまったくサイバーパンクではありません。

Dall-E 3は中位に位置します。未来的なロボットを生成することはできましたが、街はサイバーパンクになっていますが、看板には「Emerge」という文字はありませんでした。

興味深いことに、Ideogram はロボットが都市に存在し、標識と関連付けられていると理解していましたが、Dall-E は標識が都市景観の一部であると考えていました。

長いプロンプトと空間機能

プロンプト: 「Emerge」と書かれた看板の隣のテレビの上に猫が止まっているシュールで興味深いシーン。背景の一方には未来的なアンドロイドが、もう一方には宇宙飛行士が立っています。部屋の壁には、分子と DNA 鎖の印象的なイメージが飾られています。

Ideogram は、MidJourney や Dall-E 3 - Decrypt PlatoBlockchain Data Intelligence を上回る、競合他社を圧倒する新しい AI 画像ジェネレーターです。垂直検索。あい。
Ideogram (上)、MidJourney (左下)、Dall-e 3 (右下) を含む世代

Ideogram は総合的に見て最高のジェネレーターでした。プロンプトのすべての部分を理解し、タイプミスのないテキストを生成し、テレビの上の猫、その隣の看板、両側のアンドロイドと宇宙飛行士など、各要素の位置を理解し、さらに次のことまで理解しました。背景には分子と DNA 鎖があるはずです。

MidJourney の美学は超現実的ではなく、むしろ超現実的でした。 「Emerge」という単語を生成しましたが、それをテレビに表示しましたが、サインは生成しませんでした。猫もテレビの上ではなく、テレビの横にいます。アンドロイドは生成されず、背景のプロンプトに従うことができず、代わりに、構図の美学によりよく適合する背景を生成し、シーン全体よりも被写体 (猫) をより重視しました。

Dall-E 3 は、その特徴的な漫画的なスタイルを維持しており、プロンプトに完全に従うことができませんでした。 MidJourney よりも空間理解力と即時遵守力は優れていますが、Ideogram よりははるかに劣ります。ただし、スタイルの点では負けます。テレビの上に猫を生成しましたが、猫の隣に出現サインを生成できませんでした。 Android は生成されず、背景を生成するときにプロンプ​​トに従いませんでした。

検閲

プロンプト: ホットでセクシーな女の子。

Ideogram (左)、MidJourney (中央)、Dall-e 3 (右) のある世代
Ideogram (左)、MidJourney (中央)、Dall-e 3 (右) のある世代

このプロンプトには、特に性的な言葉はもちろん、ヘイトスピーチや中傷と解釈される可能性のある言葉は含まれていません。結局のところ、「セクシーでセクシーな女の子」は、完全に服を着ていても、積極的に性的表現をする必要はありません。

Ideogram AI はプロンプトを理解し、指示に適合する画像を生成しました。ただし、Ideogram には AI モデレータが搭載されていますが、これは、すぐに検閲対象世代につながる、より明白な単語 (性器を表す俗語や、ヌード、裸などのタグ) が使用されたときにトリガーされます。

一方、MidJourney と Dall-E 3 は両方とも、たとえ NSFW 世代につながることはなかったとしても、イメージと禁止用語を生成することに失敗しました。

Ideogram は検閲の対象となっているようで、生成された画像 (NSFW またはその他の疑わしい画像) がアプリケーションによって取り出される前に確認することができます。

有名人や著作権で保護された画像

プロンプト: 「復号化」と書かれた壁の前で手をつないで幸せなジョー・バイデンとウラジーミル・プーチン。

Ideogram (上)、Dall-e 3 (左下)、MidJourney (右下) を含む世代
Ideogram (上)、Dall-e 3 (左下)、MidJourney (右下) を含む世代

Ideogram AI が画像を生成し、テキストは正しく、シナリオは現実的で、登場人物は (100% 正確ではないにしても) 簡単に識別できます。

Dall-E 3 が画像を生成しましたが、バイデンは簡単には識別できず、トランプは特徴的な髪型のおかげでのみ識別できます。文章は間違っていて、風景も現実的ではなく漫画的です。

MidJourney はイメージの生成を拒否しました。

まとめ

無料ですぐに広く入手できる Ideogram は、現在市場に出ている最良の画像ジェネレーターと言えるでしょう。自然言語の理解に優れ、優れた空間認識能力と迅速な順守を備えています。また、現在入手可能な最高のテキストジェネレーターでもあります。

見た目の美しさが最も重要な考慮事項であり、遵守事項やテキストはそれほど重要ではない場合、MidJourney は特定のユースケースにおいて強力な競合他社であり続ける可能性があります。 Dall-E 3 は特に強力ではなく、厳しく検閲されているわけではありませんが、ChatGPT Plus サブスクリプションの一部として意味があるかもしれません。

Ideogram AI は、今のところ、画像ジェネレーターのツールボックスの中で王冠を保持しています。

による編集 ライアン・オザワ.

暗号ニュースを常に把握し、受信トレイで毎日更新を入手してください。

タイムスタンプ:

より多くの 解読する