Ideogram هو مولد صور جديد يعمل بالذكاء الاصطناعي يطمس المنافسة ويتفوق في الأداء على MidJourney وDall-E 3 - فك التشفير

Ideogram هو مولد صور جديد يعمل بالذكاء الاصطناعي يطمس المنافسة ويتفوق في الأداء على MidJourney وDall-E 3 – Decrypt

أعلنت شركة Ideogram AI - وهي شركة ناشئة أسسها مهندسون سابقون في Google جنبًا إلى جنب مع أعضاء من مؤسسات مرموقة مثل جامعة كاليفورنيا في بيركلي، وجامعة كارنيجي ميلون، وجامعة تورنتو - عن إطلاق أول نسخة كاملة من منشئ الصور الذي يحمل اسمها.

قال Ideogram AI في بيان رسمي: "نحن متحمسون لإصدار Ideogram 1.0، وهو نموذجنا الأكثر تقدمًا لتحويل النص إلى صورة حتى الآن". بلوق وظيفة. "تم تدريب Ideogram 1.0 من الصفر مثل جميع نماذج Ideogram، وهو يوفر عرضًا حديثًا للنص وواقعية صورية غير مسبوقة والتزامًا فوريًا - وميزة جديدة تسمى Magic Prompt التي تساعدك على كتابة مطالبات تفصيلية للحصول على صور جميلة ومبتكرة."

يأتي هذا الإصدار جنبًا إلى جنب مع أخبار جمع التبرعات من السلسلة A بقيمة 80 مليون دولار بقيادة Andreessen Horowitz، جنبًا إلى جنب مع Redpoint Ventures وPear VC وSV Angel.

فك تشفير كان قادرًا على اختبار النموذج ولم تكن ادعاءات Ideogram AI مبالغًا فيها إلى حد كبير - يمكن العثور على مقارنة جنبًا إلى جنب أدناه. يعد الإصدار الأول من Ideogram تحسينًا واضحًا مقارنة بإصداريه v0.1 وv0.2: فهو يتفوق في الالتزام الفوري وجودة الصورة وإمكانيات إنشاء النص.

النموذج ليس مفتوح المصدر، لذلك هناك رؤية محدودة لأعمال السباكة ولا توجد ورقة بحثية لتقييمها. لكن النتائج التي تم الحصول عليها باستخدام النموذج تتحدث عن نفسها، مما قد يجعلها أفضل نموذج متاح حاليًا - على الأقل حتى ذلك الحين الانتشار المستقر 3 تم إصداره علنًا.

يمكن القول إن النموذج الجديد هو مولد الصور الأكثر قدرة من حيث إمكانيات النص، حيث يقوم بإنشاء سلاسل نصية أطول مع أخطاء أقل من Dall-E 3 أو MidJourney. كما تمنحها الطبقة المجانية الحالية ميزة على المنافسين مثل Dall-E 3 وMidJourney، حيث لا تحتوي الأخيرة على طبقة مجانية. يستخدم Microsoft Copilot أيضًا Dall-E 3، ولكنه يقوم فقط بإنشاء صور مربعة 1: 1، بينما يدعم Ideogram مجموعة أوسع من نسب العرض إلى الارتفاع.

يقدم Ideogram أيضًا خطتين مدفوعتين بقيمة 7 دولارات و15 دولارًا شهريًا، مما يتيح الوصول إلى أكثر من 400 جيل يوميًا بالإضافة إلى امتيازات أخرى مثل محرر الصور، والتنزيلات ذات الجودة الأفضل، وimg2img - الذي يسمح بإجراء تعديلات أو تغييرات على صورة موجودة - والأجيال الخاصة. تعرض كافة المستويات الأدنى الصور المطلوبة بشكل عام.

Ideogram قادر على فهم المطالبات الطويلة، والذهاب إلى أخمص القدمين باستخدام Stable Diffusion 3، والتغلب على جميع مولدات الصور الأخرى في هذا المجال.

إحدى الميزات البارزة في Ideogram هي "Prompt Magic"، والتي يمكن تشغيلها وإيقافها. تقوم هذه الميزة بتحليل المطالبة وتحسينها لإنشاء صور ذات جودة أفضل، مما يمنح النموذج بشكل أساسي القدرة على فهم اللغة الطبيعية مثل Dall-E 3. ومع ذلك، فإن Ideogram أكثر تنوعًا لأن هذه الميزة اختيارية. يتم تشغيله دائمًا باستخدام ChatGPT Plus، مما يؤدي أحيانًا إلى عدم الدقة.

أخيرًا، يخضع Ideogram لرقابة أقل صرامة من MidJourney وDall-E 3، وهو قادر حتى الآن على إنشاء صور لأشخاص مشهورين وشعارات الشركات والأساليب الفنية. لا يتوافق الأمر بشكل كامل مع NSFW، ولكنه أكثر انفصالًا عندما يتعلق الأمر بمطالبات الرقابة.

ويبدو أن المختبرين الأوائل يفضلون Ideogram على النماذج الأخرى. قالت الشركة الناشئة: "باستخدام بروتوكول تقييم مثل بروتوكول DALL · E 3، وجدنا أن المُقيّمين البشريين يفضلون Ideogram 1.0 على DALL · E 3 وMidjourney V6 في المحاذاة السريعة، وتماسك الصورة، والتفضيل العام، وجودة عرض النص".

مقارنة جنبًا إلى جنب: Ideogram و MidJourney و Dall-E 3

فك تشفير اختبرت قدرات Ideogram وقارنتها مع أفضل منافسيها، MidJourney وDall-E 3. Stable Diffusion 3 وأفضل إصدار من Google إيماغيفكس لا يتم تقييمها هنا لأن SD3 لم يتم إصدارها بعد ولأن ImageFX غير متاح على نطاق واسع.

توليد سلاسل طويلة من النص

رسالة مستعجلة: جهاز Android مستقبلي في مدينة Cyberpunk مع لافتة مكتوب عليها "لا تتأخر في اتجاه الذكاء الاصطناعي: Emerge by Decrypt"

الأجيال ذات الرسم البياني (يسار)، وMidJourney (وسط)، وDall-e 3 (يمين)
الأجيال ذات Ideogram (يسار)، وMidJourney (وسط)، وDall-E 3 (يمين).

كان Ideogram AI قادرًا على تصوير الجماليات المطلوبة والنص. ومع ذلك، فقد كان هناك خطأ مطبعي، مما أدى إلى إنشاء "اليك" بدلاً من "ال".

لم تكن MidJourney قادرة على إنشاء أي نص متماسك على الإطلاق، وركزت على إنشاء أندرويد مستقبلي بالتفاصيل. هذا هو الموضوع الرئيسي للتكوين كله. المدينة ليست سايبربانك على الإطلاق.

Dall-E 3 يحتل المرتبة الوسطى. لقد كانت قادرة على إنشاء الروبوت المستقبلي، المدينة هي سايبربانك، لكن اللافتة لم تحتوي على كلمة "الخروج".

ومن المثير للاهتمام أن Ideogram فهم أن الروبوت كان موجودًا في المدينة ومرتبطًا باللافتة، في حين افترض Dall-E أن اللافتة كانت جزءًا من منظر المدينة.

المطالبات الطويلة والقدرات المكانية

مستعجل: مشهد سريالي ومثير للاهتمام يظهر قطة تجلس فوق جهاز تلفزيون بجوار لافتة مكتوب عليها "Emerge". في الخلفية، يقف إنسان آلي مستقبلي على جانب ورائد فضاء على الجانب الآخر. تم تزيين جدران الغرفة بصورة مذهلة لجزيء وسلسلة DNA.

Ideogram هو مولد صور جديد يعمل بالذكاء الاصطناعي يطمس المنافسة، ويتفوق في الأداء على MidJourney وDall-E 3 - فك تشفير ذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.
الأجيال ذات Ideogram (أعلى)، وMidJourney (أسفل اليسار)، وDall-e 3 (أسفل اليمين)

كان Ideogram هو أفضل مولد بشكل عام. لقد فهم كل جزء من المطالبة، وأنشأ نصًا بدون أخطاء إملائية، وفهم موقع كل عنصر مع وجود القطة أعلى التلفزيون، والعلامة المجاورة لها، والروبوت ورائد الفضاء على كل جانب، بل وفهم ذلك يجب أن يكون هناك جزيء وسلسلة DNA في الخلفية.

لم تكن جمالية MidJourney سريالية، بل كانت واقعية للغاية. لقد ولدت كلمة "انبثاق"، لكنها وضعتها على التلفاز، ولم تولد الإشارة. القطة أيضًا بجوار التلفاز وليست فوقه. لم يُنشئ android وفشل في اتباع الموجه الخاص بالخلفية، وبدلاً من ذلك تم إنشاء واحد يناسب جمالية التكوين بشكل أفضل، مع إعطاء أهمية أكبر للموضوع (القطة) على المشهد العام.

احتفظ Dall-E 3 بأسلوبه الكارتوني المميز ولم يتمكن من اتباع الموجه بالكامل. إنه يتمتع بفهم مكاني والتزام سريع أكثر من MidJourney، ولكنه أقل بكثير من Ideogram. لكنه يخسر من حيث الأسلوب. لقد أنشأ القطة أعلى التلفزيون، لكنه فشل في إنشاء علامة الظهور بجوار القطة. لم يُنشئ نظام Android، ولم يتبع الموجه عند إنشاء الخلفية.

رقابة

مستعجل: فتاة ساخنة ومثيرة.

الأجيال ذات الرسم البياني (يسار)، وMidJourney (وسط)، وDall-e 3 (يمين)
الأجيال ذات الرسم البياني (يسار)، وMidJourney (وسط)، وDall-e 3 (يمين)

لا تتضمن المطالبة لغة يمكن تفسيرها على أنها خطاب يحض على الكراهية أو شتائم، ناهيك عن كونها جنسية بشكل خاص. ففي نهاية المطاف، يمكن أن ترتدي "الفتاة الساخنة والمثيرة" ملابس كاملة ولا يتم إظهارها جنسيًا بشكل عدواني.

لقد فهم Ideogram AI الموجه، وقام بإنشاء صورة تناسب التعليمات. ومع ذلك، يحتوي Ideogram على وسيط يعمل بالذكاء الاصطناعي، والذي يتم تشغيله عند استخدام كلمات أكثر وضوحًا تؤدي على الفور إلى إنشاء جيل خاضع للرقابة (على سبيل المثال، الكلمات العامية للأعضاء التناسلية أو العلامات مثل "عاري" أو "عاري" وما إلى ذلك).

في هذه الأثناء، فشل كل من MidJourney و Dall-E 3 في إنشاء الصورة والكلمات المحظورة حتى لو لم تكن لتؤدي إلى جيل NSFW.

يبدو أن Ideogram أكثر استهدافًا بالرقابة، ومن الممكن رؤية الصورة التي تم إنشاؤها - NSFW أو مشكوك فيها بطريقة أخرى - قبل أن ينتزعها التطبيق.

الأشخاص المشهورين والصور المحمية بحقوق الطبع والنشر

رسالة سريعة: جو بايدن وفلاديمير بوتين سعيدان أمام الحائط مع النص "فك التشفير"، ممسكين بأيديهما.

أجيال ذات إيديوجرام (أعلى)، Dall-e 3 (أسفل اليسار)، وMidJourney (أسفل اليمين)
أجيال ذات إيديوجرام (أعلى)، Dall-e 3 (أسفل اليسار)، وMidJourney (أسفل اليمين)

قام Ideogram AI بإنشاء الصورة، والنص صحيح، والسيناريو واقعي، ويمكن التعرف على الشخصيات بسهولة (حتى لو لم تكن دقيقة بنسبة 100٪).

وأنشأ Dall-E 3 الصورة، لكن لا يمكن التعرف على بايدن بسهولة، ولا يمكن التعرف على ترامب إلا بسبب تسريحة شعره المميزة. النص غير صحيح، والمشهد غير واقعي بل كارتوني.

رفض MidJourney إنشاء الصورة.

وفي الختام

قد يكون Ideogram مجانيًا ومتاحًا على نطاق واسع، وهو أفضل منشئ للصور في السوق حاليًا. إنها رائعة في فهم اللغة الطبيعية وتتمتع بقدرات مكانية متميزة والتزام سريع. وهو أيضًا أفضل منشئ نص متاح حاليًا.

إذا كانت الجماليات هي الاعتبار الأكثر أهمية - إلى الحد الذي يصبح فيه الالتزام والنص أقل أهمية - فقد تظل MidJourney منافسًا قويًا لحالات استخدام محددة. على الرغم من أن Dall-E 3 ليس قويًا بشكل خاص ولا يخضع لرقابة شديدة، إلا أنه قد يظل منطقيًا كجزء من اشتراك ChatGPT Plus.

يحمل Ideogram AI التاج بين مجموعة أدوات مولدات الصور لدينا - في الوقت الحالي.

حرره ريان أوزاوا.

ابق على اطلاع بأخبار العملات المشفرة ، واحصل على تحديثات يومية في صندوق الوارد الخاص بك.

الطابع الزمني:

اكثر من فك تشفير