Το Ideogram είναι μια νέα γεννήτρια εικόνων AI που εξαφανίζει τον ανταγωνισμό, ξεπερνώντας τις επιδόσεις του MidJourney και του Dall-E 3 - Decrypt

Το Ideogram είναι μια νέα γεννήτρια εικόνων AI που εξαφανίζει τον ανταγωνισμό, ξεπερνώντας τις επιδόσεις στο MidJourney και το Dall-E 3 – Decrypt

Το Ideogram AI —μια startup που ιδρύθηκε από πρώην μηχανικούς της Google μαζί με μέλη από αναγνωρισμένα ιδρύματα όπως το UC Berkeley, το Carnegie Mellon University και το Πανεπιστήμιο του Τορόντο— ανακοίνωσε την κυκλοφορία της πρώτης πλήρους έκδοσης της ομώνυμης συσκευής δημιουργίας εικόνων.

«Είμαστε ενθουσιασμένοι που κυκλοφορούμε το Ideogram 1.0, το πιο προηγμένο μοντέλο κειμένου σε εικόνα μέχρι σήμερα», δήλωσε η Ideogram AI σε επίσημη ανακοίνωση. ανάρτηση. "Εκπαιδευμένο από την αρχή όπως όλα τα μοντέλα Ideogram, το Ideogram 1.0 προσφέρει υπερσύγχρονη απόδοση κειμένου, πρωτοφανή φωτορεαλισμό και άμεση συμμόρφωση—και μια νέα δυνατότητα που ονομάζεται Magic Prompt που σας βοηθά να γράφετε λεπτομερείς προτροπές για όμορφες, δημιουργικές εικόνες."

Η κυκλοφορία συνοδεύεται από την είδηση ​​για συγκέντρωση κεφαλαίων 80 εκατομμυρίων δολαρίων Series A με επικεφαλής τον Andreessen Horowitz, μαζί με τους Redpoint Ventures, Pear VC και SV Angel.

Αποκρυπτογράφηση μπόρεσε να δοκιμάσει το μοντέλο και οι ισχυρισμοί του Ideogram AI δεν υπερεκτιμώνται υπερβολικά — μια παράπλευρη σύγκριση μπορεί να βρεθεί παρακάτω. Η πρώτη έκδοση του Ideogram είναι μια σαφής βελτίωση σε σχέση με τις προκατόχους της έκδοσης 0.1 και έκδοσης 0.2: υπερέχει στην άμεση προσκόλληση, την ποιότητα εικόνας και τις δυνατότητες δημιουργίας κειμένου.

Το μοντέλο δεν είναι ανοιχτού κώδικα, επομένως υπάρχει περιορισμένη ορατότητα στα υδραυλικά του και δεν υπάρχει ερευνητικό έγγραφο για αξιολόγηση. Αλλά τα αποτελέσματα που προέκυψαν με το μοντέλο μίλησαν από μόνα τους, δυνητικά καθιστώντας το το καλύτερο μοντέλο που διατίθεται αυτή τη στιγμή — τουλάχιστον μέχρι Σταθερή Διάχυση 3 κυκλοφορεί δημόσια.

Το νέο μοντέλο είναι αναμφισβήτητα η πιο ικανή δημιουργία εικόνων όσον αφορά τις δυνατότητες κειμένου, δημιουργώντας μεγαλύτερες συμβολοσειρές κειμένου με λιγότερα σφάλματα από το Dall-E 3 ή το MidJourney. Η τρέχουσα δωρεάν βαθμίδα της δίνει επίσης ένα πλεονέκτημα έναντι ανταγωνιστών όπως το Dall-E 3 και το MidJourney, το τελευταίο από τα οποία δεν έχει δωρεάν επίπεδο. Το Microsoft Copilot χρησιμοποιεί επίσης Dall-E 3, αλλά δημιουργεί μόνο τετράγωνες εικόνες 1:1, ενώ το Ideogram υποστηρίζει ένα ευρύτερο σύνολο αναλογιών διαστάσεων.

Το ιδεόγραμμα προσφέρει επίσης δύο πληρωμένα προγράμματα 7 $ και 15 $ το μήνα, που δίνουν πρόσβαση σε περισσότερες από 400 γενιές την ημέρα μαζί με άλλα προνόμια όπως ένα πρόγραμμα επεξεργασίας εικόνας, λήψεις καλύτερης ποιότητας, img2img—που επιτρέπει τροποποιήσεις ή παραλλαγές σε μια υπάρχουσα εικόνα—και ιδιωτικές γενιές. Όλες οι κατώτερες βαθμίδες εμφανίζουν δημόσια τις ζητούμενες εικόνες.

Το Ideogram είναι ικανό να κατανοήσει μεγάλες προτροπές, από τα δάχτυλα μέχρι τα δάχτυλα με το Stable Diffusion 3 και να νικήσει όλες τις άλλες γεννήτριες εικόνας σε αυτό το πεδίο.

Ένα από τα χαρακτηριστικά του Ideogram είναι το "Prompt Magic", το οποίο μπορεί να ενεργοποιηθεί και να απενεργοποιηθεί. Αυτή η δυνατότητα αναλύει την προτροπή και τη βελτιώνει για τη δημιουργία εικόνων καλύτερης ποιότητας, δίνοντας ουσιαστικά στο μοντέλο τη δυνατότητα να κατανοεί φυσική γλώσσα όπως το Dall-E 3. Ωστόσο, το Ideogram είναι πιο ευέλικτο επειδή αυτή η δυνατότητα είναι προαιρετική. Είναι πάντα ενεργοποιημένο με το ChatGPT Plus, κάτι που μερικές φορές οδηγεί σε ανακρίβειες.

Τέλος, το Ideogram είναι λιγότερο επιθετικά λογοκριμένο από το MidJourney και το Dall-E 3 και είναι μέχρι στιγμής ικανό να δημιουργεί εικόνες διάσημων ανθρώπων, λογότυπων εταιρειών και στυλ τέχνης. Δεν πηγαίνει πλήρως NSFW, αλλά είναι πιο διακριτικό όταν πρόκειται για λογοκρισία προτροπών.

Και οι πρώτοι δοκιμαστές φαίνεται να προτιμούν το Ideogram σε σχέση με άλλα μοντέλα. «Χρησιμοποιώντας ένα πρωτόκολλο αξιολόγησης όπως αυτό του DALL·E 3, διαπιστώνουμε ότι οι άνθρωποι βαθμολογητές προτιμούν το Ideogram 1.0 έναντι του DALL·E 3 και του Midjourney V6 σε άμεση ευθυγράμμιση, συνοχή εικόνας, συνολική προτίμηση και ποιότητα απόδοσης κειμένου», ανέφερε η startup.

Σύγκριση δίπλα-δίπλα: Ideogram vs MidJourney vs Dall-E 3

Αποκρυπτογράφηση δοκίμασε τις δυνατότητες της Ideogram και τη συνέκρινε με τους κορυφαίους ανταγωνιστές της, MidJourney και Dall-E 3. Stable Diffusion 3 και το κορυφαίο της Google ImageFX δεν αξιολογούνται εδώ επειδή το SD3 δεν έχει κυκλοφορήσει ακόμα και το ImageFX δεν είναι ευρέως διαθέσιμο.

Δημιουργία μεγάλων σειρών κειμένου

Προτροπή: Ένα φουτουριστικό Android στην πόλη Cyberpunk με μια ταμπέλα που γράφει, "Μην αργείτε στην τάση της τεχνητής νοημοσύνης: Emerge by Decrypt"

Generations with Ideogram (αριστερά), MidJourney (κέντρο) και Dall-e 3 (δεξιά)
Γενιές με Ideogram (αριστερά), MidJourney (κέντρο) και Dall-E 3 (δεξιά).

Το Ideogram AI μπόρεσε να απεικονίσει τόσο την ζητούμενη αισθητική όσο και το κείμενο. Ωστόσο, είχε ένα τυπογραφικό λάθος, δημιουργώντας «εσύ» αντί για «το».

Το MidJourney δεν μπόρεσε να δημιουργήσει κανένα συνεκτικό κείμενο και επικεντρώθηκε στη δημιουργία ενός φουτουριστικού android με λεπτομέρεια. Είναι το κύριο θέμα της όλης σύνθεσης. Η πόλη δεν είναι καθόλου cyberpunk.

Το Dall-E 3 κατατάσσεται στη μέση. Μπόρεσε να δημιουργήσει το φουτουριστικό ρομπότ, η πόλη είναι cyberpunk, αλλά η πινακίδα δεν έγραφε τη λέξη "Emerge".

Είναι αρκετά ενδιαφέρον ότι το Ideogram κατάλαβε ότι το ρομπότ βρισκόταν στην πόλη και συσχετίστηκε με το σημάδι, ενώ ο Dall-E υπέθεσε ότι η πινακίδα ήταν μέρος του αστικού τοπίου.

Μεγάλες προτροπές και χωρικές δυνατότητες

Προτροπή: Μια σουρεαλιστική και συναρπαστική σκηνή με μια γάτα σκαρφαλωμένη πάνω από μια τηλεόραση δίπλα σε μια πινακίδα που γράφει "Emerge". Στο βάθος, ένα φουτουριστικό android στέκεται στη μία πλευρά και ένας αστροναύτης στην άλλη. Οι τοίχοι του δωματίου κοσμούνται με μια εντυπωσιακή εικόνα ενός μορίου και μιας αλυσίδας DNA.

Το Ideogram είναι μια νέα γεννήτρια εικόνων AI που εξαφανίζει τον ανταγωνισμό, ξεπερνώντας το MidJourney και το Dall-E 3 - Decrypt PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
Generations with Ideogram (πάνω), MidJourney (κάτω αριστερά) και Dall-e 3 (κάτω δεξιά)

Το Ideogram ήταν μακράν ο καλύτερος γενικός δημιουργός. Κατάλαβε κάθε μέρος της προτροπής, δημιούργησε το κείμενο χωρίς τυπογραφικά λάθη, κατανοούσε τη θέση κάθε στοιχείου με τη γάτα πάνω από μια τηλεόραση, την πινακίδα δίπλα της, το Android και τον αστροναύτη σε κάθε πλευρά, και ακόμη και κατάλαβε ότι πρέπει να υπάρχει ένα μόριο και μια αλυσίδα DNA στο βάθος.

Η αισθητική του MidJourney δεν ήταν σουρεαλιστική, αλλά μάλλον υπερρεαλιστική. Δημιούργησε τη λέξη "Emerge", αλλά την έβαλε στην τηλεόραση και δεν δημιούργησε το σήμα. Η γάτα είναι επίσης δίπλα στην τηλεόραση και όχι από πάνω της. Δεν δημιούργησε το android και απέτυχε να ακολουθήσει την προτροπή για το φόντο, δημιουργώντας αντίθετα ένα που ταιριάζει καλύτερα στην αισθητική της σύνθεσης, δίνοντας μεγαλύτερη σημασία στο θέμα (τη γάτα) σε σχέση με τη συνολική σκηνή.

Το Dall-E 3 διατήρησε το χαρακτηριστικό του στυλ καρτούν και δεν μπορούσε να ακολουθήσει πλήρως την προτροπή. Έχει περισσότερη χωρική κατανόηση και άμεση συμμόρφωση από το MidJourney, αλλά πολύ λιγότερο από το Ideogram. Χάνει, όμως, από άποψη στυλ. Δημιούργησε τη γάτα πάνω από την τηλεόραση, αλλά απέτυχε να δημιουργήσει το σύμβολο Emerge δίπλα στη γάτα. Δεν δημιούργησε το Android και δεν ακολούθησε την προτροπή κατά τη δημιουργία του φόντου.

Λογοκρισία

Προτροπή: Ένα καυτό, σέξι κορίτσι.

Generations with Ideogram (αριστερά), MidJourney (κέντρο) και Dall-e 3 (δεξιά)
Generations with Ideogram (αριστερά), MidJourney (κέντρο) και Dall-e 3 (δεξιά)

Η προτροπή δεν περιλαμβάνει γλώσσα που θα μπορούσε να ερμηνευθεί ως ρητορική μίσους ή προσβολές, πόσο μάλλον σεξουαλική. Εξάλλου, ένα «καυτό, σέξι κορίτσι» μπορεί να είναι πλήρως ντυμένο και όχι επιθετικά σεξουαλικά.

Το Ideogram AI κατάλαβε την προτροπή και δημιούργησε μια εικόνα που ταιριάζει στις οδηγίες. Ωστόσο, το Ideogram έχει έναν συντονιστή τεχνητής νοημοσύνης, ο οποίος ενεργοποιείται όταν χρησιμοποιούνται πιο προφανείς λέξεις που οδηγούν αμέσως σε μια λογοκριμένη γενιά (ας πούμε, λέξεις αργκό για τα γεννητικά όργανα ή ετικέτες όπως γυμνό, γυμνό κ.λπ.).

Τόσο το MidJourney όσο και το Dall-E 3, εν τω μεταξύ, απέτυχαν να δημιουργήσουν την εικόνα και απαγόρευσαν λέξεις ακόμα κι αν δεν θα οδηγούσαν σε μια γενιά NSFW.

Το ιδεόγραμμα φαίνεται να είναι πιο στοχευμένο στη λογοκρισία και είναι δυνατό να δείτε την εικόνα που δημιουργείται—NSFW ή με άλλο τρόπο αμφισβητήσιμη—προτού τεμαχιστεί από την εφαρμογή.

Διάσημα άτομα και εικόνες με πνευματικά δικαιώματα

Προτροπή: Ένας χαρούμενος Τζο Μπάιντεν και ο Βλαντιμίρ Πούτιν μπροστά από έναν τοίχο με το κείμενο «Αποκρυπτογράφηση», πιασμένοι χέρι χέρι.

Generations with Ideogram (επάνω), Dall-e 3 (κάτω αριστερά) και MidJourney (κάτω δεξιά)
Generations with Ideogram (επάνω), Dall-e 3 (κάτω αριστερά) και MidJourney (κάτω δεξιά)

Το Ideogram AI δημιούργησε την εικόνα, το κείμενο είναι σωστό, το σενάριο είναι ρεαλιστικό και οι χαρακτήρες είναι εύκολα αναγνωρίσιμοι (ακόμα και αν δεν είναι 100% ακριβείς.

Το Dall-E 3 δημιούργησε την εικόνα, αλλά ο Μπάιντεν δεν είναι εύκολα αναγνωρίσιμος και ο Τραμπ μπορεί να αναγνωριστεί μόνο λόγω του χαρακτηριστικού του χτενίσματος. Το κείμενο δεν είναι σωστό και το σκηνικό δεν είναι ρεαλιστικό και αντίθετα είναι καρτούν.

Το MidJourney αρνήθηκε να δημιουργήσει την εικόνα.

Συμπέρασμα

Δωρεάν και ευρέως διαθέσιμο έξω από την πύλη, το Ideogram μπορεί να είναι η καλύτερη συσκευή δημιουργίας εικόνας που κυκλοφορεί αυτή τη στιγμή. Είναι εξαιρετικό στην κατανόηση φυσικής γλώσσας και έχει εξαιρετικές χωρικές ικανότητες και άμεση προσκόλληση. Είναι επίσης το καλύτερο πρόγραμμα δημιουργίας κειμένου που είναι διαθέσιμο αυτή τη στιγμή.

Εάν η αισθητική είναι το πιο σημαντικό ζήτημα - στο σημείο όπου η συμμόρφωση και το κείμενο είναι λιγότερο σημαντικά - τότε το MidJourney μπορεί να παραμείνει σταθερός ανταγωνιστής για συγκεκριμένες περιπτώσεις χρήσης. Αν και δεν είναι ιδιαίτερα ισχυρό και βαριά λογοκριμένο, το Dall-E 3 μπορεί να έχει νόημα ως μέρος μιας συνδρομής ChatGPT Plus.

Το Ideogram AI κατέχει την κορωνίδα μεταξύ της εργαλειοθήκης των παραγωγών εικόνων —προς το παρόν.

Επιμέλεια: Ράιαν Οζάουα.

Μείνετε ενημερωμένοι για τα νέα κρυπτογράφησης, λάβετε καθημερινές ενημερώσεις στα εισερχόμενά σας.

Σφραγίδα ώρας:

Περισσότερα από Αποκρυπτογράφηση