Ideogram to nowy generator obrazów AI, który niszczy konkurencję, pokonując MidJourney i Dall-E 3 - Odszyfruj

Ideogram to nowy generator obrazów AI, który niszczy konkurencję, pokonując MidJourney i Dall-E 3 – Odszyfruj

Ideogram AI – startup założony przez byłych inżynierów Google wraz z członkami prestiżowych instytucji, takich jak Uniwersytet Kalifornijski w Berkeley, Uniwersytet Carnegie Mellon i Uniwersytet w Toronto – ogłosił wydanie pierwszej pełnej wersji swojego tytułowego generatora obrazów.

„Jesteśmy podekscytowani możliwością wydania Ideogram 1.0, naszego najbardziej zaawansowanego jak dotąd modelu przetwarzania tekstu na obraz” – powiedział Ideogram AI w oficjalnym komunikacie blogu. „Szkolony od podstaw, podobnie jak wszystkie modele Ideogram, Ideogram 1.0 oferuje najnowocześniejsze renderowanie tekstu, niespotykany dotąd fotorealizm i szybką przyczepność, a także nową funkcję o nazwie Magic Prompt, która pomaga pisać szczegółowe podpowiedzi w celu uzyskania pięknych, kreatywnych obrazów”.

Publikacja ta towarzyszy wiadomościom o zbiórce środków o wartości 80 milionów dolarów w ramach serii A prowadzonej przez Andreessena Horowitza wraz z Redpoint Ventures, Pear VC i SV Angel.

Odszyfruj był w stanie przetestować model i twierdzenia Ideogram AI nie są mocno przesadzone — porównanie można znaleźć poniżej. Pierwsza wersja Ideogramu stanowi wyraźne ulepszenie w stosunku do swoich poprzedników v0.1 i v0.2: wyróżnia się szybkością stosowania, jakością obrazu i możliwościami generowania tekstu.

Model nie jest modelem typu open source, więc wgląd w jego instalację jest ograniczony i nie ma publikacji naukowych do oceny. Jednak wyniki uzyskane z tym modelem mówiły same za siebie, potencjalnie czyniąc go najlepszym obecnie dostępnym modelem – przynajmniej do czasu Stabilna dyfuzja 3 jest publicznie udostępniany.

Nowy model jest prawdopodobnie najpotężniejszym generatorem obrazów pod względem możliwości tekstowych, generującym dłuższe ciągi tekstowe z mniejszą liczbą błędów niż Dall-E 3 lub MidJourney. Obecny darmowy poziom daje mu także przewagę nad konkurentami, takimi jak Dall-E 3 i MidJourney, z których ten ostatni nie ma darmowego poziomu. Microsoft Copilot również korzysta z Dall-E 3, ale generuje tylko kwadratowe obrazy w formacie 1:1, podczas gdy Ideogram obsługuje szerszy zestaw współczynników proporcji.

Ideogram oferuje również dwa płatne plany w cenie 7 i 15 dolarów miesięcznie, które zapewniają dostęp do ponad 400 pokoleń dziennie wraz z innymi korzyściami, takimi jak edytor obrazów, pobieranie lepszej jakości, img2img — który umożliwia modyfikacje lub zmiany istniejącego obrazu — oraz generacje prywatne. Wszystkie niższe poziomy wyświetlają publicznie żądane obrazy.

Ideogram jest w stanie zrozumieć długie podpowiedzi, dorównuje Stable Diffusion 3 i pokonuje wszystkie inne generatory obrazów w tej dziedzinie.

Jedną z wyróżniających się funkcji Ideogramu jest „Magia podpowiedzi”, którą można włączać i wyłączać. Ta funkcja analizuje podpowiedzi i ulepsza je, tworząc obrazy o lepszej jakości, zasadniczo dając modelowi możliwość zrozumienia języka naturalnego, takiego jak Dall-E 3. Jednakże Ideogram jest bardziej wszechstronny, ponieważ ta funkcja jest opcjonalna. Jest zawsze włączony w przypadku ChatGPT Plus, co czasami prowadzi do niedokładności.

Wreszcie, Ideogram jest mniej agresywnie cenzurowany niż MidJourney i Dall-E 3 i jak dotąd jest w stanie generować obrazy znanych osób, logo firm i style artystyczne. Nie jest to w pełni NSFW, ale jest bardziej dyskretne, jeśli chodzi o cenzurowanie podpowiedzi.

Wydaje się, że pierwsi testerzy wolą Ideogram od innych modeli. „Korzystając z protokołu oceny takiego jak DALL·E 3, odkryliśmy, że oceniający wolą Ideogram 1.0 od DALL·E 3 i Midjourney V6 pod względem szybkiego dopasowania, spójności obrazu, ogólnych preferencji i jakości renderowania tekstu” – stwierdził startup.

Porównanie obok siebie: Ideogram vs MidJourney vs Dall-E 3

Odszyfruj przetestował możliwości Ideogramu i porównał go z jego najlepszymi konkurentami, MidJourney i Dall-E 3. Stable Diffusion 3 i topowy produkt Google ObrazFX nie są tutaj oceniane, ponieważ SD3 nie został jeszcze wydany, a ImageFX nie jest powszechnie dostępny.

Generowanie długich ciągów tekstowych

Podpowiedź: futurystyczny Android w Cyberpunk City ze znakiem „Nie spóźnij się z trendem AI: Emerge by Decrypt”

Pokolenia z ideogramem (po lewej), MidJourney (w środku) i Dall-e 3 (po prawej)
Pokolenia z Ideogramem (po lewej), MidJourney (w środku) i Dall-E 3 (po prawej).

Ideogram AI był w stanie przedstawić zarówno żądaną estetykę, jak i tekst. Zawierała jednak literówkę, generując „ty” zamiast „the”.

MidJourney w ogóle nie był w stanie wygenerować żadnego spójnego tekstu i skupił się na wygenerowaniu futurystycznego androida ze szczegółami. Jest to główny temat całej kompozycji. Miasto wcale nie jest cyberpunkowe.

Dall-E 3 plasuje się pośrodku. Udało mu się wygenerować futurystycznego robota, miasto jest cyberpunkowe, ale na szyldzie nie było słowa „Emerge”.

Co ciekawe, Ideogram rozumiał, że robot znajduje się w mieście i jest powiązany ze znakiem, podczas gdy Dall-E zakładał, że znak jest częścią miejskiego krajobrazu.

Długie podpowiedzi i możliwości przestrzenne

Podpowiedź: surrealistyczna i intrygująca scena przedstawiająca kota siedzącego na telewizorze obok tabliczki z napisem „Wyjdź”. W tle po jednej stronie stoi futurystyczny android, po drugiej astronauta. Ściany pokoju ozdobione są uderzającym obrazem cząsteczki i łańcucha DNA.

Ideogram to nowy generator obrazów AI, który niszczy konkurencję, przewyższając MidJourney i Dall-E 3 - Deszyfruj inteligencję danych PlatoBlockchain. Wyszukiwanie pionowe. AI.
Pokolenia z Ideogramem (na górze), MidJourney (na dole po lewej) i Dall-e 3 (na dole po prawej)

Ideogram był zdecydowanie najlepszym generatorem. Zrozumiał każdą część podpowiedzi, wygenerował tekst bez literówek, zrozumiał lokalizację każdego elementu z kotem na telewizorze, znakiem obok, androidem i astronautą po obu stronach, a nawet zrozumiał, że w tle musi być cząsteczka i łańcuch DNA.

Estetyka MidJourney nie była surrealistyczna, ale raczej hiperrealistyczna. Wygenerował słowo „Emerge”, ale umieścił je w telewizorze i nie wygenerował znaku. Kot także stoi obok telewizora, a nie na nim. Nie wygenerował androida i nie zastosował się do podpowiedzi dotyczących tła, generując zamiast tego tło, które lepiej pasuje do estetyki kompozycji, nadając większe znaczenie tematowi (kotowi) w całej scenie.

Dall-E 3 zachował swój charakterystyczny, kreskówkowy styl i nie mógł w pełni podążać za wskazówkami. Ma większe zrozumienie przestrzenne i szybsze przyleganie niż MidJourney, ale znacznie mniej niż Ideogram. Przegrywa jednak stylistycznie. Wygenerował kota na górze telewizora, ale nie wygenerował znaku Emerge obok kota. Nie wygenerował Androida i nie postępował zgodnie z monitem podczas generowania tła.

Cenzura

Podpowiedź: Gorąca, seksowna dziewczyna.

Pokolenia z ideogramem (po lewej), MidJourney (w środku) i Dall-e 3 (po prawej)
Pokolenia z ideogramem (po lewej), MidJourney (w środku) i Dall-e 3 (po prawej)

Podpowiedź nie zawiera języka, który można by zinterpretować jako mowę nienawiści lub obelgi, a tym bardziej o charakterze seksualnym. W końcu „gorąca, seksowna dziewczyna” może być w pełni ubrana i nie może być agresywnie seksualizowana.

Ideogram AI zrozumiał monit i wygenerował obraz pasujący do instrukcji. Ideogram ma jednak moderatora AI, który jest uruchamiany, gdy użyte zostaną bardziej oczywiste słowa, które natychmiast prowadzą do cenzurowanego pokolenia (powiedzmy, slangowe słowa oznaczające genitalia lub tagi takie jak nagość, nagość itp.).

Tymczasem zarówno MidJourney, jak i Dall-E 3 nie wygenerowały obrazu i zakazały słów, nawet jeśli nie doprowadziłyby do pokolenia NSFW.

Wydaje się, że ideogram jest bardziej poddawany cenzurze i można zobaczyć wygenerowany obraz — NSFW lub w inny sposób budzący wątpliwości — zanim zostanie przechwycony przez aplikację.

Znane osoby i obrazy chronione prawem autorskim

Podpowiedź: Szczęśliwi Joe Biden i Władimir Putin przed ścianą z napisem „Odszyfruj”, trzymając się za ręce.

Pokolenia z Ideogramem (na górze), Dall-e 3 (na dole po lewej) i MidJourney (na dole po prawej)
Pokolenia z Ideogramem (na górze), Dall-e 3 (na dole po lewej) i MidJourney (na dole po prawej)

Ideogram AI wygenerował obraz, tekst jest poprawny, scenariusz jest realistyczny, a postacie są łatwe do zidentyfikowania (nawet jeśli nie są w 100% dokładne.

Zdjęcie wygenerował Dall-E 3, ale Bidena nie można łatwo zidentyfikować, a Trumpa można rozpoznać jedynie po jego charakterystycznej fryzurze. Tekst jest niepoprawny, a sceneria nie jest realistyczna, a zamiast tego jest kreskówkowa.

MidJourney odmówił wygenerowania obrazu.

Wnioski

Darmowy i szeroko dostępny, Ideogram może być najlepszym generatorem obrazów obecnie dostępnym na rynku. Doskonale rozumie język naturalny, ma wyjątkowe zdolności przestrzenne i szybkie przyswojenie sobie treści. Jest to także najlepszy obecnie dostępny generator tekstu.

Jeśli estetyka jest najważniejsza – do tego stopnia, że ​​przyczepność i tekst są mniej istotne – wówczas MidJourney może pozostać solidnym konkurentem w konkretnych przypadkach użycia. Chociaż nie jest szczególnie mocny i mocno cenzurowany, Dall-E 3 może nadal mieć sens w ramach subskrypcji ChatGPT Plus.

Ideogram AI jest na razie królem naszego zestawu narzędzi do generowania obrazów.

Edytowany przez Ryana Ozawy.

Bądź na bieżąco z wiadomościami o kryptowalutach, otrzymuj codzienne aktualizacje w swojej skrzynce odbiorczej.

Znak czasu:

Więcej z Odszyfruj