표의 문자는 MidJourney 및 Dall-E 3를 능가하는 경쟁을 없애는 새로운 AI 이미지 생성기입니다 - Decrypt

표의 문자는 MidJourney 및 Dall-E 3를 능가하는 경쟁을 없애는 새로운 AI 이미지 생성기입니다 – Decrypt

전 Google 엔지니어들이 UC Berkeley, Carnegie Mellon University, Toronto University와 같은 유명 교육 기관의 구성원들과 함께 설립한 스타트업인 Ideogram AI는 자신의 이름을 딴 이미지 생성기의 첫 번째 정식 버전 출시를 발표했습니다.

Ideogram AI는 공식 성명에서 “현재까지 가장 발전된 텍스트-이미지 변환 모델인 Ideogram 1.0을 출시하게 되어 기쁘게 생각합니다.”라고 밝혔습니다. 블로그 게시물. "모든 Ideogram 모델과 마찬가지로 처음부터 훈련된 Ideogram 1.0은 최첨단 텍스트 렌더링, 전례 없는 사실적, 신속한 준수를 제공하며, 아름답고 창의적인 이미지를 위한 상세한 프롬프트를 작성하는 데 도움이 되는 Magic Prompt라는 새로운 기능을 제공합니다."

이 릴리스에는 Redpoint Ventures, Pear VC 및 SV Angel과 함께 Andreessen Horowitz가 이끄는 80천만 달러 규모의 시리즈 A 기금 모금 소식이 함께 제공됩니다.

해독 모델을 테스트할 수 있었고 Ideogram AI의 주장은 크게 과장되지 않았습니다. 아래에서 나란히 비교한 내용을 확인할 수 있습니다. Ideogram 버전 0.1은 v0.2 및 vXNUMX 이전 버전에 비해 확실히 개선되었습니다. 신속한 준수, 이미지 품질 및 텍스트 생성 기능이 뛰어납니다.

이 모델은 오픈 소스가 아니므로 배관에 대한 가시성이 제한적이고 평가할 연구 논문이 없습니다. 그러나 이 모델을 통해 얻은 결과는 잠재적으로 현재 사용 가능한 최고의 모델이 될 가능성이 있음을 입증합니다. 안정적인 확산 3 공개적으로 공개됩니다.

새로운 모델은 텍스트 기능 측면에서 가장 유능한 이미지 생성기로서 Dall-E 3 또는 MidJourney보다 오류가 적고 더 긴 텍스트 문자열을 생성합니다. 현재 무료 계층은 또한 Dall-E 3 및 MidJourney와 같은 경쟁사보다 우위를 제공합니다. MidJourney에는 무료 계층이 없습니다. Microsoft Copilot도 Dall-E 3을 사용하지만 정사각형 1:1 이미지만 생성하는 반면 Ideogram은 더 넓은 종횡비 세트를 지원합니다.

표의의 문자는 다음도 제공합니다. 두 가지 유급 계획 월 7달러 및 15달러로 이미지 편집기, 더 나은 품질의 다운로드, img400img(기존 이미지를 수정하거나 변형할 수 있음) 및 개인 세대와 같은 기타 특전과 함께 하루 2세대 이상에 액세스할 수 있습니다. 모든 하위 계층에는 요청된 이미지가 공개적으로 표시됩니다.

Ideogram은 긴 프롬프트를 이해하고 Stable Diffusion 3을 사용하여 이 분야의 다른 모든 이미지 생성기를 능가할 수 있습니다.

Ideogram의 눈에 띄는 기능 중 하나는 켜고 끌 수 있는 'Prompt Magic'입니다. 이 기능은 프롬프트를 분석하고 강화하여 더 나은 품질의 이미지를 생성함으로써 본질적으로 모델에 Dall-E 3과 같은 자연어를 이해할 수 있는 기능을 제공합니다. 그러나 이 기능은 선택 사항이므로 Ideogram이 더 다양합니다. ChatGPT Plus에서는 항상 켜져 있기 때문에 때로는 부정확한 결과가 발생합니다.

마지막으로 Ideogram은 MidJourney 및 Dall-E 3보다 덜 공격적으로 검열되며 지금까지 유명한 사람, 회사 로고 및 아트 스타일의 이미지를 생성할 수 있습니다. 완전히 NSFW로 진행되지는 않지만 프롬프트 검열과 관련하여 더 이산적입니다.

그리고 초기 테스터들은 다른 모델보다 Ideogram을 선호하는 것 같습니다. "DALL·E 3과 같은 평가 프로토콜을 사용하여 우리는 인간 평가자가 신속한 정렬, 이미지 일관성, 전반적인 선호도 및 텍스트 렌더링 품질 측면에서 DALL·E 1.0 및 Midjourney V3보다 Ideogram 6을 선호한다는 것을 발견했습니다."라고 스타트업은 말했습니다.

나란히 비교: Ideogram vs MidJourney vs Dall-E 3

해독 Ideogram의 기능을 테스트하고 이를 최고의 경쟁사인 MidJourney 및 Dall-E 3과 비교했습니다. Stable Diffusion 3 및 Google의 최고 수준 이미지FX SD3가 아직 출시되지 않았고 ImageFX가 널리 사용되지 않기 때문에 여기에서는 평가되지 않습니다.

긴 텍스트 문자열 생성

프롬프트: "AI 트렌드에 늦지 마세요: Emerge by Decrypt"라고 적힌 표지판이 있는 Cyberpunk City의 미래형 Android

표의문자(왼쪽), MidJourney(가운데), Dall-e 3(오른쪽)을 사용하는 세대
표의 문자(왼쪽), MidJourney(가운데) 및 Dall-E 3(오른쪽)을 사용하는 세대.

Ideogram AI는 요청한 미학과 텍스트를 모두 표현할 수 있었습니다. 그러나 "the" 대신 "thee"를 생성하는 오타가 있었습니다.

MidJourney는 일관성 있는 텍스트를 전혀 생성할 수 없었고 세부적인 미래형 안드로이드를 생성하는 데 집중했습니다. 전체 구성의 주요 주제입니다. 도시는 전혀 사이버펑크가 아닙니다.

Dall-E 3는 중간에 위치합니다. 미래형 로봇을 생성할 수 있었고 도시는 사이버펑크였지만 표지판에는 "Emerge"라는 단어가 표시되지 않았습니다.

흥미롭게도 Ideogram은 로봇이 도시에 있고 표지판과 연관되어 있다는 것을 이해한 반면, Dall-E는 표지판이 도시 풍경의 일부라고 가정했습니다.

긴 프롬프트 및 공간 기능

프롬프트: "Emerge"라고 적힌 표지판 옆에 있는 텔레비전 상단에 고양이가 앉아 있는 초현실적이고 흥미로운 장면입니다. 배경에는 한쪽에는 미래형 안드로이드가, 다른 한쪽에는 우주비행사가 서 있습니다. 방의 벽은 분자와 DNA 사슬의 인상적인 이미지로 장식되어 있습니다.

Ideogram은 경쟁을 없애고 MidJourney 및 Dall-E 3를 능가하는 새로운 AI 이미지 생성기입니다 - PlatoBlockchain 데이터 인텔리전스를 해독합니다. 수직 검색. 일체 포함.
표의문자(위), MidJourney(왼쪽 아래) 및 Dall-e 3(오른쪽 아래)가 있는 세대

표의문자는 지금까지 최고의 전체 생성기였습니다. 프롬프트의 모든 부분을 이해하고, 오타 없이 텍스트를 생성하고, TV 위에 고양이가 있고 그 옆에 표지판이 있고, 양쪽에 안드로이드와 우주 비행사가 있는 각 요소의 위치를 ​​이해하고, 심지어 배경에는 분자와 DNA 사슬이 있어야 합니다.

MidJourney의 미학은 초현실적이 아니라 오히려 초현실적이었습니다. 'Emerge'라는 단어를 생성했지만 TV에 표시하고 표시를 생성하지 않았습니다. 고양이도 TV 위에 있지 않고 옆에 있어요. 안드로이드를 생성하지 않았고 배경에 대한 프롬프트를 따르지 못했고 대신 구성의 미학에 더 잘 맞는 안드로이드를 생성하여 전체 장면보다 피사체(고양이)에 더 많은 중요성을 부여했습니다.

Dall-E 3는 특유의 만화 스타일을 유지했으며 프롬프트를 완전히 따라갈 수 없었습니다. MidJourney보다 공간적 이해와 신속한 준수가 뛰어나지만 Ideogram보다는 훨씬 낮습니다. 그러나 스타일 측면에서는 잃습니다. TV 위에 고양이를 생성했지만 고양이 옆에 Emerge 표시를 생성하지 못했습니다. 안드로이드를 생성하지 않았고 배경을 생성할 때 프롬프트를 따르지 않았습니다.

검열

프롬프트: 화끈하고 섹시한 여자.

표의문자(왼쪽), MidJourney(가운데), Dall-e 3(오른쪽)을 사용하는 세대
표의문자(왼쪽), MidJourney(가운데), Dall-e 3(오른쪽)을 사용하는 세대

프롬프트에는 특히 성적인 것은 물론 증오심 표현이나 비방으로 해석될 수 있는 언어가 포함되지 않습니다. 결국, "화끈하고 섹시한 소녀"는 옷을 완전히 차려입어도 공격적으로 성적 대상화되지 않을 수 있습니다.

Ideogram AI는 프롬프트를 이해하고 지침에 맞는 이미지를 생성했습니다. 그러나 표의 문자에는 즉시 검열 세대로 이어지는 보다 명확한 단어(예: 성기에 대한 속어 또는 누드, 알몸 등과 같은 태그)가 사용될 때 트리거되는 AI 중재자가 있습니다.

한편 MidJourney와 Dall-E 3는 모두 NSFW 세대로 이어지지 않았음에도 불구하고 이미지와 금지 단어를 생성하지 못했습니다.

표의 문자는 검열의 대상이 더 많은 것으로 보이며 생성된 이미지(NSFW 또는 기타 의심스러운 이미지)를 응용 프로그램에서 제거하기 전에 볼 수 있습니다.

유명인 및 저작권 보호 이미지

프롬프트: 행복한 조 바이든과 블라디미르 푸틴이 손을 잡고 "Decrypt"라는 문구가 적힌 벽 앞에 서 있습니다.

표의 문자(위), Dall-e 3(왼쪽 아래) 및 MidJourney(오른쪽 아래)가 있는 세대
표의 문자(위), Dall-e 3(왼쪽 아래) 및 MidJourney(오른쪽 아래)가 있는 세대

표의문자 AI가 이미지를 생성했고, 텍스트가 정확하고, 시나리오가 현실적이며, 문자를 쉽게 식별할 수 있습니다(100% 정확하지는 않더라도).

Dall-E 3가 이미지를 생성했지만 바이든은 쉽게 식별할 수 없고, 트럼프는 특유의 헤어스타일 때문에 식별할 수 밖에 없다. 텍스트가 올바르지 않고 풍경이 현실적이지 않고 오히려 만화적입니다.

MidJourney는 이미지 생성을 거부했습니다.

결론

무료로 널리 사용 가능한 Ideogram은 현재 시장에 나와 있는 최고의 이미지 생성기일 수 있습니다. 자연어 이해력이 뛰어나며 뛰어난 공간능력과 빠른 적응력을 가지고 있습니다. 또한 현재 사용 가능한 최고의 텍스트 생성기이기도 합니다.

미학이 가장 중요한 고려 사항이고 준수성과 텍스트가 덜 중요한 지점까지 있다면 MidJourney는 특정 사용 사례에서 견고한 경쟁자로 남을 수 있습니다. 특별히 강력하고 검열이 심하지는 않지만 Dall-E 3는 ChatGPT Plus 구독의 일부로 여전히 의미가 있을 수 있습니다.

Ideogram AI는 현재 이미지 생성기 도구 상자 중 최고의 위치를 ​​차지하고 있습니다.

에 의해 수정 라이언 오자와.

암호화 뉴스를 최신 상태로 유지하고 받은 편지함에서 매일 업데이트를 받으십시오.

타임 스탬프 :

더보기 해독