Ideogram là một công cụ tạo hình ảnh AI mới giúp loại bỏ đối thủ cạnh tranh, vượt trội so với MidJourney và Dall-E 3 - Decrypt

Ideogram là một công cụ tạo hình ảnh AI mới giúp loại bỏ đối thủ cạnh tranh, vượt trội so với MidJourney và Dall-E 3 – Giải mã

Ideogram AI—một công ty khởi nghiệp được thành lập bởi các cựu kỹ sư Google cùng với các thành viên từ các tổ chức danh tiếng như UC Berkeley, Đại học Carnegie Mellon và Đại học Toronto—đã công bố phát hành phiên bản đầy đủ đầu tiên của trình tạo hình ảnh cùng tên.

“Chúng tôi rất vui mừng được phát hành Ideogram 1.0, mô hình chuyển văn bản thành hình ảnh tiên tiến nhất của chúng tôi cho đến nay,” Ideogram AI cho biết trong một thông báo chính thức. blog đăng bài. “Được đào tạo từ đầu giống như tất cả các mô hình Ideogram, Ideogram 1.0 cung cấp khả năng hiển thị văn bản hiện đại, tính năng chụp ảnh chân thực chưa từng có và khả năng tuân thủ nhanh chóng—và một tính năng mới có tên Magic Nhắc giúp bạn viết lời nhắc chi tiết để có được những hình ảnh đẹp, sáng tạo.”

Việc phát hành đi kèm với tin tức về đợt gây quỹ Series A trị giá 80 triệu đô la do Andreessen Horowitz dẫn đầu, cùng với Redpoint Ventures, Pear VC và SV Angel.

Giải mã đã có thể kiểm tra mô hình và các tuyên bố của Ideogram AI không hề bị cường điệu quá mức—bạn có thể tìm thấy sự so sánh song song bên dưới. Phiên bản một của Ideogram là một cải tiến rõ ràng so với phiên bản v0.1 và v0.2 trước đó: nó vượt trội về khả năng tuân thủ nhanh chóng, chất lượng hình ảnh và khả năng tạo văn bản.

Mô hình này không phải là nguồn mở nên khả năng hiển thị về hệ thống ống nước của nó bị hạn chế và không có tài liệu nghiên cứu nào để đánh giá. Nhưng kết quả thu được với mô hình đã nói lên điều đó, có khả năng khiến nó trở thành mô hình tốt nhất hiện có—ít nhất là cho đến khi Khuếch tán ổn định 3 được phát hành công khai.

Mô hình mới được cho là trình tạo hình ảnh có khả năng nhất về khả năng văn bản, tạo ra chuỗi văn bản dài hơn với ít lỗi hơn Dall-E 3 hoặc MidJourney. Cấp miễn phí hiện tại cũng mang lại lợi thế cho nó so với các đối thủ cạnh tranh như Dall-E 3 và MidJourney, những game sau không có cấp miễn phí. Microsoft Copilot cũng sử dụng Dall-E 3, nhưng nó chỉ tạo ra hình ảnh vuông 1:1, trong khi Ideogram hỗ trợ nhiều tỷ lệ khung hình hơn.

Chữ tượng hình cũng cung cấp hai kế hoạch trả phí là $7 và $15 mỗi tháng, cho phép truy cập hơn 400 thế hệ mỗi ngày cùng với các đặc quyền khác như trình chỉnh sửa hình ảnh, tải xuống chất lượng tốt hơn, img2img—cho phép sửa đổi hoặc biến thể trên hình ảnh hiện có—và các thế hệ riêng tư. Tất cả các cấp thấp hơn đều hiển thị công khai hình ảnh được yêu cầu.

Ideogram có khả năng hiểu các lời nhắc dài, đi từng bước với Stable Diffusion 3 và đánh bại tất cả các trình tạo hình ảnh khác trong lĩnh vực này.

Một trong những tính năng nổi bật của Ideogram là “Prompt Magic”, có thể bật và tắt. Tính năng này phân tích lời nhắc và nâng cao nó để tạo ra hình ảnh có chất lượng tốt hơn, về cơ bản mang lại cho mô hình khả năng hiểu ngôn ngữ tự nhiên như Dall-E 3. Tuy nhiên, Ideogram linh hoạt hơn vì tính năng này là tùy chọn. Nó luôn được bật với ChatGPT Plus, điều này đôi khi dẫn đến kết quả không chính xác.

Cuối cùng, Ideogram ít bị kiểm duyệt gắt gao hơn MidJourney và Dall-E 3 và cho đến nay vẫn có khả năng tạo ra hình ảnh của những người nổi tiếng, logo công ty và phong cách nghệ thuật. Nó không hoàn toàn tuân theo NSFW, nhưng nó rời rạc hơn khi có các lời nhắc kiểm duyệt.

Và những người thử nghiệm ban đầu dường như thích Ideogram hơn các mô hình khác. “Sử dụng giao thức đánh giá giống như DALL·E 3, chúng tôi nhận thấy rằng người đánh giá thích Ideogram 1.0 hơn DALL·E 3 và Midjourney V6 ở khả năng căn chỉnh kịp thời, tính mạch lạc của hình ảnh, ưu tiên tổng thể và chất lượng hiển thị văn bản,” công ty khởi nghiệp cho biết.

So sánh cạnh nhau: Ideogram vs MidJourney vs Dall-E 3

Giải mã đã kiểm tra khả năng của Ideogram và so sánh nó với các đối thủ cạnh tranh hàng đầu của nó là MidJourney và Dall-E 3. Stable Diffusion 3 và sản phẩm hàng đầu của Google Hình ảnhFX chưa được đánh giá ở đây vì SD3 chưa được phát hành và ImageFX chưa được phổ biến rộng rãi.

Tạo chuỗi văn bản dài

Lời nhắc: Một chiếc Android tương lai ở Thành phố Cyberpunk với tấm biển ghi "Đừng đi muộn trong xu hướng AI: Nổi lên nhờ giải mã"

Các thế hệ với Ideogram (trái), MidJourney (giữa) và Dall-e 3 (phải)
Các thế hệ có Ideogram (trái), MidJourney (giữa) và Dall-E 3 (phải).

Chữ tượng hình AI có thể khắc họa cả tính thẩm mỹ và văn bản được yêu cầu. Tuy nhiên, nó có lỗi đánh máy, tạo ra “thee” thay vì “the”.

MidJourney hoàn toàn không thể tạo ra bất kỳ văn bản mạch lạc nào và tập trung vào việc tạo ra một android tương lai một cách chi tiết. Đây là chủ đề chính của toàn bộ tác phẩm. Thành phố này hoàn toàn không phải là cyberpunk.

Dall-E 3 xếp ở giữa. Nó có thể tạo ra robot tương lai, thành phố là cyberpunk, nhưng biển hiệu không có từ “Xuất hiện”.

Điều thú vị là Ideogram hiểu rằng robot đang ở trong thành phố và gắn liền với biển báo, trong khi Dall-E cho rằng biển báo đó là một phần của cảnh quan thành phố.

Lời nhắc dài và khả năng không gian

Lời nhắc: Một cảnh siêu thực và hấp dẫn có một con mèo đậu trên đầu tivi bên cạnh tấm biển có dòng chữ “Xuất hiện”. Ở phía sau, một bên là android tương lai và một bên là phi hành gia. Các bức tường của căn phòng được trang trí bằng hình ảnh nổi bật của một phân tử và chuỗi DNA.

Ideogram là một công cụ tạo hình ảnh AI mới giúp loại bỏ sự cạnh tranh, vượt trội so với MidJourney và Dall-E 3 - Giải mã trí thông minh dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.
Các thế hệ với Ideogram (trên cùng), MidJourney (dưới cùng bên trái) và Dall-e 3 (dưới cùng bên phải)

Ideogram cho đến nay là công cụ tạo tổng thể tốt nhất. Nó hiểu từng phần của lời nhắc, tạo ra văn bản không có lỗi chính tả, hiểu vị trí của từng thành phần với con mèo ở trên đầu TV, ký hiệu bên cạnh, android và phi hành gia ở mỗi bên, và thậm chí còn hiểu được điều đó phải có một phân tử và chuỗi DNA ở phía sau.

Tính thẩm mỹ của MidJourney không siêu thực mà siêu thực tế. Nó tạo ra chữ “Xuất hiện”, nhưng lại đặt nó lên TV và không tạo ra dấu hiệu. Con mèo cũng ở cạnh TV chứ không phải ở trên nó. Nó không tạo ra android và không tuân theo lời nhắc về hậu cảnh, thay vào đó tạo ra một nền phù hợp hơn với tính thẩm mỹ của bố cục, mang lại tầm quan trọng hơn cho chủ thể (con mèo) trong khung cảnh tổng thể.

Dall-E 3 vẫn giữ phong cách hoạt hình đặc trưng và không thể làm theo lời nhắc một cách đầy đủ. Nó có nhiều hiểu biết về không gian hơn và tuân thủ nhanh chóng hơn MidJourney, nhưng kém hơn Ideogram. Tuy nhiên, nó thua về mặt phong cách. Nó tạo ra con mèo ở phía trên TV nhưng không tạo được dấu hiệu Xuất hiện bên cạnh con mèo. Nó không tạo ra android và không làm theo lời nhắc khi tạo nền.

Sự kiểm duyệt

Gợi ý: Một cô gái nóng bỏng, gợi cảm.

Các thế hệ với Ideogram (trái), MidJourney (giữa) và Dall-e 3 (phải)
Các thế hệ với Ideogram (trái), MidJourney (giữa) và Dall-e 3 (phải)

Lời nhắc không bao gồm ngôn ngữ có thể được hiểu là lời nói căm thù hoặc gièm pha, chứ đừng nói đến đặc biệt là tình dục. Suy cho cùng, một “cô gái nóng bỏng, gợi cảm” có thể ăn mặc đầy đủ và không bị kích dục mạnh mẽ.

Chữ tượng hình AI hiểu lời nhắc và tạo ra hình ảnh phù hợp với hướng dẫn. Tuy nhiên, chữ tượng hình có bộ điều hành AI, được kích hoạt khi sử dụng các từ rõ ràng hơn và ngay lập tức dẫn đến một thế hệ bị kiểm duyệt (ví dụ: các từ lóng chỉ cơ quan sinh dục hoặc các thẻ như khỏa thân, khỏa thân, v.v.).

Trong khi đó, cả MidJourney và Dall-E 3 đều không tạo được hình ảnh và cấm các từ ngay cả khi chúng không dẫn đến thế hệ NSFW.

Chữ tượng hình dường như được nhắm mục tiêu kiểm duyệt nhiều hơn và có thể xem hình ảnh được tạo ra—NSFW hoặc nói cách khác là nghi vấn—trước khi nó bị ứng dụng kéo mạnh.

Người nổi tiếng và hình ảnh có bản quyền

Lời nhắc: Joe Biden và Vladimir Putin vui vẻ đứng trước bức tường có dòng chữ “Giải mã”, nắm tay nhau.

Các thế hệ với Ideogram (trên cùng), Dall-e 3 (dưới cùng bên trái) và MidJourney (dưới cùng bên phải)
Các thế hệ với Ideogram (trên cùng), Dall-e 3 (dưới cùng bên trái) và MidJourney (dưới cùng bên phải)

Chữ tượng hình AI đã tạo ra hình ảnh, văn bản chính xác, kịch bản chân thực và các ký tự có thể dễ dàng nhận dạng (ngay cả khi không chính xác 100%).

Dall-E 3 tạo ra hình ảnh nhưng không dễ nhận diện Biden, còn Trump chỉ có thể nhận dạng nhờ kiểu tóc đặc trưng của ông. Văn bản không chính xác, khung cảnh không thực tế mà thay vào đó là hoạt hình.

MidJourney từ chối tạo hình ảnh.

Kết luận

Miễn phí và được cung cấp rộng rãi, Ideogram có thể là công cụ tạo hình ảnh tốt nhất hiện có trên thị trường. Nó có khả năng hiểu ngôn ngữ tự nhiên rất tốt và có khả năng không gian vượt trội cũng như khả năng tuân thủ nhanh chóng. Nó cũng là trình tạo văn bản tốt nhất hiện có.

Nếu tính thẩm mỹ là yếu tố được cân nhắc quan trọng nhất—đến mức mà việc tuân thủ và văn bản ít quan trọng hơn—thì MidJourney có thể vẫn là đối thủ cạnh tranh vững chắc trong các trường hợp sử dụng cụ thể. Mặc dù không đặc biệt mạnh mẽ và bị kiểm duyệt nặng nề, Dall-E 3 vẫn có thể có ý nghĩa khi trở thành một phần của đăng ký ChatGPT Plus.

Ideogram AI giữ vị trí dẫn đầu trong số hộp công cụ tạo hình ảnh của chúng tôi —hiện tại.

Sửa bởi Ryan Ozawa.

Luôn cập nhật tin tức về tiền điện tử, cập nhật hàng ngày trong hộp thư đến của bạn.

Dấu thời gian:

Thêm từ Giải mã