Cải thiện lời nhắc Khuếch tán ổn định của bạn với Thế hệ tăng cường truy xuất | Dịch vụ web của Amazon

Cải thiện lời nhắc Khuếch tán ổn định của bạn với Thế hệ tăng cường truy xuất | Dịch vụ web của Amazon

Tạo văn bản thành hình ảnh là một lĩnh vực trí tuệ nhân tạo đang phát triển nhanh chóng với các ứng dụng trong nhiều lĩnh vực khác nhau, chẳng hạn như truyền thông và giải trí, chơi game, trực quan hóa sản phẩm thương mại điện tử, quảng cáo và tiếp thị, thiết kế và trực quan hóa kiến ​​trúc, sáng tạo nghệ thuật và hình ảnh y tế.

Khuếch tán ổn định là mô hình chuyển văn bản thành hình ảnh cho phép bạn tạo hình ảnh chất lượng cao trong vòng vài giây. Vào tháng 2022 năm XNUMX, chúng tôi công bố rằng khách hàng AWS có thể tạo hình ảnh từ văn bản với Khuếch tán ổn định mô hình trong Khởi động Amazon SageMaker, một trung tâm máy học (ML) cung cấp các mô hình, thuật toán và giải pháp. Quá trình phát triển tiếp tục vào tháng 2023 năm XNUMX với sự ra đời của nền tảng Amazon, một dịch vụ được quản lý hoàn toàn cung cấp quyền truy cập vào các mô hình nền tảng tiên tiến, bao gồm Khuếch tán ổn định, thông qua API tiện lợi.

Khi số lượng khách hàng bắt tay vào nỗ lực chuyển văn bản thành hình ảnh ngày càng tăng, một trở ngại chung sẽ nảy sinh—cách tạo lời nhắc có khả năng mang lại hình ảnh có mục đích, chất lượng cao. Thử thách này thường đòi hỏi thời gian và nguồn lực đáng kể khi người dùng bắt đầu một hành trình thử nghiệm lặp đi lặp lại để khám phá những gợi ý phù hợp với tầm nhìn của họ.

Tạo tăng cường truy xuất (RAG) là một quá trình trong đó mô hình ngôn ngữ truy xuất các tài liệu theo ngữ cảnh từ nguồn dữ liệu bên ngoài và sử dụng thông tin này để tạo ra văn bản chính xác và giàu thông tin hơn. Kỹ thuật này đặc biệt hữu ích cho các nhiệm vụ xử lý ngôn ngữ tự nhiên (NLP) chuyên sâu về kiến ​​thức. Bây giờ chúng tôi mở rộng khả năng biến đổi của nó sang thế giới tạo văn bản thành hình ảnh. Trong bài đăng này, chúng tôi trình bày cách khai thác sức mạnh của RAG để nâng cao các lời nhắc được gửi đến các mô hình Khuếch tán ổn định của bạn. Bạn có thể tạo trợ lý AI của riêng mình để tạo lời nhắc trong vài phút với các mô hình ngôn ngữ lớn (LLM) trên Amazon Bedrock cũng như trên SageMaker JumpStart.

Các phương pháp tạo lời nhắc chuyển văn bản thành hình ảnh

Việc tạo lời nhắc cho mô hình chuyển văn bản thành hình ảnh thoạt nhìn có vẻ đơn giản nhưng thực ra đó là một nhiệm vụ có vẻ phức tạp. Nó không chỉ đơn thuần là gõ một vài từ và mong đợi mô hình gợi lên một hình ảnh phù hợp với hình ảnh trong đầu của bạn. Lời nhắc hiệu quả phải cung cấp hướng dẫn rõ ràng đồng thời vẫn có chỗ cho sự sáng tạo. Chúng phải cân bằng giữa tính đặc hiệu và sự mơ hồ, đồng thời phải được điều chỉnh cho phù hợp với mô hình cụ thể đang được sử dụng. Để giải quyết thách thức của kỹ thuật nhanh chóng, ngành đã khám phá nhiều cách tiếp cận khác nhau:

  • Thư viện nhắc nhở – Một số công ty quản lý thư viện lời nhắc viết sẵn mà bạn có thể truy cập và tùy chỉnh. Các thư viện này chứa nhiều lời nhắc phù hợp với nhiều trường hợp sử dụng khác nhau, cho phép bạn chọn hoặc điều chỉnh lời nhắc phù hợp với nhu cầu cụ thể của mình.
  • Mẫu nhắc nhở và hướng dẫn – Nhiều công ty và tổ chức cung cấp cho người dùng một bộ mẫu nhắc nhở và hướng dẫn được xác định trước. Các mẫu này cung cấp các định dạng có cấu trúc để viết lời nhắc, giúp việc tạo các hướng dẫn hiệu quả trở nên đơn giản.
  • Đóng góp của cộng đồng và người dùng – Nền tảng nguồn lực cộng đồng và cộng đồng người dùng thường đóng một vai trò quan trọng trong việc cải thiện lời nhắc. Người dùng có thể chia sẻ các mô hình đã tinh chỉnh, lời nhắc thành công, mẹo và cách thực hành tốt nhất với cộng đồng, giúp người khác tìm hiểu và hoàn thiện kỹ năng viết lời nhắc của họ.
  • Tinh chỉnh mô hình – Các công ty có thể tinh chỉnh mô hình chuyển văn bản thành hình ảnh của mình để hiểu rõ hơn và phản hồi tốt hơn với các loại lời nhắc cụ thể. Tinh chỉnh có thể cải thiện hiệu suất mô hình cho các miền hoặc trường hợp sử dụng cụ thể.

Các phương pháp tiếp cận công nghiệp này đều nhằm mục đích làm cho quá trình tạo lời nhắc chuyển văn bản thành hình ảnh hiệu quả trở nên dễ tiếp cận hơn, thân thiện với người dùng và hiệu quả hơn, cuối cùng là nâng cao khả năng sử dụng và tính linh hoạt của các mô hình tạo văn bản thành hình ảnh cho nhiều ứng dụng.

Sử dụng RAG để thiết kế nhanh chóng

Trong phần này, chúng tôi đi sâu vào cách các kỹ thuật RAG có thể đóng vai trò là yếu tố thay đổi cuộc chơi trong kỹ thuật nhanh chóng, hoạt động hài hòa với các phương pháp tiếp cận hiện có này. Bằng cách tích hợp liền mạch RAG vào quy trình, chúng tôi có thể hợp lý hóa và nâng cao hiệu quả của thiết kế nhanh chóng.

Tìm kiếm ngữ nghĩa trong cơ sở dữ liệu nhanh chóng

Hãy tưởng tượng một công ty đã tích lũy một kho lời nhắc khổng lồ trong thư viện lời nhắc của mình hoặc đã tạo một số lượng lớn các mẫu lời nhắc, mỗi mẫu được thiết kế cho các trường hợp và mục tiêu sử dụng cụ thể. Theo truyền thống, người dùng đang tìm kiếm nguồn cảm hứng cho lời nhắc chuyển văn bản thành hình ảnh của họ sẽ duyệt qua các thư viện này theo cách thủ công, thường chọn lọc qua danh sách tùy chọn mở rộng. Quá trình này có thể tốn thời gian và không hiệu quả. Bằng cách nhúng lời nhắc từ thư viện lời nhắc bằng mô hình nhúng văn bản, các công ty có thể xây dựng một công cụ tìm kiếm ngữ nghĩa. Đây là cách nó hoạt động:

  • Nhúng lời nhắc – Công ty sử dụng tính năng nhúng văn bản để chuyển đổi từng lời nhắc trong thư viện của mình thành dạng biểu diễn bằng số. Những phần nhúng này nắm bắt được ý nghĩa ngữ nghĩa và ngữ cảnh của các lời nhắc.
  • Truy vấn người dùng – Khi người dùng đưa ra lời nhắc của riêng họ hoặc mô tả hình ảnh họ mong muốn, hệ thống cũng có thể phân tích và nhúng thông tin đầu vào của họ.
  • Tìm kiếm ngữ nghĩa – Sử dụng các phần nhúng, hệ thống thực hiện tìm kiếm ngữ nghĩa. Nó truy xuất các lời nhắc phù hợp nhất từ ​​thư viện dựa trên truy vấn của người dùng, xem xét cả dữ liệu lịch sử và dữ liệu đầu vào của người dùng trong thư viện lời nhắc.

Bằng cách triển khai tìm kiếm ngữ nghĩa trong thư viện lời nhắc của mình, các công ty trao quyền cho nhân viên của mình truy cập vào kho lời nhắc khổng lồ một cách dễ dàng. Cách tiếp cận này không chỉ tăng tốc độ sáng tạo nhanh chóng mà còn khuyến khích sự sáng tạo và tính nhất quán trong việc tạo văn bản thành hình ảnh.y

Cải thiện lời nhắc Khuếch tán ổn định của bạn với Thế hệ tăng cường truy xuất | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Tạo lời nhắc từ tìm kiếm ngữ nghĩa

Mặc dù tìm kiếm ngữ nghĩa hợp lý hóa quá trình tìm lời nhắc có liên quan, RAG tiến thêm một bước nữa bằng cách sử dụng các kết quả tìm kiếm này để tạo lời nhắc được tối ưu hóa. Đây là cách nó hoạt động:

  • Kết quả tìm kiếm ngữ nghĩa – Sau khi truy xuất các lời nhắc phù hợp nhất từ ​​thư viện, hệ thống sẽ hiển thị các lời nhắc này cho người dùng cùng với thông tin đầu vào ban đầu của người dùng.
  • Mô hình tạo văn bản – Người dùng có thể chọn lời nhắc từ kết quả tìm kiếm hoặc cung cấp thêm ngữ cảnh theo sở thích của họ. Hệ thống cung cấp cả lời nhắc đã chọn và thông tin đầu vào của người dùng vào LLM.
  • Lời nhắc được tối ưu hóa – LLM, với sự hiểu biết về các sắc thái ngôn ngữ, tạo ra một lời nhắc được tối ưu hóa kết hợp các yếu tố từ lời nhắc đã chọn và thông tin đầu vào của người dùng. Lời nhắc mới này được điều chỉnh theo yêu cầu của người dùng và được thiết kế để mang lại kết quả hình ảnh mong muốn.

Sự kết hợp giữa tìm kiếm ngữ nghĩa và tạo lời nhắc không chỉ đơn giản hóa quá trình tìm kiếm lời nhắc mà còn đảm bảo rằng các lời nhắc được tạo ra có tính phù hợp cao và hiệu quả. Nó cho phép bạn tinh chỉnh và tùy chỉnh lời nhắc của mình, cuối cùng dẫn đến kết quả tạo văn bản thành hình ảnh được cải thiện. Sau đây là ví dụ về hình ảnh được tạo từ Stable Diffusion XL bằng cách sử dụng lời nhắc từ tìm kiếm ngữ nghĩa và tạo lời nhắc.

lời nhắc ban đầu Lời nhắc từ Tìm kiếm ngữ nghĩa Lời nhắc được tối ưu hóa bởi LLM

một phim hoạt hình của một con chó nhỏ

Cải thiện lời nhắc Khuếch tán ổn định của bạn với Thế hệ tăng cường truy xuất | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

  • phim hoạt hình dễ thương về một chú chó đang ăn bánh sandwich ở bàn ăn tối
  • phim hoạt hình minh họa một chú chó punk, phong cách anime, nền trắng
  • phim hoạt hình về một cậu bé và con chó của mình đi dọc con đường rừng

Cải thiện lời nhắc Khuếch tán ổn định của bạn với Thế hệ tăng cường truy xuất | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Cảnh hoạt hình về một cậu bé vui vẻ nắm tay nhau đi dạo dọc con đường rừng với chú chó cưng dễ thương của mình, theo phong cách hoạt hình.

Cải thiện lời nhắc Khuếch tán ổn định của bạn với Thế hệ tăng cường truy xuất | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Các ứng dụng thiết kế nhanh chóng dựa trên RAG trong nhiều ngành công nghiệp khác nhau

Trước khi khám phá ứng dụng của kiến ​​trúc RAG được đề xuất, hãy bắt đầu với một ngành trong đó mô hình tạo hình ảnh được áp dụng nhiều nhất. Trong AdTech, tốc độ và tính sáng tạo là rất quan trọng. Tính năng tạo lời nhắc dựa trên RAG có thể tăng thêm giá trị tức thì bằng cách tạo ra các đề xuất nhanh chóng để tạo nhiều hình ảnh một cách nhanh chóng cho chiến dịch quảng cáo. Những người ra quyết định là con người có thể xem qua các hình ảnh được tạo tự động để chọn hình ảnh ứng cử viên cho chiến dịch. Tính năng này có thể là một ứng dụng độc lập hoặc được nhúng vào các công cụ và nền tảng phần mềm phổ biến hiện có.

Một ngành khác mà mô hình Khuếch tán ổn định có thể nâng cao năng suất là truyền thông và giải trí. Ví dụ: kiến ​​trúc RAG có thể hỗ trợ trong các trường hợp sử dụng tạo hình đại diện. Bắt đầu từ một lời nhắc đơn giản, RAG có thể thêm nhiều màu sắc và đặc điểm hơn vào ý tưởng hình đại diện. Nó có thể tạo ra nhiều gợi ý cho ứng viên và cung cấp nhiều ý tưởng sáng tạo hơn. Từ những hình ảnh được tạo này, bạn có thể tìm thấy hình ảnh phù hợp hoàn hảo cho ứng dụng nhất định. Nó tăng năng suất bằng cách tự động tạo ra nhiều gợi ý nhanh chóng. Sự thay đổi mà nó có thể đưa ra là lợi ích trước mắt của giải pháp.

Tổng quan về giải pháp

Việc trao quyền cho khách hàng xây dựng trợ lý AI dựa trên RAG của riêng họ để thiết kế nhanh chóng trên AWS là minh chứng cho tính linh hoạt của công nghệ hiện đại. AWS cung cấp rất nhiều tùy chọn và dịch vụ để hỗ trợ nỗ lực này. Sơ đồ kiến ​​trúc tham chiếu sau đây minh họa ứng dụng RAG dành cho thiết kế nhanh chóng trên AWS.

Cải thiện lời nhắc Khuếch tán ổn định của bạn với Thế hệ tăng cường truy xuất | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Khi cần lựa chọn LLM phù hợp cho trợ lý AI của bạn, AWS cung cấp nhiều lựa chọn để đáp ứng các yêu cầu cụ thể của bạn.

Đầu tiên, bạn có thể chọn LLM có sẵn thông qua SageMaker JumpStart, sử dụng các phiên bản chuyên dụng. Các phiên bản này hỗ trợ nhiều mô hình khác nhau, bao gồm Falcon, Llama 2, Bloom Z và Flan-T5 hoặc bạn có thể khám phá các mô hình độc quyền như Cohere's Command và Multilingual Embedding hoặc Jurassic-2 từ AI21 Labs.

Nếu bạn thích cách tiếp cận đơn giản hơn, AWS sẽ cung cấp LLM trên nền tảng Amazon, có các mô hình như người khổng lồ Amazon và Claude nhân loại. Bạn có thể dễ dàng truy cập các mô hình này thông qua lệnh gọi API đơn giản, cho phép bạn khai thác sức mạnh của chúng một cách dễ dàng. Tính linh hoạt và đa dạng của các tùy chọn đảm bảo rằng bạn có quyền tự do lựa chọn LLM phù hợp nhất với mục tiêu thiết kế nhanh chóng của mình, cho dù bạn đang tìm kiếm sự đổi mới với các thùng chứa mở hay khả năng mạnh mẽ của các mô hình độc quyền.

Khi nói đến việc xây dựng cơ sở dữ liệu vectơ thiết yếu, AWS cung cấp vô số tùy chọn thông qua các dịch vụ gốc của họ. Bạn có thể chọn Dịch vụ Tìm kiếm Mở của Amazon, Amazon cực quang, hoặc là Dịch vụ cơ sở dữ liệu quan hệ của Amazon (Amazon RDS) dành cho PostgreSQL, mỗi sản phẩm đều cung cấp các tính năng mạnh mẽ để phù hợp với nhu cầu cụ thể của bạn. Ngoài ra, bạn có thể khám phá các sản phẩm từ các đối tác AWS như Pinecone, Weaviate, Elastic, Milvus hoặc Chroma, nơi cung cấp các giải pháp chuyên dụng để lưu trữ và truy xuất vectơ hiệu quả.

Để giúp bạn bắt đầu xây dựng trợ lý AI dựa trên RAG cho thiết kế nhanh chóng, chúng tôi đã đưa ra một minh họa toàn diện trong GitHub kho. Cuộc trình diễn này sử dụng các tài nguyên sau:

  • Tạo hình ảnh: Stable Diffusion XL trên Amazon Bedrock
  • Nhúng văn bản: Amazon Titan trên Amazon Bedrock
  • Tạo văn bản: Claude 2 trên Amazon Bedrock
  • Cơ sở dữ liệu vectơ: FAISS, thư viện mã nguồn mở để tìm kiếm tương tự hiệu quả
  • Thư viện lời nhắc: Ví dụ lời nhắc từ Khuếch tánDB, tập dữ liệu thư viện lời nhắc quy mô lớn đầu tiên dành cho các mô hình tạo văn bản thành hình ảnh

Ngoài ra, chúng tôi đã kết hợp LangChain để triển khai LLM và Streamit cho thành phần ứng dụng web, mang lại trải nghiệm liền mạch và thân thiện với người dùng.

Điều kiện tiên quyết

Bạn cần có những thứ sau để chạy ứng dụng demo này:

  • Tài khoản AWS
  • Hiểu biết cơ bản về cách điều hướng Xưởng sản xuất Amazon SageMaker
  • Hiểu biết cơ bản về cách tải xuống kho lưu trữ từ GitHub
  • Kiến thức cơ bản về chạy lệnh trên terminal

Chạy ứng dụng demo

Bạn có thể tải xuống tất cả mã cần thiết kèm theo hướng dẫn từ GitHub repo. Sau khi ứng dụng được triển khai, bạn sẽ thấy một trang giống như ảnh chụp màn hình sau.

Cải thiện lời nhắc Khuếch tán ổn định của bạn với Thế hệ tăng cường truy xuất | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Với phần minh họa này, chúng tôi mong muốn làm cho quy trình triển khai trở nên dễ tiếp cận và dễ hiểu, đồng thời cung cấp cho bạn trải nghiệm thực tế để bắt đầu hành trình bước vào thế giới RAG và thiết kế nhanh chóng trên AWS.

Làm sạch

Sau khi bạn dùng thử ứng dụng, hãy dọn sạch tài nguyên của bạn bằng cách dừng ứng dụng.

Kết luận

RAG đã nổi lên như một mô hình thay đổi cuộc chơi trong thế giới thiết kế nhanh chóng, làm sống lại khả năng chuyển văn bản thành hình ảnh của Stable Diffusion. Bằng cách hài hòa các kỹ thuật RAG với các phương pháp tiếp cận hiện có và sử dụng các tài nguyên mạnh mẽ của AWS, chúng tôi đã khám phá ra con đường giúp hợp lý hóa khả năng sáng tạo và tăng tốc quá trình học tập.

Để có thêm tài nguyên, hãy truy cập vào phần sau:


Giới thiệu về tác giả

Cải thiện lời nhắc Khuếch tán ổn định của bạn với Thế hệ tăng cường truy xuất | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.James Yi là Kiến trúc sư cấp cao về giải pháp đối tác AI / ML trong nhóm Công nghệ mới nổi tại Amazon Web Services. Anh ấy rất đam mê làm việc với các khách hàng và đối tác doanh nghiệp để thiết kế, triển khai và mở rộng quy mô các ứng dụng AI / ML nhằm tạo ra các giá trị kinh doanh của họ. Ngoài công việc, anh ấy thích đá bóng, đi du lịch và dành thời gian cho gia đình.

Cải thiện lời nhắc Khuếch tán ổn định của bạn với Thế hệ tăng cường truy xuất | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Rumi Olsen là Kiến trúc sư Giải pháp trong Chương trình Đối tác AWS. Cô ấy chuyên về các giải pháp máy chủ và không máy chủ trong vai trò hiện tại của mình và có kiến ​​thức nền tảng về công nghệ xử lý ngôn ngữ tự nhiên. Cô dành phần lớn thời gian rảnh rỗi để cùng con gái khám phá thiên nhiên vùng Tây Bắc Thái Bình Dương.

Dấu thời gian:

Thêm từ Học máy AWS