Xây dựng một ứng dụng AI tạo từ hình ảnh thành văn bản bằng cách sử dụng các mô hình đa phương thức trên Amazon SageMaker

Được xuất bản lại bởi Plato

Người theo dõi: 0

Khi chúng ta nghiên cứu sâu hơn về kỷ nguyên kỹ thuật số, việc phát triển các mô hình đa phương thức đóng vai trò quan trọng trong việc nâng cao hiểu biết về máy móc. Các mô hình này xử lý và tạo nội dung trên nhiều dạng dữ liệu khác nhau, như văn bản và hình ảnh. Đặc điểm chính của các mô hình này là khả năng chuyển hình ảnh thành văn bản, cho thấy khả năng thành thạo vượt trội trong các tác vụ như chú thích hình ảnh và trả lời câu hỏi bằng hình ảnh.

Bằng cách dịch hình ảnh thành văn bản, chúng tôi mở khóa và khai thác lượng thông tin dồi dào có trong dữ liệu hình ảnh. Ví dụ: trong thương mại điện tử, tính năng chuyển hình ảnh thành văn bản có thể tự động hóa việc phân loại sản phẩm dựa trên hình ảnh, nâng cao hiệu quả và độ chính xác của tìm kiếm. Tương tự, nó có thể hỗ trợ tạo mô tả ảnh tự động, cung cấp thông tin có thể không có trong tiêu đề hoặc mô tả sản phẩm, từ đó cải thiện trải nghiệm người dùng.

Trong bài đăng này, chúng tôi cung cấp cái nhìn tổng quan về các mô hình đa phương thức phổ biến. Chúng tôi cũng trình bày cách triển khai các mô hình được đào tạo trước này trên Amazon SageMaker. Hơn nữa, chúng tôi thảo luận về các ứng dụng đa dạng của các mô hình này, đặc biệt tập trung vào một số tình huống trong thế giới thực, chẳng hạn như thẻ không chụp ảnh và tạo thuộc tính cho thương mại điện tử cũng như tạo lời nhắc tự động từ hình ảnh.

Nền tảng của các mô hình đa phương thức

Các mô hình học máy (ML) đã đạt được những tiến bộ đáng kể trong các lĩnh vực như xử lý ngôn ngữ tự nhiên (NLP) và thị giác máy tính, trong đó các mô hình có thể thể hiện hiệu suất giống con người trong việc phân tích và tạo nội dung từ một nguồn dữ liệu duy nhất. Gần đây, người ta ngày càng chú ý đến việc phát triển các mô hình đa phương thức, có khả năng xử lý và tạo ra nội dung trên các phương thức khác nhau. Những mô hình này, chẳng hạn như sự kết hợp giữa mạng lưới thị giác và ngôn ngữ, đã trở nên nổi bật nhờ khả năng tích hợp thông tin từ các nguồn và phương thức đa dạng, từ đó nâng cao khả năng hiểu và diễn đạt của chúng.

Trong phần này, chúng tôi cung cấp cái nhìn tổng quan về hai mô hình đa phương thức phổ biến: CLIP (Đào tạo trước ngôn ngữ-hình ảnh tương phản) và BLIP (Đào tạo trước ngôn ngữ-hình ảnh Bootstrapping).

mô hình CLIP

CLIP là một mô hình ngôn ngữ và hình ảnh đa phương thức, có thể được sử dụng để tạo ra sự tương đồng giữa hình ảnh và văn bản và để phân loại hình ảnh không chụp. CLIP được đào tạo trên tập dữ liệu gồm 400 triệu cặp văn bản-hình ảnh được thu thập từ nhiều nguồn công khai khác nhau trên internet. Kiến trúc mô hình bao gồm bộ mã hóa hình ảnh và bộ mã hóa văn bản, như thể hiện trong sơ đồ sau.

Trong quá trình đào tạo, một hình ảnh và đoạn văn bản tương ứng được đưa qua bộ mã hóa để có được vectơ đặc trưng hình ảnh và vectơ đặc trưng văn bản. Mục đích là làm cho các đặc điểm hình ảnh và văn bản của một cặp khớp có độ tương tự cosine cao, trong khi các đặc điểm của các cặp không khớp có độ tương tự thấp. Điều này được thực hiện thông qua sự mất mát tương phản. Quá trình đào tạo trước tương phản này tạo ra các bộ mã hóa ánh xạ hình ảnh và văn bản tới một không gian nhúng chung nơi ngữ nghĩa được căn chỉnh.

Sau đó, các bộ mã hóa có thể được sử dụng để học chuyển giao không cần bắn cho các tác vụ tiếp theo. Tại thời điểm suy luận, bộ mã hóa được huấn luyện trước hình ảnh và văn bản sẽ xử lý đầu vào tương ứng của nó và biến nó thành biểu diễn vectơ chiều cao hoặc một nhúng. Sau đó, phần nhúng của hình ảnh và văn bản sẽ được so sánh để xác định độ giống nhau của chúng, chẳng hạn như độ tương tự cosine. Lời nhắc văn bản (lớp hình ảnh, danh mục hoặc thẻ) có cách nhúng tương tự nhất (ví dụ: có khoảng cách nhỏ nhất) với cách nhúng hình ảnh được coi là phù hợp nhất và hình ảnh được phân loại tương ứng.

mô hình BLIP

Một mô hình đa phương thức phổ biến khác là BLIP. Nó giới thiệu một kiến trúc mô hình mới có khả năng thích ứng với các tác vụ ngôn ngữ thị giác đa dạng và sử dụng kỹ thuật khởi động tập dữ liệu độc đáo để học từ dữ liệu web ồn ào. Kiến trúc BLIP bao gồm bộ mã hóa hình ảnh và bộ mã hóa văn bản: bộ mã hóa văn bản nối đất bằng hình ảnh đưa thông tin hình ảnh vào khối biến áp của bộ mã hóa văn bản và bộ giải mã văn bản nối đất bằng hình ảnh kết hợp thông tin hình ảnh vào khối giải mã biến áp. Với kiến trúc này, BLIP thể hiện hiệu suất vượt trội trên nhiều nhiệm vụ ngôn ngữ thị giác liên quan đến sự kết hợp thông tin hình ảnh và ngôn ngữ, từ tìm kiếm dựa trên hình ảnh và tạo nội dung đến hệ thống hộp thoại trực quan tương tác. Trong bài viết trước, chúng tôi đã đề xuất một giải pháp kiểm duyệt nội dung dựa trên mô hình BLIP đã giải quyết nhiều thách thức bằng cách sử dụng các phương pháp tiếp cận ML đơn phương về thị giác máy tính.

Trường hợp sử dụng 1: Thẻ zero-shot hoặc tạo thuộc tính cho nền tảng thương mại điện tử

Nền tảng thương mại điện tử đóng vai trò là thị trường năng động chứa đầy ý tưởng, sản phẩm và dịch vụ. Với hàng triệu sản phẩm được liệt kê, việc phân loại và phân loại hiệu quả đặt ra một thách thức đáng kể. Đây là lúc sức mạnh của tính năng tự động gắn thẻ và tạo thuộc tính phát huy tác dụng. Bằng cách khai thác các công nghệ tiên tiến như ML và NLP, các quy trình tự động này có thể cách mạng hóa hoạt động của nền tảng thương mại điện tử.

Một trong những lợi ích chính của việc tự động gắn thẻ hoặc tạo thuộc tính nằm ở khả năng nâng cao khả năng tìm kiếm. Khách hàng có thể tìm thấy sản phẩm được gắn thẻ chính xác một cách nhanh chóng và hiệu quả. Ví dụ: nếu khách hàng đang tìm kiếm “áo thun cổ tròn bằng vải cotton có logo phía trước”, tính năng tự động gắn thẻ và tạo thuộc tính cho phép công cụ tìm kiếm xác định chính xác các sản phẩm không chỉ phù hợp với danh mục “áo phông” rộng hơn, mà còn cả những thuộc tính cụ thể của “cotton” và “cổ tròn”. Sự kết hợp chính xác này có thể tạo điều kiện cho trải nghiệm mua sắm được cá nhân hóa hơn và nâng cao sự hài lòng của khách hàng. Hơn nữa, các thẻ hoặc thuộc tính được tạo tự động có thể cải thiện đáng kể các thuật toán đề xuất sản phẩm. Với sự hiểu biết sâu sắc về thuộc tính sản phẩm, hệ thống có thể gợi ý những sản phẩm phù hợp hơn cho khách hàng, từ đó tăng khả năng mua hàng và nâng cao sự hài lòng của khách hàng.

CLIP cung cấp một giải pháp đầy hứa hẹn để tự động hóa quá trình tạo thẻ hoặc thuộc tính. Nó lấy hình ảnh sản phẩm và danh sách các mô tả hoặc thẻ làm đầu vào, tạo ra biểu diễn vectơ hoặc nhúng cho mỗi thẻ. Những phần nhúng này tồn tại trong một không gian nhiều chiều, với khoảng cách và hướng tương đối của chúng phản ánh mối quan hệ ngữ nghĩa giữa các đầu vào. CLIP được đào tạo trước trên quy mô lớn các cặp văn bản-hình ảnh để gói gọn các phần nhúng có ý nghĩa này. Nếu thẻ hoặc thuộc tính mô tả chính xác một hình ảnh thì phần nhúng của chúng phải tương đối gần nhau trong không gian này. Để tạo các thẻ hoặc thuộc tính tương ứng, danh sách các thẻ tiềm năng có thể được nhập vào phần văn bản của mô hình CLIP và các phần nhúng kết quả được lưu trữ. Lý tưởng nhất là danh sách này phải đầy đủ, bao gồm tất cả các danh mục và thuộc tính tiềm năng có liên quan đến sản phẩm trên nền tảng thương mại điện tử. Hình dưới đây cho thấy một số ví dụ.

Để triển khai mô hình CLIP trên SageMaker, bạn có thể theo dõi sổ ghi chép sau đây Repo GitHub. Chúng tôi sử dụng SageMaker dựng sẵn bộ chứa suy luận mô hình lớn (LMI) để triển khai mô hình. Các thùng chứa LMI sử dụng phục vụ DJL để phục vụ cho mô hình suy luận của bạn. Để tìm hiểu thêm về cách lưu trữ các mô hình lớn trên SageMaker, hãy tham khảo Triển khai các mô hình lớn trên Amazon SageMaker bằng cách sử dụng suy luận song song của mô hình DJLServing và DeepSpeed và Triển khai các mô hình lớn với hiệu suất cao bằng FasterTransformer trên Amazon SageMaker.

Trong ví dụ này, chúng tôi cung cấp các tập tin serving.properties, model.pyvà requirements.txt để chuẩn bị các tạo phẩm mô hình và lưu trữ chúng trong tệp tarball.

serving.properties là tệp cấu hình có thể được sử dụng để chỉ ra cho DJL Serve biết thư viện tối ưu hóa suy luận và song song hóa mô hình nào bạn muốn sử dụng. Tùy theo nhu cầu mà bạn có thể thiết lập cấu hình phù hợp. Để biết thêm chi tiết về các tùy chọn cấu hình và danh sách đầy đủ, hãy tham khảo Cấu hình và cài đặt.
model.py là tập lệnh xử lý mọi yêu cầu phân phối.
requirements.txt là tệp văn bản chứa bất kỳ bánh xe pip bổ sung nào cần cài đặt.

Nếu bạn muốn tải xuống mô hình từ Ôm mặt trực tiếp, bạn có thể đặt option.model_id tham số trong serving.properties tệp dưới dạng id mô hình của mô hình được đào tạo trước được lưu trữ bên trong kho lưu trữ mô hình trên ômface.co. Vùng chứa sử dụng id mô hình này để tải xuống mô hình tương ứng trong thời gian triển khai. Nếu bạn đặt model_id đến một Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3), DJL sẽ tải xuống các tạo phẩm mô hình từ Amazon S3 và trao đổi model_id đến vị trí thực tế của các tạo tác mô hình. Trong tập lệnh của mình, bạn có thể trỏ đến giá trị này để tải mô hình được đào tạo trước. Trong ví dụ của chúng tôi, chúng tôi sử dụng tùy chọn thứ hai, vì bộ chứa LMI sử dụng s5cmd để tải xuống dữ liệu từ Amazon S3, điều này làm giảm đáng kể tốc độ khi tải mô hình trong quá trình triển khai. Xem đoạn mã sau:

# we plug in the appropriate model location into our `serving.properties` file based on the region in which this notebook is running template = jinja_env.from_string(Path("clip/serving.properties").open().read()) Path("clip/serving.properties").open("w").write( template.render(s3url=pretrained_model_location) ) !pygmentize clip/serving.properties | cat -n

Trong tạp chí model.py script, chúng tôi tải đường dẫn mô hình bằng ID mô hình được cung cấp trong tệp thuộc tính:

def load_clip_model(self, properties): if self.config.caption_model is None: model_path = properties["model_id"] ... ... print(f'model path: {model_path}') model = CLIPModel.from_pretrained(model_path, cache_dir="/tmp",) self.caption_processor = CLIPProcessor.from_pretrained(model_path)

Sau khi chuẩn bị và tải các thành phần mô hình lên Amazon S3, bạn có thể triển khai mô hình CLIP lên dịch vụ lưu trữ SageMaker bằng một vài dòng mã:

from sagemaker.model import Model model = Model( image_uri=inference_image_uri, model_data=s3_code_artifact, role=role, name=model_name,
) model.deploy( initial_instance_count=1, instance_type="ml.g5.2xlarge", endpoint_name=endpoint_name
)

Khi điểm cuối đang hoạt động, bạn có thể gọi điểm cuối bằng hình ảnh đầu vào và danh sách nhãn làm dấu nhắc đầu vào để tạo xác suất nhãn:

def encode_image(img_file): with open(img_file, "rb") as image_file: img_str = base64.b64encode(image_file.read()) base64_string = img_str.decode("latin1") return base64_string def run_inference(endpoint_name, inputs): response = smr_client.invoke_endpoint( EndpointName=endpoint_name, Body=json.dumps(inputs) ) return response["Body"].read().decode('utf-8') base64_string = encode_image(test_image)
inputs = {"image": base64_string, "prompt": ["a photo of cats", "a photo of dogs"]}
output = run_inference(endpoint_name, inputs)
print(json.loads(output)[0])

Trường hợp sử dụng 2: Tự động tạo lời nhắc từ hình ảnh

Một ứng dụng sáng tạo sử dụng mô hình đa phương thức là tạo ra các lời nhắc mang tính thông tin từ hình ảnh. Trong AI sáng tạo, một nhanh chóng đề cập đến đầu vào được cung cấp cho một mô hình ngôn ngữ hoặc mô hình tổng quát khác để hướng dẫn nó về loại nội dung hoặc phản hồi mong muốn. Lời nhắc về cơ bản là điểm bắt đầu hoặc một tập hợp các hướng dẫn hướng dẫn quá trình tạo mô hình. Nó có thể ở dạng một câu, câu hỏi, một phần văn bản hoặc bất kỳ đầu vào nào truyền tải bối cảnh hoặc đầu ra mong muốn cho mô hình. Việc lựa chọn lời nhắc được xây dựng tốt có vai trò then chốt trong việc tạo ra hình ảnh chất lượng cao với độ chính xác và mức độ phù hợp. Kỹ thuật nhanh chóng là quá trình tối ưu hóa hoặc tạo nội dung đầu vào văn bản để đạt được phản hồi mong muốn từ mô hình ngôn ngữ, thường liên quan đến điều chỉnh từ ngữ, định dạng hoặc ngữ cảnh.

Kỹ thuật nhanh chóng để tạo hình ảnh đặt ra một số thách thức, bao gồm:

Xác định chính xác các khái niệm trực quan – Việc mô tả các khái niệm trực quan bằng lời đôi khi có thể thiếu chính xác hoặc mơ hồ, gây khó khăn cho việc truyền tải chính xác hình ảnh mong muốn. Việc ghi lại những chi tiết phức tạp hoặc những cảnh phức tạp thông qua lời nhắc bằng văn bản có thể không đơn giản.
Chỉ định phong cách mong muốn một cách hiệu quả – Việc truyền đạt các sở thích về phong cách cụ thể, chẳng hạn như tâm trạng, bảng màu hoặc phong cách nghệ thuật, có thể khó khăn chỉ thông qua văn bản. Việc chuyển các khái niệm thẩm mỹ trừu tượng thành hướng dẫn cụ thể cho mô hình có thể khó khăn.
Cân bằng độ phức tạp để tránh quá tải mô hình – Lời nhắc phức tạp có thể gây nhầm lẫn cho mô hình hoặc dẫn đến làm mô hình bị quá tải thông tin, ảnh hưởng đến kết quả đầu ra được tạo. Đạt được sự cân bằng hợp lý giữa việc cung cấp đầy đủ hướng dẫn và tránh sự phức tạp quá mức là điều cần thiết.

Do đó, việc tạo ra các lời nhắc hiệu quả để tạo hình ảnh tốn nhiều thời gian, đòi hỏi phải thử nghiệm và tinh chỉnh lặp đi lặp lại để đạt được sự cân bằng hợp lý giữa độ chính xác và tính sáng tạo, khiến đây trở thành một nhiệm vụ tiêu tốn nhiều tài nguyên và phụ thuộc nhiều vào chuyên môn của con người.

Sản phẩm Bộ dò hỏi CLIP là một công cụ kỹ thuật nhắc nhở tự động dành cho hình ảnh kết hợp CLIP và BLIP để tối ưu hóa lời nhắc văn bản cho phù hợp với một hình ảnh nhất định. Bạn có thể sử dụng lời nhắc kết quả với các mô hình chuyển văn bản thành hình ảnh như Khuếch tán ổn định để tạo ra nghệ thuật mát mẻ. Lời nhắc do CLIP Interrogator tạo ra cung cấp mô tả toàn diện về hình ảnh, không chỉ bao gồm các yếu tố cơ bản mà còn cả phong cách nghệ thuật, nguồn cảm hứng tiềm ẩn đằng sau hình ảnh, phương tiện mà hình ảnh có thể đã hoặc có thể được sử dụng, v.v. Bạn có thể dễ dàng triển khai giải pháp CLIP Interrogator trên SageMaker để hợp lý hóa quy trình triển khai và tận dụng khả năng mở rộng, hiệu quả chi phí và bảo mật mạnh mẽ do dịch vụ được quản lý hoàn toàn cung cấp. Sơ đồ sau đây cho thấy logic luồng của giải pháp này.

Bạn có thể sử dụng như sau máy tính xách tay để triển khai giải pháp CLIP Interrogator trên SageMaker. Tương tự, đối với việc lưu trữ mô hình CLIP, chúng tôi sử dụng vùng chứa SageMaker LMI để lưu trữ giải pháp trên SageMaker bằng cách sử dụng Cung cấp DJL. Trong ví dụ này, chúng tôi đã cung cấp một tệp đầu vào bổ sung có các thành phần lạ của mô hình để chỉ định các mô hình được triển khai cho điểm cuối SageMaker. Bạn có thể chọn các mô hình CLIP hoặc BLIP khác nhau bằng cách chuyển tên mô hình chú thích và tên mô hình clip thông qua model_name.json tập tin được tạo bằng mã sau:

model_names = { "caption_model_name":'blip2-2.7b', #@param ["blip-base", "blip-large", "git-large-coco"] "clip_model_name":'ViT-L-14/openai' #@param ["ViT-L-14/openai", "ViT-H-14/laion2b_s32b_b79k"]
}
with open("clipinterrogator/model_name.json",'w') as file: json.dump(model_names, file)

Kịch bản suy luận model.py chứa một hàm xử lý mà DJL Serve sẽ thực hiện yêu cầu của bạn bằng cách gọi hàm này. Để chuẩn bị tập lệnh điểm vào này, chúng tôi đã sử dụng mã từ bản gốc clip_interrogator.py tệp và sửa đổi nó để hoạt động với Phục vụ DJL trên dịch vụ lưu trữ SageMaker. Một bản cập nhật là tải mô hình BLIP. Các mô hình BLIP và CLIP được tải thông qua load_caption_model() và load_clip_model() trong quá trình khởi tạo đối tượng Interrogator. Để tải mô hình BLIP, trước tiên, chúng tôi tải xuống các tạo phẩm mô hình từ Ôm mặt và tải chúng lên Amazon S3 làm giá trị đích của model_id trong tập tin thuộc tính. Điều này là do mô hình BLIP có thể là một tệp lớn, chẳng hạn như blip2-opt-2.7b model có dung lượng lớn hơn 15 GB. Việc tải xuống mô hình từ Ôm Mặt trong quá trình triển khai mô hình sẽ cần nhiều thời gian hơn để tạo điểm cuối. Vì vậy, chúng tôi chỉ ra model_id đến vị trí Amazon S3 của mô hình BLIP2 và tải mô hình từ đường dẫn mô hình được chỉ định trong tệp thuộc tính. Lưu ý rằng, trong quá trình triển khai, đường dẫn mô hình sẽ được hoán đổi sang đường dẫn vùng chứa cục bộ nơi các thành phần lạ của mô hình được DJL Phục vụ tải xuống từ vị trí Amazon S3. Xem đoạn mã sau:

if "model_id" in properties and any(os.listdir(properties["model_id"])): model_path = properties["model_id"] ... ... caption_model = Blip2ForConditionalGeneration.from_pretrained(model_path, torch_dtype=self.dtype)

Vì mô hình CLIP có kích thước không lớn lắm nên chúng tôi sử dụng open_clip để tải mô hình trực tiếp từ Ôm Mặt, giống với mô hình gốc clip_interrogator thực hiện:

self.clip_model, _, self.clip_preprocess = open_clip.create_model_and_transforms( clip_model_name, pretrained=clip_model_pretrained_name, precision='fp16' if config.device == 'cuda' else 'fp32', device=config.device, jit=False, cache_dir=config.clip_model_path
)

Chúng tôi sử dụng mã tương tự để triển khai giải pháp CLIP Interrogator tới điểm cuối SageMaker và gọi điểm cuối có hình ảnh đầu vào để nhận lời nhắc có thể dùng để tạo các hình ảnh tương tự.

Hãy lấy hình ảnh sau đây làm ví dụ. Bằng cách sử dụng điểm cuối CLIP Interrogator đã triển khai trên SageMaker, nó sẽ tạo ra mô tả văn bản sau: croissant on a plate, pexels contest winner, aspect ratio 16:9, cgsocietywlop, 8 h, golden cracks, the artist has used bright, picture of a loft in morning, object features, stylized border, pastry, french emperor.

Chúng tôi có thể kết hợp thêm giải pháp CLIP Interrogator với Khuếch tán ổn định và các kỹ thuật kỹ thuật nhanh chóng—một khía cạnh hoàn toàn mới về khả năng sáng tạo sẽ xuất hiện. Sự tích hợp này cho phép chúng ta không chỉ mô tả hình ảnh bằng văn bản mà còn có thể thao tác và tạo ra các biến thể đa dạng của hình ảnh gốc. Khuếch tán ổn định đảm bảo tổng hợp hình ảnh được kiểm soát bằng cách tinh chỉnh lặp đi lặp lại đầu ra được tạo và kỹ thuật nhắc nhở chiến lược hướng dẫn quá trình tạo hướng tới kết quả mong muốn.

Trong tạp chí phần thứ hai của cuốn sổ, chúng tôi trình bày chi tiết các bước sử dụng kỹ thuật nhanh chóng để định kiểu lại hình ảnh bằng mô hình Khuếch tán ổn định (Khuếch Tán Ổn Định XL 1.0). chúng tôi sử dụng SDK AI ổn định để triển khai mô hình này từ SageMaker JumpStart sau khi đăng ký mô hình này trên AWS thị trường. Bởi vì đây là phiên bản mới hơn và tốt hơn để tạo hình ảnh được cung cấp bởi AI ổn định, chúng ta có thể có được hình ảnh chất lượng cao dựa trên hình ảnh đầu vào ban đầu. Ngoài ra, nếu chúng ta thêm tiền tố vào phần mô tả trước đó và thêm lời nhắc bổ sung đề cập đến một nghệ sĩ nổi tiếng và một trong những tác phẩm của anh ấy, thì chúng ta sẽ nhận được kết quả đáng kinh ngạc khi thiết kế lại. Hình ảnh sau đây sử dụng lời nhắc: This scene is a Van Gogh painting with The Starry Night style, croissant on a plate, pexels contest winner, aspect ratio 16:9, cgsocietywlop, 8 h, golden cracks, the artist has used bright, picture of a loft in morning, object features, stylized border, pastry, french emperor.

Hình ảnh sau đây sử dụng lời nhắc: This scene is a Hokusai painting with The Great Wave off Kanagawa style, croissant on a plate, pexels contest winner, aspect ratio 16:9, cgsocietywlop, 8 h, golden cracks, the artist has used bright, picture of a loft in morning, object features, stylized border, pastry, french emperor.

Kết luận

Sự xuất hiện của các mô hình đa phương thức, như CLIP và BLIP, cùng các ứng dụng của chúng đang nhanh chóng thay đổi bối cảnh chuyển đổi hình ảnh thành văn bản. Thu hẹp khoảng cách giữa thông tin hình ảnh và ngữ nghĩa, họ đang cung cấp cho chúng tôi các công cụ để khai thác tiềm năng to lớn của dữ liệu hình ảnh và khai thác nó theo những cách mà trước đây không thể tưởng tượng được.

Trong bài đăng này, chúng tôi đã minh họa các ứng dụng khác nhau của mô hình đa phương thức. Những phạm vi này từ việc nâng cao hiệu quả và độ chính xác của tìm kiếm trong nền tảng thương mại điện tử thông qua gắn thẻ và phân loại tự động cho đến tạo lời nhắc cho các mô hình chuyển văn bản thành hình ảnh như Stable Diffusion. Những ứng dụng này mở ra những chân trời mới để tạo ra nội dung độc đáo và hấp dẫn. Chúng tôi khuyến khích bạn tìm hiểu thêm bằng cách khám phá các mô hình đa phương thức khác nhau trên SageMaker và xây dựng giải pháp mang tính đổi mới cho doanh nghiệp của bạn.

Về các tác giả

Xây dựng ứng dụng AI tạo từ hình ảnh thành văn bản bằng cách sử dụng các mô hình đa phương thức trên Amazon SageMaker | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái. Yến Vệ Thôi, Tiến sĩ, là Kiến trúc sư giải pháp chuyên gia máy học cao cấp tại AWS. Anh bắt đầu nghiên cứu về máy học tại IRISA (Viện Nghiên cứu Khoa học Máy tính và Hệ thống Ngẫu nhiên) và có nhiều năm kinh nghiệm xây dựng các ứng dụng công nghiệp được hỗ trợ bởi AI trong thị giác máy tính, xử lý ngôn ngữ tự nhiên và dự đoán hành vi người dùng trực tuyến. Tại AWS, anh chia sẻ kiến thức chuyên môn về miền của mình và giúp khách hàng khai phá các tiềm năng kinh doanh cũng như thúc đẩy các kết quả có thể thực hiện được nhờ học máy trên quy mô lớn. Ngoài công việc, anh thích đọc sách và đi du lịch.

Xây dựng ứng dụng AI tạo từ hình ảnh thành văn bản bằng cách sử dụng các mô hình đa phương thức trên Amazon SageMaker | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái. Raghu Ramesha là Kiến trúc sư giải pháp ML cao cấp của nhóm Dịch vụ SageMaker của Amazon. Anh tập trung vào việc giúp khách hàng xây dựng, triển khai và di chuyển khối lượng công việc sản xuất ML sang SageMaker trên quy mô lớn. Anh ấy chuyên về lĩnh vực học máy, AI và thị giác máy tính, đồng thời có bằng thạc sĩ về Khoa học Máy tính của UT Dallas. Khi rảnh rỗi, anh thích đi du lịch và chụp ảnh.

Xây dựng ứng dụng AI tạo từ hình ảnh thành văn bản bằng cách sử dụng các mô hình đa phương thức trên Amazon SageMaker | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái. Sam Edwards, là Kỹ sư đám mây (AI/ML) tại AWS Sydney chuyên về học máy và Amazon SageMaker. Anh ấy rất nhiệt tình giúp đỡ khách hàng giải quyết các vấn đề liên quan đến quy trình học máy và tạo ra các giải pháp mới cho họ. Ngoài công việc, anh thích chơi các môn thể thao dùng vợt và đi du lịch.

Xây dựng ứng dụng AI tạo từ hình ảnh thành văn bản bằng cách sử dụng các mô hình đa phương thức trên Amazon SageMaker | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái. Melanie Li, Tiến sĩ, là Chuyên gia AI/ML cấp cao TAM tại AWS có trụ sở tại Sydney, Australia. Cô giúp khách hàng doanh nghiệp xây dựng giải pháp bằng cách sử dụng các công cụ AI/ML tiên tiến trên AWS, đồng thời cung cấp hướng dẫn về kiến trúc và triển khai các giải pháp ML bằng các phương pháp thực hành tốt nhất. Khi rảnh rỗi, cô thích khám phá thiên nhiên và dành thời gian cho gia đình, bạn bè.

Xây dựng ứng dụng AI tạo từ hình ảnh thành văn bản bằng cách sử dụng các mô hình đa phương thức trên Amazon SageMaker | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái. Gordon Vương là TAM Chuyên gia AI/ML cấp cao tại AWS. Ông hỗ trợ các khách hàng chiến lược bằng các phương pháp hay nhất về AI/ML trong nhiều ngành. Anh ấy đam mê thị giác máy tính, NLP, AI tổng quát và MLOps. Khi rảnh rỗi, anh ấy thích chạy bộ và đi bộ đường dài.

Xây dựng ứng dụng AI tạo từ hình ảnh thành văn bản bằng cách sử dụng các mô hình đa phương thức trên Amazon SageMaker | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái. Dhawal Patel là một Kiến trúc sư chính về Học máy tại AWS. Ông đã làm việc với các tổ chức khác nhau, từ các doanh nghiệp lớn đến các công ty khởi nghiệp quy mô trung bình về các vấn đề liên quan đến máy tính phân tán và Trí tuệ nhân tạo. Ông tập trung vào Học sâu bao gồm các lĩnh vực NLP và Thị giác máy tính. Anh ấy giúp khách hàng đạt được khả năng suy luận mô hình hiệu suất cao trên SageMaker.

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
nguồn: https://aws.amazon.com/blogs/machine-learning/build-an-image-to-text-generative-ai-application-using-multimodality-models-on-amazon-sagemaker/

Dấu thời gian: 6 Tháng Mười

Thêm từ Học máy AWS

Xác định rừng ngập mặn bằng các tính năng hình ảnh vệ tinh bằng Amazon SageMaker Studio và Amazon SageMaker Autopilot – Phần 1 PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Xác định rừng ngập mặn bằng các tính năng hình ảnh vệ tinh bằng Amazon SageMaker Studio và Amazon SageMaker Autopilot - Part 1

Cụm nguồn:

Học máy AWS

Nút nguồn: 1497650

Dấu thời gian: Tháng Sáu 21, 2022

Cải tiến hiệu suất mới trong thư viện song song mô hình Amazon SageMaker

Học máy AWS

Nút nguồn: 1961922

Dấu thời gian: Tháng Tư 5, 2024

Được xuất bản lại bởi Plato

Xác định rừng ngập mặn bằng các tính năng hình ảnh vệ tinh bằng Amazon SageMaker Studio và Amazon SageMaker Autopilot - Part 1

Cải tiến hiệu suất mới trong thư viện song song mô hình Amazon SageMaker

Amazon SageMaker Studio Lab tiếp tục dân chủ hóa ML với nhiều quy mô và chức năng hơn

Kích hoạt tính năng mã hóa đồng cấu hoàn toàn với các điểm cuối Amazon SageMaker để có kết luận an toàn, theo thời gian thực

Cách VMware xây dựng quy trình MLOps từ đầu bằng GitLab, Amazon MWAA và Amazon SageMaker

Roadshow AI sáng tạo ở Bắc Mỹ với AWS và Ôm Mặt | Dịch vụ web của Amazon

Kích hoạt quy trình công việc ML kết hợp trên Amazon EKS và Amazon SageMaker bằng triển khai Kubeflow trên AWS chỉ bằng một cú nhấp chuột

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản