Amazon Bedrock 및 Amazon OpenSearch Serverless를 사용하여 제품 추천을 위한 상황별 텍스트 및 이미지 검색 엔진 구축

플라톤에 의해 재발행

팔로워 : 0

상황별 검색과 의미 검색의 증가로 인해 전자상거래 및 소매업체에서는 소비자가 쉽게 검색할 수 있게 되었습니다. 생성 AI로 구동되는 검색 엔진 및 추천 시스템은 자연어 쿼리를 이해하고 보다 정확한 결과를 반환함으로써 제품 검색 경험을 기하급수적으로 향상시킬 수 있습니다. 이를 통해 전반적인 사용자 경험이 향상되어 고객이 원하는 것을 정확하게 찾을 수 있습니다.

아마존 오픈서치 서비스 이제 코사인 유사성 k-NN 인덱스에 대한 지표입니다. 코사인 유사도는 두 벡터 사이의 코사인 각도를 측정하며, 코사인 각도가 작을수록 벡터 사이의 유사도가 높다는 것을 나타냅니다. 코사인 유사성을 사용하면 두 벡터 사이의 방향을 측정할 수 있으므로 일부 특정 시맨틱 검색 애플리케이션에 적합합니다.

이 게시물에서는 다음을 사용하여 제품 추천을 위한 상황별 텍스트 및 이미지 검색 엔진을 구축하는 방법을 보여줍니다. Amazon Titan 다중 모드 임베딩 모델, 가능 아마존 기반암과 Amazon OpenSearch 서버리스.

다중 모드 임베딩 모델은 텍스트, 이미지, 오디오와 같은 다양한 양식의 공동 표현을 학습하도록 설계되었습니다. 다중 모달 임베딩 모델은 이미지와 해당 캡션이 포함된 대규모 데이터 세트를 학습하여 공유 잠재 공간에 이미지와 텍스트를 삽입하는 방법을 학습합니다. 다음은 개념적으로 어떻게 작동하는지에 대한 높은 수준의 개요입니다.

별도의 인코더 – 이러한 모델에는 텍스트용 텍스트 인코더(예: BERT 또는 RoBERTa), 이미지용 이미지 인코더(예: 이미지용 CNN), 오디오용 오디오 인코더(예: Wav2Vec와 같은 모델) 등 각 양식에 대한 별도의 인코더가 있습니다. . 각 인코더는 해당 양식의 의미론적 특징을 캡처하는 임베딩을 생성합니다.
양상 융합 – 유니모달 인코더의 임베딩은 추가 신경망 레이어를 사용하여 결합됩니다. 목표는 양식 간의 상호 작용과 상관 관계를 배우는 것입니다. 일반적인 융합 접근 방식에는 연결, 요소별 작업, 풀링 및 주의 메커니즘이 포함됩니다.
공유 표현 공간 – 융합 레이어는 개별 양식을 공유 표현 공간에 투영하는 데 도움이 됩니다. 모델은 다중 모드 데이터 세트를 훈련함으로써 동일한 기본 의미 체계 콘텐츠를 나타내는 각 양식의 임베딩이 서로 더 가까운 공통 임베딩 공간을 학습합니다.
다운스트림 작업 – 생성된 공동 다중 모드 임베딩은 다중 모드 검색, 분류 또는 번역과 같은 다양한 다운스트림 작업에 사용될 수 있습니다. 이 모델은 양식 간 상관 관계를 사용하여 개별 모달 임베딩과 비교하여 이러한 작업의 성능을 향상시킵니다. 주요 장점은 조인트 모델링을 통해 텍스트, 이미지, 오디오와 같은 양식 간의 상호 작용과 의미를 이해하는 능력입니다.

솔루션 개요

이 솔루션은 텍스트 또는 이미지 쿼리를 기반으로 제품을 검색하고 추천하기 위해 LLM(대형 언어 모델) 기반 검색 엔진 프로토타입을 구축하기 위한 구현을 제공합니다. 우리는 Amazon Titan 다중 모드 임베딩 이미지와 텍스트를 임베딩으로 인코딩하고, 임베딩을 OpenSearch 서비스 인덱스로 수집하고, OpenSearch 서비스를 사용하여 인덱스를 쿼리하는 모델 k-최근접 이웃(k-NN) 기능.

이 솔루션에는 다음 구성 요소가 포함됩니다.

Amazon Titan 다중 모드 임베딩 모델 – 이 기반 모델(FM)은 이 게시물에 사용된 제품 이미지의 임베딩을 생성합니다. Amazon Titan 다중 모드 임베딩을 사용하면 콘텐츠에 대한 임베딩을 생성하고 이를 벡터 데이터베이스에 저장할 수 있습니다. 최종 사용자가 텍스트와 이미지의 조합을 검색 쿼리로 제출하면 모델은 검색 쿼리에 대한 임베딩을 생성하고 이를 저장된 임베딩과 일치시켜 최종 사용자에게 관련 검색 및 추천 결과를 제공합니다. 모델을 추가로 사용자 정의하여 고유한 콘텐츠에 대한 이해를 높이고 미세 조정을 위한 이미지-텍스트 쌍을 사용하여 보다 의미 있는 결과를 제공할 수 있습니다. 기본적으로 모델은 1,024차원의 벡터(임베딩)를 생성하며 Amazon Bedrock을 통해 액세스됩니다. 속도와 성능을 최적화하기 위해 더 작은 차원을 생성할 수도 있습니다.
Amazon OpenSearch 서버리스 – OpenSearch 서비스를 위한 온디맨드 서버리스 구성입니다. 우리는 Amazon Titan 다중 모드 임베딩 모델에서 생성된 임베딩을 저장하기 위한 벡터 데이터베이스로 Amazon OpenSearch Serverless를 사용합니다. Amazon OpenSearch Serverless 컬렉션에서 생성된 인덱스는 RAG(Retrieval Augmented Generation) 솔루션을 위한 벡터 저장소 역할을 합니다.
아마존 세이지 메이커 스튜디오 – 머신러닝(ML)을 위한 통합개발환경(IDE)입니다. ML 실무자는 데이터 준비부터 ML 모델 구축, 훈련, 배포에 이르기까지 모든 ML 개발 단계를 수행할 수 있습니다.

솔루션 디자인은 데이터 인덱싱과 상황별 검색이라는 두 부분으로 구성됩니다. 데이터 인덱싱 중에 제품 이미지를 처리하여 해당 이미지에 대한 임베딩을 생성한 다음 벡터 데이터 저장소를 채웁니다. 이러한 단계는 사용자 상호 작용 단계 전에 완료됩니다.

상황별 검색 단계에서는 사용자의 검색어(텍스트 또는 이미지)를 임베딩으로 변환하고 벡터 데이터베이스에서 유사성 검색을 수행하여 유사성 검색을 기반으로 유사한 제품 이미지를 찾습니다. 그런 다음 유사한 상위 결과를 표시합니다. 이 게시물의 모든 코드는 다음에서 사용할 수 있습니다. GitHub 레포.

다음 다이어그램은 솔루션 아키텍처를 보여줍니다.

다음은 솔루션 워크플로 단계입니다.

대중으로부터 제품 설명 텍스트 및 이미지를 다운로드하세요. 아마존 단순 스토리지 서비스 (Amazon S3) 버킷.
데이터 세트를 검토하고 준비합니다.
Amazon Titan 다중 모달 임베딩 모델(amazon.titan-embed-image-v1)을 사용하여 제품 이미지에 대한 임베딩을 생성합니다. 이미지와 설명이 너무 많으면 선택적으로 다음을 사용할 수 있습니다. Amazon Bedrock에 대한 일괄 추론.
임베딩을 Amazon OpenSearch 서버리스 검색 엔진으로.
마지막으로 자연어로 사용자 쿼리를 가져와 Amazon Titan 다중 모달 임베딩 모델을 사용하여 임베딩으로 변환하고 k-NN 검색을 수행하여 관련 검색 결과를 얻습니다.

우리는 SageMaker Studio(다이어그램에 표시되지 않음)를 IDE로 사용하여 솔루션을 개발합니다.

이러한 단계는 다음 섹션에서 자세히 설명합니다. 또한 스크린샷과 출력 세부정보도 포함됩니다.

사전 조건

이 게시물에 제공된 솔루션을 구현하려면 다음이 필요합니다.

An AWS 계정 FM, Amazon Bedrock, 아마존 세이지 메이커및 OpenSearch 서비스를 제공합니다.
Amazon Bedrock에서 활성화된 Amazon Titan 다중 모드 임베딩 모델. 다음에서 활성화되었는지 확인할 수 있습니다. 모델 액세스 Amazon Bedrock 콘솔 페이지. Amazon Titan 다중 모달 임베딩이 활성화된 경우 액세스 상태는 다음과 같이 표시됩니다. 액세스 권한 부여다음 스크린 샷에 표시된대로

모델을 사용할 수 없는 경우 다음을 선택하여 모델에 대한 액세스를 활성화합니다. 모델 액세스 관리, Amazon Titan 다중 모드 임베딩 G1, 및 선택 모델 액세스 요청. 모델을 즉시 사용할 수 있습니다.

솔루션 설정

필수 구성 요소 단계가 완료되면 솔루션을 설정할 준비가 된 것입니다.

AWS 계정에서 SageMaker 콘솔을 열고 다음을 선택하십시오. Studio 탐색 창에서
도메인과 사용자 프로필을 선택한 후 다음을 선택하세요. 오픈 스튜디오.

도메인과 사용자 프로필 이름은 다를 수 있습니다.

왼쪽 메뉴에서 시스템 터미널 아래에 유틸리티 및 파일.
다음 명령을 실행하여 복제합니다. GitHub 레포 SageMaker Studio 인스턴스에:

git clone https://github.com/aws-samples/amazon-bedrock-samples.git

로 이동 multimodal/Titan/titan-multimodal-embeddings/amazon-bedrock-multimodal-oss-searchengine-e2e 폴더에 있습니다.
열기 titan_mm_embed_search_blog.ipynb 공책.

솔루션 실행

파일 열기 titan_mm_embed_search_blog.ipynb Data Science Python 3 커널을 사용합니다. 에 달리기 메뉴, 선택 모든 셀 실행 이 노트북의 코드를 실행합니다.

이 노트북은 다음 단계를 수행합니다.

이 솔루션에 필요한 패키지와 라이브러리를 설치합니다.
공개적으로 사용 가능한 로드 Amazon Berkeley 객체 데이터 세트 Pandas 데이터 프레임의 메타데이터.

데이터 세트는 다국어 메타데이터와 147,702개의 고유 카탈로그 이미지가 포함된 398,212개의 제품 목록 모음입니다. 이 게시물에서는 항목 이미지와 항목 이름을 미국 영어로만 사용합니다. 약 1,600개의 제품을 사용합니다.

다음을 사용하여 Amazon Titan 다중 모달 임베딩 모델을 사용하여 항목 이미지에 대한 임베딩을 생성합니다. get_titan_multomodal_embedding() 기능. 추상화를 위해 이 노트북에서 사용되는 모든 중요한 기능을 다음과 같이 정의했습니다. utils.py 파일.

다음으로 Amazon OpenSearch Serverless 벡터 스토어(컬렉션 및 인덱스)를 생성하고 설정합니다.

새로운 벡터 검색 컬렉션 및 인덱스를 생성하기 전에 먼저 암호화 보안 정책, 네트워크 보안 정책, 데이터 액세스 정책 등 세 가지 관련 OpenSearch 서비스 정책을 생성해야 합니다.

마지막으로 벡터 인덱스에 포함된 이미지를 수집합니다.

이제 실시간 다중 모드 검색을 수행할 수 있습니다.

상황별 검색 실행

이 섹션에서는 텍스트 또는 이미지 쿼리를 기반으로 한 문맥 검색 결과를 보여줍니다.

먼저 텍스트 입력을 기반으로 이미지 검색을 수행해 보겠습니다. 다음 예에서는 "drinkware glass"라는 텍스트 입력을 사용하여 유사한 항목을 찾기 위해 검색 엔진에 보냅니다.

다음 스크린 샷은 결과를 보여줍니다.

이제 간단한 이미지를 바탕으로 결과를 살펴보겠습니다. 입력 이미지는 벡터 임베딩으로 변환되고 유사성 검색을 기반으로 모델이 결과를 반환합니다.

모든 이미지를 사용할 수 있지만 다음 예에서는 항목 ID를 기반으로 데이터 세트에서 임의의 이미지를 사용합니다(예: item_id = “B07JCDQWM6”) 그런 다음 이 이미지를 검색 엔진에 전송하여 유사한 항목을 찾습니다.

다음 스크린 샷은 결과를 보여줍니다.

정리

향후 비용이 발생하지 않도록 하려면 이 솔루션에 사용된 리소스를 삭제하세요. 노트북의 정리 섹션을 실행하면 이 작업을 수행할 수 있습니다.

결론

이 게시물에서는 Amazon Bedrock에서 Amazon Titan 다중 모드 임베딩 모델을 사용하여 강력한 상황별 검색 애플리케이션을 구축하는 방법을 소개했습니다. 특히, 상품 목록 검색 애플리케이션의 예를 시연했습니다. 임베딩 모델을 통해 이미지와 텍스트 데이터에서 정보를 효율적이고 정확하게 검색하여 관련 항목을 검색하는 동안 사용자 경험을 향상시키는 방법을 살펴보았습니다.

Amazon Titan 다중 모드 임베딩은 최종 사용자를 위해 보다 정확하고 상황에 맞게 관련성이 높은 다중 모드 검색, 추천 및 개인화 경험을 제공하는 데 도움이 됩니다. 예를 들어, 수억 개의 이미지를 보유한 스톡 사진 회사는 모델을 사용하여 검색 기능을 강화할 수 있으므로 사용자는 문구, 이미지 또는 이미지와 텍스트의 조합을 사용하여 이미지를 검색할 수 있습니다.

이제 Amazon Bedrock의 Amazon Titan 다중 모달 임베딩 모델을 미국 동부(버지니아 북부) 및 미국 서부(오레곤) AWS 리전에서 사용할 수 있습니다. 자세한 내용은 다음을 참조하세요. Amazon Titan 이미지 생성기, 다중 모드 임베딩 및 텍스트 모델을 이제 Amazon Bedrock에서 사용할 수 있습니다.Walk Through California 프로그램, Amazon Titan 제품 페이지및 Amazon Bedrock 사용 설명서. Amazon Bedrock에서 Amazon Titan 다중 모드 임베딩을 시작하려면 다음을 방문하십시오. 아마존 베드락 콘솔.

Amazon Titan 다중 모드 임베딩 모델을 사용하여 구축을 시작하세요. 아마존 기반암 .

저자에 관하여

산딥 싱 Amazon Web Services의 수석 Generative AI 데이터 과학자로서 기업이 생성 AI를 통해 혁신을 이루도록 지원합니다. 그는 생성 AI, 인공 지능, 기계 학습 및 시스템 설계를 전문으로 합니다. 그는 다양한 산업 분야의 복잡한 비즈니스 문제를 해결하고 효율성과 확장성을 최적화하기 위한 최첨단 AI/ML 기반 솔루션을 개발하는 데 열정을 쏟고 있습니다.

마니 카누 자 기술 리더이자 생성적 AI 전문가이며, Applied Machine Learning and High Performance Computing on AWS라는 책의 저자이자 여성 제조업 교육 재단 이사회의 이사입니다. 그녀는 컴퓨터 비전, 자연어 처리, 생성 AI 등 다양한 분야의 머신러닝 프로젝트를 이끌고 있습니다. 그녀는 AWS re:Invent, Women in Manufacturing West, YouTube 웹 세미나, GHC 23 등의 내부 및 외부 컨퍼런스에서 연설합니다. 여가 시간에는 해변을 따라 장거리 달리기를 즐깁니다.

루피더 그레왈 AWS의 수석 AI/ML 전문가 솔루션 아키텍트입니다. 그는 현재 Amazon SageMaker에서 모델 및 MLOps 제공에 중점을 두고 있습니다. 이 역할을 맡기 전에는 기계 학습 엔지니어로 모델을 구축하고 호스팅하는 일을 했습니다. 업무 외에는 테니스를 치거나 산길에서 자전거 타기를 즐깁니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
출처: https://aws.amazon.com/blogs/machine-learning/build-a-contextual-text-and-image-search-engine-for-product-recommendations-using-amazon-bedrock-and-amazon-opensearch-serverless/

타임 스탬프 : 2024 년 4 월 3 일

타임 스탬프 : 11년 2023월 XNUMX일

플라톤에 의해 재발행

Amazon SageMaker JumpStart에서 대규모 언어 모델로 서버리스 회의 요약 백엔드 구축 | 아마존 웹 서비스

QnABot 및 Amazon Lex를 사용하여 Genesys Cloud용 AI 기반 가상 에이전트 구축

AWS Panorama는 이제 NVIDIA JetPack SDK 4.6.2를 지원합니다.

향상된 평가 및 분석을 위한 Amazon Textract Bulk Document Uploader 소개 | 아마존 웹 서비스

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정