지능형 검색으로 Amazon S3 데이터에서 통찰력 확보 | 아마존 웹 서비스

지능형 검색으로 Amazon S3 데이터에서 통찰력 확보 | 아마존 웹 서비스

아마존 켄드라 머신러닝(ML) 기반 지능형 검색 서비스입니다. Amazon Kendra는 웹 사이트 및 애플리케이션에 대한 엔터프라이즈 검색을 재구상하여 직원과 고객이 조직 내 여러 위치와 콘텐츠 리포지토리에 흩어져 있는 경우에도 원하는 콘텐츠를 쉽게 찾을 수 있도록 합니다. 키워드 또는 자연어 질문을 사용하여 ML로 구동되는 가장 관련성이 높은 문서를 검색하여 답변을 제공하고 문서 순위를 지정할 수 있습니다. Amazon Kendra는 다음에서 데이터를 인덱싱할 수 있습니다. 아마존 단순 스토리지 서비스 (Amazon S3) 또는 타사 문서 리포지토리에서. Amazon S3는 제품 설명서, 프로젝트 및 연구 문서 등을 포함하여 많은 양의 데이터를 저장할 수 있는 확장성과 가용성을 제공하는 객체 스토리지 서비스입니다.

이 게시물에서는 제공된 배포 방법을 배울 수 있습니다. AWS 클라우드 포메이션 Amazon S3 버킷의 문서를 인덱싱하기 위한 템플릿입니다. 이 템플릿은 인덱스에 대한 Amazon Kendra 데이터 원본을 생성하고 온디맨드, 시간별, 일별, 주별 또는 월별 필요에 따라 데이터 원본을 동기화합니다. AWS CloudFormation을 사용하면 코드형 인프라(IaC)를 프로비저닝할 수 있으므로 리소스 관리에 소요되는 시간을 줄이고 인프라를 신속하게 복제하고 인프라의 변경 사항을 제어 및 추적할 수 있습니다.

솔루션 개요

CloudFormation 템플릿은 Amazon S3에 연결된 Amazon Kendra 데이터 원본을 설정합니다. 템플릿은 또한 Amazon Kendra 데이터 원본 서비스에 대한 하나의 역할을 생성합니다. S3 버킷, 동기화 일정 및 포함/제외 패턴을 지정할 수 있습니다. 동기화 작업이 완료되면 검색 콘솔을 통해 인덱싱된 콘텐츠를 검색할 수 있습니다. 다음 다이어그램은 이 워크플로를 보여줍니다.

지능형 검색을 통해 Amazon S3 데이터에서 통찰력 확보 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

이 게시물은 다음 단계를 안내합니다.

  1. 제공된 템플릿을 배포합니다.
  2. 생성한 S3 버킷에 문서를 업로드합니다. 버킷에 문서를 제공하는 경우 이 단계를 생략할 수 있습니다.
  3. 인덱스가 데이터 소스 크롤링을 완료할 때까지 기다리십시오.

사전 조건

이 연습에서는 다음과 같은 전제 조건이 있어야합니다.

  • An AWS 계정 제안된 솔루션을 배포할 수 있습니다.
  • 데이터 소스를 스택에 연결하기 위한 Amazon Kendra 인덱스.
  • Amazon Kendra 인덱스를 생성하는 데 사용되는 문서 세트입니다. 이 솔루션에서는 다음의 압축 파일을 사용하고 있습니다. AWS 백서.

AWS CloudFormation을 사용하여 솔루션 배포

CloudFormation 템플릿을 배포하려면 다음 단계를 완료하십시오.

  1. 왼쪽 메뉴에서
    지능형 검색을 통해 Amazon S3 데이터에서 통찰력 확보 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

AWS CloudFormation 콘솔로 리디렉션됩니다.

  1. 매개변수를 수정하거나 기본값을 사용할 수 있습니다.
    • Amazon Kendra 데이터 원본 이름은 스택 이름 및 연결된 버킷 이름을 사용하여 자동으로 설정됩니다.
    • 럭셔리 Kendra색인 ID, 데이터 원본을 연결할 Amazon Kendra 인덱스 ID를 입력합니다.
    • 다음을 사용하여 데이터 소스 동기화를 실행할 시기를 선택할 수도 있습니다. KendraSyncSchedule. 기본적으로 다음으로 설정되어 있습니다. 주문형.
    • 럭셔리 S3버킷 이름, 이미 만든 버킷을 입력하거나 비워 둘 수 있습니다. 비워두면 버킷이 생성됩니다. 어느 쪽이든 버킷은 Amazon Kendra 데이터 원본으로 사용됩니다. 이 게시물에서는 비워둡니다.

지능형 검색을 통해 Amazon S3 데이터에서 통찰력 확보 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

스택이 Amazon Kendra 인덱스에 연결된 Amazon Kendra 데이터 원본을 배포하는 데 약 5분이 걸립니다.

  1. 출력 CloudFormation 스택의 탭에서 생성된 버킷 이름, 데이터 소스 이름 및 ID를 복사합니다.

생성된 스택은 하나의 역할을 배포합니다. <stack-name>-KendraDataSourceRole. 생성하는 각 데이터 원본에 대한 역할을 배포하는 것이 모범 사례입니다. 이 역할은 Amazon Kendra 데이터 소스에 Amazon Kendra 인덱스에서 파일을 추가하거나 제거하고 Amazon S3 버킷에서 객체를 가져오는 권한을 부여합니다.

S3 버킷에 파일 업로드

Amazon Kendra는 .html, .pdf, .csv, .json, .docx 및 .ppt와 같은 여러 문서 유형을 처리할 수 있습니다. 단일 인덱스에 문서 조합을 포함할 수도 있습니다. 해당 문서에 포함된 텍스트는 제공된 Amazon Kendra 인덱스로 인덱싱됩니다. 60개가 넘는 PDF 파일을 사용하여 모범 사례, 데이터베이스, 기계 학습, 보안 등에 대한 AWS 주제의 키워드를 검색할 수 있습니다. 다운로드. 예를 들어 AWS 백서에서 캐싱에 대한 자세한 정보를 찾을 수 있는 위치를 알고 싶다면 Amazon Kendra가 데이터베이스 및 모범 사례와 관련된 문서를 찾는 데 도움을 줄 수 있습니다.

다운로드할 때 AWS 백서.zip 파일을 열고 압축을 풀면 다음 XNUMX개의 폴더가 표시됩니다. Best_Practices, Databases, General, Machine_Learning, Security, Well_Architected. 이 폴더를 S3 버킷에 업로드합니다.

지능형 검색을 통해 Amazon S3 데이터에서 통찰력 확보 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

Amazon Kendra 데이터 소스 동기화

Amazon Kendra 데이터 소스 데이터는 미리 구성된 일정에 따라 데이터를 동기화하거나 온디맨드 방식으로 수동으로 트리거할 수 있습니다. 기본적으로 CloudFormation 템플릿은 필요에 따라 수동으로 트리거되도록 온디맨드 동기화 일정에 대한 데이터 소스를 구성합니다.

AWS Amazon Kendra 콘솔에서 동기화 작업을 수동으로 트리거하려면 아래에서 CloudFormation 스택 배포의 일부로 사용되는 Amazon Kendra 인덱스로 이동합니다. 데이터 관리 탐색 창에서 데이터 소스 그런 다음 지금 동기화. 이렇게 하면 S3 버킷이 데이터 원본과 동기화됩니다.

지능형 검색을 통해 Amazon S3 데이터에서 통찰력 확보 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

Amazon Kendra 데이터 소스가 동기화를 시작하면 현재 동기화 상태 as 동기화.

지능형 검색을 통해 Amazon S3 데이터에서 통찰력 확보 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

데이터 소스가 완료되면 마지막 동기화 상태 로 나타납니다 성공현재 동기화 상태 as 유휴. 이제 인덱싱된 콘텐츠를 검색할 수 있습니다.

지능형 검색을 통해 Amazon S3 데이터에서 통찰력 확보 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

동기화 일정 구성

템플릿을 사용하면 매시간 0분(예: 13:00, 14:00 또는 15:00)에 일정을 실행할 수 있습니다. 매일 00:00 UTC에 실행할 수도 있습니다. 그만큼 주간 설정은 월요일 00:00 UTC에 실행되며 월간 회원 설정은 매월 00일 00:XNUMX UTC에 실행됩니다.

Amazon Kendra 데이터 원본이 생성된 후 일정을 변경하려면 행위 메뉴, 선택 편집. 아래에 동기화 설정 구성, 당신은 동기화 규칙 일정 안내

지능형 검색을 통해 Amazon S3 데이터에서 통찰력 확보 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

$XNUMX Million 미만 진동수, 당신은 시간별, 매일, 주간, 관습, 이 모든 기능을 통해 분 단위로 동기화를 예약할 수 있습니다.

제외 패턴 추가

제공된 CloudFormation 템플릿을 사용하면 제외 패턴을 추가할 수 있습니다. 기본적으로 .png 및 .jpg 파일은 제외 패턴 매개변수. 추가 파일 형식은 제외 패턴에 쉼표로 구분된 목록으로 추가할 수 있습니다. 비슷하게, 포함 패턴 포함 패턴을 설정하기 위해 쉼표 목록 파일 형식을 추가하는 매개변수를 사용할 수 있습니다. 포함 패턴을 제공하지 않으면 제외 매개변수에 포함된 파일을 제외한 모든 파일이 인덱싱됩니다.

정리

비용을 피하려면 AWS CloudFormation 콘솔에서 스택을 삭제할 수 있습니다. 에 스택 페이지에서 생성한 스택을 선택하고 ., 스택 삭제를 확인합니다.

지능형 검색을 통해 Amazon S3 데이터에서 통찰력 확보 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

S3 버킷을 제공하지 않은 경우 스택이 버킷을 생성합니다. 버킷이 비어 있으면 자동으로 삭제됩니다. 그렇지 않으면 폴더를 비우고 수동으로 삭제해야 합니다. 버킷을 제공했다면 비어 있어도 삭제되지 않습니다. Amazon Kendra 인덱스는 삭제되지 않습니다. 스택에서 생성된 Amazon Kendra 데이터 원본만 삭제됩니다.

결론

이 게시물에서는 S3 버킷의 텍스트 문서를 Amazon Kendra 인덱스와 쉽게 동기화할 수 있는 CloudFormation 템플릿을 제공했습니다. 이 솔루션은 일관되고 반복 가능한 방식으로 몇 번의 클릭만으로 문서를 쿼리하는 데 필요한 모든 구성 요소를 생성할 수 있기 때문에 인덱싱하려는 여러 S3 버킷이 있는 경우에 유용합니다. Amazon Kendra에서 이미지 기반 텍스트 문서를 처리하는 방법도 확인할 수 있습니다. 특정 일정 패턴에 대한 자세한 내용은 다음을 참조하십시오. 규칙에 대한 일정 표현식.

의견을 남기고 다음에서 Amazon Kendra 인덱스 생성에 대해 자세히 알아보십시오. Amazon Kendra Essentials+ 워크숍.

예제 코드를 만들고 이 게시물의 콘텐츠를 컴파일하는 데 도움을 준 Jose Mauricio Mani Yanez에게 특별히 감사드립니다.


저자,

지능형 검색을 통해 Amazon S3 데이터에서 통찰력 확보 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.라제시 쿠마르 라비 Amazon Kendra 및 생성 AI를 사용한 지능형 문서 검색을 전문으로 하는 Amazon Web Services의 AI/ML 전문 솔루션 아키텍트입니다. 그는 건축가이자 문제 해결사이며 새로운 아이디어 개발에 기여합니다. 그는 걷는 것을 좋아하고 직장 밖에서 짧은 하이킹 여행을 가는 것을 좋아합니다.

타임 스탬프 :

더보기 AWS 기계 학습