VPC 지원이 포함된 Amazon Kendra S3 커넥터를 사용하여 정확한 답변 검색

플라톤에 의해 재발행

팔로워 : 0

아마존 켄드라 사용하기 쉬운 지능형 검색 서비스로 검색 기능을 애플리케이션과 통합하여 사용자가 다음과 같은 데이터 소스에 저장된 정보를 찾을 수 있습니다. 아마존 단순 스토리지 서비스 , OneDrive 및 Google 드라이브; SalesForce, SharePoint 및 Service Now와 같은 애플리케이션; 다음과 같은 관계형 데이터베이스 Amazon 관계형 데이터베이스 서비스 (아마존 RDS). Amazon Kendra 커넥터를 사용하면 여러 콘텐츠 리포지토리의 데이터를 Amazon Kendra 인덱스와 동기화할 수 있습니다. 최종 사용자가 자연어로 질문하면 Amazon Kendra는 기계 학습(ML) 알고리즘을 사용하여 컨텍스트를 이해하고 가장 관련성 높은 답변을 반환합니다.

Amazon Kendra의 S3 커넥터는 S3 버킷에 저장된 관련 메타데이터 및 문서 인덱싱을 지원합니다. VPC 내부에서 실행되는 애플리케이션이 특정 S3 버킷에만 액세스할 수 있도록 하고 많은 경우 연결이 퍼블릭 엔드포인트에 도달하기 위해 인터넷을 통과하면 안 되는 경우가 많습니다. 그러나 많은 고객이 여러 S3 버킷을 소유하고 있으며 그 중 일부는 다음을 통해 액세스할 수 있습니다. Amazon S3용 VPC 엔드포인트. 이 게시물에서는 업데이트된 Amazon Kendra S3 커넥터를 VPC 지원과 함께 사용하여 VPC 엔드포인트를 사용하는 방법을 설명합니다.

이 게시물은 VPC 내에서만 액세스할 수 있는 S3 버킷에 저장된 문서를 연결하여 Amazon Kendra를 사용하여 AWS에서 엔터프라이즈 검색 엔진을 만드는 데 도움이 되는 단계를 제공합니다. 자세한 내용은 다음을 참조하십시오. Amazon Kendra로 엔터프라이즈 검색 향상. 이 게시물은 또한 Amazon S3용 커넥터를 구성하는 방법과 데이터 원본 콘텐츠가 변경될 때 인덱스가 데이터 원본과 동기화되는 방식을 구성하는 방법을 보여줍니다.

솔루션 개요

세 가지 주요 개선 사항이 있습니다. 아마존 켄드라 S3 커넥터 :

VPC 지원 – 커넥터는 이제 다음 사용을 지원합니다. 아마존 가상 프라이빗 클라우드 (Amazon VPC) 네트워크. 이제 다음을 사용하여 Amazon S3에 안전하게 연결할 수 있습니다. Amazon S3용 VPC 엔드포인트 VPC 연결, 서브넷 및 보안 그룹을 지정합니다.
두 가지 동기화 모드 – Amazon S3의 데이터 원본과 Amazon Kendra 인덱스의 동기화를 예약할 때 이제 전체 동기화 모드 또는 신규, 수정 및 삭제된 문서 동기화 모드에서 실행하도록 선택할 수 있습니다. 전체 동기화 모드에서는 동기화가 실행될 때마다 크롤링하도록 구성된 루트 경로 아래의 모든 폴더에 있는 개체를 스캔하고 모든 문서를 다시 수집합니다. 전체 새로 고침을 사용하면 새 데이터 원본을 삭제하고 만들 필요 없이 인덱스를 재설정할 수 있습니다. 새로 만들기, 수정 및 삭제된 문서 동기화 모드에서는 동기화 작업이 실행될 때마다 마지막 크롤링 이후에 추가, 수정 또는 삭제된 개체만 처리합니다. 증분 크롤링은 정기적으로 새 개체를 기존 데이터 원본에 추가하는 데이터 세트와 함께 사용할 때 실행 시간과 비용을 줄일 수 있습니다.
문서에 대한 추가 포함 및 제외 패턴: 접두사 외에도 색인에서 문서를 포함하거나 제외하는 패턴을 도입하고 있습니다. 지원되는 두 가지 패턴 유형은 Unix 스타일 glob 또는 파일 유형입니다. 이제 데이터 원본에서 특정 폴더를 포함하거나 폴더, 파일 형식 또는 특정 파일을 제외하는 정규식 패턴을 추가할 수 있습니다. 이는 서로 다른 범주, 분류 및 파일 유형에 속하는 콘텐츠를 포함하는 공유 데이터 리포지토리에 유용할 수 있습니다.

사전 조건

이 연습에서는 다음과 같은 전제 조건이 있어야합니다.

문서 저장소 생성 및 구성

Amazon Kendra에서 인덱스를 생성하기 전에 문서를 S3 버킷에로드해야합니다. 이 섹션에는 S3 버킷을 생성하고 파일을 가져 와서 버킷에로드하는 지침이 포함되어 있습니다. 이 섹션의 모든 단계를 완료하면 Amazon Kendra가 사용할 수있는 데이터 소스가 있습니다.

에 AWS 관리 콘솔, 지역 목록에서 미국 동부(버지니아 북부) 또는 원하는 지역을 선택합니다. Amazon Kendra는 사용할 수 있습니다.
왼쪽 메뉴에서 서비스.
$XNUMX Million 미만 스토리지선택한다. S3.
Amazon S3 콘솔에서 버킷 만들기.
$XNUMX Million 미만 일반 구성다음 정보를 제공하십시오.
- 버킷 이름, 입력 kendrapost-{your account id}.
- 리전에서 Amazon Kendra 인덱스를 배포하는 데 사용하는 것과 동일한 리전을 선택합니다(이 게시물에서는 us-east-1).
- $XNUMX Million 미만 버킷 설정, for 공개 액세스 차단모든 것을 기본값으로 두십시오.
$XNUMX Million 미만 "계정 정보"에서모든 것을 기본값으로 두십시오.
왼쪽 메뉴에서 버킷 만들기.
다운로드 AWS_백서.zip 파일을 압축 해제하십시오.
Amazon S3 콘솔에서 방금 생성 한 버킷을 선택하고 가이드라가.
폴더 업로드 Best Practices, Databases, General및 Machine Learning 압축을 푼 파일에서

버킷 내부에 이제 XNUMX개의 폴더가 표시됩니다.

데이터 소스 추가

A 데이터 소스 인덱싱 할 문서를 저장하는 위치입니다. 데이터 소스를 Amazon Kendra 인덱스와 자동으로 동기화하여 소스 리포지토리의 새 문서, 업데이트 또는 삭제 된 문서가 검색에 올바르게 반영되도록 할 수 있습니다.

이 섹션의 모든 단계를 완료하면 Amazon Kendra에 연결된 데이터 원본이 생깁니다. 자세한 내용은 다음을 참조하십시오. 데이터 소스에서 문서 추가.

계속하기 전에 인덱스 생성이 완료되었고 인덱스가 다음과 같이 표시되는지 확인하십시오. 최근활동. 자세한 내용은 다음을 참조하십시오. 인덱스 생성.

Amazon Kendra 콘솔에서 인덱스로 이동합니다(이 게시물의 경우 kendra-blog-index).
에 kendra-blog-index 페이지에서 선택 데이터 소스 추가.
Amazon S3에서 선택 커넥터 추가.

Amazon Kendra가 지원하는 다양한 데이터 소스에 대한 자세한 내용은 다음을 참조하십시오. 데이터 소스에서 문서 추가.

. 데이터 소스 세부 정보 지정 섹션 데이터 소스 이름, 입력 aws_white_paper.
럭셔리 상품 설명, 입력 AWS White Paper documentation.
왼쪽 메뉴에서 다음 보기.

이제 당신은 AWS 자격 증명 및 액세스 관리 (IAM) Amazon Kendra의 역할.

. 액세스 및 보안 정의 페이지 IAM 역할 섹션 선택 새 역할 만들기.
역할 이름에 다음을 입력합니다. source-role (역할 이름 앞에 접두사 AmazonKendra-).
. VPC 및 보안 구성 섹션에서 VPC, 귀하의 의견을 입력하십시오. 서브넷 및 VPC 보안 그룹.

Amazon Kendra를 Amazon Virtual Private Cloud에 연결하는 방법에 대한 자세한 내용은 다음을 참조하십시오. VPC를 사용하도록 Amazon Kendra 구성.

왼쪽 메뉴에서 다음 보기.
. 동기화 설정 구성 페이지 데이터 소스 위치를 입력하십시오, 생성 한 S3 버킷을 입력하십시오. kendrapost-{your account id}.
휴가 메타 데이터 파일 접두사 폴더 위치 공백.

기본적으로 메타 데이터 파일은 문서와 동일한 디렉토리에 저장됩니다. 이러한 파일을 다른 폴더에 저장하려면 접두사를 추가하면됩니다. 자세한 내용은 Amazon S3 문서 메타데이터.

럭셔리 암호 해독 키 선택을 선택하지 않은 상태로 둡니다.
럭셔리 추가 구성특정 폴더 나 파일을 포함하거나 제외하는 패턴을 추가 할 수 있습니다. 이 게시물의 경우 기본값을 유지하십시오.
럭셔리 동기화 모드 선택 신규, 수정 또는 삭제된 문서 동기화.
럭셔리 진동수선택한다. 주문형 실행.

이 단계는 데이터 원본이 Amazon Kendra 인덱스와 동기화되는 빈도를 정의합니다.

왼쪽 메뉴에서 다음 보기.
. 필드 매핑 설정 페이지에서 기본값을 유지합니다.
왼쪽 메뉴에서 다음 보기.
에 검토 및 생성 페이지에서 선택 데이터 소스 추가.
Kendra 인덱스로 다시 이동합니다.
당신의 선택 데이터 소스다음을 선택 지금 동기화 문서를 Amazon Kendra 인덱스와 동기화합니다.

이 프로세스의 기간은 인덱싱하는 문서 수에 따라 다릅니다. 이 사용 사례의 경우 15분이 걸릴 수 있으며 그 후 동기화가 성공했다는 메시지가 표시됩니다. 동기화 실행 기록 섹션에서 40개의 문서가 동기화되었음을 확인할 수 있습니다.

이제 Amazon Kendra 인덱스가 자연어 쿼리에 사용할 준비가 되었습니다. 인덱스를 검색할 때 Amazon Kendra는 제공된 모든 데이터와 메타데이터를 사용하여 검색 쿼리에 가장 정확한 답변을 반환합니다. Amazon Kendra 콘솔에서 다음을 선택합니다. 인덱싱된 콘텐츠 검색. 쿼리 필드에서 "어떤 AWS 서비스가 11%의 내구성을 가지고 있습니까?"와 같은 쿼리로 시작합니다.

인덱스 쿼리에 대한 자세한 내용은 다음을 참조하세요. 인덱스 쿼리

데이터 소스 변경 사항을 동기화하여 인덱스 검색

데이터 소스는 신규, 수정 또는 삭제된 데이터를 동기화하도록 설정되어 있습니다. 데이터 원본을 Amazon Kendra의 인덱스와 점진적으로 동기화하려면 먼저 새 문서를 S3 버킷에 로드해야 합니다.

Amazon S3 콘솔에서 방금 생성 한 버킷을 선택하고 가이드라가.
폴더 업로드 Security 및 Well_Architected 압축을 푼 파일에서

이제 S3 버킷에 추가된 새 문서를 동기화할 수 있습니다.

Amazon Kendra 콘솔에서 데이터 소스 그런 다음 S3 데이터 소스를 선택합니다.
왼쪽 메뉴에서 지금 동기화하십시오.

이 프로세스의 기간은 색인을 생성하는 문서 수에 따라 다릅니다. 이 사용 사례의 경우 15 분이 소요될 수 있으며 동기화가 완료되었다는 메시지가 표시됩니다.

. 실행 기록 동기화 섹션에서 20 개의 문서가 동기화되었음을 알 수 있습니다.

데이터 소스 재인덱싱

데이터 소스에 오래된 정보가 있는 시나리오에서 이제 데이터 소스를 삭제하고 새 데이터 소스를 만들지 않고도 데이터 소스를 다시 인덱싱할 수 있습니다. 동기화 모드를 수정하고 데이터 소스를 다시 인덱싱하려면 다음 단계를 완료하세요.

Amazon Kendra 콘솔에서 다음을 선택합니다. 데이터 소스 그런 다음 S3 데이터 소스를 선택합니다.
에 행위 메뉴, 선택 편집하다.
왼쪽 메뉴에서 다음 보기 이동하다 3단계 – 동기화 설정 페이지 구성.
동기화 모드의 경우 다음을 선택하십시오. 전체 동기화.
럭셔리 진동수선택한다. 주문형 실행.
왼쪽 메뉴에서 다음 보기.
. 필드 매핑 설정 페이지에서 기본값을 유지합니다.
왼쪽 메뉴에서 다음 보기.
에 검토 및 생성 페이지에서 선택 업데이트.

이제 S3 버킷에 추가된 새 문서를 동기화할 수 있습니다.

Amazon Kendra 콘솔에서 데이터 소스 그런 다음 S3 데이터 소스를 선택합니다.
왼쪽 메뉴에서 지금 동기화하십시오.

. 실행 기록 동기화 섹션을 보면 수정 열 아래에서 이전 동기화 상태와 관계없이 모든 문서가 동기화된 것을 확인할 수 있습니다.

정리

향후 비용 발생을 방지하고 사용하지 않는 역할 및 정책을 정리하려면 생성한 리소스를 삭제하십시오.

Amazon Kendra 인덱스에서 다음을 선택합니다. 색인 탐색 창에서
생성한 인덱스를 선택하고 행위 메뉴, 선택 ..
삭제를 확인하려면 메시지가 표시되면 Delete를 입력하고 ..

확인 메시지가 나타날 때까지 기다리십시오. 프로세스는 최대 15 분이 소요될 수 있습니다.

Amazon S3 콘솔에서 S3 버킷 삭제.
IAM 콘솔에서 해당 IAM 역할 삭제.

결론

이 게시물에서는 Amazon Kendra를 사용하여 인터넷 게이트웨이 또는 NAT(네트워크 주소 변환) 장치가 필요하지 않은 Amazon S3에 대한 보안 연결을 사용하여 엔터프라이즈 검색 서비스를 배포하는 방법을 배웠습니다. 동기화 모드를 사용하여 문서에 대해 더 빠른 동기화를 활성화할 수 있습니다.

우리가 다루지 않은 많은 추가 기능이 있습니다. 예를 들어:

Amazon Kendra 인덱스에 대한 사용자 기반 액세스 제어를 활성화하고 이미 구성한 액세스 제어를 기반으로 문서에 대한 액세스를 제한할 수 있습니다.
객체 속성을 Amazon Kendra 인덱스 속성에 매핑하고 검색 결과에 패싯, 검색 및 표시하도록 활성화할 수 있습니다.
Amazon Kendra 표 검색을 사용하여 웹 페이지(HTML 표)에서 정보를 빠르게 찾을 수 있습니다.

Amazon Kendra에 대해 자세히 알아보려면 다음을 참조하십시오. Amazon Kendra 개발자 안내서.

저자에 관하여

마란 찬드라세카란 엔터프라이즈 고객과 함께 일하는 Amazon Web Services의 선임 솔루션 아키텍트입니다. 일 외에는 여행을 좋아합니다.

아르준 아그라왈 AWS의 소프트웨어 엔지니어로 현재 엔터프라이즈 검색 엔진에서 Amazon Kendra 팀과 함께 일하고 있습니다. 그는 신기술과 실제 문제 해결에 열정적입니다. 일 외에는 하이킹과 여행을 좋아합니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
플라토 블록체인. Web3 메타버스 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
출처: https://aws.amazon.com/blogs/machine-learning/search-for-answers-accurately-using-amazon-kendra-s3-connector-with-vpc-support/

타임 스탬프 : 2023 년 3 월 2 일

타임 스탬프 : 14년 2023월 XNUMX일

VPC를 지원하는 Amazon Kendra S3 커넥터를 사용하여 정확하게 답변 검색

플라톤에 의해 재발행

솔루션 개요

사전 조건

문서 저장소 생성 및 구성

데이터 소스 추가

데이터 소스 변경 사항을 동기화하여 인덱스 검색

데이터 소스 재인덱싱

정리

결론

저자에 관하여

더보기 AWS 기계 학습

Amazon Translate를 사용하여 실시간으로 문서 번역 | 아마존 웹 서비스

Amazon Personalize에서 유사 항목에 대한 인기 조정 소개 | 아마존 웹 서비스

Amazon Transcribe | 아마존 웹 서비스

Amazon EKS 및 Torch Distributed Elastic을 사용한 분산 교육

Hugging Face Transformers로 텍스트 요약 프로젝트 설정: 2부

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정