Amazon Kendra 지능형 순위 및 OpenSearch 플러그인으로 더 스마트한 검색 결과 얻기

플라톤에 의해 재발행

팔로워 : 0

오픈 소스 또는 상용 검색 엔진을 사용하여 구조화되지 않은 데이터(예: Wiki, 정보 제공 웹 사이트, 셀프 서비스 도움말 페이지, 내부 문서 등)에 대한 검색 응용 프로그램을 구축할 기회가 있었다면, 관련 검색 결과를 얻는 것과 관련된 본질적인 정확성 문제에 익숙할 것입니다. 검색이 일치하는 구성 요소 키워드 및 용어로 축소되기 때문에 쿼리와 문서의 의도된 의미가 손실될 수 있습니다. 결과적으로 올바른 단어를 포함할 수 있는 결과를 얻더라도 항상 사용자와 관련이 있는 것은 아닙니다. 콘텐츠의 의미 또는 시맨틱을 사용자 쿼리의 의도와 일치시키는 기준으로 문서 순위를 매길 수 있도록 검색 엔진이 더 똑똑해져야 합니다.

아마존 켄드라 문서 수집을 자동화하고 여러 데이터 소스의 콘텐츠를 기반으로 매우 정확한 검색 및 FAQ 결과를 제공하는 완전히 관리되는 지능형 검색 서비스를 제공합니다. Amazon Kendra로 마이그레이션하지 않았고 검색 결과의 품질을 개선하려는 경우 기존 검색 솔루션에서 자체 관리형 OpenSearch에 Amazon Kendra Intelligent Ranking을 사용할 수 있습니다.

새로운 제품을 소개하게 되어 기쁩니다. 자체 관리형 OpenSearch를 위한 Amazon Kendra Intelligent Ranking, 및 해당 컴패니언 플러그인 오픈 검색 검색 엔진! 이제 마이그레이션하거나 OpenSearch 인덱스를 복제하거나 애플리케이션을 다시 작성할 필요 없이 OpenSearch 문서 쿼리에 지능형 순위를 쉽게 추가할 수 있습니다. 자체 관리형 OpenSearch용 Amazon Kendra Intelligent Ranking과 완전 관리형 Amazon Kendra 서비스의 차이점은 전자는 검색 결과에 대해 강력한 의미론적 재순위를 제공하지만 후자는 추가 검색 정확도 개선 및 기능(예: 증분 학습, 질문, 질문)을 제공한다는 것입니다. 응답, FAQ 일치 및 내장 커넥터. 완전 관리형 서비스에 대한 자세한 내용은 Amazon Kendra 서비스 페이지.

자체 관리형 OpenSearch용 Amazon Kendra Intelligent Ranking을 사용하면 이전 결과는 다음과 같습니다.

검색어 : 백악관의 주소는 무엇입니까?

조회수 1(최고): 대통령은 오늘 백악관에서 대국민 연설을 했다.

히트2: 백악관 위치: 1600 Pennsylvania Avenue NW, Washington, DC 20500

다음과 같이 됩니다.

검색어 : 백악관의 주소는 무엇입니까?

조회수 1(최고): 백악관 위치: 1600 Pennsylvania Avenue NW, Washington, DC 20500

히트2: 대통령은 오늘 백악관에서 대국민 연설을 했다.

이 게시물에서는 자체 관리형 OpenSearch를 위한 Amazon Kendra Intelligent Ranking을 시작하는 방법을 보여주고 이 기능의 힘과 가치를 보여주는 몇 가지 예를 제공합니다.

자체 관리형 OpenSearch를 위한 Amazon Kendra Intelligent Ranking의 구성 요소

사전 조건

이 자습서에서는 bash 터미널이 필요합니다. Linux, Mac및 Linux 용 Windows 서브 시스템및 AWS 계정. 힌트: Amazon Cloud9 인스턴스 또는 아마존 엘라스틱 컴퓨트 클라우드 (Amazon EC2) 인스턴스.

귀하는 :

시스템에 아직 설치되지 않은 경우 Docker를 설치합니다.
최신 설치 AWS 명령 줄 인터페이스 (AWS CLI), 아직 설치되지 않은 경우.
Amazon Kendra Intelligent Ranking 플러그인을 활성화하여 OpenSearch 컨테이너를 생성하고 시작합니다.
테스트 색인을 생성하고 일부 샘플 문서를 로드합니다.
지능형 순위 지정 여부에 관계없이 몇 가지 쿼리를 실행하고 그 차이에 적절한 인상을 받으십시오!

Docker 설치

도커(즉, docker 와 docker-compose)가 환경에 아직 설치되지 않은 경우 설치합니다. 보다 도커 가져오기 방향.

AWS CLI 설치

아직 최신 버전의 AWS CLI를 설치하지 않은 경우 지금 설치하고 구성하십시오(AWS 참조 CLI 시작하기). 기본 AWS 사용자 자격 증명에 관리자 액세스 권한이 있거나 AWS 관리자에게 사용자 권한에 다음 정책을 추가하도록 요청해야 합니다.

{ "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Allow", "Action": "kendra-ranking:*", "Resource": "*" } ]
}

Quickstart 스크립트를 사용하여 OpenSearch 생성 및 시작

를 다운로드 search_processing_kendra_quickstart.sh 스크립트:

wget https://raw.githubusercontent.com/msfroh/search-relevance/quickstart-script/helpers/search_processing_kendra_quickstart.sh
chmod +x search_processing_kendra_quickstart.sh

실행 파일로 만드십시오.

chmod +x ./search_processing_kendra_quickstart.sh

빠른 시작 스크립트:

AWS 계정에서 Amazon Kendra Intelligent Ranking Rescore Execution Plan을 생성합니다.
OpenSearch 및 대시보드용 Docker 컨테이너를 생성합니다.
Kendra Intelligent Ranking Service를 사용하도록 OpenSearch를 구성합니다.
OpenSearch 서비스를 시작합니다.
서비스 이용에 도움이 되는 안내를 제공합니다.

사용 --help 명령줄 옵션을 보기 위한 옵션:

./search_processing_kendra_quickstart.sh --help

이제 스크립트를 실행하여 Amazon Kendra 및 OpenSearch 설정을 자동화합니다.

./search_processing_kendra_quickstart.sh --create-execution-plan

그게 다야! OpenSearch 및 OpenSearch 대시보드 컨테이너가 이제 실행 중입니다.

빠른 시작 스크립트의 출력 메시지를 읽고 편리한 스크립트를 실행할 수 있는 디렉터리를 기록해 둡니다. docker-compose 명령 및 cleanup_resources.sh 스크립트.

테스트 쿼리를 시도하여 OpenSearch 컨테이너에 연결할 수 있는지 확인하십시오.

curl -XGET --insecure -u 'admin:admin' 'https://localhost:9200'

오류가 발생하면 curl(35):OpenSSL SSL_connect: SSL_ERROR_SYSCALL in connection to localhost:9200, 이는 OpenSearch가 계속 진행되고 있음을 의미합니다. OpenSearch가 준비될 때까지 몇 분 정도 기다린 후 다시 시도하십시오.

테스트 색인 생성 및 샘플 문서 로드

아래 스크립트는 인덱스를 생성하고 샘플 문서를 로드하는 데 사용됩니다. 컴퓨터에 다음과 같이 저장하십시오. 대량 게시.sh:

#!/bin/bash
curl -u admin:admin -XPOST https://localhost:9200/_bulk --insecure --data-binary @$1 -H 'Content-Type: application/json'

아래 데이터 파일을 다음과 같이 저장하십시오. tinydocs.jsonl:

{ "create" : { "_index" : "tinydocs", "_id" : "tdoc1" } }
{"title": "WhiteHouse1", "body": "The White House is located at: 1600 Pennsylvania Avenue NW, Washington, DC 20500"}
{ "create" : { "_index" : "tinydocs", "_id" : "tdoc2" } }
{"title": "WhiteHouse2", "body": "The president delivered an address to the nation from the White House today."}

그리고 아래 데이터 파일을 다음과 같이 저장하십시오. dstinfo.jsonl:

(이 데이터는 일광 절약 시간제 기사).

{ "create" : { "_index" : "dstinfo", "_id" : "dst1" } }
{"title": "Daylight Saving Time", "body": "Daylight saving time begins on the second Sunday in March at 2 a.m., and clocks are set an hour ahead, according to the Farmers’ Almanac. It lasts for eight months and ends on the first Sunday in November, when clocks are set back an hour at 2 a.m."}
{ "create" : { "_index" : "dstinfo", "_id" : "dst2" } }
{"title":"History of daylight saving time", "body": "Founding Father Benjamin Franklin is often deemed the brain behind daylight saving time after a letter he wrote in 1784 to a Parisian newspaper, according to the Farmers’ Almanac. But Franklin’s letter suggested people simply change their routines and schedules — not the clocks — to the sun’s cycles. Perhaps surprisingly, daylight saving time had a soft rollout in the United States in 1883 to solve issues with railroad accidents, according to the U.S. Bureau of Transportation Services. It was instituted across the United States in 1918, according to the Congressional Research Service. In 2005, Congress changed it to span from March to November instead of its original timeframe of April to October."}
{ "create" : { "_index" : "dstinfo", "_id" : "dst3" } }
{"title": "Daylight saving time participants", "body":"The United States is one of more than 70 countries that follow some form of daylight saving time, according to World Data. States can individually decide whether or not to follow it, according to the Farmers’ Almanac. Arizona and Hawaii do not, nor do parts of northeastern British Columbia in Canada. Puerto Rico and the Virgin Islands, both U.S. territories, also don’t follow daylight saving time, according to the Congressional Research Service."}
{ "create" : { "_index" : "dstinfo", "_id" : "dst4" } }
{"title":"Benefits of daylight saving time", "body":"Those in favor of daylight saving time, whether eight months long or permanent, also vouch that it increases tourism in places such as parks or other public attractions, according to National Geographic. The longer days can keep more people outdoors later in the day."}

스크립트를 실행 가능하게 만듭니다.

chmod +x ./bulk_post.sh

이제 대량 게시.sh 아래 두 명령을 실행하여 인덱스를 생성하고 데이터를 로드하는 스크립트:

./bulk_post.sh tinydocs.jsonl
./bulk_post.sh dstinfo.jsonl

샘플 쿼리 실행

쿼리 스크립트 준비

OpenSearch 쿼리는 OpenSearch를 사용하여 JSON으로 정의됩니다. 쿼리 도메인 특정 언어(DSL). 이 게시물에서는 다음을 사용합니다. 리눅스 컬 HTTPS를 사용하여 로컬 OpenSearch 서버에 쿼리를 보내는 명령입니다.

이를 쉽게 하기 위해 쿼리 DSL을 구성하고 이를 OpenSearch로 보내는 두 개의 작은 스크립트를 정의했습니다.

첫 번째 스크립트는 두 개의 문서 필드에 일반 OpenSearch 텍스트 일치 쿼리를 생성합니다. 제목 와 몸. 자세한 내용은 OpenSearch 설명서를 참조하십시오. 다중 일치 쿼리 구문. 우리는 쿼리를 매우 단순하게 유지했지만 나중에 대체 쿼리 유형을 정의하여 실험할 수 있습니다.

아래 스크립트를 다음과 같이 저장하십시오. query_nokendra.sh:

#!/bin/bash
curl -XGET "https://localhost:9200/$1/_search?pretty" -u 'admin:admin' --insecure -H 'Content-Type: application/json' -d' { "query": { "multi_match": { "fields": ["title", "body"], "query": "'"$2"'" } }, "size": 20 } '

두 번째 스크립트는 첫 번째 스크립트와 유사하지만 이번에는 OpenSearch가 Amazon Kendra Intelligent Ranking 서비스를 사용하여 원래 결과의 순위를 재지정하기 위한 사후 처리 단계로 Amazon Kendra Intelligent Ranking 플러그인을 호출하도록 지시하는 쿼리 확장을 추가합니다.

XNUMXD덴탈의 size 속성은 순위 재지정을 위해 Kendra로 전송되는 OpenSearch 결과 문서의 수를 결정합니다. 여기서는 순위 재지정을 위해 최대 20개의 결과를 지정합니다. 두 가지 속성, title_field (선택 사항) 및 body_field (필수) 지능형 순위 지정에 사용되는 문서 필드를 지정합니다.

아래 스크립트를 다음과 같이 저장하십시오. query_kendra.sh:

#!/bin/bash
curl -XGET "https://localhost:9200/$1/_search?pretty" -u 'admin:admin' --insecure -H 'Content-Type: application/json' -d' { "query": { "multi_match": { "fields": ["title", "body"], "query": "'"$2"'" } }, "size": 20, "ext": { "search_configuration": { "result_transformer": { "kendra_intelligent_ranking": { "order": 1, "properties": { "title_field": "title", "body_field": "body" } } } } } } '

두 스크립트를 모두 실행 가능하게 만드십시오.

chmod +x ./query_*kendra.sh

초기 쿼리 실행

간단한 쿼리부터 시작하세요. 작은 문서 게시물 소개에 사용된 예를 재현하기 위한 색인.

사용 query_nokendra.sh 백악관 주소를 검색하는 스크립트:

./query_nokendra.sh tinydocs "what is the address of White House"

아래와 같은 결과가 표시됩니다. OpenSearch 텍스트 일치 쿼리에 의해 할당된 점수로 순위가 매겨진 두 결과의 순서를 관찰하십시오. 최고 득점 결과에 키워드가 포함되어 있지만 주소 와 백악관, 의미가 질문의 의도와 일치하지 않는 것이 분명합니다. 키워드는 일치하지만 시맨틱은 일치하지 않습니다.

{ "took" : 2, "timed_out" : false, "_shards" : { "total" : 1, "successful" : 1, "skipped" : 0, "failed" : 0 }, "hits" : { "total" : { "value" : 2, "relation" : "eq" }, "max_score" : 1.1619741, "hits" : [ { "_index" : "tinydocs", "_id" : "tdoc2", "_score" : 1.1619741, "_source" : { "title" : "Whitehouse2", "body" : "The president delivered an address to the nation from the White House today." } }, { "_index" : "tinydocs", "_id" : "tdoc1", "_score" : 1.0577903, "_source" : { "title" : "Whitehouse1", "body" : "The White House is located at: 1600 Pennsylvania Avenue NW, Washington, DC 20500" } } ] }
}

이제 다음을 사용하여 Amazon Kendra Intelligent Ranking으로 쿼리를 실행해 보겠습니다. query_kendra.sh 스크립트:

./query_kendra.sh tinydocs "what is the address of White House"

이번에는 아래와 같이 다른 순서로 결과가 표시됩니다. Amazon Kendra Intelligent Ranking 서비스는 점수 값을 다시 할당하고 쿼리 의도와 더 일치하는 문서에 더 높은 점수를 할당했습니다. 키워드 관점에서 이는 단어가 포함되어 있지 않기 때문에 검색 결과가 좋지 않습니다. 주소; 그러나 의미론적 관점에서 볼 때 더 나은 응답입니다. 이제 Amazon Kendra Intelligent Ranking 플러그인 사용의 이점을 확인했습니다!

{ "took" : 522, "timed_out" : false, "_shards" : { "total" : 1, "successful" : 1, "skipped" : 2, "failed" : 0 }, "hits" : { "total" : { "value" : 2, "relation" : "eq" }, "max_score" : 0.3798389, "hits" : [ { "_index" : "tinydocs", "_id" : "tdoc1", "_score" : 0.3798389, "_source" : { "title" : "Whitehouse1", "body" : "The White House is located at: 1600 Pennsylvania Avenue NW, Washington, DC 20500" } }, { "_index" : "tinydocs", "_id" : "tdoc2", "_score" : 0.25906953, "_source" : { "title" : "Whitehouse2", "body" : "The president delivered an address to the nation from the White House today." } } ] }
}

추가 쿼리 실행 및 검색 결과 비교

동일한 개념이 다른 데이터 및 쿼리에서 어떻게 작동하는지 확인하려면 지금 dstinfo 인덱스를 사용해 보십시오. 스크립트를 사용할 수 있는 동안 query_nokendra.sh 와 query_kendra.sh 명령줄에서 쿼리를 만들려면 대신 OpenSearch Dashboards 검색 결과 비교 플러그인 쿼리를 실행하고 검색 결과를 비교합니다.

로컬 Dashboards URL을 브라우저에 붙여넣습니다. http://localhost:5601/app/searchRelevance – / 대시보드 비교 도구에 액세스합니다. 기본 자격 증명 사용: 사용자 이름: 관리자, 비밀번호 : 관리자.

검색창에 다음을 입력합니다. what is daylight saving time?

쿼리 1 및 쿼리 2의 경우 색인, 고르다 dstinfo.

아래의 DSL 쿼리를 복사하여 질문 쿼리 1 아래 패널. 키워드 검색 쿼리입니다.

{ "query": { "multi_match": { "fields": ["title", "body"], "query": "%SearchText%" } }, "size": 20
}

이제 아래의 DSL 쿼리를 복사하여 질문 패널 아래 쿼리 2. 이 쿼리는 자체 관리형 OpenSearch용 Amazon Kendra Intelligent Ranking 플러그인을 호출하여 검색 결과의 의미 체계 재순위 지정을 수행합니다.

{ "query": { "multi_match": { "fields": ["title", "body"], "query": "%SearchText%" } }, "size": 20, "ext": { "search_configuration": { "result_transformer": { "kendra_intelligent_ranking": { "order": 1, "properties": { "title_field": "title", "body_field": "body" } } } } }
}

선택 검색 버튼을 눌러 쿼리를 실행하고 검색 결과를 관찰합니다. 결과 1에서 마지막으로 순위가 매겨진 적중은 아마도 실제로 이 쿼리에 대한 가장 관련성이 높은 응답일 것입니다. 결과 2에서 Amazon Kendra Intelligent Ranking의 출력은 가장 관련성이 높은 답변이 올바르게 첫 번째로 순위를 매겼습니다.

이제 자체 관리형 OpenSearch에 대한 Amazon Kendra Intelligent Ranking을 경험했으므로 자신의 몇 가지 쿼리로 실험해 보십시오. 이미 로드한 데이터를 사용하거나 대량 게시.sh 자신의 데이터를 로드하는 스크립트.

Amazon Kendra 순위 재점수 API 살펴보기

이 게시물에서 본 것처럼 OpenSearch용 Amazon Kendra Intelligent Ranking 플러그인은 검색 결과의 의미론적 재순위 지정에 편리하게 사용할 수 있습니다. 그러나 자체 관리형 OpenSearch용 Amazon Kendra Intelligent Ranking 플러그인을 지원하지 않는 검색 서비스를 사용하는 경우 다음을 사용할 수 있습니다. 재채점 Amazon Kendra Intelligent Ranking API에서 직접 작동합니다.

위에서 사용한 예제 쿼리의 검색 결과를 사용하여 이 API를 사용해 보십시오. 백악관의 주소는 무엇입니까?

먼저 다음을 실행하여 실행 계획 ID를 찾습니다.

aws kendra-ranking list-rescore-execution-plans

아래 JSON에는 원래 OpenSearch 점수와 함께 원래 OpenSearch 일치 쿼리에서 반환된 검색 쿼리 및 두 개의 결과가 포함되어 있습니다. 바꾸다 {kendra-execution-plan_id} Execution Plan Id(위에서)를 사용하여 다른 이름으로 저장 rescore_input.json:

{ "RescoreExecutionPlanId": "{kendra-execution-plan_id}", "SearchQuery": "what is the address of White House", "Documents": [ { "Id": "tdoc1", "Title": "Whitehouse1", "Body": "The president delivered an address to the nation from the White House today.", "OriginalScore": 1.4484794 }, { "Id": "tdoc2", "Title": "Whitehouse2", "Body": "The White House is located at: 1600 Pennsylvania Avenue NW, Washington, DC 20500", "OriginalScore": 1.2401118 } ]
}

아래 CLI 명령을 실행하여 Amazon Kendra Intelligent Ranking 서비스를 사용하여 이 문서 목록을 다시 채점하십시오.

aws kendra-ranking rescore --cli-input-json "`cat rescore_input.json`"

이를 성공적으로 실행한 결과는 다음과 같습니다.

{ "ResultItems": [ { "Score": 0.39321771264076233, "DocumentId": "tdoc2" }, { "Score": 0.328217089176178, "DocumentId": "tdoc1" } ], "RescoreId": "991459b0-ca9e-4ba8-b0b3-1e8e01f2ad15"
}

예상대로 문서 tdoc2(포함 텍스트 본문 "백악관 위치: 1600 Pennsylvania Avenue NW, Washington, DC 20500”)는 이제 쿼리에 대해 의미론적으로 더 관련성이 높은 응답이므로 더 높은 순위를 갖습니다. 그만큼 ResultItems 출력의 목록에는 각 입력이 포함됩니다. DocumentId 그것의 새로운 Score, 내림차순 정렬 Score.

정리

실험이 완료되면 다음을 실행하여 Docker 컨테이너 및 Rescore Execution Plan을 종료하고 제거합니다. cleanup_resources.sh Quickstart 스크립트에 의해 생성된 스크립트, 예:

./opensearch-kendra-ranking-docker.xxxx/cleanup_resources.sh

결론

이 게시물에서는 자체 관리형 OpenSearch용 Amazon Kendra 지능형 순위 플러그인을 사용하여 기존 OpenSearch 검색 엔진 배포를 사용하면서 OpenSearch 문서 쿼리에 지능형 순위를 쉽게 추가하여 결과의 관련성 순위를 크게 개선하는 방법을 보여 주었습니다.

Amazon Kendra Intelligent Ranking을 사용할 수도 있습니다. 리스코어 API 직접 결과를 지능적으로 다시 채점하고 순위를 매깁니다. 자신의 응용 프로그램에서.

자체 관리형 OpenSearch에 대한 Amazon Kendra Intelligent Ranking 읽기 선적 서류 비치 이 기능에 대해 자세히 알아보고 프로덕션 애플리케이션에 적용할 계획을 시작하십시오.

저자에 관하여

아비나브 자와데카르 AWS의 AI/ML 언어 서비스 팀에서 Amazon Kendra에 중점을 둔 수석 솔루션 아키텍트입니다. Abhinav는 AWS 고객 및 파트너와 협력하여 AWS에서 지능형 검색 솔루션을 구축할 수 있도록 지원합니다.

밥 스트라 한 AWS Language AI Services 팀의 수석 솔루션 아키텍트입니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
플라토 블록체인. Web3 메타버스 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
출처: https://aws.amazon.com/blogs/machine-learning/get-smarter-search-results-with-the-amazon-kendra-intelligent-ranking-and-opensearch-plugin/

타임 스탬프 : 2023 년 1 월 9 일

타임 스탬프 : 2023 년 5 월 10 일

Amazon Kendra 지능형 순위 및 OpenSearch 플러그인으로 더 스마트한 검색 결과 얻기

플라톤에 의해 재발행

자체 관리형 OpenSearch를 위한 Amazon Kendra Intelligent Ranking의 구성 요소

사전 조건

Docker 설치

AWS CLI 설치

Quickstart 스크립트를 사용하여 OpenSearch 생성 및 시작

테스트 색인 생성 및 샘플 문서 로드

샘플 쿼리 실행

쿼리 스크립트 준비

초기 쿼리 실행

추가 쿼리 실행 및 검색 결과 비교

Amazon Kendra 순위 재점수 API 살펴보기

정리

결론

저자에 관하여

더보기 AWS 기계 학습

Amazon Kendra의 맞춤법 검사기로 검색 정확도 향상

Amazon Lex를 사용하여 DTMF 슬롯 및 순서가 지정된 재시도 프롬프트 구성

ByteDance는 AWS Inferentia를 사용하여 지연 시간을 줄이고 처리량을 늘리면서 추론 비용을 최대 60% 절감합니다.

Amazon SageMaker Autopilot으로 배치 예측 수행

QnABot 및 Amazon Lex를 사용하여 Genesys Cloud용 AI 기반 가상 에이전트 구축

Amazon SageMaker JupyterLab 확장을 사용하여 모든 JupyterLab 환경에서 노트북 예약 | 아마존 웹 서비스

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정