Amazon Comprehend, 사용자 지정 엔터티 인식에 대한 더 낮은 주석 제한 발표

플라톤에 의해 재발행

팔로워 : 0

아마존 이해 문서에서 엔터티, 핵심 문구, 언어, 감정 및 기타 통찰력을 자동으로 추출하는 데 사용할 수 있는 자연어 처리(NLP) 서비스입니다. 예를 들어, 사람, 장소, 상업 품목, 날짜 및 수량과 같은 엔터티 감지를 즉시 시작할 수 있습니다. 아마존 종합 콘솔, AWS 명령 줄 인터페이스및 Amazon Comprehend API. 또한 일부가 아닌 엔터티를 추출해야 하는 경우 Amazon Comprehend 기본 제공 항목 유형, 사용자 지정 엔터티 인식 모델(또는 사용자 지정 엔터티 인식기) 제품 카탈로그의 항목 이름, 도메인별 식별자 등과 같이 특정 사용 사례와 더 관련이 있는 용어를 추출합니다. 기계 학습 라이브러리와 프레임워크를 사용하여 정확한 엔터티 인식기를 직접 만드는 것은 복잡하고 시간이 많이 소요되는 프로세스일 수 있습니다. Amazon Comprehend는 모델 교육 작업을 크게 간소화합니다. 문서 및 주석 데이터 세트를 로드하고 Amazon Comprehend 콘솔, AWS CLI 또는 API를 사용하여 모델을 생성하기만 하면 됩니다.

사용자 지정 엔터티 인식기를 교육하기 위해 다음과 같이 Amazon Comprehend에 교육 데이터를 제공할 수 있습니다. 주석 또는 엔티티 목록. 첫 번째 경우에는 문서 집합 내에서 엔터티가 발생하는 위치를 지정하는 주석이 있는 파일과 문서 컬렉션을 제공합니다. 또는 엔터티 목록을 사용하여 해당 엔터티 유형 레이블이 있는 엔터티 목록과 엔터티가 있을 것으로 예상되는 주석이 없는 문서 집합을 제공합니다. 두 접근 방식 모두 성공적인 사용자 지정 엔터티 인식 모델을 훈련하는 데 사용할 수 있습니다. 그러나 한 가지 방법이 더 나은 선택이 될 수 있는 상황이 있습니다. 예를 들어 특정 엔터티의 의미가 모호하고 컨텍스트에 따라 달라질 수 있는 경우 주석을 제공하면 엔터티를 추출할 때 컨텍스트를 더 잘 사용할 수 있는 Amazon Comprehend 모델을 생성하는 데 도움이 될 수 있으므로 주석을 제공하는 것이 좋습니다.

문서에 주석을 추가하려면 특히 주석의 품질과 양이 결과 엔티티 인식 모델에 영향을 미친다는 점을 고려하면 상당한 노력과 시간이 필요할 수 있습니다. 주석이 정확하지 않거나 너무 적으면 결과가 좋지 않을 수 있습니다. 주석 획득 프로세스를 설정하는 데 도움이 되도록 다음과 같은 도구를 제공합니다. 아마존 세이지 메이커 그라운드 진실, 문서에 더 빨리 주석을 달고 생성하는 데 사용할 수 있습니다. 증강 매니페스트 주석 파일. 그러나 Ground Truth를 사용하더라도 훈련 데이터 세트가 엔터티 인식기를 성공적으로 구축할 수 있을 만큼 충분히 큰지 확인해야 합니다.

지금까지 Amazon Comprehend 사용자 지정 엔터티 인식기 교육을 시작하려면 엔터티 유형당 최소 250개의 문서 모음과 최소 100개의 주석을 제공해야 했습니다. 오늘 우리는 Amazon Comprehend 기반 모델의 최근 개선 사항 덕분에 일반 텍스트 CSV 주석 파일로 인식기를 교육하기 위한 최소 요구 사항을 줄였다고 발표합니다. 이제 엔터티 유형당 25개의 문서와 XNUMX개의 주석으로 사용자 지정 엔터티 인식 모델을 구축할 수 있습니다. 새로운 서비스 제한에 대한 자세한 내용은 지침 및 할당량.

이 감소가 사용자 지정 엔터티 인식기 생성을 시작하는 데 어떻게 도움이 되는지 보여주기 위해 몇 가지 오픈 소스 데이터 세트와 수집된 성능 메트릭에 대해 몇 가지 테스트를 실행했습니다. 이 게시물에서는 벤치마킹 프로세스와 서브샘플링된 데이터 세트에서 작업하는 동안 얻은 결과를 안내합니다.

데이터세트 준비

이 게시물에서는 주석이 달린 문서를 사용하여 Amazon Comprehend 사용자 지정 엔터티 인식기를 훈련하는 방법을 설명합니다. 일반적으로 주석은 다음과 같이 제공될 수 있습니다. CSV 파일, Ground Truth에서 생성한 증강 매니페스트 파일또는 PDF 파일. 새로운 최소 요구 사항의 영향을 받는 주석 유형이기 때문에 CSV 일반 텍스트 주석에 중점을 둡니다. CSV 파일의 구조는 다음과 같아야 합니다.

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 0, 13, ENTITY_TYPE_1
documents.txt, 1, 0, 7, ENTITY_TYPE_2

관련 필드는 다음과 같습니다.

입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에 – 문서가 포함된 파일의 이름
라인 – 줄 0부터 시작하는 엔터티를 포함하는 줄의 번호
시작 오프셋 – 첫 번째 문자가 위치 0에 있다는 점을 고려하여 엔터티가 시작되는 위치를 표시하는 입력 텍스트의 문자 오프셋(줄 시작에 상대적)
끝 오프셋 – 엔터티가 끝나는 위치를 표시하는 입력 텍스트의 문자 오프셋
타입 – 정의하려는 엔티티 유형의 이름

또한 이 접근 방식을 사용할 때 교육 문서 모음을 한 줄에 하나의 문서 또는 파일당 하나의 문서가 있는 .txt 파일로 제공해야 합니다.

테스트를 위해 우리는 다음을 사용했습니다. SNIPS 자연어 이해 벤치마크, XNUMX개의 사용자 의도(AddToPlaylist, BookRestaurant, GetWeather, PlayMusic, RateBook, SearchCreativeWork, SearchScreeningEvent). 데이터 세트는 논문의 맥락에서 2018년에 출판되었습니다. Snips 음성 플랫폼: 개인별 음성 인터페이스를 위한 내장형 음성 언어 이해 시스템 Coucke, et al.

SNIPS 데이터 세트는 주석과 원시 텍스트 파일을 모두 압축한 JSON 파일 모음으로 구성됩니다. 다음은 데이터세트의 스니펫입니다.

{
   "annotations":{
      "named_entity":[
         {
            "start":16,
            "end":36,
            "extent":"within the same area",
            "tag":"spatial_relation"
         },
         {
            "start":40,
            "end":51,
            "extent":"Lawrence St",
            "tag":"poi"
         },
         {
            "start":67,
            "end":70,
            "extent":"one",
            "tag":"party_size_number"
         }
      ],
      "intent":"BookRestaurant"
   },
   "raw_text":"I'd like to eat within the same area of Lawrence St for a party of one"
}

엔티티 인식기를 만들기 전에 SNIPS 주석과 원시 텍스트 파일을 CSV 주석 파일과 .txt 문서 파일로 변환했습니다.

다음은 당사에서 발췌한 내용입니다. annotations.csv 파일 :

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 16, 36, spatial_relation
documents.txt, 0, 40, 51, poi
documents.txt, 0, 67, 70, party_size_number

다음은 당사에서 발췌한 내용입니다. documents.txt 파일 :

I'd like to eat within the same area of Lawrence St for a party of one
Please book me a table for three at an american gastropub 
I would like to book a restaurant in Niagara Falls for 8 on June nineteenth
Can you book a table for a party of 6 close to DeKalb Av

샘플링 구성 및 벤치마킹 프로세스

실험을 위해 SNIPS 데이터 세트의 엔티티 유형 하위 집합에 중점을 두었습니다.

북레스토랑 – 엔티티 유형: spatial_relation, poi, party_size_number, restaurant_name, city, timeRange, restaurant_type, served_dish, party_size_description, country, facility, state, sort, cuisine
GetWeather – 엔티티 유형: condition_temperature, current_location, geographic_poi, timeRange, state, spatial_relation, condition_description, city, country
음악을 재생 – 엔티티 유형: track, artist, music_item, service, genre, sort, playlist, album, year

또한 각 데이터 세트를 서브샘플링하여 교육용으로 샘플링된 문서 수와 엔티티당 주석 수(또한 촬영). 이는 각 항목 유형이 적어도 k 시간, 최소 n 문서.

각 모델은 훈련 데이터 세트의 특정 하위 샘플을 사용하여 훈련되었습니다. 다음 표에는 XNUMX가지 모델 구성이 나와 있습니다.

서브샘플링된 데이터세트 이름	교육을 위해 샘플링된 문서 수	테스트를 위해 샘플링된 문서 수	항목 유형(샷)당 평균 주석 수
`snips-BookRestaurant-subsample-A`	132	17	33
`snips-BookRestaurant-subsample-B`	257	33	64
`snips-BookRestaurant-subsample-C`	508	64	128
`snips-GetWeather-subsample-A`	91	12	25
`snips-GetWeather-subsample-B`	185	24	49
`snips-GetWeather-subsample-C`	361	46	95
`snips-PlayMusic-subsample-A`	130	17	30
`snips-PlayMusic-subsample-B`	254	32	60
`snips-PlayMusic-subsample-C`	505	64	119

모델의 정확도를 측정하기 위해 Amazon Comprehend가 엔터티 인식기를 교육할 때 자동으로 계산하는 평가 지표를 수집했습니다.

Precision – 이것은 올바르게 식별되고 레이블이 지정된 인식기에 의해 감지된 엔터티의 비율을 나타냅니다. 다른 관점에서 정밀도는 다음과 같이 정의할 수 있습니다. TP / (TP + FP)어디로 tp 는 참양성(올바른 식별)의 수이고 fp 가양성(잘못된 식별)의 수입니다.
소환 – 이것은 문서에 존재하는 엔티티 중 올바르게 식별되고 레이블이 지정되는 비율을 나타냅니다. 다음과 같이 계산됩니다. tp / (tp + fn)어디로 tp 는 참 양성의 수이고 fn 위음성(식별 누락)의 수입니다.
F1 점수 – 이것은 모델의 전체 정확도를 측정하는 정밀도와 재현율 메트릭의 조합입니다. F1 점수는 정밀도 및 재현율 메트릭의 조화 평균이며 다음과 같이 계산됩니다. 2 * 정밀도 * 재현율 / (정밀도 + 재현율).

엔티티 인식기의 성능을 비교하기 위해 F1 점수에 중점을 둡니다.

데이터 세트와 하위 샘플 크기(문서 및 샷 수 측면에서)가 주어지면 서로 다른 하위 샘플을 생성할 수 있다는 점을 고려하여 10개의 구성 중 하나에 대해 XNUMX개의 하위 샘플을 생성하고 엔터티 인식 모델을 학습하고 성능 메트릭을 수집했습니다. 마이크로 평균을 사용하여 평균을 구했습니다. 이를 통해 특히 적은 수의 하위 샘플에 대해 보다 안정적인 결과를 얻을 수 있었습니다.

결과

다음 표는 각 엔터티 인식기를 교육한 후 Amazon Comprehend에서 반환된 성능 지표에 대해 계산된 마이크로 평균 F1 점수를 보여줍니다.

서브샘플링된 데이터세트 이름	엔티티 인식기 마이크로 평균 F1 점수(%)
`snips-BookRestaurant-subsample-A`	86.89
`snips-BookRestaurant-subsample-B`	90.18
`snips-BookRestaurant-subsample-C`	92.84
`snips-GetWeather-subsample-A`	84.73
`snips-GetWeather-subsample-B`	93.27
`snips-GetWeather-subsample-C`	93.43
`snips-PlayMusic-subsample-A`	80.61
`snips-PlayMusic-subsample-B`	81.80
`snips-PlayMusic-subsample-C`	85.04

다음 세로 막대형 차트는 이전 섹션에서 설명한 대로 훈련한 1개 구성에 대한 FXNUMX 점수 분포를 보여줍니다.

엔티티 유형당 25개의 주석으로도 사용자 지정 엔티티 인식 모델을 성공적으로 훈련할 수 있음을 관찰할 수 있습니다. 세 개의 가장 작은 서브샘플링된 데이터 세트에 초점을 맞추면(snips-BookRestaurant-subsample-A, snips-GetWeather-subsample-A및 snips-PlayMusic-subsample-A), 평균적으로 1%의 F84 점수를 얻을 수 있었습니다. 이는 제한된 수의 문서와 주석을 사용한 점을 고려할 때 꽤 좋은 결과입니다. 모델의 성능을 향상시키려면 추가 문서와 주석을 수집하고 더 많은 데이터로 새 모델을 훈련할 수 있습니다. 예를 들어 중간 크기의 하위 샘플(snips-BookRestaurant-subsample-B, snips-GetWeather-subsample-B및 snips-PlayMusic-subsample-B)에 비해 두 배 많은 문서와 주석이 포함되어 있어 평균적으로 F1 점수 88%를 얻었습니다. subsample-A 데이터 세트). 마지막으로 더 큰 서브샘플링된 데이터 세트(snips-BookRestaurant-subsample-C, snips-GetWeather-subsample-C및 snips-PlayMusic-subsample-C), 더 많은 주석이 달린 데이터를 포함합니다(다음에 사용된 문서 및 주석 수의 약 XNUMX배 subsample-A 데이터 세트)는 2% 더 개선되어 평균 F1 점수를 90%로 높였습니다.

결론

이 게시물에서 우리는 Amazon Comprehend로 사용자 지정 엔터티 인식기를 교육하기 위한 최소 요구 사항의 감소를 발표하고 오픈 소스 데이터 세트에 대한 몇 가지 벤치마크를 실행하여 이러한 감소가 시작하는 데 어떻게 도움이 되는지 보여주었습니다. 오늘부터 엔티티 유형당 최소 25개의 주석(100개 대신)과 최소 250개의 문서(XNUMX개 대신)로 엔티티 인식 모델을 생성할 수 있습니다. 이번 발표를 통해 Amazon Comprehend 사용자 지정 엔터티 인식 기술 사용에 관심이 있는 사용자의 진입 장벽을 낮추고 있습니다. 이제 아주 적은 양의 주석이 달린 문서 모음으로 실험을 시작하고, 예비 결과를 분석하고, 사용 사례에 대해 더 정확한 엔터티 인식 모델이 필요한 경우 추가 주석 및 문서를 포함하여 반복할 수 있습니다.

사용자 지정 엔터티 인식기에 대해 자세히 알아보고 시작하려면 다음을 참조하세요. 커스텀 엔티티 인식.

데이터 준비 및 벤치마킹에 귀중한 도움을 준 동료 Jyoti Bansal과 Jie Ma에게 특별히 감사드립니다.

저자,

루카 구이다 AWS의 솔루션 아키텍트입니다. 그는 밀라노에 기반을 두고 있으며 클라우드 여정에서 이탈리아 ISV를 지원합니다. 컴퓨터 과학 및 엔지니어링에 대한 학문적 배경을 가진 그는 대학에서 AI/ML에 대한 열정을 키우기 시작했습니다. AWS 내 자연어 처리(NLP) 커뮤니티의 구성원인 Luca는 고객이 AI/ML 서비스를 도입하면서 성공할 수 있도록 지원합니다.

타임 스탬프 : 2022 년 8 월 3 일2022 년 8 월 3 일

타임 스탬프 : 29년 2022월 XNUMX일

Amazon Comprehend, 사용자 지정 엔터티 인식에 대한 더 낮은 주석 제한 발표

플라톤에 의해 재발행

데이터세트 준비

샘플링 구성 및 벤치마킹 프로세스

결과

결론

저자,

더보기 AWS 기계 학습

향상된 평가 및 분석을 위한 Amazon Textract Bulk Document Uploader 소개 | 아마존 웹 서비스

Amazon SageMaker, Amazon Neptune 및 Deep Graph Library를 사용하여 GNN 기반 실시간 사기 탐지 솔루션 구축

Amazon SageMaker 및 Amazon OpenSearch Service를 사용하여 CLIP 모델로 통합 텍스트 및 이미지 검색 구현

Amazon EKS를 사용하여 PyTorch 기반 단백질 폴딩 ML 모델인 OpenFold에 대한 대규모 추론 실행

Amazon Transcribe를 사용하여 다국어 오디오에서 자동으로 언어 식별

Amazon Search가 AWS에서 NVIDIA Triton을 사용하여 짧은 지연 시간, 높은 처리량의 T5 추론을 달성하는 방법

Amazon SageMaker에서 기계 학습을 사용하여 사기 거래 감지

GPU를 사용하지 않고 엣지에서 Amazon Lookout for Vision을 사용하여 이상 위치 식별

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정