Amazon SageMaker JumpStart, 이제 사용자 지정 분류 및 사용자 지정 엔터티 감지를 위한 Amazon Comprehend 노트북 제공

플라톤에 의해 재발행

팔로워 : 0

아마존 이해 기계 학습(ML)을 사용하여 텍스트에서 인사이트를 발견하는 자연어 처리(NLP) 서비스입니다. Amazon Comprehend는 맞춤형 기능, 사용자 지정 엔터티 인식, 사용자 정의 분류및 선행 학습된 API 핵심 구 추출, 감정 분석, 엔터티 인식 등과 같이 NLP를 애플리케이션에 쉽게 통합할 수 있습니다.

최근 Amazon Comprehend 관련 노트북을 Amazon SageMaker 점프스타트 Amazon Comprehend 사용자 지정 분류자와 사용자 지정 엔터티 인식기를 사용하여 빠르게 시작하는 데 도움이 되는 노트북입니다. 사용자 정의 분류를 사용하여 정의한 범주(클래스)로 문서를 구성할 수 있습니다. 사용자 지정 엔터티 인식은 미리 설정된 일반에 없는 도메인 또는 비즈니스에 고유한 엔터티 유형을 식별하도록 도와줌으로써 Amazon Comprehend 사전 훈련된 엔터티 감지 API의 기능을 확장합니다. 엔티티 유형.

이 게시물에서는 JumpStart를 사용하여 엔터프라이즈 NLP 요구 사항의 일부로 Amazon Comprehend 사용자 지정 분류 및 사용자 지정 엔터티 감지 모델을 구축하는 방법을 보여줍니다.

세이지메이커 점프스타트

XNUMXD덴탈의 아마존 세이지 메이커 스튜디오 랜딩 페이지는 JumpStart를 사용할 수 있는 옵션을 제공합니다. JumpStart는 다양한 문제 유형에 대해 사전 훈련된 모델을 제공하여 빠르게 시작할 수 있는 방법을 제공합니다. 이러한 모델을 훈련하고 조정할 수 있습니다. JumpStart는 노트북, 블로그 및 비디오와 같은 기타 리소스도 제공합니다.

JumpStart 노트북은 기본적으로 신속하게 시작하기 위한 시작점으로 사용할 수 있는 샘플 코드입니다. 현재 그대로 사용하거나 필요에 따라 사용자 정의할 수 있는 40개 이상의 노트북을 제공합니다. 검색 또는 탭 보기 패널을 사용하여 노트북을 찾을 수 있습니다. 사용하려는 노트북을 찾은 후 노트북을 가져와서 요구 사항에 맞게 사용자 지정하고 노트북을 실행할 인프라와 환경을 선택할 수 있습니다.

JumpStart 노트북 시작하기

JumpStart를 시작하려면 다음으로 이동하십시오. 아마존 세이지 메이커 콘솔을 열고 Studio를 엽니다. 인용하다 SageMaker Studio 시작하기 Studio를 시작하는 방법에 대한 지침을 참조하십시오. 그런 다음 다음 단계를 완료하십시오.

Studio에서 JumpStart 시작 페이지로 이동하여 선택합니다. SageMaker JumpStart로 이동.

다양한 검색 방법이 제공됩니다. 상단의 탭을 사용하여 원하는 항목을 찾거나 다음 스크린샷과 같이 검색 상자를 사용할 수 있습니다.

노트북을 찾으려면 노트북 탭.

노트북 탭으로 이동

작성 시점에 JumpStart는 47개의 노트북을 제공합니다. 필터를 사용하여 Amazon Comprehend 관련 노트북을 찾을 수 있습니다.

에 컨텐츠 타입 드롭 다운 메뉴에서 수첩.

다음 스크린샷에서 볼 수 있듯이 현재 두 개의 Amazon Comprehend 노트북이 있습니다.

Comprehend 노트북 찾기

다음 섹션에서는 두 노트북을 모두 살펴봅니다.

Amazon Comprehend 사용자 지정 분류자

이 노트북에서는 맞춤 분류 API 문서 분류 모델을 생성합니다.

사용자 지정 분류자는 ML 전문 지식이 거의 또는 전혀 없는 경우에도 비즈니스에 고유한 사용자 지정 텍스트 분류 모델을 구축할 수 있는 완전 관리형 Amazon Comprehend 기능입니다. 사용자 지정 분류자는 이미 수천만 개의 문서에 대해 훈련된 Amazon Comprehend의 기존 기능을 기반으로 합니다. NLP 분류 모델을 구축하는 데 필요한 복잡성의 대부분을 추상화합니다. 사용자 지정 분류자는 교육 데이터를 자동으로 로드 및 검사하고, 올바른 ML 알고리즘을 선택하고, 모델을 교육하고, 최적의 하이퍼파라미터를 찾고, 모델을 테스트하고, 모델 성능 지표를 제공합니다. Amazon Comprehend 사용자 지정 분류자는 또한 다음을 사용하여 텍스트 레이블 지정을 포함하여 전체 ML 워크플로에 사용하기 쉬운 콘솔을 제공합니다. 아마존 세이지 메이커 그라운드 진실, 모델 교육 및 배포, 테스트 결과 시각화. Amazon Comprehend 사용자 지정 분류자를 사용하여 다음 모델을 구축할 수 있습니다.

다중 클래스 분류 모델 – 다중 클래스 분류에서 각 문서에는 하나의 클래스만 할당될 수 있습니다. 개별 클래스는 상호 배타적입니다. 예를 들어 영화는 다큐멘터리나 SF로 분류될 수 있지만 동시에 둘 다 분류될 수는 없습니다.
다중 레이블 분류 모델 – 다중 레이블 분류에서 개별 클래스는 서로 다른 범주를 나타내지만 이러한 범주는 서로 관련이 있으며 상호 배타적이지 않습니다. 결과적으로 각 문서에는 할당된 클래스가 하나 이상 있지만 더 많이 가질 수 있습니다. 예를 들어, 영화는 단순히 액션 영화일 수도 있고, 동시에 액션 영화, 공상 과학 영화, 코미디 영화일 수도 있습니다.

이 노트북은 예제 데이터 세트 또는 자체 비즈니스 특정 데이터 세트로 모델을 교육하는 데 ML 전문 지식이 필요하지 않습니다. 이 노트북에서 설명한 API 작업을 자신의 애플리케이션에서 사용할 수 있습니다.

Amazon 사용자 정의 엔터티 인식기

이 노트북에서는 사용자 정의 엔터티 인식 API 엔터티 인식 모델을 생성합니다.

사용자 지정 엔터티 인식은 미리 설정된 일반 엔터티 유형에 없는 특정 엔터티 유형을 식별하도록 도와 Amazon Comprehend의 기능을 확장합니다. 즉, 문서를 분석하고 특정 요구 사항에 맞는 제품 코드 또는 비즈니스별 엔터티와 같은 엔터티를 추출할 수 있습니다.

직접 정확한 사용자 정의 엔터티 인식기를 구축하는 것은 수동으로 주석이 달린 훈련 문서의 대규모 세트를 준비하고 모델 훈련에 적합한 알고리즘과 매개변수를 선택해야 하는 복잡한 프로세스일 수 있습니다. Amazon Comprehend는 자동 주석 및 모델 개발을 제공하여 사용자 지정 엔터티 인식 모델을 생성함으로써 복잡성을 줄이는 데 도움이 됩니다.

예제 노트북은 CSV 형식의 학습 데이터 세트를 가져오고 텍스트 입력에 대해 추론을 실행합니다. Amazon Comprehend는 교육을 위해 Ground Truth 주석 데이터를 사용하고 PDF 및 Word 문서에서 직접 추론을 실행할 수 있는 고급 사용 사례도 지원합니다. 자세한 내용은 다음을 참조하십시오. Amazon Comprehend를 사용하여 PDF 문서에 대한 사용자 지정 엔터티 인식기 구축.

Amazon Comprehend는 주석 제한을 낮추고 특히 소수 샷 하위 샘플에 대해 보다 안정적인 결과를 얻을 수 있도록 했습니다. 이 개선 사항에 대한 자세한 내용은 다음을 참조하십시오. Amazon Comprehend, 사용자 지정 엔터티 인식에 대한 더 낮은 주석 제한 발표.

Amazon Comprehend JumpStart 노트북 사용, 사용자 지정 및 배포

사용하려는 Amazon Comprehend 노트북을 선택한 후 노트북 가져오기. 그렇게 하면 노트북 커널이 시작되는 것을 볼 수 있습니다.

노트 가져 오기

노트북을 가져오면 노트북을 실행하는 데 사용되는 노트북 인스턴스, 커널 및 이미지 선택이 트리거됩니다. 기본 인프라가 프로비저닝된 후 요구 사항에 따라 선택 항목을 변경할 수 있습니다.

SageMaker Studio의 노트북

이제 노트북의 개요를 살펴보고 전제 조건 설정, 데이터 설정, 모델 교육, 추론 실행 및 모델 중지에 대한 섹션을 주의 깊게 읽으십시오. 필요에 따라 생성된 코드를 자유롭게 사용자 정의하십시오.

요구 사항에 따라 다음 섹션을 사용자 지정할 수 있습니다.

권한 – 프로덕션 애플리케이션의 경우 액세스 정책을 애플리케이션을 실행하는 데 필요한 정책으로만 제한하는 것이 좋습니다. 교육 또는 추론과 같은 사용 사례와 전체 리소스와 같은 특정 리소스 이름을 기반으로 권한을 제한할 수 있습니다. 아마존 단순 스토리지 서비스 (Amazon S3) 버킷 이름 또는 S3 버킷 이름 패턴. 또한 사용자 지정 분류자 또는 SageMaker 작업에 대한 액세스를 애플리케이션에 필요한 것만으로 제한해야 합니다.
데이터 및 위치 – 예제 노트북은 샘플 데이터와 S3 위치를 제공합니다. 요구 사항에 따라 교육, 검증 및 테스트에 자체 데이터를 사용하고 필요에 따라 다른 S3 위치를 사용할 수 있습니다. 마찬가지로 모델을 만들 때 모델을 다른 위치에 유지하도록 선택할 수 있습니다. S3 버킷에 액세스할 수 있는 올바른 권한을 제공했는지 확인하십시오.
전처리 단계 – 교육 및 테스트에 서로 다른 데이터를 사용하는 경우 요구 사항에 따라 전처리 단계를 조정할 수 있습니다.
데이터 테스트 – 테스트를 위해 자신의 추론 데이터를 가져올 수 있습니다.
정리 – 반복 요금이 부과되지 않도록 노트북에서 시작한 리소스를 삭제합니다.

결론

이 게시물에서는 필요에 따라 코드를 수정할 수 있는 옵션을 제공하면서 Studio에서 Amazon Comprehend 관련 노트북을 편리하게 찾고 실행할 수 있도록 함으로써 JumpStart를 사용하여 Amazon Comprehend API를 사용하여 학습하고 빠르게 추적하는 방법을 보여 주었습니다. 노트북은 AWS 제품 발표 및 샘플 뉴스 기사와 함께 샘플 데이터 세트를 사용합니다. 이 노트북을 사용하여 Python 노트북에서 Amazon Comprehend API를 사용하는 방법을 배우거나 시작점으로 사용하고 고유한 요구 사항 및 프로덕션 배포를 위해 코드를 추가로 확장할 수 있습니다.

JumpStart 사용을 시작하고 Studio가 제공되는 모든 지역에서 추가 비용 없이 다양한 주제의 40개 이상의 노트북을 활용할 수 있습니다.

저자에 관하여

저자 - Lana Zhang 장라나 콘텐츠 조정 및 인식을 위한 AI 및 ML에 대한 전문 지식을 갖춘 AWS WWSO AI 서비스 팀의 선임 솔루션 아키텍트입니다. 그녀는 AWS AI 서비스를 홍보하고 고객이 비즈니스 솔루션을 혁신하도록 돕는 데 열정적입니다.

저자 - Meenakshisundaram Thandavarayan 미낙시순다람 탄다바라얀 AWS의 선임 AI/ML 전문가입니다. 그는 AI 및 ML 여정에서 하이테크 전략 계정을 돕습니다. 그는 데이터 기반 AI에 매우 열정적입니다.

저자 - Rachna Chadha 라크나 차다 AWS Strategic Accounts의 수석 솔루션 아키텍트 AI/ML입니다. Rachna는 AI의 윤리적이고 책임 있는 사용이 미래의 사회를 개선하고 경제 및 사회적 번영을 가져올 수 있다고 믿는 낙관론자입니다. 여가 시간에 Rachna는 가족과 함께 시간을 보내고, 하이킹을 하고, 음악을 듣는 것을 좋아합니다.

타임 스탬프 : 2022 년 12 월 12 일2022 년 12 월 13 일

타임 스탬프 : 19년 2023월 XNUMX일

Amazon SageMaker JumpStart는 이제 사용자 지정 분류 및 사용자 지정 엔터티 감지를 위한 Amazon Comprehend 노트북을 제공합니다.

플라톤에 의해 재발행

세이지메이커 점프스타트

JumpStart 노트북 시작하기

Amazon Comprehend 사용자 지정 분류자

Amazon 사용자 정의 엔터티 인식기

Amazon Comprehend JumpStart 노트북 사용, 사용자 지정 및 배포

결론

저자에 관하여

더보기 AWS 기계 학습

AWS Inferentia2로 안정적인 확산 성능 극대화 및 추론 비용 절감 | 아마존 웹 서비스

Amazon Lookout for Vision용 이미지 확대 파이프라인

Amazon SageMaker JumpStart |를 사용하여 Falcon으로 HCLS 문서 요약 애플리케이션 생성 | 아마존 웹 서비스

Amazon SageMaker JumpStart에서 안정적인 확산 모델을 사용하여 텍스트에서 이미지 생성

샘플 데이터 세트로 Amazon SageMaker Data Wrangler 기능 살펴보기

Contentful 및 Amazon Bedrock | 아마존 웹 서비스

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정