Amazon Comprehend를 사용하여 사용자 지정 분류 모델의 예측 품질 개선

플라톤에 의해 재발행

팔로워 : 0

인공지능(AI)과 머신러닝(ML)은 기업과 정부 조직 전반에 걸쳐 널리 채택되었습니다. 자연어 처리(NLP)와 사용자 친화적인 AI/ML 서비스의 발전으로 비정형 데이터 처리가 더욱 쉬워졌습니다. 아마존 텍사스, 아마존 전사및 아마존 이해. 조직에서는 Amazon Comprehend와 같은 AI/ML 서비스를 사용하여 구조화되지 않은 데이터로 분류 모델을 구축하여 이전에는 갖지 못했던 심층적인 통찰력을 얻기 시작했습니다. 적절한 데이터 선별 및 모델 튜닝 없이는 최소한의 노력으로 사전 훈련된 모델을 사용할 수 있지만 AI/ML 모델의 모든 이점을 실현할 수는 없습니다.

이 게시물에서는 Amazon Comprehend를 사용하여 사용자 지정 분류 모델을 구축하고 최적화하는 방법을 설명합니다. Amazon Comprehend 사용자 지정 분류를 사용하여 다중 레이블 사용자 지정 분류 모델을 구축하고, 훈련 데이터 세트를 준비하고 정확도, 정밀도, 재현율, F1 점수와 같은 성능 지표를 충족하도록 모델을 조정하는 방법에 대한 지침을 제공합니다. 우리는 혼동 행렬과 같은 Amazon Comprehend 모델 훈련 출력 아티팩트를 사용하여 모델 성능을 조정하고 훈련 데이터 개선 방법을 안내합니다.

솔루션 개요

이 솔루션은 Amazon Comprehend를 사용하여 최적화된 사용자 지정 분류 모델을 구축하는 접근 방식을 제시합니다. 우리는 데이터 준비, 모델 생성, 모델 성능 지표 분석, 분석을 기반으로 한 추론 최적화 등 여러 단계를 거칩니다. 우리는 아마존 세이지 메이커 수첩 그리고 AWS 관리 콘솔 이 단계 중 일부를 완료하려면

또한 데이터 준비, 모델 구축, 모델 튜닝 중에 모범 사례와 최적화 기술을 살펴봅니다.

사전 조건

SageMaker 노트북 인스턴스가 없으면 인스턴스를 생성할 수 있습니다. 지침은 다음을 참조하세요. Amazon SageMaker 노트북 인스턴스 생성.

데이터 준비

이 분석을 위해 우리는 다음의 독성 댓글 분류 데이터 세트를 사용합니다. 카글. 이 데이터세트에는 6개의 데이터 포인트가 포함된 158,571개의 라벨이 포함되어 있습니다. 그러나 각 라벨에는 긍정적인 예로 전체 데이터의 10% 미만만 포함되어 있으며, 라벨 중 1개는 XNUMX% 미만입니다.

기존 Kaggle 데이터세트를 다음으로 변환합니다. Amazon Comprehend XNUMX열 CSV 형식 파이프(|) 구분 기호를 사용하여 레이블을 분할합니다. Amazon Comprehend는 각 데이터 포인트에 대해 하나 이상의 레이블을 기대합니다. 이 데이터 세트에서는 제공된 라벨에 속하지 않는 여러 데이터 포인트를 발견합니다. clean이라는 새 레이블을 만들고 독성이 없는 데이터 포인트를 이 레이블에 긍정적으로 할당합니다. 마지막으로, 라벨당 80/20 비율 분할을 사용하여 선별된 데이터 세트를 훈련 및 테스트 데이터 세트로 분할했습니다.

우리는 데이터 준비 노트북을 사용할 것입니다. 다음 단계에서는 Kaggle 데이터 세트를 사용하고 모델에 대한 데이터를 준비합니다.

SageMaker 콘솔에서 노트북 인스턴스 탐색 창에서
구성한 노트북 인스턴스를 선택하고 주피터 열기.
에 신제품 메뉴, 선택 단말기.

Amazon Comprehend를 사용하여 사용자 지정 분류 모델의 예측 품질 향상 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

이 게시물에 필요한 아티팩트를 다운로드하려면 터미널에서 다음 명령을 실행하세요.

cd SageMaker
wget https://aws-ml-blog.s3.amazonaws.com/artifacts/amazon-comprehend-improve-prediction-quality/comprehend-blog-artifacts.zip
unzip comprehend-blog-artifacts.zip
rm comprehend-blog-artifacts.zip
mkdir assets

터미널 창을 닫습니다.

세 개의 노트북이 표시되어야 하며 기차.csv 파일.

노트북 선택 데이터 준비.ipynb.
노트북의 모든 단계를 실행합니다.

이 단계에서는 원시 Kaggle 데이터세트를 선별된 훈련 및 테스트 데이터세트로 사용할 수 있도록 준비합니다. 선별된 데이터 세트는 노트북에 저장되며 아마존 단순 스토리지 서비스 (아마존 S3).

대규모 다중 레이블 데이터 세트를 처리할 때 다음 데이터 준비 지침을 고려하십시오.

데이터세트에는 라벨당 최소 10개의 샘플이 있어야 합니다.
Amazon Comprehend는 최대 100개의 레이블을 허용합니다. 이는 늘릴 수 있는 소프트 한도입니다.
데이터세트 파일이 다음과 같은지 확인하세요. 올바른 형식 적절한 구분 기호를 사용하세요. 잘못된 구분 기호로 인해 빈 레이블이 나타날 수 있습니다.
모든 데이터 포인트에는 라벨이 있어야 합니다.
훈련 및 테스트 데이터 세트는 레이블별로 균형 잡힌 데이터 분포를 가져야 합니다. 훈련 및 테스트 데이터세트에 편향이 발생할 수 있으므로 무작위 분포를 사용하지 마세요.

사용자 정의 분류 모델 구축

우리는 모델을 구축하기 위해 데이터 준비 단계에서 생성한 선별된 훈련 및 테스트 데이터세트를 사용합니다. 다음 단계에서는 Amazon Comprehend 다중 레이블 사용자 지정 분류 모델을 생성합니다.

Amazon Comprehend 콘솔에서 맞춤 분류 탐색 창에서
왼쪽 메뉴에서 새 모델 만들기.
럭셔리 모델 이름, 독성 분류 모델을 입력합니다.
럭셔리 버전 이름, 1을 입력합니다.
럭셔리 주석 및 데이터 형식선택한다. 다중 레이블 모드 사용.
럭셔리 훈련 데이터세트, Amazon S3에서 선별된 훈련 데이터 세트의 위치를 입력합니다.
왼쪽 메뉴에서 고객이 제공한 테스트 데이터세트 Amazon S3에 선별된 테스트 데이터의 위치를 입력합니다.
럭셔리 출력 데이터, Amazon S3 위치를 입력합니다.
럭셔리 IAM 역할, 고르다 IAM 역할을 생성합니다. 이름 접미사를 "comprehend-blog"로 지정합니다.
왼쪽 메뉴에서 만들기 사용자 정의 분류 모델 학습 및 모델 생성을 시작합니다.

다음 스크린샷은 Amazon Comprehend 콘솔의 사용자 지정 분류 모델 세부 정보를 보여줍니다.

Amazon Comprehend를 사용하여 사용자 지정 분류 모델의 예측 품질 향상 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

모델 성능 조정

다음 스크린샷은 모델 성능 지표를 보여줍니다. 여기에는 정밀도, 재현율, F1 점수, 정확도 등과 같은 주요 측정항목이 포함됩니다.

Amazon Comprehend를 사용하여 사용자 지정 분류 모델의 예측 품질 향상 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

모델을 훈련하고 생성한 후에는 데이터 세트의 레이블과 각 레이블에 대한 혼동 행렬이 포함된 output.tar.gz 파일을 생성합니다. 모델의 예측 성능을 추가로 조정하려면 각 클래스의 예측 확률로 모델을 이해해야 합니다. 이렇게 하려면 Amazon Comprehend가 각 데이터 포인트에 할당한 점수를 식별하는 분석 작업을 생성해야 합니다.

분석 작업을 생성하려면 다음 단계를 완료하세요.

Amazon Comprehend 콘솔에서 분석 작업 탐색 창에서
왼쪽 메뉴에서 직업 만들기.
럭셔리 성함, 입력 toxic_train_data_analysis_job.
럭셔리 분석 유형선택한다. 맞춤 분류.
럭셔리 분류 모델 및 플라이휠, 지정하다 toxic-classification-model.
럭셔리 버전, 1을 지정하십시오.
럭셔리 입력 데이터 S3 위치에서 선별된 훈련 데이터 파일의 위치를 입력합니다.
럭셔리 입력 형식선택한다. 한 줄에 하나의 문서.
럭셔리 출력 데이터 S3 위치, 위치를 입력하세요.
럭셔리 액세스 권한, 고르다 기존 IAM 역할 사용 이전에 생성된 역할을 선택합니다.
왼쪽 메뉴에서 직업 만들기 분석 작업을 시작합니다.
선택 분석 작업 작업 세부정보를 보려면 작업 세부정보 아래의 작업 ID를 기록해 두세요. 다음 단계에서는 작업 ID를 사용합니다.

Amazon Comprehend를 사용하여 사용자 지정 분류 모델의 예측 품질 향상 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

선별된 테스트 데이터에 대한 분석 작업 시작 단계를 반복합니다. 분석 작업의 예측 결과를 사용하여 모델의 예측 확률을 알아봅니다. 훈련 및 테스트 분석 작업의 작업 ID를 기록해 두십시오.

우리는을 사용하여 모델-임계값-분석.ipynb 가능한 모든 임계값에서 출력을 테스트하고 scikit-learn을 사용하여 예측 확률을 기반으로 출력의 점수를 매기는 노트북 precision_recall_curve 기능. 또한 각 임계값에서 F1 점수를 계산할 수 있습니다.

다음에 대한 입력으로 Amazon Comprehend 분석 작업 ID가 필요합니다. 모델-임계값-분석 공책. Amazon Comprehend 콘솔에서 작업 ID를 얻을 수 있습니다. 의 모든 단계를 실행합니다. 모델-임계값-분석 모든 클래스의 임계값을 관찰할 수 있는 노트북입니다.

Amazon Comprehend를 사용하여 사용자 지정 분류 모델의 예측 품질 향상 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

임계값이 올라감에 따라 정밀도가 어떻게 올라가는지 확인하고, 재현율에서는 그 반대가 발생합니다. 둘 사이의 균형을 찾기 위해 우리는 곡선에 피크가 보이는 F1 점수를 사용합니다. F1 점수의 최고점은 모델 성능을 향상시킬 수 있는 특정 임계값에 해당합니다. 임계값이 약 0.5인 위협 레이블을 제외하고 대부분의 레이블이 임계값에 대해 0.04 표시 주위에 어떻게 속하는지 확인하세요.

Amazon Comprehend를 사용하여 사용자 지정 분류 모델의 예측 품질 향상 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

그런 다음 기본 0.5 임계값만으로 성능이 저조한 특정 라벨에 대해 이 임계값을 사용할 수 있습니다. 최적화된 임계값을 사용하면 테스트 데이터에 대한 모델 결과가 라벨 위협에 대해 0.00에서 0.24로 향상됩니다. 우리는 모든 레이블에 대한 공통 벤치마크(> 1과 같은 표준 값) 대신 해당 레이블에 대한 긍정적인 대 부정적인 결정을 위해 임계값의 최대 F0.7 점수를 벤치마크로 사용하고 있습니다.

Amazon Comprehend를 사용하여 사용자 지정 분류 모델의 예측 품질 향상 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

잘 표현되지 않은 클래스 처리

불균형 데이터 세트에 효과적인 또 다른 접근 방식은 다음과 같습니다. 오버 샘플링. 모델은 과소대표 클래스를 과도하게 샘플링함으로써 과소대표 클래스를 더 자주 확인하고 해당 샘플의 중요성을 강조합니다. 우리는 오버샘플링-과소대표.ipynb 데이터세트를 최적화하기 위한 노트북입니다.

이 데이터 세트의 경우 더 많은 샘플을 제공함에 따라 평가 데이터 세트에 대한 모델 성능이 어떻게 변하는지 테스트했습니다. 우리는 성능을 향상시키기 위해 과소대표 클래스의 발생을 증가시키기 위해 오버샘플링 기술을 사용합니다.

Amazon Comprehend를 사용하여 사용자 지정 분류 모델의 예측 품질 향상 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

이 특별한 경우에는 10, 25, 50, 100, 200 및 500개의 긍정적인 예를 테스트했습니다. 데이터 포인트를 반복하고 있지만 본질적으로 과소 대표 계층의 중요성을 강조하여 모델 성능을 향상시키고 있습니다.

비용

Amazon Comprehend를 사용하면 처리된 텍스트 문자 수에 따라 종량제 비용을 지불합니다. 인용하다 아마존 종합 요금 실제 비용.

정리

이 솔루션 실험을 마치면 리소스를 정리하여 이 예제에 배포된 모든 리소스를 삭제하세요. 이렇게 하면 계정에 계속 비용이 발생하는 것을 방지할 수 있습니다.

결론

이 게시물에서는 데이터 준비, 예측 확률을 사용한 모델 튜닝, 잘 표현되지 않은 데이터 클래스를 처리하는 기술에 대한 모범 사례와 지침을 제공했습니다. 이러한 모범 사례와 기술을 사용하여 Amazon Comprehend 사용자 지정 분류 모델의 성능 지표를 개선할 수 있습니다.

Amazon Comprehend에 대한 자세한 내용을 보려면 다음을 방문하십시오. Amazon Comprehend 개발자 리소스 비디오 리소스 및 블로그 게시물을 찾고 AWS Comprehend FAQ.

저자에 관하여

사티아 발라크리슈난 데이터 및 ML 솔루션을 전문으로 하는 AWS 전문 서비스 팀의 선임 고객 제공 설계자입니다. 그는 미국 연방 금융 고객과 함께 일합니다. 그는 고객의 비즈니스 문제를 해결하기 위한 실용적인 솔루션을 구축하는 데 열정적입니다. 여가 시간에는 가족과 함께 영화 감상과 하이킹을 즐깁니다.

말라리 왕자 공공 부문 고객을 위한 NLP 애플리케이션을 전문으로 하는 AWS Professional Services 팀의 NLP 데이터 과학자입니다. 그는 고객이 생산성을 높일 수 있는 도구로 ML을 사용하는 데 열정적입니다. 여가 시간에는 친구들과 비디오 게임을 즐기고 게임을 개발합니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
출처: https://aws.amazon.com/blogs/machine-learning/improve-prediction-quality-in-custom-classification-models-with-amazon-comprehend/

타임 스탬프 : 2023 년 10 월 5 일

타임 스탬프 : 11월 26, 2023

Amazon Comprehend를 사용하여 사용자 지정 분류 모델의 예측 품질 향상 | 아마존 웹 서비스

플라톤에 의해 재발행

솔루션 개요

사전 조건

데이터 준비

사용자 정의 분류 모델 구축

모델 성능 조정

잘 표현되지 않은 클래스 처리

비용

정리

결론

저자에 관하여

더보기 AWS 기계 학습

AWS CDK를 사용하여 Jupyter Lab 3에서 Amazon SageMaker Studio 설정

기본 수명 주기 구성으로 Amazon SageMaker Studio에서 Amazon SageMaker Data Wrangler 사용

Amazon SageMaker Data Wrangler를 사용하여 다중 공선성, 대상 누출 및 기능 상관 관계 감지

Amazon SageMaker 지리 공간 기능을 사용하여 설치류 감염 분석 | 아마존 웹 서비스

Amazon Lex | 아마존 웹 서비스

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정