이 게시물에서는 텍스트 요약에 사용되는 가장 많이 다운로드된 Hugging Face 사전 훈련된 모델 중 하나를 구현하는 방법을 보여줍니다. DistillBART-CNN-12-6, Jupyter 노트북 내에서 다음을 사용하여 아마존 세이지 메이커 그리고 SageMaker 포옹 얼굴 추론 도구 키트. 이 게시물에 표시된 단계를 기반으로 다음에서 텍스트를 요약해 볼 수 있습니다. 위키 텍스트 -2 데이터 세트 fast.ai에서 관리, 에서 사용 가능 AWS의 오픈 데이터 레지스트리.
기업과 소비자가 디지털 제품과 온라인 서비스의 사용을 확대함에 따라 글로벌 데이터 양은 제타바이트 규모로 증가하고 있습니다. 이 증가하는 데이터를 더 잘 이해하기 위해 텍스트 분석을 위한 기계 학습(ML) 자연어 처리(NLP) 기술이 텍스트 요약, 엔티티 인식, 분류, 번역 등과 관련된 사용 사례를 처리하도록 발전했습니다. AWS는 사전 훈련된 AWS AI 서비스 API 호출을 사용하여 애플리케이션에 통합할 수 있으며 ML 경험이 필요하지 않습니다. 예를 들어, 아마존 이해 사용자 지정 엔터티 인식, 감정 분석, 핵심 구문 추출, 주제 모델링 등과 같은 NLP 작업을 수행하여 텍스트에서 통찰력을 수집할 수 있습니다. 그것은 수행 할 수 있습니다 다양한 언어에 대한 텍스트 분석 다양한 기능 때문입니다.
텍스트 요약은 소스 문서에서 문맥상 의미 있는 정보의 하위 집합을 생성하기 때문에 많은 양의 텍스트 데이터를 이해하는 데 유용한 기술입니다. 이 NLP 기술을 더 긴 형식의 텍스트 문서 및 기사에 적용하면 회의에서 통화 메모를 요약하는 것과 같이 더 빠르게 소비하고 더 효과적인 문서 색인을 생성할 수 있습니다.
포옹하는 얼굴 NLP용으로 널리 사용되는 오픈 소스 라이브러리로, 다양한 프레임워크를 지원하는 49,000개 이상의 언어로 185개 이상의 사전 훈련된 모델이 있습니다. AWS와 Hugging Face에는 파트너십 PyTorch 또는 TensorFlow의 교육 및 추론을 위한 AWS Deep Learning Container(DLC) 세트와 SageMaker Python SDK용 Hugging Face 추정기 및 예측기를 통해 SageMaker를 통해 원활하게 통합할 수 있습니다. SageMaker의 이러한 기능은 개발자와 데이터 과학자가 AWS에서 NLP를 더 쉽게 시작할 수 있도록 도와줍니다. PyTorch와 같은 딥 러닝 프레임워크에서 변환기를 사용하여 텍스트를 처리하는 것은 일반적으로 데이터 과학자에게 복잡하고 시간이 많이 소요되는 작업이며 NLP 프로젝트를 개발할 때 종종 좌절과 효율성 부족으로 이어집니다. Hugging Face와 같은 AI 커뮤니티의 부상은 SageMaker와 같은 클라우드의 ML 서비스 기능과 결합되어 이러한 텍스트 처리 작업의 개발을 가속화하고 단순화합니다. SageMaker는 포옹 얼굴 모델을 구축, 훈련, 배포 및 운영하는 데 도움이 됩니다.
텍스트 요약 개요
텍스트 요약을 적용하여 문서 내에서 핵심 문장을 식별하거나 여러 문서에서 핵심 문장을 식별할 수 있습니다. 텍스트 요약은 추출 및 추상이라는 두 가지 유형의 요약을 생성할 수 있습니다. 추출 요약은 기계 생성 텍스트를 포함하지 않으며 입력 문서에서 선택된 중요한 문장의 모음입니다. 추상적인 요약에는 텍스트 요약 모델에 의해 생성된 사람이 읽을 수 있는 새로운 구문과 문장이 포함됩니다. 대부분의 텍스트 요약 시스템은 정확한 추상 텍스트 요약을 달성하기 어렵기 때문에 추출 요약을 기반으로 합니다.
Hugging Face는 400개 이상의 사전 훈련된 최첨단 기술을 보유하고 있습니다. 사용 가능한 텍스트 요약 모델, NLP 기술의 다양한 조합을 구현합니다. 이 모델은 기술 회사와 Hugging Face 커뮤니티 구성원이 업로드하고 유지 관리하는 다양한 데이터 세트에서 훈련됩니다. 가장 많이 다운로드하거나 가장 좋아하는 순서로 모델을 필터링하고 사용할 때 직접 로드할 수 있습니다. 요약 파이프라인 허깅페이스 트랜스포머 API. Hugging Face 변환기는 NLP 구현 프로세스를 단순화하여 고성능 NLP 모델을 미세 조정하여 광범위한 ML 작업 지식 없이도 텍스트 요약을 제공할 수 있습니다.
AWS의 포옹 얼굴 텍스트 요약 모델
SageMaker는 비즈니스 분석가, 데이터 과학자 및 MLOps 엔지니어에게 AWS에서 ML 워크로드를 설계하고 운영할 수 있는 도구를 제공합니다. 이러한 도구를 사용하면 ML 모델을 더 빠르게 구현하고 테스트하여 최적의 결과를 얻을 수 있습니다.
에서 SageMaker 포옹 얼굴 추론 도구 키트, 오픈 소스 라이브러리에서 Jupyter 노트북을 사용하여 Hugging Face 텍스트 요약 모델을 구현하고 호스팅하는 세 가지 방법을 간략하게 설명합니다.
- 허깅페이스 요약 파이프라인 – 만들기 허깅페이스 요약 파이프라인 "
summarization
Jupyter 노트북 내에서 추론을 위해 기본 텍스트 요약 모델을 사용하기 위한 작업 식별자입니다. 이러한 파이프라인은 복잡한 코드를 추상화하여 초보 ML 실무자에게 추론 끝점을 구성하지 않고도 텍스트 요약을 빠르게 구현할 수 있는 간단한 API를 제공합니다. 파이프라인을 통해 ML 실무자는 특정 사전 훈련된 모델 및 관련 토크나이저를 선택할 수도 있습니다. Tokenizer는 텍스트를 단어 또는 하위 단어로 분할한 다음 조회 테이블을 통해 ID로 변환하여 모델에 대한 입력으로 준비할 텍스트를 준비합니다. 단순화를 위해 다음 코드 조각은 파이프라인을 사용할 때의 기본 사례를 제공합니다. 그만큼 DistillBART-CNN-12-6 모델은 Hugging Face에서 가장 많이 다운로드된 요약 모델 중 하나이며 요약 파이프라인의 기본 모델. 마지막 줄은 사전 훈련된 모델을 호출하여 제공된 두 인수가 제공된 전달된 텍스트에 대한 요약을 가져옵니다. - 사전 훈련된 모델이 있는 SageMaker 끝점 – 사전 훈련된 모델로 SageMaker 엔드포인트를 생성합니다. 허깅페이스 모델 허브 다음 코드 조각의 ml.m5.xlarge 인스턴스와 같은 추론 엔드포인트에 배포합니다. 이 방법을 사용하면 숙련된 ML 실무자가 특정 오픈 소스 모델을 빠르게 선택하고 미세 조정하고 고성능 추론 인스턴스에 모델을 배포할 수 있습니다.
- 훈련된 모델이 있는 SageMaker 엔드포인트 – 훈련된 모델이 저장된 SageMaker 모델 엔드포인트를 생성합니다. 아마존 단순 스토리지 서비스 (Amazon S3) 버킷을 만들고 추론 엔드포인트에 배포합니다. 이 방법을 사용하면 숙련된 ML 실무자가 Amazon S3에 저장된 자체 모델을 고성능 추론 인스턴스에 빠르게 배포할 수 있습니다. 모델 자체는 Hugging Face에서 다운로드하여 압축한 후 Amazon S3에 업로드할 수 있습니다. 이 단계는 다음 코드 스니펫에 나와 있습니다.
AWS에는 ML 워크로드 배포를 지원하는 데 사용할 수 있는 여러 리소스가 있습니다. 그만큼 기계 학습 렌즈 의 AWS Well Architected 프레임워크 리소스 최적화 및 비용 절감을 포함한 ML 워크로드 모범 사례를 권장합니다. 이러한 권장 설계 원칙은 AWS에서 잘 설계된 ML 워크로드가 프로덕션에 배포되도록 합니다. Amazon SageMaker 추론 추천자 최적의 추론 성능과 비용으로 ML 모델을 배포하는 데 적합한 인스턴스를 선택하는 데 도움이 됩니다. Inference Recommender는 로드 테스트를 자동화하고 ML 인스턴스에서 모델 성능을 최적화하여 모델 배포 속도를 높이고 출시 시간을 단축합니다.
다음 섹션에서는 S3 버킷에서 훈련된 모델을 로드하고 적절한 추론 인스턴스에 배포하는 방법을 보여줍니다.
사전 조건
이 연습에서는 다음과 같은 전제 조건이 있어야합니다.
- An AWS 계정.
- 내부의 Jupyter 노트북 아마존 세이지 메이커 스튜디오 또는 SageMaker 노트북 인스턴스. 이 게시물에서는 제공된 코드 조각과 함께 "Python 3(PyTorch 1.4 Python 3.6 CPU 최적화)" 이미지를 사용하지만 다음에서 다른 상위 버전의 PyTorch 이미지를 사용할 수 있습니다. 사용 가능한 SageMaker 커널.
- 다음과 같은 S3 버킷의 데이터 세트 위키 텍스트 -2 의 데이터 세트 AWS의 오픈 데이터 레지스트리.
텍스트 요약 추론을 위해 Hugging Face 모델을 SageMaker에 로드
다음 코드를 사용하여 Hugging Face 사전 훈련된 텍스트 요약 모델을 다운로드하십시오. DistillBART-CNN-12-6 및 해당 토크나이저를 만들고 SageMaker에서 Jupyter 노트북 디렉터리에 로컬로 저장합니다.
저장된 텍스트 요약 모델과 해당 토크나이저를 tar.gz 형식으로 압축하고 압축된 모델 아티팩트를 S3 버킷에 업로드합니다.
선택 추론 Docker 컨테이너 이미지 텍스트 요약 추론을 수행합니다. Linux OS, PyTorch 프레임워크 및 Hugging Face Transformer 버전을 정의하고 아마존 엘라스틱 컴퓨트 클라우드 (Amazon EC2) 컨테이너를 실행할 인스턴스 유형입니다.
Docker 이미지는 다음에서 사용할 수 있습니다. Amazon Elastic Container Registry (Amazon ECR) 및 해당 컨테이너 이미지에 대한 링크가 URI로 반환됩니다.
추론을 수행하는 선택된 컨테이너 이미지에 의해 전개될 텍스트 요약 모델을 정의한다. 다음 코드 조각에서 Amazon S3에 업로드된 압축 모델이 배포됩니다.
샘플 입력에서 배포된 텍스트 요약 모델을 테스트합니다.
Inference Recommender를 사용하여 추론 작업에 대한 최적의 EC2 인스턴스 평가
그런 다음 JSON 형식으로 입력 텍스트의 여러 페이로드 샘플을 만들고 단일 페이로드 파일로 압축합니다. 이러한 페이로드 샘플은 추론 추천자가 서로 다른 EC2 인스턴스 유형 간의 추론 성능을 비교하는 데 사용합니다. 각 샘플 페이로드는 앞서 표시된 JSON 형식과 일치해야 합니다. 당신은에서 예제를 얻을 수 있습니다 위키 텍스트 -2 데이터 세트 fast.ai에서 관리, 에서 사용 가능 AWS의 오픈 데이터 레지스트리.
압축된 텍스트 요약 모델 아티팩트와 압축된 샘플 페이로드 파일을 S3 버킷에 업로드합니다. 이전 단계에서 모델을 업로드했지만 명확성을 위해 다시 업로드하는 코드를 포함합니다.
SageMaker에서 사용할 수 있는 표준 ML 모델 목록 검토 일반 모델 동물원, NLP 및 컴퓨터 비전과 같은. 텍스트 요약 추론을 수행할 NLP 모델을 선택합니다.
다음 예제에서는 bert-base-cased
NLP 모델. 텍스트 요약 모델을 SageMaker 모델 레지스트리 이전 단계에서 올바르게 식별된 도메인, 프레임워크 및 작업으로 이 예제의 매개변수는 다음 코드 조각의 시작 부분에 표시됩니다.
아래에서 Inference Recommender가 평가할 EC2 인스턴스 유형의 범위를 확인하십시오. SupportedRealtimeInferenceInstanceTypes
다음 코드에서. 다음 사항을 확인하십시오. AWS 계정에 대한 서비스 제한 이러한 유형의 추론 노드 배포를 허용합니다.
다음을 사용하여 Inference Recommender 기본 작업을 만듭니다. ModelPackageVersion
이전 단계의 결과입니다. 그만큼 uuid
Python 라이브러리는 작업의 고유한 이름을 생성하는 데 사용됩니다.
다음 코드를 실행하여 Inference Recommender 작업의 상태를 확인할 수 있습니다.
작업 상태가 다음과 같을 때 COMPLETED
, 추론 추천자 기본 작업에서 평가한 EC2 인스턴스 유형의 추론 지연 시간, 런타임 및 기타 지표를 비교합니다. 사용 사례 요구 사항에 따라 적합한 노드 유형을 선택합니다.
결론
SageMaker는 포옹 얼굴 모델을 사용하는 여러 방법을 제공합니다. 더 많은 예를 보려면 다음을 확인하십시오. AWS 샘플 GitHub. 사용 사례의 복잡성과 모델을 미세 조정해야 하는 필요성에 따라 이러한 모델을 사용하는 최적의 방법을 선택할 수 있습니다. Hugging Face 파이프라인은 적절한 모델을 빠르게 실험하고 선택하기 위한 좋은 출발점이 될 수 있습니다. 선택한 모델을 사용자 지정하고 매개 변수화해야 하는 경우 모델을 다운로드하여 사용자 지정 추론 엔드포인트에 배포할 수 있습니다. 특정 사용 사례에 대해 모델을 더 미세 조정하려면 모델을 다운로드한 후 학습시켜야 합니다.
텍스트 요약 모델을 포함한 일반적으로 NLP 모델은 사용 사례에 특정한 데이터 세트에 대해 교육을 받은 후에 더 잘 수행됩니다. SageMaker의 MLOP 및 모델 모니터링 기능은 배포된 모델이 예상 내에서 계속 수행되도록 합니다. 이 게시물에서는 Inference Recommender를 사용하여 텍스트 요약 모델을 배포하는 데 가장 적합한 인스턴스 유형을 평가했습니다. 이러한 권장 사항은 ML 사용 사례에 대한 성능과 비용을 최적화할 수 있습니다.
저자에 관하여
니달 알베이루티 박사 기계 학습 솔루션에 대한 열정이 있는 Amazon Web Services의 수석 솔루션 설계자입니다. Nidal은 25년 이상 다양한 직급과 업종에서 다양한 글로벌 IT 역할을 수행한 경험이 있습니다. Nidal은 많은 AWS 고객이 클라우드 채택 여정을 지원하고 가속화할 수 있도록 신뢰할 수 있는 조언자 역할을 합니다.
대런 고 런던에 거주하는 솔루션 아키텍트입니다. 그는 영국 및 아일랜드 SMB 고객에게 클라우드에서 재설계 및 혁신에 대해 조언합니다. Darren은 서버리스 아키텍처로 구축된 애플리케이션에 관심이 있으며 머신 러닝으로 지속 가능성 문제를 해결하는 데 열정적입니다.
- '
- "
- 000
- 10
- 100
- 28
- a
- 소개
- 추상
- 가속
- 계정
- 정확한
- 달성
- 가로질러
- 주소
- 양자
- 고문
- AI
- 수
- 아마존
- Amazon Web Services
- 금액
- 분석
- API를
- Apple
- 어플리케이션
- 신청
- 인수
- 기사
- 관련
- 자동화
- 가능
- 수여
- AWS
- 때문에
- 처음
- 존재
- BEST
- 모범 사례
- 사이에
- 빌드
- 사업
- 전화
- 얻을 수 있습니다
- 기능
- 케이스
- 가지 경우
- 과제
- 선택
- 수업
- 분류
- 클라우드
- 암호
- 수집
- 조합
- 결합 된
- 커뮤니티
- 커뮤니티
- 기업
- 복잡한
- 계산
- 컴퓨터
- 구성
- 소비자
- 소비
- 컨테이너
- 용기
- 계속
- 만들
- 생성
- 관습
- 고객
- 사용자 정의
- 데이터
- 일
- 깊은
- 배달
- 보여
- 시연
- 의존
- 배포
- 배포
- 배치
- 전개
- 디자인
- 개발자
- 개발
- 개발
- 다른
- 어려운
- 디지털
- 직접
- 디스플레이
- 도커
- 의사
- 서류
- 도메인
- 도메인
- 다운로드
- 마다
- 용이하게
- 유효한
- 효율성
- 가능
- 종점
- 엔지니어
- 실재
- 환경
- 평가
- 예
- 예
- 펼치기
- 기대
- 경험
- 경험
- 실험
- 광대 한
- 페이스메이크업
- FAST
- 빠른
- 특징
- 수행원
- 체재
- 뼈대
- 프레임 워크
- 에
- 일반
- 생성
- 생성
- 글로벌
- 좋은
- 성장하는
- 도움
- 도움이
- 도움이
- 더 높은
- 방법
- How To
- HTTPS
- 허브
- 인간이 읽을 수있는
- 확인
- 영상
- 구현
- 이행
- 구현
- 중대한
- 포함
- 포함
- 정보
- 혁신
- 입력
- 통찰력
- 예
- 통합 된
- 완성
- 관심있는
- 아일랜드
- IT
- 그 자체
- 일
- 여행
- 키
- 지식
- 언어
- 언어
- 넓은
- 지도
- 배우기
- 레벨
- 도서관
- 제한
- 라인
- LINK
- 리눅스
- 명부
- 하중
- 장소 상에서
- 런던
- 조회
- 기계
- 기계 학습
- 확인
- 시장
- 경기
- 의미있는
- 회의
- 회원
- 통계
- ML
- 모델
- 모델
- 모니터링
- 배우기
- 가장
- 여러
- 자연의
- 다음 것
- 노드
- 수첩
- 노트
- 제공
- 제공
- 온라인
- 열 수
- 운영
- 조작
- 최적화
- 최적화
- 최적화
- 기타
- 자신의
- 열정
- 열렬한
- 성능
- 실행할 수 있는
- 구문
- 포인트 적립
- 인기 문서
- 힘
- Prepare
- 너무 이른
- 방법
- 처리
- 생산
- 생산
- 제품
- 프로젝트
- 제공
- 제공
- 제공
- 빨리
- 범위
- 추천하다
- 감소
- 지방
- 회원가입
- 의뢰
- 필요
- 요구조건 니즈
- 자료
- 결과
- 직위별
- 달리기
- 달리는
- 같은
- 규모
- 과학자
- SDK
- 원활한
- 선택된
- 감정
- 서버리스
- 서비스
- 세트
- 몇몇의
- 표시
- 단순, 간단, 편리
- 단일
- So
- 솔루션
- 구체적인
- 속도
- 표준
- 시작
- 최첨단
- Status
- 저장
- SUPPORT
- 지속 가능성
- 시스템은
- 작업
- 기법
- Technology
- 지원
- XNUMXD덴탈의
- 세
- 을 통하여
- 시간
- 시간이 많이 걸리는
- 검색을
- 화제
- 트레이닝
- 번역
- 신뢰할 수있는
- 유형
- 일반적으로
- Uk
- 아래에
- 이해
- 이해
- 유일한
- 사용
- 종류
- 여러
- 버전
- 업종
- 시력
- 볼륨
- 방법
- 웹
- 웹 서비스
- 이내
- 없이
- 말
- 일하는
- X
- 년
- 너의