Amazon SageMaker에서 의료 기술 사용 사례를 위한 대규모 언어 모델 배포

플라톤에 의해 재발행

팔로워 : 0

2021에서 제약 산업은 미국에서 550억 달러의 수익을 창출했습니다.. 제약 회사는 때로는 의도하지 않았지만 심각한 부작용이 발생할 수 있는 다양하고 새로운 약물을 시장에 판매합니다.

이러한 사건은 병원이나 집 등 어디에서나 보고될 수 있으며 책임감 있고 효율적으로 모니터링되어야 합니다. 건강 데이터와 비용의 양이 증가함에 따라 부작용을 수동으로 처리하는 것이 어려워지고 있습니다. 전체적으로, 384년까지 전체 의료 산업의 약물 감시 활동 비용으로 2022억 달러가 예상됩니다. 중요한 약물 감시 활동을 지원하기 위해 제약 고객은 기계 학습(ML) 기능을 사용하여 다양한 데이터 소스에서 이상 사례 감지를 자동화하기를 원합니다. , 소셜 미디어 피드, 전화 통화, 이메일, 손으로 쓴 메모 등을 수집하고 적절한 조치를 실행합니다.

이 게시물에서는 다음을 사용하여 ML 기반 솔루션을 개발하는 방법을 보여줍니다. 아마존 세이지 메이커 Hugging Face에 대한 공개적으로 사용 가능한 약물 이상 반응 데이터 세트를 사용하여 이상 사례를 탐지합니다. 이 솔루션에서는 의료 데이터로 사전 훈련된 Hugging Face의 다양한 모델을 미세 조정하고, 의료 데이터로 사전 훈련된 BioBERT 모델을 사용합니다. 공개된 데이터세트 그리고 시도한 것 중에서 최선을 다합니다.

우리는 다음을 사용하여 솔루션을 구현했습니다. AWS 클라우드 개발 키트 (AWS CDK). 그러나 이 게시물에서는 솔루션 구축에 대한 구체적인 내용을 다루지 않습니다. 이 솔루션 구현에 대한 자세한 내용은 다음을 참조하세요. Amazon SageMaker 및 Amazon QuickSight를 사용하여 실시간으로 부작용을 포착하는 시스템 구축.

이 게시물에서는 여러 핵심 영역을 자세히 살펴보고 다음 주제에 대한 포괄적인 탐색을 제공합니다.

AWS Professional Services가 직면한 데이터 문제
대규모 언어 모델(LLM)의 환경 및 적용:
- 트랜스포머, BERT, GPT
- 포옹하는 얼굴
미세 조정된 LLM 솔루션 및 해당 구성 요소:
- 데이터 준비
- 모델 훈련

데이터 챌린지

데이터 편향은 분류 작업을 수행할 때 종종 문제가 됩니다. 이상적으로는 균형 잡힌 데이터 세트를 갖고 싶어하며 이 사용 사례도 예외는 아닙니다.

우리는 이러한 편향을 해결합니다. 생성 적 AI 모델(Falcon-7B 및 Falcon-40B)은 의미론적 다양성을 높이고 라벨이 붙은 부작용의 샘플 크기를 늘리기 위해 훈련 세트의 XNUMX개 예를 기반으로 이벤트 샘플을 생성하도록 요청되었습니다. 여기서는 Falcon 모델을 사용하는 것이 유리합니다. Hugging Face의 일부 LLM과 달리 Falcon은 사용하는 교육 데이터 세트를 제공하므로 테스트 세트 예제 중 어느 것도 Falcon 교육 세트 내에 포함되어 있지 않고 데이터를 피할 수 있기 때문입니다. 오염.

의료 고객이 직면한 또 다른 데이터 과제는 HIPAA 규정 준수 요구 사항입니다. 이러한 요구 사항을 충족하려면 저장 및 전송 중 암호화를 솔루션에 통합해야 합니다.

트랜스포머, BERT, GPT

변환기 아키텍처는 자연어 처리(NLP) 작업에 사용되는 신경망 아키텍처입니다. 신문에 처음 소개됐는데요 “주의가 필요한 전부입니다” Vaswani 외. (2017). 변환기 아키텍처는 어텐션 메커니즘을 기반으로 하며 이를 통해 모델은 단어 간의 장거리 종속성을 학습할 수 있습니다. 원본 문서에 설명된 변환기는 인코더와 디코더라는 두 가지 주요 구성 요소로 구성됩니다. 인코더는 입력 시퀀스를 입력으로 사용하고 숨겨진 상태 시퀀스를 생성합니다. 그런 다음 디코더는 이러한 숨겨진 상태를 입력으로 사용하고 출력 시퀀스를 생성합니다. Attention 메커니즘은 인코더와 디코더 모두에서 사용됩니다. 주의 메커니즘을 사용하면 모델이 출력 시퀀스를 생성할 때 입력 시퀀스의 특정 단어에 주의를 기울일 수 있습니다. 이를 통해 모델은 기계 번역 및 텍스트 요약과 같은 많은 NLP 작업에 필수적인 단어 간의 장거리 종속성을 학습할 수 있습니다.

변환기 아키텍처 중 가장 인기 있고 유용한 것 중 하나인 BERT(BiDirectional Encoder Representations from Transformers)는 다음과 같은 언어 표현 모델입니다. 2018에서 소개 됨. BERT는 문장의 일부 단어가 마스킹된 시퀀스에 대해 훈련되었으며 마스킹된 단어 앞과 뒤의 단어를 모두 고려하여 해당 단어를 채워야 합니다. BERT는 질문 답변, 자연어 추론, 감정 분석을 포함한 다양한 NLP 작업에 맞게 미세 조정할 수 있습니다.

전 세계를 강타한 또 다른 인기 있는 변환기 아키텍처는 GPT(Generative Pre-trained Transformer)입니다. 최초의 GPT 모델은 2018년 OpenAI에서 소개. 이는 단어 앞의 맥락만 인식하여 시퀀스의 다음 단어를 엄격하게 예측하도록 훈련함으로써 작동합니다. GPT 모델은 텍스트와 코드로 구성된 대규모 데이터 세트에서 훈련되었으며 텍스트 생성, 질문 답변, 요약을 포함한 다양한 NLP 작업에 맞게 미세 조정할 수 있습니다.

일반적으로 BERT는 단어의 맥락에 대한 더 깊은 이해가 필요한 작업에 더 좋습니다. GPT는 텍스트 생성이 필요한 작업에 더 적합합니다..

포옹하는 얼굴

허깅페이스(Hugging Face)는 NLP 전문 인공지능 회사입니다. 개발자가 NLP 작업에 초점을 맞춘 ML 모델을 구축, 교육 및 배포할 수 있는 도구와 리소스를 갖춘 플랫폼을 제공합니다. Hugging Face의 주요 기능 중 하나는 라이브러리입니다. 변압기여기에는 텍스트 분류, 번역, 요약, 질문 응답과 같은 다양한 언어 작업에 맞게 미세 조정할 수 있는 사전 훈련된 모델이 포함되어 있습니다.

Hugging Face는 개발자와 데이터 과학자가 ML 모델을 대규모로 구축, 교육 및 배포할 수 있는 완전 관리형 서비스인 SageMaker와 원활하게 통합됩니다. 이러한 시너지 효과는 Hugging Face가 제공하는 최첨단 모델과 AWS의 강력하고 유연한 ML 서비스를 결합하여 NLP 작업을 처리할 수 있는 강력하고 확장 가능한 인프라를 제공함으로써 사용자에게 이점을 제공합니다. Hugging Face 모델은 다음에서 직접 액세스할 수도 있습니다. Amazon SageMaker 점프스타트, 사전 구축된 솔루션으로 시작하는 것이 편리합니다.

솔루션 개요

우리는 Hugging Face Transformers 라이브러리를 사용하여 부작용 분류 작업을 위해 SageMaker에서 변환기 모델을 미세 조정했습니다. 훈련 작업은 SageMaker PyTorch 추정기를 사용하여 구축됩니다. SageMaker JumpStart에는 구현하기 쉬운 Hugging Face와의 몇 가지 보완적인 통합도 있습니다. 이 섹션에서는 데이터 준비 및 모델 훈련과 관련된 주요 단계를 설명합니다.

데이터 준비

우리는 약물이상반응 데이터(ade_corpus_v2) 훈련/테스트 분할이 80/20인 Hugging Face 데이터세트 내. 모델 훈련 및 추론에 필요한 데이터 구조에는 두 개의 열이 있습니다.

모델 입력 데이터로 텍스트 콘텐츠용 열 XNUMX개.
레이블 클래스에 대한 또 다른 열입니다. 텍스트에는 두 가지 클래스가 있습니다. Not_AE 및 Adverse_Event.

모델 훈련 및 실험

가능한 Hugging Face 모델의 공간을 효율적으로 탐색하여 이상 사건의 결합 데이터를 세부 조정하기 위해 SageMaker 하이퍼파라미터 최적화(HPO) 작업을 구성하고 다른 중요한 하이퍼파라미터와 함께 다양한 Hugging Face 모델을 하이퍼파라미터로 전달했습니다. 훈련 배치 크기, 시퀀스 길이, 모델, 학습 속도 등이 있습니다. 훈련 작업은 ml.p3dn.24xlarge 인스턴스를 사용했으며 해당 인스턴스 유형으로 작업당 평균 30분이 걸렸습니다. 훈련 측정항목은 다음을 통해 캡처되었습니다. Amazon SageMaker 실험 도구를 사용했으며 각 훈련 작업은 10개의 에포크를 거쳤습니다.

우리는 코드에서 다음을 지정합니다:

훈련 배치 크기 – 모델 가중치가 업데이트되기 전에 함께 처리되는 샘플 수
시퀀스 길이 – BERT가 처리할 수 있는 입력 시퀀스의 최대 길이
학습률 – 훈련 중에 모델이 가중치를 업데이트하는 속도
모델 – Hugging Face 사전 훈련된 모델

# we use the Hyperparameter Tuner
from sagemaker.tuner import IntegerParameter,ContinuousParameter, CategoricalParameter
tuning_job_name = 'ade-hpo'
# Define exploration boundaries
hyperparameter_ranges = { 'learning_rate': ContinuousParameter(5e-6,5e-4), 'max_seq_length': CategoricalParameter(['16', '32', '64', '128', '256']), 'train_batch_size': CategoricalParameter(['16', '32', '64', '128', '256']), 'model_name': CategoricalParameter(["emilyalsentzer/Bio_ClinicalBERT", "dmis-lab/biobert-base-cased-v1.2", "monologg/biobert_v1.1_pubmed", "pritamdeka/BioBert-PubMed200kRCT", "saidhr20/pubmed-biobert-text-classification" ])
} # create Optimizer
Optimizer = sagemaker.tuner.HyperparameterTuner( estimator=bert_estimator, hyperparameter_ranges=hyperparameter_ranges, base_tuning_job_name=tuning_job_name, objective_type='Maximize', objective_metric_name='f1', metric_definitions=[ {'Name': 'f1', 'Regex': "f1: ([0-9.]+).*$"}], max_jobs=40, max_parallel_jobs=4,
) Optimizer.fit({'training': inputs_data}, wait=False)

결과

우리 사용 사례에서 가장 좋은 성능을 보인 모델은 monologg/biobert_v1.1_pubmed Hugging Face에서 호스팅되는 모델은 19,717개의 과학 출판물로 구성된 Pubmed 데이터 세트에서 사전 훈련된 BERT 아키텍처 버전입니다. 이 데이터세트에 대한 BERT 사전 훈련은 의학적으로 관련된 과학 용어에 대한 맥락을 식별하는 데 있어 이 모델에 추가적인 전문 지식을 제공합니다. 이는 데이터 세트에 자주 나타나는 의학적으로 특정한 구문에 대해 사전 훈련되었기 때문에 부작용 감지 작업에 대한 모델의 성능을 향상시킵니다.

다음 표에는 평가 지표가 요약되어 있습니다.

모델	Precision	소환	F1
기본 BERT	0.87	0.95	0.91
바이오버트	0.89	0.95	0.92
HPO를 이용한 BioBERT	0.89	0.96	0.929
HPO 및 합성으로 생성된 이상반응을 포함하는 BioBERT	0.90	0.96	0.933

이는 기본 BERT 모델에 비해 상대적으로 작고 점진적인 개선 사항이지만 그럼에도 불구하고 이러한 방법을 통해 모델 성능을 향상시킬 수 있는 몇 가지 실행 가능한 전략을 보여줍니다. Falcon을 사용한 합성 데이터 생성은 특히 이러한 생성 AI 모델이 시간이 지남에 따라 향상됨에 따라 성능 향상에 대한 많은 가능성과 잠재력을 갖고 있는 것으로 보입니다.

정리

향후 요금이 발생하지 않도록 하려면 다음 코드를 사용하여 생성한 모델 및 모델 엔드포인트와 같이 생성된 모든 리소스를 삭제하세요.

# Delete resources
model_predictor.delete_model()
model_predictor.delete_endpoint()

결론

오늘날 많은 제약 회사는 고객 안전과 결과를 개선하기 위해 체계적인 방식으로 고객 상호 작용에서 부작용을 식별하는 프로세스를 자동화하려고 합니다. 이 게시물에서 보여드린 것처럼 합성으로 생성된 부작용이 데이터에 추가된 미세 조정된 LLM BioBERT는 F1 점수가 높은 부작용을 분류하고 고객을 위한 HIPAA 준수 솔루션을 구축하는 데 사용될 수 있습니다.

언제나 그렇듯이 AWS는 여러분의 피드백을 환영합니다. 의견 섹션에 의견과 질문을 남겨주세요.

저자 소개

Amazon SageMaker에서 의료 기술 사용 사례를 위한 대규모 언어 모델 배포 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 잭 피터슨 AWS Professional Services의 데이터 과학자입니다. 그는 수년 동안 고객에게 기계 학습 솔루션을 제공해 왔으며 경제학 석사 학위를 보유하고 있습니다.

Amazon SageMaker에서 의료 기술 사용 사례를 위한 대규모 언어 모델 배포 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 아데웨일 아킨파데린 박사 AWS의 의료 및 생명 과학 부문 선임 데이터 과학자입니다. 그의 전문 분야는 재현 가능한 엔드투엔드 AI/ML 방법, 실제 구현, 글로벌 의료 고객이 학제간 문제에 대한 확장 가능한 솔루션을 공식화하고 개발하도록 지원하는 것입니다. 그는 물리학 분야에서 두 개의 대학원 학위와 공학 분야의 박사 학위를 가지고 있습니다.

Amazon SageMaker에서 의료 기술 사용 사례를 위한 대규모 언어 모델 배포 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 엑타 왈리아 불라르, PhD는 AWS 의료 및 생명 과학(HCLS) 전문 서비스 사업부의 선임 AI/ML 컨설턴트입니다. 그녀는 의료 분야, 특히 방사선학 분야에서 AI/ML 적용에 대한 광범위한 경험을 보유하고 있습니다. 업무 외 방사선학 분야의 AI에 관해 논의하지 않을 때는 달리기와 하이킹을 좋아합니다.

Amazon SageMaker에서 의료 기술 사용 사례를 위한 대규모 언어 모델 배포 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 한만 캘리포니아주 샌디에이고에 본사를 둔 AWS Professional Services의 수석 데이터 과학 및 기계 학습 관리자입니다. 그는 노스웨스턴 대학교에서 공학 박사 학위를 취득했으며 제조, 금융 서비스 및 에너지 분야에서 고객에게 조언하는 경영 컨설턴트로서 수년간의 경험을 갖고 있습니다. 현재 그는 다양한 산업 분야의 주요 고객과 열정적으로 협력하여 AWS에서 ML 및 생성 AI 솔루션을 개발하고 구현하고 있습니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
출처: https://aws.amazon.com/blogs/machine-learning/deploy-large-language-models-for-a-healthtech-use-case-on-amazon-sagemaker/

타임 스탬프 : 2024년 ２월 6일

타임 스탬프 : 12월 20, 2022

플라톤에 의해 재발행

AWS AI 서비스를 통한 지능형 문서 처리: 2부

Amazon Personalize를 사용하여 실시간 맞춤형 추천 구현 | 아마존 웹 서비스

Earth.com과 Provectus가 Amazon SageMaker로 MLOps 인프라를 구현한 방법 | 아마존 웹 서비스

LLM과 함께 Haystack 파이프라인 및 Amazon SageMaker JumpStart를 사용하여 엔터프라이즈 검색을 위한 프로덕션 준비 생성 AI 애플리케이션 구축 | 아마존 웹 서비스

AWS 환경에서 RStudio를 구현하고 AWS Lake Formation 권한을 사용하여 데이터 레이크에 액세스

IMDb 지식 그래프를 사용한 강력한 추천 및 검색 - 2부

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정