Розгорніть великі мовні моделі для прикладу використання Healthtech на Amazon SageMaker

Перевидано Платоном

читають: 0

В 2021, фармацевтична промисловість принесла США 550 мільярдів доларів доходу. Фармацевтичні компанії продають на ринку різноманітні, часто новітні ліки, де іноді можуть виникнути ненавмисні, але серйозні побічні ефекти.

Про ці події можна повідомити будь-де, з лікарні чи вдома, і їх необхідно відповідально та ефективно контролювати. Традиційна ручна обробка несприятливих подій стає складною через збільшення кількості даних про здоров’я та витрат. Загалом до 384 року очікується, що вартість діяльності з фармаконагляду для галузі охорони здоров’я в цілому становитиме 2022 мільярди доларів США. Для підтримки комплексної діяльності з фармаконагляду наші фармацевтичні клієнти хочуть використовувати потужність машинного навчання (ML) для автоматизації виявлення побічних подій з різних джерел даних. , як-от канали соціальних мереж, телефонні дзвінки, електронні листи та рукописні нотатки, і ініціювати відповідні дії.

У цій публікації ми покажемо, як розробити рішення на основі ML за допомогою Amazon SageMaker для виявлення побічних подій за допомогою загальнодоступного набору даних про побічні реакції на ліки на Hugging Face. У цьому рішенні ми точно налаштовуємо різні моделі на Hugging Face, які були попередньо навчені на основі медичних даних, і використовуємо модель BioBERT, яка була попередньо навчена на Опублікований набір даних і виконує найкраще з випробуваних.

Ми реалізували рішення за допомогою Набір хмарних розробок AWS (AWS CDK). Однак у цьому дописі ми не розглядаємо особливості створення рішення. Додаткову інформацію про впровадження цього рішення див Створіть систему для виявлення несприятливих подій у режимі реального часу за допомогою Amazon SageMaker та Amazon QuickSight.

Ця публікація заглиблюється в кілька ключових тем, забезпечуючи всебічне дослідження таких тем:

Проблеми з даними, з якими стикається AWS Professional Services
Ландшафт і застосування великих мовних моделей (LLM):
- Трансформатори, BERT і GPT
- Обіймати обличчя
Досконале рішення LLM та його компоненти:
- Підготовка даних
- Модельний тренінг

Виклик даних

Перекіс даних часто є проблемою під час створення завдань класифікації. В ідеалі ви хотіли б мати збалансований набір даних, і цей варіант використання не є винятком.

Ми вирішуємо цей перекіс за допомогою генеративний ШІ моделі (Falcon-7B та Falcon-40B), яким було запропоновано генерувати вибірки подій на основі п’яти прикладів із навчального набору для збільшення семантичного розмаїття та збільшення розміру вибірки мічених побічних подій. Для нас вигідно використовувати тут моделі Falcon, тому що, на відміну від деяких LLM на Hugging Face, Falcon надає вам навчальний набір даних, який вони використовують, тож ви можете бути впевнені, що жоден із ваших прикладів тестового набору не міститься в навчальному наборі Falcon і уникнути даних забруднення.

Іншою проблемою щодо даних для клієнтів охорони здоров’я є відповідність вимогам HIPAA. Щоб задовольнити ці вимоги, у рішення має бути включено шифрування в стані спокою та під час передачі.

Трансформатори, BERT і GPT

Архітектура трансформатора — це архітектура нейронної мережі, яка використовується для завдань обробки природної мови (NLP). Вперше це було представлено в газеті «Увага — це все, що вам потрібно» Васвані та ін. (2017). Архітектура трансформатора заснована на механізмі уваги, який дозволяє моделі вивчати далекі залежності між словами. Трансформатори, як зазначено в оригінальній статті, складаються з двох основних компонентів: кодера та декодера. Кодер приймає вхідну послідовність як вхідну та створює послідовність прихованих станів. Потім декодер приймає ці приховані стани як вхідні дані та створює вихідну послідовність. Механізм уваги використовується як у кодері, так і в декодері. Механізм уваги дозволяє моделі звертати увагу на певні слова у вхідній послідовності під час генерації вихідної послідовності. Це дозволяє моделі вивчати віддалені залежності між словами, що важливо для багатьох завдань НЛП, таких як машинний переклад і резюмування тексту.

Одна з найбільш популярних і корисних трансформаторних архітектур, представлення двонаправленого кодувальника від Transformers (BERT), є моделлю представлення мови, яка була введено в 2018. BERT навчається на послідовностях, де деякі слова в реченні замасковані, і він має заповнити ці слова, враховуючи слова до та після замаскованих слів. BERT можна налаштувати для різноманітних завдань НЛП, включаючи відповіді на запитання, висновок природної мови та аналіз настроїв.

Інша популярна трансформаторна архітектура, яка захопила світ, — Generative Pre-trained Transformer (GPT). Перша модель GPT була представлений у 2018 році OpenAI. Він працює, будучи навченим точно передбачати наступне слово в послідовності, усвідомлюючи лише контекст перед словом. Моделі GPT навчаються на величезному наборі даних тексту та коду, і їх можна точно налаштувати для ряду завдань NLP, включаючи генерацію тексту, відповіді на запитання та підсумовування.

Загалом BERT краще справляється із завданнями, які потребують глибшого розуміння контексту слів, тоді як GPT краще підходить для завдань, які потребують генерації тексту.

Обіймати обличчя

Hugging Face — компанія зі штучного інтелекту, яка спеціалізується на НЛП. Він надає платформу з інструментами та ресурсами, які дозволяють розробникам створювати, навчати та розгортати моделі ML, орієнтовані на завдання NLP. Однією з ключових пропозицій Hugging Face є його бібліотека, трансформери, який містить попередньо підготовлені моделі, які можна налаштувати для різних мовних завдань, таких як класифікація тексту, переклад, резюмування та відповіді на запитання.

Hugging Face бездоганно інтегрується з SageMaker, повністю керованим сервісом, який дозволяє розробникам і дослідникам даних створювати, навчати та розгортати моделі ML у масштабі. Ця синергія приносить користь користувачам, надаючи надійну та масштабовану інфраструктуру для виконання завдань NLP за допомогою найсучасніших моделей, які пропонує Hugging Face, у поєднанні з потужними та гнучкими сервісами машинного навчання від AWS. Ви також можете отримати доступ до моделей Hugging Face безпосередньо з Amazon SageMaker JumpStart, що робить зручним починати з готових рішень.

Огляд рішення

Ми використали бібліотеку Hugging Face Transformers для точного налаштування моделей трансформаторів у SageMaker для завдання класифікації несприятливих подій. Навчальне завдання створено за допомогою кошторису SageMaker PyTorch. SageMaker JumpStart також має деякі додаткові інтеграції з Hugging Face, що спрощує впровадження. У цьому розділі ми описуємо основні етапи підготовки даних і навчання моделі.

Підготовка даних

Ми використали дані про побічні реакції на ліки (ade_corpus_v2) у наборі даних Hugging Face із розподілом навчання/тесту 80/20. Необхідна структура даних для нашого навчання моделі та висновку має два стовпці:

Один стовпець для текстового вмісту як вхідних даних моделі.
Ще один стовпець для класу міток. У нас є два можливих класи для тексту: Not_AE та Adverse_Event.

Модельне навчання та експериментування

Щоб ефективно досліджувати простір можливих моделей обіймаючихся облич для точного налаштування наших об’єднаних даних про несприятливі події, ми створили завдання оптимізації гіперпараметрів (HPO) SageMaker і передавали різні моделі обіймальних облич як гіперпараметр разом з іншими важливими гіперпараметрами. наприклад, розмір навчальної партії, довжина послідовності, моделі та швидкість навчання. Навчальні завдання використовували екземпляр ml.p3dn.24xlarge і займали в середньому 30 хвилин на завдання з таким типом екземпляра. Показники навчання були записані, хоча Експерименти Amazon SageMaker інструмент, і кожна робота навчання проходила через 10 епох.

У нашому коді ми визначаємо наступне:

Розмір навчальної партії – Кількість зразків, які обробляються разом перед оновленням ваг моделі
Довжина послідовності – Максимальна довжина вхідної послідовності, яку може обробити BERT
Швидкість навчання – Як швидко модель оновлює свою вагу під час тренування
моделі – попередньо підготовлені моделі Hugging Face

# we use the Hyperparameter Tuner
from sagemaker.tuner import IntegerParameter,ContinuousParameter, CategoricalParameter
tuning_job_name = 'ade-hpo'
# Define exploration boundaries
hyperparameter_ranges = { 'learning_rate': ContinuousParameter(5e-6,5e-4), 'max_seq_length': CategoricalParameter(['16', '32', '64', '128', '256']), 'train_batch_size': CategoricalParameter(['16', '32', '64', '128', '256']), 'model_name': CategoricalParameter(["emilyalsentzer/Bio_ClinicalBERT", "dmis-lab/biobert-base-cased-v1.2", "monologg/biobert_v1.1_pubmed", "pritamdeka/BioBert-PubMed200kRCT", "saidhr20/pubmed-biobert-text-classification" ])
} # create Optimizer
Optimizer = sagemaker.tuner.HyperparameterTuner( estimator=bert_estimator, hyperparameter_ranges=hyperparameter_ranges, base_tuning_job_name=tuning_job_name, objective_type='Maximize', objective_metric_name='f1', metric_definitions=[ {'Name': 'f1', 'Regex': "f1: ([0-9.]+).*$"}], max_jobs=40, max_parallel_jobs=4,
) Optimizer.fit({'training': inputs_data}, wait=False)

результати

Модель, яка показала найкращі результати в нашому випадку використання, була monologg/biobert_v1.1_pubmed модель, розміщена на Hugging Face, яка є версією архітектури BERT, яка була попередньо навчена на наборі даних Pubmed, який складається з 19,717 XNUMX наукових публікацій. Попереднє навчання BERT на цьому наборі даних дає цій моделі додатковий досвід, коли справа доходить до визначення контексту навколо наукових термінів, пов’язаних із медициною. Це покращує продуктивність моделі для завдання виявлення несприятливих подій, оскільки її було попередньо навчено відповідно до медичного синтаксису, який часто відображається в нашому наборі даних.

У наведеній нижче таблиці підсумовано наші показники оцінювання.

Model	Точність	Згадувати	F1
База БЕРТ	0.87	0.95	0.91
БіоБерт	0.89	0.95	0.92
BioBERT з HPO	0.89	0.96	0.929
BioBERT з HPO та синтетично створеними побічними ефектами	0.90	0.96	0.933

Хоча це відносно невеликі та поступові вдосконалення в порівнянні з базовою моделлю BERT, це все ж демонструє деякі життєздатні стратегії покращення продуктивності моделі за допомогою цих методів. Генерація синтетичних даних за допомогою Falcon, здається, має багато перспектив і потенціалу для покращення продуктивності, особливо тому, що ці генеративні моделі ШІ з часом стають кращими.

Прибирати

Щоб уникнути майбутніх витрат, видаліть усі створені ресурси, як-от модель, і кінцеві точки моделі, які ви створили за допомогою такого коду:

# Delete resources
model_predictor.delete_model()
model_predictor.delete_endpoint()

Висновок

Сьогодні багато фармацевтичних компаній хотіли б систематично автоматизувати процес виявлення несприятливих подій під час взаємодії з клієнтами, щоб допомогти покращити безпеку клієнтів і результати. Як ми показали в цій публікації, налаштований LLM BioBERT із синтетично генерованими побічними явищами, доданими до даних, класифікує побічні явища з високими балами F1 і може бути використаний для створення рішення, сумісного з HIPAA, для наших клієнтів.

Як завжди, AWS раді вашим відгукам. Будь ласка, залишайте свої думки та запитання в розділі коментарів.

Про авторів

Deploy large language models for a healthtech use case on Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Зак Петерсон є спеціалістом із обробки даних у AWS Professional Services. Він багато років надає клієнтам рішення для машинного навчання та має ступінь магістра економіки.

Deploy large language models for a healthtech use case on Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Доктор Адевале Акінфадерін є старшим спеціалістом з обробки даних відділу охорони здоров’я та наук про життя в AWS. Його досвід полягає у відтворюваних і наскрізних методах AI/ML, практичних реалізаціях і допомозі глобальним клієнтам охорони здоров’я формулювати та розробляти масштабовані рішення для міждисциплінарних проблем. Має дві вчені ступені з фізики та докторську ступінь з інженерії.

Deploy large language models for a healthtech use case on Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Екта Валія Бхуллар, доктор філософії, є старшим консультантом зі штучного інтелекту та ML бізнес-підрозділу професійних послуг AWS Healthcare and Life Sciences (HCLS). Вона має значний досвід застосування ШІ/ML у сфері охорони здоров’я, особливо в радіології. Поза роботою, коли не обговорюють ШІ в радіології, вона любить бігати та піти в походи.

Deploy large language models for a healthtech use case on Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Хан Ман є старшим менеджером з обробки даних і машинного навчання в AWS Professional Services у Сан-Дієго, Каліфорнія. Він має ступінь доктора інженерних наук у Північно-західному університеті та кілька років досвіду роботи консультантом з питань управління, надаючи консультації клієнтам у сферах виробництва, фінансових послуг та енергетики. Сьогодні він пристрасно працює з ключовими клієнтами з різних галузевих галузей, щоб розробити та впровадити ML і генеративні рішення AI на AWS.