В 2021, фармацевтична промисловість принесла США 550 мільярдів доларів доходу. Фармацевтичні компанії продають на ринку різноманітні, часто новітні ліки, де іноді можуть виникнути ненавмисні, але серйозні побічні ефекти.
Про ці події можна повідомити будь-де, з лікарні чи вдома, і їх необхідно відповідально та ефективно контролювати. Традиційна ручна обробка несприятливих подій стає складною через збільшення кількості даних про здоров’я та витрат. Загалом до 384 року очікується, що вартість діяльності з фармаконагляду для галузі охорони здоров’я в цілому становитиме 2022 мільярди доларів США. Для підтримки комплексної діяльності з фармаконагляду наші фармацевтичні клієнти хочуть використовувати потужність машинного навчання (ML) для автоматизації виявлення побічних подій з різних джерел даних. , як-от канали соціальних мереж, телефонні дзвінки, електронні листи та рукописні нотатки, і ініціювати відповідні дії.
У цій публікації ми покажемо, як розробити рішення на основі ML за допомогою Amazon SageMaker для виявлення побічних подій за допомогою загальнодоступного набору даних про побічні реакції на ліки на Hugging Face. У цьому рішенні ми точно налаштовуємо різні моделі на Hugging Face, які були попередньо навчені на основі медичних даних, і використовуємо модель BioBERT, яка була попередньо навчена на Опублікований набір даних і виконує найкраще з випробуваних.
Ми реалізували рішення за допомогою Набір хмарних розробок AWS (AWS CDK). Однак у цьому дописі ми не розглядаємо особливості створення рішення. Додаткову інформацію про впровадження цього рішення див Створіть систему для виявлення несприятливих подій у режимі реального часу за допомогою Amazon SageMaker та Amazon QuickSight.
Ця публікація заглиблюється в кілька ключових тем, забезпечуючи всебічне дослідження таких тем:
- Проблеми з даними, з якими стикається AWS Professional Services
- Ландшафт і застосування великих мовних моделей (LLM):
- Трансформатори, BERT і GPT
- Обіймати обличчя
- Досконале рішення LLM та його компоненти:
- Підготовка даних
- Модельний тренінг
Виклик даних
Перекіс даних часто є проблемою під час створення завдань класифікації. В ідеалі ви хотіли б мати збалансований набір даних, і цей варіант використання не є винятком.
Ми вирішуємо цей перекіс за допомогою генеративний ШІ моделі (Falcon-7B та Falcon-40B), яким було запропоновано генерувати вибірки подій на основі п’яти прикладів із навчального набору для збільшення семантичного розмаїття та збільшення розміру вибірки мічених побічних подій. Для нас вигідно використовувати тут моделі Falcon, тому що, на відміну від деяких LLM на Hugging Face, Falcon надає вам навчальний набір даних, який вони використовують, тож ви можете бути впевнені, що жоден із ваших прикладів тестового набору не міститься в навчальному наборі Falcon і уникнути даних забруднення.
Іншою проблемою щодо даних для клієнтів охорони здоров’я є відповідність вимогам HIPAA. Щоб задовольнити ці вимоги, у рішення має бути включено шифрування в стані спокою та під час передачі.
Трансформатори, BERT і GPT
Архітектура трансформатора — це архітектура нейронної мережі, яка використовується для завдань обробки природної мови (NLP). Вперше це було представлено в газеті «Увага — це все, що вам потрібно» Васвані та ін. (2017). Архітектура трансформатора заснована на механізмі уваги, який дозволяє моделі вивчати далекі залежності між словами. Трансформатори, як зазначено в оригінальній статті, складаються з двох основних компонентів: кодера та декодера. Кодер приймає вхідну послідовність як вхідну та створює послідовність прихованих станів. Потім декодер приймає ці приховані стани як вхідні дані та створює вихідну послідовність. Механізм уваги використовується як у кодері, так і в декодері. Механізм уваги дозволяє моделі звертати увагу на певні слова у вхідній послідовності під час генерації вихідної послідовності. Це дозволяє моделі вивчати віддалені залежності між словами, що важливо для багатьох завдань НЛП, таких як машинний переклад і резюмування тексту.
Одна з найбільш популярних і корисних трансформаторних архітектур, представлення двонаправленого кодувальника від Transformers (BERT), є моделлю представлення мови, яка була введено в 2018. BERT навчається на послідовностях, де деякі слова в реченні замасковані, і він має заповнити ці слова, враховуючи слова до та після замаскованих слів. BERT можна налаштувати для різноманітних завдань НЛП, включаючи відповіді на запитання, висновок природної мови та аналіз настроїв.
Інша популярна трансформаторна архітектура, яка захопила світ, — Generative Pre-trained Transformer (GPT). Перша модель GPT була представлений у 2018 році OpenAI. Він працює, будучи навченим точно передбачати наступне слово в послідовності, усвідомлюючи лише контекст перед словом. Моделі GPT навчаються на величезному наборі даних тексту та коду, і їх можна точно налаштувати для ряду завдань NLP, включаючи генерацію тексту, відповіді на запитання та підсумовування.
Загалом BERT краще справляється із завданнями, які потребують глибшого розуміння контексту слів, тоді як GPT краще підходить для завдань, які потребують генерації тексту.
Обіймати обличчя
Hugging Face — компанія зі штучного інтелекту, яка спеціалізується на НЛП. Він надає платформу з інструментами та ресурсами, які дозволяють розробникам створювати, навчати та розгортати моделі ML, орієнтовані на завдання NLP. Однією з ключових пропозицій Hugging Face є його бібліотека, трансформери, який містить попередньо підготовлені моделі, які можна налаштувати для різних мовних завдань, таких як класифікація тексту, переклад, резюмування та відповіді на запитання.
Hugging Face бездоганно інтегрується з SageMaker, повністю керованим сервісом, який дозволяє розробникам і дослідникам даних створювати, навчати та розгортати моделі ML у масштабі. Ця синергія приносить користь користувачам, надаючи надійну та масштабовану інфраструктуру для виконання завдань NLP за допомогою найсучасніших моделей, які пропонує Hugging Face, у поєднанні з потужними та гнучкими сервісами машинного навчання від AWS. Ви також можете отримати доступ до моделей Hugging Face безпосередньо з Amazon SageMaker JumpStart, що робить зручним починати з готових рішень.
Огляд рішення
Ми використали бібліотеку Hugging Face Transformers для точного налаштування моделей трансформаторів у SageMaker для завдання класифікації несприятливих подій. Навчальне завдання створено за допомогою кошторису SageMaker PyTorch. SageMaker JumpStart також має деякі додаткові інтеграції з Hugging Face, що спрощує впровадження. У цьому розділі ми описуємо основні етапи підготовки даних і навчання моделі.
Підготовка даних
Ми використали дані про побічні реакції на ліки (ade_corpus_v2) у наборі даних Hugging Face із розподілом навчання/тесту 80/20. Необхідна структура даних для нашого навчання моделі та висновку має два стовпці:
- Один стовпець для текстового вмісту як вхідних даних моделі.
- Ще один стовпець для класу міток. У нас є два можливих класи для тексту:
Not_AE
таAdverse_Event
.
Модельне навчання та експериментування
Щоб ефективно досліджувати простір можливих моделей обіймаючихся облич для точного налаштування наших об’єднаних даних про несприятливі події, ми створили завдання оптимізації гіперпараметрів (HPO) SageMaker і передавали різні моделі обіймальних облич як гіперпараметр разом з іншими важливими гіперпараметрами. наприклад, розмір навчальної партії, довжина послідовності, моделі та швидкість навчання. Навчальні завдання використовували екземпляр ml.p3dn.24xlarge і займали в середньому 30 хвилин на завдання з таким типом екземпляра. Показники навчання були записані, хоча Експерименти Amazon SageMaker інструмент, і кожна робота навчання проходила через 10 епох.
У нашому коді ми визначаємо наступне:
- Розмір навчальної партії – Кількість зразків, які обробляються разом перед оновленням ваг моделі
- Довжина послідовності – Максимальна довжина вхідної послідовності, яку може обробити BERT
- Швидкість навчання – Як швидко модель оновлює свою вагу під час тренування
- моделі – попередньо підготовлені моделі Hugging Face
результати
Модель, яка показала найкращі результати в нашому випадку використання, була monologg/biobert_v1.1_pubmed
модель, розміщена на Hugging Face, яка є версією архітектури BERT, яка була попередньо навчена на наборі даних Pubmed, який складається з 19,717 XNUMX наукових публікацій. Попереднє навчання BERT на цьому наборі даних дає цій моделі додатковий досвід, коли справа доходить до визначення контексту навколо наукових термінів, пов’язаних із медициною. Це покращує продуктивність моделі для завдання виявлення несприятливих подій, оскільки її було попередньо навчено відповідно до медичного синтаксису, який часто відображається в нашому наборі даних.
У наведеній нижче таблиці підсумовано наші показники оцінювання.
Model | Точність | Згадувати | F1 |
База БЕРТ | 0.87 | 0.95 | 0.91 |
БіоБерт | 0.89 | 0.95 | 0.92 |
BioBERT з HPO | 0.89 | 0.96 | 0.929 |
BioBERT з HPO та синтетично створеними побічними ефектами | 0.90 | 0.96 | 0.933 |
Хоча це відносно невеликі та поступові вдосконалення в порівнянні з базовою моделлю BERT, це все ж демонструє деякі життєздатні стратегії покращення продуктивності моделі за допомогою цих методів. Генерація синтетичних даних за допомогою Falcon, здається, має багато перспектив і потенціалу для покращення продуктивності, особливо тому, що ці генеративні моделі ШІ з часом стають кращими.
Прибирати
Щоб уникнути майбутніх витрат, видаліть усі створені ресурси, як-от модель, і кінцеві точки моделі, які ви створили за допомогою такого коду:
Висновок
Сьогодні багато фармацевтичних компаній хотіли б систематично автоматизувати процес виявлення несприятливих подій під час взаємодії з клієнтами, щоб допомогти покращити безпеку клієнтів і результати. Як ми показали в цій публікації, налаштований LLM BioBERT із синтетично генерованими побічними явищами, доданими до даних, класифікує побічні явища з високими балами F1 і може бути використаний для створення рішення, сумісного з HIPAA, для наших клієнтів.
Як завжди, AWS раді вашим відгукам. Будь ласка, залишайте свої думки та запитання в розділі коментарів.
Про авторів
Зак Петерсон є спеціалістом із обробки даних у AWS Professional Services. Він багато років надає клієнтам рішення для машинного навчання та має ступінь магістра економіки.
Доктор Адевале Акінфадерін є старшим спеціалістом з обробки даних відділу охорони здоров’я та наук про життя в AWS. Його досвід полягає у відтворюваних і наскрізних методах AI/ML, практичних реалізаціях і допомозі глобальним клієнтам охорони здоров’я формулювати та розробляти масштабовані рішення для міждисциплінарних проблем. Має дві вчені ступені з фізики та докторську ступінь з інженерії.
Екта Валія Бхуллар, доктор філософії, є старшим консультантом зі штучного інтелекту та ML бізнес-підрозділу професійних послуг AWS Healthcare and Life Sciences (HCLS). Вона має значний досвід застосування ШІ/ML у сфері охорони здоров’я, особливо в радіології. Поза роботою, коли не обговорюють ШІ в радіології, вона любить бігати та піти в походи.
Хан Ман є старшим менеджером з обробки даних і машинного навчання в AWS Professional Services у Сан-Дієго, Каліфорнія. Він має ступінь доктора інженерних наук у Північно-західному університеті та кілька років досвіду роботи консультантом з питань управління, надаючи консультації клієнтам у сферах виробництва, фінансових послуг та енергетики. Сьогодні він пристрасно працює з ключовими клієнтами з різних галузевих галузей, щоб розробити та впровадити ML і генеративні рішення AI на AWS.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/deploy-large-language-models-for-a-healthtech-use-case-on-amazon-sagemaker/
- : має
- :є
- : ні
- :де
- $UP
- 1
- 10
- 100
- 16
- 19
- 2017
- 2018
- 2021
- 2022
- 30
- 32
- 7
- a
- доступ
- рахунки
- ACM
- дії
- діяльності
- доданий
- адреса
- вигідний
- несприятливий
- консультування
- після
- AI
- Моделі AI
- AI / ML
- AL
- ВСІ
- дозволяє
- по
- Також
- завжди
- Amazon
- Amazon SageMaker
- Amazon Web Services
- кількість
- an
- аналіз
- та
- відповідь
- будь-який
- де-небудь
- додаток
- відповідний
- архітектура
- архітектури
- ЕСТЬ
- області
- навколо
- штучний
- штучний інтелект
- AS
- At
- відвідувати
- увагу
- автоматизувати
- доступний
- середній
- уникнути
- знати
- AWS
- Професійні послуги AWS
- збалансований
- база
- заснований
- BE
- оскільки
- було
- перед тим
- буття
- Переваги
- КРАЩЕ
- Краще
- між
- двонаправлений
- Мільярд
- підсилює
- обидва
- Межі
- будувати
- Створюємо
- побудований
- бізнес
- але
- by
- CA
- Виклики
- CAN
- захоплений
- випадок
- виклик
- проблеми
- складні
- вантажі
- клас
- класів
- класифікація
- клієнтів
- хмара
- код
- Колонка
- Колони
- комбінований
- приходить
- майбутній
- коментарі
- Компанії
- компанія
- взаємодоповнюючі
- дотримання
- Компоненти
- всеосяжний
- складається
- побудований
- консультант
- містяться
- зміст
- контекст
- Зручний
- Коштувати
- витрати
- обкладинка
- створювати
- створений
- клієнт
- Клієнти
- дані
- Підготовка даних
- наука про дані
- вчений даних
- Структура даних
- глибше
- визначати
- Ступінь
- надання
- заглиблюється
- демонструє
- залежно
- розгортання
- описувати
- Виявлення
- розвивати
- розробників
- розробка
- Дієго
- різний
- безпосередньо
- обговорення
- різноманітність
- домен
- Не знаю
- наркотик
- Наркотики
- під час
- E&T
- кожен
- Економіка
- продуктивно
- повідомлення електронної пошти
- включіть
- дозволяє
- шифрування
- кінець в кінець
- енергія
- Машинобудування
- епохи
- особливо
- істотний
- оцінка
- Event
- Події
- Приклади
- виняток
- досвід
- експертиза
- дослідження
- дослідити
- обширний
- Великий досвід
- додатково
- f1
- Face
- зворотний зв'язок
- заповнювати
- фінансовий
- фінансові послуги
- Перший
- п'ять
- гнучкий
- увагу
- після
- для
- від
- повністю
- майбутнє
- Загальне
- породжувати
- генерується
- породжує
- покоління
- генеративний
- Генеративний ШІ
- отримати
- дає
- Глобальний
- випускник
- обробляти
- Руки
- Мати
- he
- здоров'я
- охорона здоров'я
- healthcare industry
- HealthTech
- допомога
- допомогу
- тут
- прихований
- Високий
- Похід
- його
- тримати
- Головна
- лікарні
- відбувся
- Як
- How To
- Однак
- HTTPS
- Оптимізація гіперпараметрів
- в ідеалі
- ідентифікує
- здійснювати
- реалізація
- реалізації
- реалізовані
- імпорт
- важливо
- удосконалювати
- поліпшення
- in
- includes
- У тому числі
- Зареєстрований
- Augmenter
- зростаючий
- зростаючий
- промисловість
- інформація
- Інфраструктура
- вхід
- екземпляр
- Інтеграція
- інтеграцій
- Інтелект
- Взаємодії
- в
- введені
- залучений
- IT
- ЙОГО
- робота
- Джобс
- JPG
- ключ
- Ключові сфери
- етикетка
- закладені
- ландшафт
- мова
- великий
- УЧИТЬСЯ
- вивчення
- Залишати
- довжина
- бібліотека
- життя
- Life Sciences
- як
- Сподобалося
- LLM
- серія
- машина
- навчання за допомогою машини
- made
- головний
- основний
- РОБОТИ
- Робить
- людина
- вдалося
- управління
- менеджер
- керівництво
- виробництво
- багато
- ринок
- масивний
- магістра
- Максимізувати
- максимальний
- механізм
- Медіа
- медичний
- медичні дані
- Зустрічатися
- методика
- Метрика
- хвилин
- ML
- модель
- Моделі
- контрольований
- більше
- повинен
- ім'я
- Природний
- Обробка природних мов
- мережу
- нервовий
- нейронної мережі
- проте
- наступний
- nlp
- немає
- ніхто
- примітки
- роман
- номер
- відбуваються
- of
- Пропозиції
- Пропозиції
- часто
- on
- ONE
- тільки
- оптимізація
- or
- порядок
- оригінал
- Інше
- наші
- з
- Результати
- вихід
- поза
- над
- загальний
- всеохоплюючий
- Папір
- Пройшов
- для
- продуктивність
- виконується
- виступає
- фармацевтична
- Вчений ступінь
- телефон
- телефонні дзвінки
- Фізика
- платформа
- plato
- Інформація про дані Платона
- PlatoData
- будь ласка
- популярний
- це можливо
- пошта
- потенціал
- влада
- потужний
- Практичний
- передбачати
- підготовка
- Проблема
- проблеми
- процес
- Оброблено
- обробка
- випускає
- професійний
- прогнозовані
- обіцянку
- забезпечує
- забезпечення
- публікаціям
- публічно
- піторх
- питання
- питань
- швидко
- діапазон
- ставка
- реакція
- реального часу
- послатися
- regex
- пов'язаний
- щодо
- Повідомляється
- подання
- вимагати
- вимагається
- Вимога
- ресурси
- відповідально
- REST
- міцний
- прогін
- Безпека
- мудрець
- зразок
- Сан -
- Сан - Дієго
- масштабовані
- шкала
- наука
- НАУКИ
- науковий
- вчений
- Вчені
- плавно
- розділ
- Здається,
- продавати
- смисловий
- старший
- пропозиція
- настрій
- Послідовність
- серйозний
- обслуговування
- Послуги
- комплект
- кілька
- вона
- Показувати
- показав
- Шоу
- Розмір
- косий
- невеликий
- So
- соціальна
- соціальні медіа
- рішення
- Рішення
- деякі
- іноді
- Джерела
- Простір
- спеціалізується
- конкретний
- специфіка
- розкол
- старт
- впроваджений
- Штати
- заходи
- буря
- просто
- стратегії
- структура
- такі
- підтримка
- Переконайтеся
- взаємодія
- синтаксис
- синтетичний
- синтетичні дані
- синтетично
- система
- таблиця
- прийняті
- приймає
- взяття
- Завдання
- завдання
- terms
- тест
- текст
- Класифікація тексту
- Що
- Команда
- світ
- їх
- потім
- Ці
- вони
- це
- ті
- хоча?
- через
- час
- до
- сьогодні
- разом
- прийняли
- інструмент
- інструменти
- теми
- традиційний
- поїзд
- навчений
- Навчання
- трансформатор
- Трансформатори
- транзит
- Переклад
- намагався
- викликати
- два
- тип
- розуміння
- блок
- університет
- на відміну від
- Updates
- us
- використання
- використання випадку
- використовуваний
- корисний
- користувачі
- використання
- різноманітність
- різний
- версія
- вертикалі
- viable
- хотіти
- було
- шлях..
- we
- Web
- веб-сервіси
- Вітає
- були
- коли
- в той час як
- який
- з
- в
- слово
- слова
- Work
- робочий
- працює
- світ
- б
- років
- Ти
- вашу
- зефірнет