Извлекайте данные, не относящиеся к PHI, из Amazon HealthLake, уменьшайте сложность и повышайте экономическую эффективность с помощью Amazon Athena и Amazon SageMaker Canvas.

Извлекайте данные, не относящиеся к PHI, из Amazon HealthLake, уменьшайте сложность и повышайте экономическую эффективность с помощью Amazon Athena и Amazon SageMaker Canvas.

На современном высококонкурентном рынке выполнение анализа данных с использованием моделей машинного обучения (ML) стало необходимостью для организаций. Это позволяет им раскрывать ценность своих данных, выявлять тенденции, закономерности и прогнозы и выделяться среди конкурентов. Например, в сфере здравоохранения аналитика на основе машинного обучения может использоваться для диагностической помощи и персонализированной медицины, а в медицинском страховании ее можно использовать для прогнозного управления лечением.

Однако организации и пользователи в отраслях, где есть потенциальные данные о здоровье, например в здравоохранении или медицинском страховании, должны уделять первоочередное внимание защите конфиденциальности людей и соблюдению нормативных требований. Они также сталкиваются с проблемами при использовании аналитики на основе машинного обучения для все большего числа вариантов использования. Эти проблемы включают ограниченное количество экспертов по науке о данных, сложность машинного обучения и небольшой объем данных из-за ограниченной защищенной медицинской информации (PHI) и пропускной способности инфраструктуры.

Организации в области здравоохранения, медицины и медико-биологических наук сталкиваются с рядом проблем при использовании машинного обучения для анализа данных:

  • Малый объем данных – Из-за ограничений на частную, защищенную и конфиденциальную медицинскую информацию объем используемых данных часто ограничен, что снижает точность моделей машинного обучения.
  • Ограниченный талант – Нанять таланты ML достаточно сложно, но еще сложнее нанять таланты, которые имеют не только опыт ML, но и глубокие медицинские знания.
  • управление инфраструктурой – Предоставление инфраструктуры, специализированной для ML, является сложной и трудоемкой задачей, и компании скорее сосредоточатся на своих основных компетенциях, чем на управлении сложной технической инфраструктурой.
  • Прогноз мультимодальных проблем – При прогнозировании вероятности многогранных медицинских событий, таких как инсульт, необходимо сочетать различные факторы, такие как история болезни, образ жизни и демографическая информация.

Возможный сценарий: вы — компания, занимающаяся технологиями здравоохранения, с командой из 30 неклинических врачей, исследующих и расследующих медицинские случаи. Эта команда обладает знаниями и интуицией в области здравоохранения, но не обладает навыками машинного обучения для построения моделей и прогнозирования. Как вы можете развернуть среду самообслуживания, которая позволит этим клиницистам самостоятельно генерировать прогнозы для многовариантных вопросов, таких как «Как я могу получить доступ к полезным данным, соблюдая правила здравоохранения и не ставя под угрозу конфиденциальность?» И как вы можете сделать это, не увеличивая количество серверов, которыми должны управлять SysOps?

Этот пост решает все эти проблемы одновременно в одном решении. Во-первых, он автоматически анонимизирует данные из Амазонка ЗдоровьеОзеро. Затем он использует эти данные с бессерверными компонентами и решениями самообслуживания без кода, такими как Холст Amazon SageMaker чтобы устранить сложность моделирования ML и абстрагироваться от базовой инфраструктуры.

Современная стратегия работы с данными дает вам комплексный план управления данными, доступа к ним, их анализа и действий с ними. AWS предоставляет наиболее полный набор сервисов для всего сквозного пути передачи данных для всех рабочих нагрузок, всех типов данных и всех желаемых бизнес-результатов.

Обзор решения

В этом посте показано, что, анонимизируя конфиденциальные данные из Amazon HealthLake и делая их доступными для SageMaker Canvas, организации могут предоставить большему количеству заинтересованных сторон возможность использовать модели ML, которые могут генерировать прогнозы для мультимодальных проблем, таких как прогнозирование инсульта, без написания кода ML, ограничивая при этом доступ к конфиденциальным данным. И мы хотим автоматизировать эту анонимизацию, чтобы сделать ее максимально масштабируемой и доступной для самообслуживания. Автоматизация также позволяет повторять логику анонимизации в соответствии с вашими требованиями и дает возможность повторно запускать конвейер по мере изменения данных о состоянии здоровья вашего населения.

Набор данных, используемый в этом решении, создается Синтея™, симулятор синтетической популяции пациентов и проект с открытым исходным кодом под эгидой Лицензия Apache 2.0.

Рабочий процесс включает в себя обмен данными между облачными инженерами и экспертами в предметной области. Первый может развернуть конвейер. Последний может проверить, правильно ли конвейер анонимизирует данные, а затем генерировать прогнозы без кода. В конце поста рассмотрим дополнительные сервисы для проверки анонимности.

Шаги высокого уровня, связанные с решением, следующие:

  1. Используйте Шаговые функции AWS для организации конвейера анонимизации данных о здоровье.
  2. Используйте Амазонка Афина запросы на следующее:
    1. Извлекайте неконфиденциальные структурированные данные из Amazon HealthLake.
    2. Используйте обработку естественного языка (NLP) в Amazon HealthLake для извлечения неконфиденциальных данных из неструктурированных больших двоичных объектов.
  3. Выполните однократное кодирование с помощью Обработчик данных Amazon SageMaker.
  4. Используйте SageMaker Canvas для аналитики и прогнозов.

Следующая диаграмма иллюстрирует архитектуру решения.

Диаграмма архитектуры

Подготовьте данные

Сначала мы создаем вымышленную популяцию пациентов с помощью Synthea™ и импортируем эти данные в недавно созданное хранилище данных Amazon HealthLake. Результатом является симуляция отправной точки, с которой компания, занимающаяся технологиями здравоохранения, может запустить конвейер и решение, описанное в этом посте.

Когда Amazon HealthLake принимает данные, он автоматически извлекает значение из неструктурированных данных, таких как заметки врачей, в отдельные структурированные поля, такие как имена пациентов и медицинские показания. Чтобы выполнить это на неструктурированных данных в DocumentReference Ресурсы FHIR, Amazon HealthLake прозрачно запускает Amazon Comprehend Medical, где сущности, онтологии и их взаимосвязи извлекаются и добавляются обратно в Amazon HealthLake в виде дискретных данных в расширенном сегменте записей.

We может использовать ступенчатые функции упростить сбор и подготовку данных. Весь рабочий процесс виден в одном месте с выделенными ошибками или исключениями, что обеспечивает повторяемость, возможность аудита и расширение процесса.

Запрос данных с помощью Athena

Выполняя запросы Athena SQL непосредственно в Amazon HealthLake, мы можем выбирать только те поля, которые не идентифицируют личность; например, не выбирая имя и идентификатор пациента и уменьшая дату рождения до года рождения. А с помощью Amazon HealthLake наши неструктурированные данные (текстовое поле в DocumentReference) автоматически содержит список обнаруженных PHI, который мы можем использовать для маскировки PHI в неструктурированных данных. Кроме того, поскольку сгенерированные таблицы Amazon HealthLake интегрированы с Формирование озера AWS, вы можете контролировать, кто получает доступ к полевому уровню.

Ниже приведен отрывок из примера неструктурированных данных, найденных в синтетическом DocumentReference запись:

# История настоящего заболевания
Маркиз
это 45 лет. У пациента в анамнезе артериальная гипертензия, вирусный синусит (расстройство), хронический обструктивный бронхит (расстройство), стресс (обнаружение), социальная изоляция (обнаружение).
# Социальная история
Пациент женат. Пациент бросил курить в 16 лет.
В настоящее время пациент имеет UnitedHealthcare.
# аллергии
Нет известных аллергий.
# Лекарства
альбутерол 5 мг/мл раствор для ингаляций; амлодипин 2.5 мг таблетки для приема внутрь; 60 актуат флутиказона пропионат 0.25 мг/актуат / салметерол 0.05 мг/актуат ингалятор сухого порошка
# Оценка и план
У больного инсульт.

Мы видим, что Amazon HeathLake NLP интерпретирует это как содержащее условие «инсульт», запрашивая запись состояния, которая имеет тот же идентификатор пациента и отображает «инсульт». И мы можем воспользоваться тем фактом, что объекты, найденные в DocumentReference, автоматически помечаются SYSTEM_GENERATED:

SELECT code.coding[1].code, code.coding[1].display
FROM condition
WHERE split(subject.reference, '/')[2] = 'fbfe46b4-70b1-8f61-c343-d241538ebb9b'
AND meta.tag[1].display = 'SYSTEM_GENERATED'
AND regexp_like(code.coding[1].display, 'Cerebellar stroke syndrome')

Результат такой:

G46.4, Cerebellar stroke syndrome

Данные, собранные в Amazon HealthLake, теперь можно эффективно использовать для аналитики благодаря возможности выбирать конкретные коды состояний, например G46.4, вместо интерпретации целых заметок. Затем эти данные сохраняются в виде файла CSV в Простой сервис хранения Amazon (Amazon S3).

Примечание: При реализации этого решения, пожалуйста, следуйте инструкции при включении интегрированной функции NLP HealthLake через обращение в службу поддержки перед вводом данных в хранилище данных HealthLake.

Выполнить однократное кодирование

Чтобы раскрыть весь потенциал данных, мы используем технику, называемую горячим кодированием, для преобразования категориальных столбцов, таких как столбец условия, в числовые данные.

Одна из проблем работы с категориальными данными заключается в том, что их нельзя использовать во многих алгоритмах машинного обучения. Чтобы преодолеть это, мы используем горячее кодирование, которое преобразует каждую категорию в столбце в отдельный двоичный столбец, что делает данные пригодными для более широкого диапазона алгоритмов. Это делается с помощью Data Wrangler, который имеет встроенные функции для этого:

Встроенная функция быстрого кодирования в SageMaker Data Wrangler.

Встроенная функция быстрого кодирования в SageMaker Data Wrangler.

Горячее кодирование преобразует каждое уникальное значение в категориальном столбце в двоичное представление, в результате чего для каждого уникального значения создается новый набор столбцов. В приведенном ниже примере столбец условия преобразуется в шесть столбцов, каждый из которых представляет одно уникальное значение. После горячего кодирования одни и те же строки превращались в двоичное представление.

До_и_После_One-hot_encoding_tables

Теперь, когда данные закодированы, мы можем перейти к использованию SageMaker Canvas для аналитики и прогнозов.

Используйте SageMaker Canvas для аналитики и прогнозов

Затем окончательный файл CSV становится входными данными для SageMaker Canvas, который медицинские аналитики (бизнес-пользователи) могут использовать для создания прогнозов для многовариантных проблем, таких как прогнозирование инсульта, без необходимости иметь опыт в области машинного обучения. Никаких специальных разрешений не требуется, поскольку данные не содержат конфиденциальной информации.

В примере прогнозирования ударов SageMaker Canvas смог достичь уровня точности 99.829 % за счет использования передовых моделей машинного обучения, как показано на следующем снимке экрана.

Экран анализа в SageMaker Canvas, показывающий 99.829% того, как часто модель правильно предсказывает ход.

На следующем снимке экрана видно, что, согласно прогнозу модели, у этого пациента 53%-ная вероятность не иметь инсульта.

Экран SageMaker Canvas Predict, показывающий, что прогноз «Нет удара» основан на вводе данных, не относящихся к рабочей силе, среди других входных данных.

Вы можете утверждать, что можете создать этот прогноз, используя логику на основе правил в электронной таблице. Но говорят ли эти правила о важности признака — например, что 4.9% прогноза основаны на том, курили ли они когда-либо табак? А что, если вдобавок к текущим столбцам типа статуса курения и артериального давления добавить еще 900 столбцов (признаков)? Сможете ли вы по-прежнему использовать электронную таблицу для хранения и управления комбинациями всех этих измерений? Реальные сценарии приводят к множеству комбинаций, и задача состоит в том, чтобы управлять ими в масштабе с нужным уровнем усилий.

Теперь, когда у нас есть эта модель, мы можем начать делать пакетные или отдельные прогнозы, задавая вопросы «что, если». Например, что, если этот человек сохраняет все переменные одинаковыми, но, как и в случае с двумя предыдущими встречами с медицинской системой, классифицируется как Полный рабочий день вместо Не в рабочей силе?

Согласно нашей модели и синтетическим данным, которые мы передали ей от Synthea, риск инсульта у человека составляет 62%.

Экран прогнозирования SageMaker Canvas, показывающий «Да» в качестве прогноза и полную занятость в качестве входных данных.

Как видно из обведенных 12% и 10%, важность состояний, возникших в результате двух последних обращений в медицинскую систему, независимо от того, работают ли они полный рабочий день или нет, оказывает большое влияние на риск инсульта. Помимо результатов этой модели, есть исследования, демонстрирующие аналогичную связь:

В этих исследованиях использовались большие популяционные выборки и учитывались другие факторы риска, но важно отметить, что они носят наблюдательный характер и не устанавливают причинно-следственную связь. Необходимы дальнейшие исследования, чтобы полностью понять взаимосвязь между полной занятостью и риском инсульта.

Улучшения и альтернативные методы

Для дальнейшей проверки соответствия мы можем использовать такие сервисы, как Амазонка Мэйси, который просканирует CSV-файлы в корзине S3 и предупредит нас о наличии конфиденциальных данных. Это помогает повысить уровень достоверности анонимных данных.

В этом посте мы использовали Amazon S3 в качестве источника входных данных для SageMaker Canvas. Однако мы также можем импортировать данные в SageMaker Canvas напрямую из Амазон РедШифт и Snowflake — популярные сервисы корпоративных хранилищ данных, которые многие клиенты используют для организации своих данных, а также популярные сторонние решения. Это особенно важно для клиентов, которые уже используют свои данные в Snowflake или Amazon Redshift для другой аналитики бизнес-аналитики.

Использование пошаговых функций для организации решения делает его более расширяемым. Вместо отдельного триггера для вызова Macie вы можете добавить еще один шаг в конец конвейера, чтобы вызвать Macie для двойной проверки PHI. Если вы хотите добавить правила для мониторинга качества вашего конвейера данных с течением времени, вы можете добавить шаг для Качество данных AWS Glue.

А если вы хотите добавить больше индивидуальных интеграций, Step Functions позволяет вам масштабироваться, чтобы обрабатывать столько данных или столько данных, сколько вам нужно, параллельно и платить только за то, что вы используете. Аспект распараллеливания полезен, когда вы обрабатываете сотни ГБ данных, потому что вы не хотите пытаться втиснуть все это в одну функцию. Вместо этого вы хотите разбить его и запустить параллельно, чтобы не ждать, пока он обработается в одной очереди. Это похоже на очередь на кассе в магазине — вам не нужен ни один кассир.

Убирать

Чтобы в будущем не взимать плату за сеанс, выйдите из SageMaker Canvas.

Кнопка выхода в SageMaker Canvas

Заключение

В этом посте мы показали, что медицинские работники могут делать прогнозы критических проблем со здоровьем, таких как инсульт, с использованием сложных моделей машинного обучения, но без необходимости кодирования. Это значительно расширит пул ресурсов, включив в него людей, обладающих специальными знаниями в предметной области, но не имеющих опыта машинного обучения. Кроме того, использование бессерверных и управляемых служб позволяет существующим ИТ-специалистам с меньшими усилиями справляться с проблемами инфраструктуры, такими как доступность, отказоустойчивость и масштабируемость.

Вы можете использовать этот пост в качестве отправной точки для изучения других сложных мультимодальных прогнозов, которые являются ключевыми для направления отрасли здравоохранения к улучшению ухода за пациентами. Скоро у нас будет репозиторий GitHub, который поможет инженерам быстрее реализовывать идеи, которые мы представили в этом посте.

Испытайте мощь SageMaker Canvas уже сегодня и создавайте свои модели с помощью удобного графического интерфейса с 2-месячный уровень бесплатного пользования которые предлагает SageMaker Canvas. Для начала вам не нужны какие-либо знания в области кодирования, и вы можете поэкспериментировать с различными вариантами, чтобы увидеть, как работают ваши модели.

Полезные ресурсы

Чтобы узнать больше о SageMaker Canvas, см.:

Чтобы узнать больше о других вариантах использования, которые можно решить с помощью SageMaker Canvas, ознакомьтесь со следующими материалами:

Чтобы узнать больше об Amazon HealthLake, см. следующие ресурсы:


Об авторах

Янн Стоунман, портрет белого мужчины лет 30, с небольшой бородкой и в очках, улыбающийся.Ян Стоунман является архитектором решений в AWS, базирующейся в Бостоне, штат Массачусетс, и является членом технического сообщества AI/ML (TFC). Янн получил степень бакалавра в Джульярдской школе. Когда он не модернизирует рабочие нагрузки для глобальных предприятий, Ян играет на фортепиано, возится с React и Python и регулярно рассказывает на YouTube о своем путешествии в облако.

Выстрел в голову Рамеша ДвараканатаРамеш Двараканатх является главным архитектором решений в AWS из Бостона, Массачусетс. Он работает с предприятиями в Северо-Восточной области в их путешествии по облачным технологиям. Сферы его интересов — контейнеры и DevOps. В свободное время Рамеш увлекается теннисом, ракетболом.

Фотография Бахи Нуржанова с темными волосами и легкой улыбкойБаха Нуржанов является архитектором решений взаимодействия в AWS, а также членом технического сообщества специалистов в области здравоохранения и медико-биологических наук в AWS. Баха получил степень магистра компьютерных наук в Вашингтонском университете, а в свободное время Баха любит проводить время с семьей, читать, кататься на велосипеде и исследовать новые места.

выстрел в голову Скотта ШрекенгаустаСкотт Шрекенгауст имеет степень в области биомедицинской инженерии и с самого начала своей карьеры изобретал устройства вместе с учеными. Он любит науку, технологии и инженерию с многолетним опытом работы в стартапах для крупных многонациональных организаций в области здравоохранения и наук о жизни. Скотту комфортно писать сценарии для роботов-обработчиков жидкостей, программировать инструменты, интегрировать собственные системы в корпоративные системы и разрабатывать полные развертывания программного обеспечения с нуля в нормативно-правовой среде. Помимо помощи людям, он преуспевает в созидании — наслаждаясь путешествием по обсуждению научных рабочих процессов клиентов и их проблем, а затем превращая их в жизнеспособные решения.

Отметка времени:

Больше от Машинное обучение AWS