Система машинного обучения классифицирует пневмонию на рентгенограммах грудной клетки

Система машинного обучения классифицирует пневмонию на рентгенограммах грудной клетки

Рентгенограммы грудной клетки
Данные испытаний Рентгенограммы грудной клетки, показывающие примеры нормального легкого (слева), бактериальной пневмонии (в центре) и вирусной пневмонии (справа). (Учтивость: Мах. Уч.: научн. Технол. 10.1088/2632-2153/acc30f)

Пневмония является потенциально смертельной легочной инфекцией, которая быстро прогрессирует. Пациентам с симптомами пневмонии, такими как сухой отрывистый кашель, затрудненное дыхание и высокая температура, обычно проводят обследование легких с помощью стетоскопа, а затем рентгенографию грудной клетки для подтверждения диагноза. Однако различение бактериальной и вирусной пневмонии остается сложной задачей, поскольку обе они имеют сходную клиническую картину.

Математическое моделирование и искусственный интеллект могут помочь повысить точность диагностики заболеваний по рентгенографическим изображениям. Глубокое обучение становится все более популярным для классификации медицинских изображений, и в нескольких исследованиях изучалось использование моделей сверточной нейронной сети (CNN) для автоматического выявления пневмонии на рентгенограммах грудной клетки. Однако очень важно создавать эффективные модели, способные анализировать большое количество медицинских изображений без ложноотрицательных результатов.

Теперь К.М. Абубекер и С. Баскар на Карпагамская академия высшего образования в Индии создали новую структуру машинного обучения для классификации пневмонии на рентгеновских изображениях грудной клетки на графическом процессоре (GPU). Они описывают свою стратегию в Машинное обучение: наука и технологии.

Оптимизация обучающих данных

Производительность классификатора глубокого обучения зависит как от модели нейронной сети, так и от качества данных, используемых для обучения сети. Для медицинских изображений отсутствие достаточно большого набора данных является основной причиной низкой производительности. Чтобы устранить этот недостаток, исследователи использовали аугментацию данных, при которой новые обучающие данные синтезируются из существующих данных (например, с помощью поворотов изображений, сдвигов и обрезки), чтобы сделать набор данных более полным и разнообразным.

Другой метод, используемый для решения проблемы нехватки соответствующих обучающих данных, — это трансферное обучение — улучшение способности модели обучаться новой задаче с использованием существующих знаний, полученных при выполнении связанной задачи. На первом этапе своего исследования Абубекер и Баскар использовали трансферное обучение для обучения девяти современных нейронных моделей CNN для оценки того, изображает ли рентгенограмма грудной клетки пневмонию.

Для экспериментов они использовали рентгеновские снимки органов грудной клетки из общедоступных наборов данных RSNA Kaggle, включая изображения для обучения (1341 отнесены к категории нормальных, 1678 — от бактериальной пневмонии и 2197 — от вирусной пневмонии), тестирования (234 нормальных, 184 бактериальных пневмоний, 206 вирусных пневмоний). ) и валидация (76 нормальных, 48 бактериальных пневмоний, 56 вирусных пневмоний). Применение геометрического увеличения к набору данных расширило его до 2571 нормального, 2019 бактериальных и 2625 изображений вирусной пневмонии.

Основываясь на показателях производительности, включая точность, полноту и площадь под кривой ROC (AUROC, показатель, суммирующий производительность по нескольким пороговым значениям), исследователи выбрали три самые эффективные модели CNN — DenseNet-160, ResNet-121 и VGGNet-16. для переподготовки по ансамблевой методике.

Ансамблевая стратегия

Вместо того, чтобы полагаться на одну модель машинного обучения, ансамблевые модели объединяют выводы нескольких моделей, чтобы повысить показатели производительности и минимизировать ошибки. Исследователи разработали ансамблевую стратегию на основе переноса обучения под названием B2-Net и использовали ее с тремя выбранными CNN для создания окончательной модели. Они реализовали окончательную модель B2-Net на компьютере с графическим процессором NVIDIA Jetson Nano.

Модель B2-Net для классификации пневмонии на рентгенограммах грудной клетки

Они отмечают, что во время обучения некоторые модели лучше справлялись с идентификацией нормальных рентгеновских изображений, в то время как другие лучше справлялись с идентификацией образцов вирусной и бактериальной пневмонии. Стратегия ансамбля использует метод взвешенного голосования, чтобы предоставить каждому классификатору определенную степень мощности на основе заранее определенных критериев.

Переобученные модели продемонстрировали значительное улучшение диагностической точности по сравнению с базовыми моделями. Тестирование моделей на сбалансированном наборе данных показало, что DenseNet-160, ResNet-121 и VGGNet-16 достигли значений AUROC 0.9801, 0.9822 и 0.9955 соответственно. Однако предложенный ансамблевый подход B2-Net превзошел все три с AUROC 0.9977.

Исследователи оценили и проверили B2-Net и три другие модели, используя подмножество из около 600 рентгенограмм грудной клетки из объединенного набора данных. DenseNet-160 неправильно идентифицировал три тестовых изображения пневмонии, в то время как VGGNet-16 и ResNet-121 неправильно диагностировали по одному рентгеновскому изображению. В целом, предложенный подход B2-Net превзошел все другие модели, различая нормальные случаи, бактериальную пневмонию и вирусную пневмонию на рентгенограммах грудной клетки с точностью 97.69% и коэффициентом отзыва (доля истинно положительных результатов среди общего числа положительных результатов). 100%.

Абубекер и Баскар объясняют, что, хотя частота ложноотрицательных результатов является наиболее важным критерием для классификатора медицинских изображений, предлагаемая модель B2-Net обеспечивает наилучшую альтернативу для клинических приложений в режиме реального времени. «Этот подход, особенно во время нынешних мировых вспышек COVID-19, может помочь радиологам быстро и надежно диагностировать пневмонию, что позволит начать лечение на ранней стадии», — пишут они.

Затем они планируют расширить свою модель, чтобы классифицировать больше заболеваний легких, включая варианты туберкулеза и COVID-19.

Отметка времени:

Больше от Мир физики