Інтелектуальна обробка документів за допомогою послуг штучного інтелекту AWS у страховій галузі: частина 1

Перевидано Платоном

читають: 0

Мета інтелектуальної обробки документів (IDP) — допомогти вашій організації приймати швидші та точніші рішення за допомогою штучного інтелекту для обробки документів. Ця серія з двох частин висвітлює технології штучного інтелекту AWS, які страхові компанії можуть використовувати для прискорення своїх бізнес-процесів. Ці технології штучного інтелекту можна використовувати у випадках страхування, таких як претензії, андеррайтинг, листування клієнтів, контракти або розгляд спорів. Ця серія зосереджена на застосуванні обробки претензій у страховій галузі; для отримання додаткової інформації про фундаментальні концепції рішення AWS IDP див серія з двох частин.

Обробка претензій складається з кількох контрольних точок у робочому процесі, який необхідний для перегляду, перевірки автентичності та визначення правильної фінансової відповідальності для вирішення претензії. Страхові компанії проходять через ці контрольно-пропускні пункти для розгляду претензій до розгляду претензій. Якщо претензія успішно проходить усі ці контрольні точки без проблем, страхова компанія затверджує її та обробляє будь-який платіж. Однак їм може знадобитися додаткова допоміжна інформація для вирішення позову. Цей процес обробки претензій часто відбувається вручну, що робить його дорогим, схильним до помилок і займає багато часу. Страхові клієнти можуть автоматизувати цей процес за допомогою служб AWS AI для автоматизації конвеєра обробки документів для обробки вимог.

У цій серії з двох частин ми розповімо вам, як автоматизувати та інтелектуально обробляти документи в масштабі за допомогою служб AWS AI для обробки страхових претензій.

Інтелектуальна обробка документів за допомогою AWS AI та сервісів Analytics у страховій галузі

Огляд рішення

На наступній діаграмі представлено кожен етап, який ми зазвичай бачимо в конвеєрі IDP. Ми розглядаємо кожен із цих етапів і те, як вони пов’язані з етапами процесу подання претензій, починаючи від моменту подання заявки до її дослідження та закриття. У цій публікації ми розглядаємо технічні деталі етапів збору, класифікації та вилучення даних. в Частина 2, ми розширюємо етап вилучення документів і продовжуємо збагачення документів, перегляд і перевірку, а також розширюємо рішення, щоб забезпечити аналітику та візуалізацію для випадку використання шахрайства з претензіями.

На наступній схемі архітектури показано різні служби AWS, які використовуються на етапах конвеєра IDP відповідно до різних етапів програми обробки претензій.

Схема архітектури IDP

Рішення використовує такі ключові служби:

Текст Amazon – це служба машинного навчання (ML), яка автоматично витягує текст, рукописний текст і дані зі сканованих документів. Це виходить за рамки простого оптичного розпізнавання символів (OCR), щоб ідентифікувати, розуміти та витягувати дані з форм і таблиць. Amazon Texttract використовує ML для читання та обробки документів будь-якого типу, точного вилучення тексту, рукописного тексту, таблиць та інших даних без ручних зусиль.
«Амазонка» – це служба обробки природної мови (NLP), яка використовує ML для вилучення інформації з тексту. Amazon Comprehend може виявляти такі сутності, як особа, місцезнаходження, дата, кількість тощо. Він також може виявити домінуючу мову, інформацію, що ідентифікує особу (PII), і класифікувати документи за відповідним класом.
Розширений ШІ в Амазонці (Amazon A2I) — це служба ML, яка спрощує створення робочих процесів, необхідних для перевірки людьми. Amazon A2I надає перевірку людьми всім розробникам, усуваючи недиференційовану важку роботу, пов’язану зі створенням систем перевірки людьми або керуванням великою кількістю рецензентів. Amazon A2I інтегрує обидва з Текст Amazon та «Амазонка» щоб забезпечити можливість запровадити перевірку або валідацію людьми в рамках робочого процесу IDP.

Передумови

У наступних розділах ми розглянемо різні служби, пов’язані з першими трьома етапами архітектури, тобто етапами збору даних, класифікації та вилучення.

Зверніться до нашого GitHub сховище для повних зразків коду разом із зразками документів у пакеті обробки претензій.

Фаза збору даних

Претензії та підтверджуючі документи можуть надходити через різні канали, такі як факс, електронна пошта, портал адміністратора тощо. Ви можете зберігати ці документи в довговічному сховищі з високою можливістю масштабування, наприклад Служба простого зберігання Amazon (Amazon S3). Ці документи можуть бути різних типів, наприклад PDF, JPEG, PNG, TIFF тощо. Документи можуть надходити в різних форматах і макетах, а також можуть надходити до сховища даних з різних каналів.

Фаза класифікації

На етапі класифікації документів ми можемо об’єднати Amazon Comprehend із Amazon Texttract, щоб перетворити текст у контекст документа, щоб класифікувати документи, які зберігаються на етапі збору даних. Потім ми можемо використовувати спеціальну класифікацію в Amazon Comprehend для організації документів у класи, визначені в пакеті обробки претензій. Спеціальна класифікація також корисна для автоматизації процесу перевірки документів і виявлення будь-яких відсутніх документів у пакеті. Існує два кроки спеціальної класифікації, як показано на діаграмі архітектури:

Витягніть текст за допомогою Amazon Texttract з усіх документів у сховищі даних, щоб підготувати навчальні дані для спеціального класифікатора.
Навчання спеціальної моделі класифікації Amazon Comprehend (також називається a документ класифікатор) розпізнавати цікаві класи на основі текстового вмісту.

Класифікація документів пакета страхових відшкодувань

Після навчання спеціальної моделі класифікації Amazon Comprehend ми можемо використовувати кінцеву точку в реальному часі для класифікації документів. Amazon Comprehend повертає всі класи документів із оцінкою достовірності, пов’язаною з кожним класом у масиві пар ключ-значення (Doc_name - Confidence_score). Ми рекомендуємо переглянути приклад коду детальної класифікації документів GitHub.

Фаза екстракції

На етапі вилучення ми витягуємо дані з документів за допомогою Amazon Texttract і Amazon Comprehend. Для цієї публікації використовуйте такі зразки документів у пакеті обробки претензій: форму претензії Center of Medicaid and Medicare Services (CMS)-1500, посвідчення водія та страховий номер, а також рахунок-фактуру.

Витягти дані з форми претензії CMS-1500

Форма CMS-1500 — це стандартна форма вимоги, яка використовується неінституційним постачальником або постачальником для виставлення рахунків перевізникам Medicare.

Важливо точно обробляти форму CMS-1500, інакше це може уповільнити процес розгляду претензій або затримати оплату перевізником. З Amazon Text AnalyzeDocument API, ми можемо пришвидшити процес вилучення з більшою точністю, щоб витягти текст із документів, щоб зрозуміти подальшу інформацію у формі претензії. Нижче наведено зразок документа форми претензії CMS-1500.

Форма претензії CMS1500

Зараз ми використовуємо AnalyzeDocument API для вилучення двох FeatureTypes, FORMS та TABLES, з документа:

from IPython.display import display, JSON
form_resp = textract.analyze_document(Document={'S3Object':{"Bucket": data_bucket, "Name": cms_key}}, FeatureTypes=['FORMS', 'TABLES'])

# print tables
print(get_string(textract_json=form_resp, output_type=[Textract_Pretty_Print.TABLES], table_format=Pretty_Print_Table_Format.fancy_grid))

# using our constructed helper function - values returned as a dictionary

display(JSON(getformkeyvalue(form_resp), root="Claim Form"))

Наступні результати були скорочені для кращої читабельності. Для отримання більш детальної інформації дивіться наш Репо GitHub.

Команда FORMS вилучення ідентифікується як пари ключ-значення.

Команда TABLES вилучення містить клітинки, об’єднані клітинки та заголовки стовпців у виявленій таблиці у формі претензії.

Вилучення таблиць із форми CMS1500

Витягти дані з ідентифікаційних документів

Для документів, що посвідчують особу, як-от посвідчення особи страхування, які можуть мати різні макети, ми можемо використовувати Amazon Texttract AnalyzeDocument API. Ми використовуємо FeatureType FORMS як конфігурація для AnalyzeDocument API для отримання пар ключ-значення з ідентифікатора страхування (див. наступний зразок):

Запустіть наступний код:

ins_form_resp = textract.analyze_document(Document={'S3Object':{"Bucket": data_bucket, "Name": ins_card_key}}, FeatureTypes=['FORMS'])

# using our constructed helper function - values returned as a dictionary

display(JSON(getformkeyvalue(ins_form_resp), root="Insurance card"))

Ми отримуємо пари ключ-значення в масиві результатів, як показано на наступному знімку екрана.

Для документів, що посвідчують особу, як-от посвідчення водія або паспорт США, Amazon Texttract надає спеціалізовану підтримку для автоматичного вилучення ключових термінів без необхідності використовувати шаблони чи формати, на відміну від того, що ми бачили раніше у прикладі ідентифікатора страхування. З AnalyzeID API, підприємства можуть швидко й точно отримувати інформацію з документів, що посвідчують особу, які мають різні шаблони чи формати. The AnalyzeID API повертає дві категорії типів даних:

Пари ключ-значення, доступні в ідентифікаторі, як-от дата народження, дата видачі, ідентифікаційний номер, клас і обмеження
Неявні поля в документі, які можуть не мати явних ключів, пов’язаних із ними, як-от ім’я, адреса та емітент

Ми використовуємо наведений нижче зразок водійського посвідчення США з нашого пакета обробки претензій.

Запустіть наступний код:

ID_resp = textract.analyze_id(DocumentPages=[{'S3Object':{"Bucket": data_bucket, "Name": key}}])

# once again using the textract response parser
from trp.trp2_analyzeid import TAnalyzeIdDocument, TAnalyzeIdDocumentSchema

t_doc = TAnalyzeIdDocumentSchema().load(ID_resp)

list_of_results = t_doc.get_values_as_list()
print(tabulate([x[1:3] for x in list_of_results]))

На наступному знімку екрана показано наш результат.

На скріншоті результатів ви можете помітити, що представлено певні ключі, яких не було в самих водійських правах. Наприклад, Veteran не є ключем, знайденим у ліцензії; однак це попередньо заповнений ключ-значення AnalyzeID підтримує, через відмінності в ліцензіях між державами.

Витяг даних із рахунків-фактур і квитанцій

Як AnalyzeID API, AnalyzeExpense API надає спеціалізовану підтримку для рахунків-фактур і квитанцій, щоб отримати відповідну інформацію, таку як ім’я постачальника, проміжні та загальні суми тощо, з будь-яких форматів документів рахунків-фактур. Вам не потрібен шаблон або конфігурація для вилучення. Amazon Texttract використовує ML для розуміння контексту неоднозначних рахунків-фактур і квитанцій.

Нижче наведено зразок рахунка-фактури медичного страхування.

Зразок страхової накладної

Ми використовуємо AnalyzeExpense API, щоб переглянути список стандартизованих полів. Поля, які не розпізнаються як стандартні, класифікуються як OTHER:

expense_resp = textract.analyze_expense(Document={'S3Object':{"Bucket": data_bucket, "Name": invc_key}})

# print invoice summary

print(get_expensesummary_string(textract_json=expense_resp, table_format=Pretty_Print_Table_Format.fancy_grid))

# print invoice line items

print(get_expenselineitemgroups_string(textract_json=expense_resp, table_format=Pretty_Print_Table_Format.fancy_grid))

У результатах ми отримуємо наведений нижче список полів як пари ключ-значення (див. знімок екрана ліворуч) і весь ряд окремих закуплених позицій (див. знімок екрана праворуч).

Інтелектуальна обробка документів за допомогою послуг штучного інтелекту AWS у страховій галузі: частина 1 PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Висновок

У цій публікації ми продемонстрували загальні проблеми в обробці претензій і те, як ми можемо використовувати служби AWS AI для автоматизації конвеєра інтелектуальної обробки документів для автоматичного розгляду претензії. Ми побачили, як класифікувати документи за різними класами документів за допомогою спеціального класифікатора Amazon Comprehend і як використовувати Amazon Texttract для вилучення неструктурованих, напівструктурованих, структурованих і спеціалізованих типів документів.

In Частина 2, ми розширюємо фазу вилучення за допомогою Amazon Texttract. Ми також використовуємо попередньо визначені та спеціальні сутності Amazon Comprehend для збагачення даних і показуємо, як розширити конвеєр IDP для інтеграції зі службами аналітики та візуалізації для подальшої обробки.

Ми рекомендуємо переглянути розділи безпеки в Amazon Text, Amazon Comprehend, та Amazon A2I документацію та дотримання наданих інструкцій. Щоб дізнатися більше про ціни на рішення, перегляньте інформацію про ціни Amazon Text, «Амазонка» та Amazon A2I.

Про авторів

Чінмаї Рейн є архітектором спеціалістів із штучного інтелекту та ML в Amazon Web Services. Вона захоплюється прикладною математикою та машинним навчанням. Вона зосереджується на розробці інтелектуальних рішень для обробки документів для клієнтів AWS. Поза роботою вона любить танцювати сальсу та бачату.

Соналі Саху очолює групу архітекторів рішень Intelligent Document Processing AI/ML Solutions в Amazon Web Services. Вона є пристрасним технофілом і любить працювати з клієнтами над вирішенням складних проблем за допомогою інновацій. Її основний напрямок — штучний інтелект і машинне навчання для інтелектуальної обробки документів.

Тім Конделло є старшим спеціалістом із штучного інтелекту та ML, архітектором рішень Amazon Web Services. Його фокус — обробка природної мови та комп’ютерне зір. Тім любить використовувати ідеї клієнтів і перетворювати їх на масштабовані рішення.

Часова мітка: Листопад 3, 2022Листопад 4, 2022

Часова мітка: Травень 2, 2023

Інтелектуальна обробка документів за допомогою сервісів AWS AI у страховій галузі: Частина 1

Перевидано Платоном

Огляд рішення

Передумови

Фаза збору даних

Фаза класифікації

Фаза екстракції

Витягти дані з форми претензії CMS-1500

Витягти дані з ідентифікаційних документів

Витяг даних із рахунків-фактур і квитанцій

Висновок

Про авторів

Більше від AWS Машинне навчання

Створюйте готові для машинного навчання набори даних із офлайн-магазину функцій Amazon SageMaker за допомогою Amazon SageMaker Python SDK | Веб-сервіси Amazon

Подорож генеративного віртуального помічника зі штучним інтелектом PGA TOUR від концепції до розробки та прототипу | Веб-сервіси Amazon

Впровадження Amazon Forecast у сфері роздрібної торгівлі: шлях від POC до виробництва

Налаштуйте свої рекомендації, рекламуючи певні товари за допомогою бізнес-правил за допомогою Amazon Personalize

Представляємо програму спеціальної моделі AWS Generative AI Innovation Center для Anthropic Claude | Веб-сервіси Amazon

Прискорюйте багатомовні робочі процеси за допомогою настроюваного рішення перекладу, створеного за допомогою Amazon Translate

Шаблони розміщення моделей у SageMaker: найкращі методи тестування та оновлення моделей у SageMaker

Amazon SageMaker із TensorBoard: огляд розміщеного досвіду TensorBoard

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки