Організаційні форми служать основним інструментом бізнесу в різних галузях — від фінансових послуг до охорони здоров’я тощо. Розглянемо, наприклад, форми податкової декларації в галузі податкового менеджменту, де щороку виходять нові форми з майже однаковою інформацією. Клієнти AWS у різних секторах повинні обробляти та зберігати інформацію у формах як частину своєї щоденної ділової практики. Ці форми часто служать основним засобом для надходження інформації в організацію, де технологічні засоби збору даних є непрактичними.
Окрім використання форм для збору інформації, протягом багатьох років пропонування Текст Amazon, ми помітили, що клієнти AWS часто змінюють свої організаційні форми на основі внесених структурних змін, доданих чи змінених полів або інших міркувань, таких як зміна року чи версії форми.
Коли структура або зміст форми змінюються, це часто може спричинити проблеми для традиційних систем OCR або вплинути на наступні інструменти, які використовуються для збору інформації, навіть якщо вам потрібно збирати ту саму інформацію з року в рік та об’єднувати дані для використання незалежно від формату. документа.
Щоб вирішити цю проблему, у цій публікації ми демонструємо, як ви можете створити та розгорнути керований подіями, безсерверний, багатоформатний конвеєр розбору документів за допомогою Amazon Textract.
Огляд рішення
Наступна діаграма ілюструє архітектуру нашого рішення:
По-перше, рішення пропонує використання конвеєрного ковтання Служба простого зберігання Amazon (Amazon S3), сповіщення про події Amazon S3 та Служба простої черги Amazon (Amazon SQS), щоб обробка розпочалася, коли форма потрапляє в цільовий розділ Amazon S3. Подія на Amazon EventBridge створюється та надсилається до an AWS Lambda ціль, яка запускає завдання Amazon Textract.
Ви можете використовувати безсерверні служби AWS, такі як Lambda і Функції кроку AWS для створення асинхронної інтеграції сервісів між службами AWS AI та службами AWS Analytics і Database для зберігання, аналітики, штучного інтелекту та машинного навчання (ML). У цій публікації ми демонструємо, як використовувати крокові функції для асинхронного керування та підтримки стану запитів до асинхронних API Amazon Textract. Це досягається за допомогою кінцевого автомата для керування викликами та відповідями. Ми використовуємо Lambda в кінцевому автоматі, щоб об’єднати дані відповіді API з розбитими сторінками від Amazon Textract в один об’єкт JSON, що містить напівструктуровані текстові дані, витягнуті за допомогою OCR.
Потім ми фільтруємо різні форми, використовуючи стандартизований підхід, щоб об’єднати ці дані OCR у загальний структурований формат за допомогою Амазонка Афіна і SQL Amazon Textract JSON SerDe.
Ви можете простежити кроки, зроблені через цей конвеєр, використовуючи безсерверні функції кроків, щоб відстежувати стан обробки та зберігати вихідні дані кожного стану. Це те, що клієнти в деяких галузях вважають за краще робити під час роботи з даними, де ви повинні зберігати результати всіх прогнозів від таких сервісів, як Amazon Textract, щоб покращити пояснення результатів конвеєра в довгостроковій перспективі.
Нарешті, ви можете зробити запит до витягнутих даних у таблицях Athena.
У наступних розділах ми розповімо вам, як налаштувати конвеєр за допомогою AWS CloudFormation, тестування конвеєра та додавання нових версій форм. Цей конвеєр забезпечує рішення для обслуговування, оскільки кожен компонент (приймання, вилучення тексту, обробка тексту) є незалежним та ізольованим.
Визначте вхідні параметри за замовчуванням для стеків CloudFormation
Щоб визначити вхідні параметри для стеків CloudFormation, відкрийте default.properties
під params
папку та введіть наступний код:
Розгорніть рішення
Щоб розгорнути конвеєр, виконайте такі дії:
- Вибирати Запустити стек:
- Вибирати МАЙБУТНІ.
- Вкажіть деталі стека, як показано на наступному знімку екрана, і виберіть МАЙБУТНІ.
- У Налаштувати параметри стека розділ, додайте додаткові теги, дозволи та інші розширені налаштування.
- Вибирати МАЙБУТНІ.
- Перегляньте деталі стека та виберіть Я розумію, що AWS CloudFormation може створювати ресурси IAM із власними іменами.
- Вибирати Створити стек.
Це ініціює розгортання стека у вашому обліковому записі AWS.
Після успішного розгортання стека ви можете почати тестувати конвеєр, як описано в наступному розділі.
Перевірте трубопровід
Після успішного розгортання виконайте такі кроки, щоб перевірити свій конвеєр:
- Завантажити зразки файлів на ваш комп’ютер.
- створити
/uploads
папку (розділ) під щойно створеним вхідним сегментом S3.
- Створіть окремі папки (розділи), як
jobapplications
при/uploads
.
- Завантажте першу версію заявки на роботу з папки зразка документів до
/uploads/jobapplications
розділ
Коли конвеєр завершено, ви зможете знайти витягнутий ключ-значення для цієї версії документа /OuputS3/03-textract-parsed-output/jobapplications
на консолі Amazon S3.
Ви також можете знайти його в таблиці Athena (applications_data_table
) на Database меню (jobapplicationsdatabase
).
- Завантажте другу версію заявки на роботу з папки зразка документів до
/uploads/jobapplications
розділ
Коли конвеєр буде завершено, ви зможете знайти витягнутий ключ-значення для цієї версії /OuputS3/03-textract-parsed-output/jobapplications
на консолі Amazon S3.
Ви також можете знайти його в таблиці Athena (applications_data_table
) на Database меню (jobapplicationsdatabase
).
Ви закінчили! Ви успішно розгорнули свій конвеєр.
Додати нові версії форм
Оновити рішення для нової версії форми просто — кожну версію форми потрібно лише оновити шляхом тестування запитів у стеку обробки.
Після оновлень ви можете повторно розгорнути оновлений конвеєр за допомогою API AWS CloudFormation та обробляти нові документи, отримуючи ті самі стандартні точки даних для своєї схеми з мінімальними порушеннями та зусиллями розробки, необхідні для внесення змін у ваш конвеєр. Ця гнучкість, яка досягається шляхом відокремлення поведінки аналізу й вилучення та використання функціональності JSON SerDe в Athena, робить цей конвеєр рішенням для обслуговування будь-якої кількості версій форм, які вашій організації потрібно обробити для збору інформації.
Коли ви запускаєте рішення для введення, дані з вхідних форм автоматично заповнюються в Athena інформацією про файли та введені дані, пов’язані з ними. Коли дані у ваших формах переходять від неструктурованих до структурованих, вони готові до використання для наступних програм, таких як аналітика, моделювання машинного навчання тощо.
Прибирати
Щоб уникнути постійної оплати, видаліть ресурси, які ви створили як частину цього рішення, коли закінчите.
- На консолі Amazon S3 вручну видаліть сегменти, які ви створили як частину стеку CloudFormation.
- На консолі AWS CloudFormation виберіть Стеки у навігаційній панелі.
- Виберіть основний стек і виберіть видаляти.
Це автоматично видаляє вкладені стеки.
Висновок
У цій публікації ми продемонстрували, як клієнти, які прагнуть відстежити та налаштувати обробку документів, можуть створити та розгорнути керований подіями, безсерверний, багатоформатний конвеєр розбору документів за допомогою Amazon Textract. Цей конвеєр надає рішення для обслуговування, оскільки кожен компонент (приймання, вилучення тексту, обробка тексту) є незалежними та ізольованими, що дозволяє організаціям реалізовувати свої рішення для задоволення різноманітних потреб обробки.
Спробуйте рішення сьогодні та залиште свій відгук у розділі коментарів.
Про авторів
Емілі Совард є спеціалістом із Data Scientist з AWS Professional Services. Вона має ступінь магістра наук з відзнакою в галузі штучного інтелекту в Единбурзькому університеті в Шотландії, Великобританія з акцентом на обробку природної мови (NLP). Емілі працювала на прикладних наукових та інженерних посадах, зосереджених на дослідженнях і розробках продуктів з підтримкою AI, оперативному досконалості та управлінні робочими навантаженнями AI в організаціях у державному та приватному секторах. Вона вносить свій внесок у консультування клієнтів як старший спікер AWS, а нещодавно — як автор AWS Well-Architected in the Machine Learning Lens.
Сандіп Сінгх є спеціалістом із Data Scientist з AWS Professional Services. Він має ступінь магістра в галузі інформаційних систем із зосередженням на штучному інтелекті та науках про дані в Університеті Сан-Дієго (SDSU), Каліфорнія. Він є повноцінним спеціалістом із обробки даних із сильним знанням у галузі інформатики та довіреним радником зі спеціалізацією на розробці систем штучного інтелекту та управління. Він захоплений тим, щоб допомагати клієнтам у правильному напрямку їхніх високоефективних проектів, консультуючи та направляючи їх у їхній хмарній подорожі, а також створюючи найсучасніші рішення з підтримкою AI/ML.
- Coinsmart. Найкраща в Європі біржа біткойн та криптовалют.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. БЕЗКОШТОВНИЙ ДОСТУП.
- CryptoHawk. Альткойн Радар. Безкоштовне випробування.
- Джерело: https://aws.amazon.com/blogs/machine-learning/build-a-traceable-custom-multi-format-document-parsing-pipeline-with-amazon-text/
- "
- 100
- МЕНЮ
- рахунки
- досягнутий
- через
- адреса
- просунутий
- AI
- Послуги ШІ
- ВСІ
- Дозволити
- Amazon
- аналітика
- API
- Інтерфейси
- додаток
- застосування
- підхід
- архітектура
- штучний
- штучний інтелект
- AWS
- фон
- border
- будувати
- Створюємо
- бізнес
- Каліфорнія
- Викликати
- проблеми
- зміна
- вантажі
- хмара
- код
- коментарі
- загальний
- компонент
- Інформатика
- концентрація
- Консоль
- зміст
- контроль
- Клієнти
- дані
- наука про дані
- вчений даних
- Database
- продемонстрований
- розгортання
- розгортання
- дизайн
- розробка
- різний
- Зрив
- документація
- Машинобудування
- Event
- приклад
- зворотний зв'язок
- Поля
- фінансовий
- фінансові послуги
- Перший
- Гнучкість
- потік
- увагу
- після
- форма
- формат
- форми
- Повний
- функціональність
- управління
- охорона здоров'я
- Високий
- тримає
- Як
- How To
- HTTPS
- Impact
- промисловості
- промисловість
- інформація
- інтеграцій
- Інтелект
- IT
- робота
- Царство
- мова
- вивчення
- Залишати
- Довго
- машина
- навчання за допомогою машини
- підтримувати
- управління
- управління
- вручну
- ML
- Природний
- навігація
- номер
- пропонує
- Пропозиції
- відкрити
- організація
- організаційної
- організації
- Інше
- практика
- Прогнози
- первинний
- приватний
- Проблема
- процес
- Product
- професійний
- проектів
- забезпечує
- громадськість
- дослідження
- дослідження і розробка
- ресурси
- відповідь
- результати
- прогін
- біг
- Сан -
- наука
- вчений
- сектор
- Сектори
- пошук
- Без сервера
- обслуговування
- Послуги
- комплект
- установка
- простий
- So
- рішення
- Рішення
- ВИРІШИТИ
- що в сім'ї щось
- Гучномовець
- стек
- старт
- стан
- впроваджений
- зберігання
- зберігати
- сильний
- успішний
- Успішно
- Systems
- Мета
- податок
- тест
- Тестування
- через
- сьогодні
- інструмент
- інструменти
- трек
- традиційний
- United
- Об'єднане Королівство
- університет
- Updates
- використання
- значення
- в
- робочий
- рік
- років