Створіть конвеєр класифікації за допомогою Amazon Comprehend Custom Classification (Part I)

Перевидано Платоном

читають: 0

«Дані, заблоковані в тексті, аудіо, соціальних мережах та інших неструктурованих джерелах, можуть бути конкурентною перевагою для фірм, які знають, як їх використовувати»

Лише 18% організацій в а Опитування Deloitte у 2019 році повідомили, що можуть скористатися перевагами неструктурованих даних. Більшість даних, від 80% до 90%, є неструктурованими даними. Це великий невикористаний ресурс, який може дати підприємствам конкурентну перевагу, якщо вони знатимуть, як ним скористатися. Може бути важко знайти інформацію з цих даних, особливо якщо потрібні зусилля для їх класифікації, позначення тегами або міток. «Амазонка» Спеціальна класифікація може бути корисною в цій ситуації. «Амазонка» це служба обробки природної мови (NLP), яка використовує машинне навчання для виявлення цінних ідей і зв’язків у тексті.

Категоризація або класифікація документів має значні переваги в різних сферах діяльності –

Покращено пошук і пошук – Класифікуючи документи за відповідними темами чи категоріями, користувачам значно легше шукати та отримувати потрібні документи. Вони можуть шукати в певних категоріях, щоб звузити результати.
Управління знаннями – Класифікація документів у систематичний спосіб допомагає організувати базу знань організації. Це полегшує пошук відповідної інформації та перегляд зв’язків між пов’язаним вмістом.
Оптимізовані робочі процеси – Автоматичне сортування документів може допомогти оптимізувати багато бізнес-процесів, як-от обробка рахунків-фактур, підтримка клієнтів або дотримання нормативних вимог. Документи можна автоматично направляти потрібним людям або робочим процесам.
Економія коштів і часу – Ручна категоризація документів – справа трудомістка, трудомістка та дорога. Технології штучного інтелекту можуть взяти на себе цю повсякденну задачу та класифікувати тисячі документів за короткий час за значно менших витрат.
Генерація інсайту – Аналіз тенденцій у категоріях документів може надати корисну інформацію про бізнес. Наприклад, збільшення кількості скарг клієнтів у категорії продукту може означати деякі проблеми, які потрібно вирішити.
Управління та забезпечення виконання політики – Встановлення правил категоризації документів допомагає забезпечити правильну класифікацію документів відповідно до політики організації та стандартів управління. Це дозволяє покращити моніторинг і аудит.
Персоналізований досвід – У таких контекстах, як вміст веб-сайту, категоризація документів дозволяє показувати користувачам персоналізований вміст на основі їхніх інтересів і вподобань, які визначаються їхньою поведінкою веб-переглядача. Це може збільшити залучення користувачів.

Складність розробки індивідуальної моделі машинного навчання класифікації залежить від низки аспектів, таких як якість даних, алгоритм, масштабованість і знання домену, щоб згадати декілька. Важливо почати з чіткого визначення проблеми, чистих і відповідних даних і поступово проходити різні етапи розробки моделі. Однак компанії можуть створювати власні унікальні моделі машинного навчання за допомогою спеціальної класифікації Amazon Comprehend, щоб автоматично класифікувати текстові документи за категоріями або тегами, щоб відповідати вимогам бізнесу та відображати бізнес-технології та категорії документів. Оскільки тегування або категоризація людиною більше не потрібні, це може заощадити підприємствам багато часу, грошей і праці. Ми зробили цей процес простим, автоматизувавши весь конвеєр навчання.

У першій частині цієї багатосерійної публікації в блозі ви дізнаєтеся, як створити масштабований навчальний конвеєр і підготувати навчальні дані для моделей Comprehend Custom Classification. Ми запровадимо спеціальний навчальний конвеєр класифікатора, який можна розгорнути у вашому обліковому записі AWS кількома кліками. Ми використовуємо набір даних новин BBC і навчатимемо класифікатор ідентифікувати клас (наприклад, політика, спорт), до якого належить документ. Конвеєр дозволить вашій організації швидко реагувати на зміни та навчати нові моделі без необхідності кожного разу починати з нуля. Ви можете легко розширити масштаб і навчити кілька моделей відповідно до ваших потреб.

Передумови

Активний обліковий запис AWS (клацніть тут щоб створити новий обліковий запис AWS)
Доступ до Amazon Comprehend, Amazon S3, Amazon Lambda, Amazon Step Function, Amazon SNS і Amazon CloudFormation
Навчальні дані (напівструктура або текст), підготовлені в наступному розділі
Базові знання про Python і машинне навчання загалом

Підготувати навчальні дані

Це рішення може приймати будь-які дані текстовий формат (наприклад, CSV) або напівструктурований формат (наприклад, PDF).

Введення тексту

«Амазонка» Спеціальна класифікація підтримує два режими: багатокласовий і багатомітковий.

У багатокласовому режимі кожному документу може бути призначений лише один клас. Навчальні дані мають бути підготовлені у вигляді файлу CSV із двома стовпцями, кожен рядок якого містить окремий клас і текст документа, який демонструє клас.

CLASS, Text of document 1
CLASS, Text of document 2
...

Приклад для Набір даних новин BBC:

Business, Europe blames US over weak dollar...
Tech, Cabs collect mountain of mobiles...
...

У режимі кількох міток кожному документу призначено принаймні один клас, але може бути більше. Навчальні дані мають бути у вигляді файлу CSV із двома стовпцями, кожен рядок якого містить один або кілька класів і текст навчального документа. Більш ніж один клас слід позначати за допомогою розділювача між кожним класом.

CLASS, Text of document 1
CLASS|CLASS|CLASS, Text of document 2
...

Жоден заголовок не повинен бути включений у файл CSV для жодного з режимів навчання.

Напівструктурований вхід

Починаючи з 2023 року, «Амазонка» тепер підтримує моделі навчання з використанням напівструктурованих документів. Навчальні дані для напівструктурного введення складаються з набору документів з мітками, які можуть бути попередньо ідентифікованими документами зі сховища документів, до якого ви вже маєте доступ. Нижче наведено приклад даних CSV файлу анотацій, необхідних для навчання (Зразок даних):

CLASS, document1.pdf, 1
CLASS, document1.pdf, 2
...

Файл CSV із анотаціями містить три стовпці: перший стовпець містить мітку для документа, другий стовпець – ім’я документа (тобто ім’я файлу), а останній стовпець – номер сторінки документа, який потрібно включити до навчальний набір даних. У більшості випадків, якщо CSV-файл анотацій знаходиться в тій же папці, що й усі інші документи, вам просто потрібно вказати назву документа у другому стовпці. Однак, якщо файл CSV знаходиться в іншому місці, вам потрібно буде вказати шлях до розташування у другому стовпці, наприклад path/to/prefix/document1.pdf.

Щоб дізнатися більше про те, як підготувати дані про навчання, зверніться до тут.

Огляд рішення

Створіть конвеєр класифікації за допомогою спеціальної класифікації Amazon Comprehend (частина I) | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

«Амазонка» конвеєр навчання починається, коли навчальні дані (файл .csv для введення тексту та файл .csv анотації для введення напівструктури) завантажуються до спеціальної служби Amazon Simple Storage Service (Amazon S3) відро.
An AWS Lambda функція викликається Amazon S3 тригер таким чином, що кожного разу, коли об’єкт завантажується до вказаного Amazon S3 розташування, функція AWS Lambda отримує ім’я вихідного сегмента та ім’я ключа завантаженого об’єкта та передає його до навчання крокова функція робочий процес.
У функції кроку навчання після отримання назви сегмента даних навчання та назви ключа об’єкта як вхідних параметрів робочий процес навчання спеціальної моделі запускається як серія лямбда-функцій, як описано:
1. StartComprehendTraining: ця функція AWS Lambda визначає a ComprehendClassifier залежно від типу вхідних файлів (тобто текстових або напівструктурованих), а потім запускає «Амазонка» замовна класифікація навчального завдання за викликом create_document_classifier Інтерфакт прикладного програмування (API), який повертає імена ресурсів Amazon (ARN) навчального завдання. Згодом ця функція перевіряє статус навчального завдання шляхом виклику описувати_документ_класифікатор API. Нарешті, він повертає ARN навчального завдання та статус завдання як вихідні дані для наступного етапу процесу навчання.
2. GetTrainingJobStatus: Ця AWS Lambda перевіряє статус завдання навчання кожні 15 хвилин шляхом виклику описувати_документ_класифікатор API, доки статус завдання навчання не зміниться на Завершено або Помилка.
3. GenerateMultiClass or GenerateMultiLabel: Якщо ви виберете так для звіту про продуктивність під час запуску стека одна з цих двох AWS Lambda запустить аналіз відповідно до ваших вихідних даних моделі Amazon Comprehend, яка генерує аналіз продуктивності для кожного класу та зберігає його в Amazon S3.
4. GenerateMultiClass: цей AWS Lambda буде викликаний, якщо ваші дані є MultiClass і ви вибираєте так для звіту про виконання.
5. GenerateMultiLabel: цей AWS Lambda буде викликаний, якщо ваші дані є MultiLabel і ви вибираєте так для звіту про виконання.
Після успішного завершення навчання рішення генерує такі результати:
1. Спеціальна модель класифікації: навчена модель ARN буде доступна у вашому обліковому записі для майбутніх висновків.
2. Матриця плутанини [Необов’язковоl]: матриця плутанини (confusion_matrix.json) буде доступний у визначеному користувачем виведенні Amazon S3 шлях залежно від вибору користувача.
3. Служба простих сповіщень Amazon повідомлення [Необов’язковоl]: сповіщення електронною поштою про стан навчання буде надіслано передплатникам залежно від початкового вибору користувача.

Проходження

Запуск рішення

Щоб розгорнути конвеєр, виконайте такі дії:

Вибирати Запустити стек Кнопка:

Виберіть Далі

Укажіть деталі конвеєра з параметрами, які відповідають вашому випадку використання:

Інформація для кожної деталі стека:

Ім'я стека (обов'язково) – назва, яку ви для цього вказали AWS CloudFormation стек. Ім’я має бути унікальним у регіоні, у якому ви його створюєте.
Q01ClassifierInputBucketName (обов’язково) – Назва сегмента Amazon S3 для зберігання ваших вхідних даних. Це має бути глобально унікальне ім’я, а стек AWS CloudFormation допоможе вам створити сегмент під час його запуску.
Q02ClassifierOutputBucketName (обов’язково) – Назва сегмента Amazon S3 для зберігання результатів Amazon Comprehend і конвеєра. Це також має бути глобально унікальна назва.
Q03Формат введення – Ви можете вибрати спадне меню текст (якщо ваші навчальні дані є файлами csv) або напівструктура (якщо ваші навчальні дані є напівструктурованими [наприклад, PDF-файли]) на основі вашого формату введення даних.
Q04Мова – Вибір, що випадає, для вибору мови документів зі списку підтримуваних. Зауважте, що наразі підтримується лише англійська мова, якщо ваш формат введення є напівструктурним.
Q05МультиКлас – Вибір у спадному списку, виберіть так якщо ви вводите режим MultiClass. В іншому випадку виберіть немає.
Q06LabelDelimiter – Потрібно, лише якщо ваша відповідь Q05MultiClass немає. Цей роздільник використовується у ваших навчальних даних для відокремлення кожного класу.
Q07ValidationDataset – Вибір у спадному меню, змініть відповідь так якщо ви хочете перевірити продуктивність навченого класифікатора за допомогою власних тестових даних.
Q08S3ValidationPath – Потрібно, лише якщо ваша відповідь Q07ValidationDataset так.
Q09Звіт про продуктивність – Вибір у спадному списку, виберіть так якщо ви хочете створити звіт про продуктивність на рівні класу після тренування моделі. Звіт буде збережено у вказаному вами вихідному сегменті в Q02ClassifierOutputBucketName.
Q10 Сповіщення електронною поштою – Вибір у спадному списку. Виберіть так якщо ви хочете отримувати сповіщення після навчання моделі.
Q11Ідентифікатор електронної пошти – Введіть дійсну електронну адресу для отримання сповіщень про звіт про продуктивність. Зверніть увагу, що після запуску стека AWS CloudFormation ви повинні підтвердити підписку зі своєї електронної пошти, перш ніж ви зможете отримати сповіщення про завершення навчання.

У розділі Amazon Configure stack options додайте додаткові теги, дозволи та інші додаткові параметри.

Вибирати МАЙБУТНІ
Перегляньте деталі стека та виберіть Я підтверджую це AWS CloudFormation може створити AWS IAM ресурси.

Вибирати Надіслати. Це ініціює конвеєрне розгортання у вашому обліковому записі AWS.
Після успішного розгортання стека ви можете почати використовувати конвеєр. Створити /training-data папку у вказаному вами місці Amazon S3 для введення. Примітка: Amazon S3 автоматично застосовує шифрування на стороні сервера (SSE-S3) для кожного нового об’єкта, якщо ви не вкажете інший параметр шифрування. Будь ласка, зверніться Захист даних в Amazon S3 для отримання додаткової інформації про захист даних і шифрування в Amazon S3.

Завантажте дані про тренування в папку. (Якщо навчальні дані є напівструктурованими, завантажте всі PDF-файли перед завантаженням інформації про мітки у форматі .csv).

Ви готові! Ви успішно розгорнули конвеєр і можете перевірити його стан у функції кроку розгортання. (Ви матимете навчену модель на панелі спеціальної класифікації Amazon Comprehend).

Якщо вибрати модель і її версію всередині «Амазонка» Консоль, тоді ви можете побачити більше деталей про модель, яку ви щойно навчили. Він включає в себе вибраний режим, який відповідає опції Q05MultiClass, кількість міток і кількість навчених і тестових документів у ваших даних навчання. Ви також можете перевірити загальну продуктивність нижче; однак, якщо ви хочете детально перевірити продуктивність для кожного класу, зверніться до звіту про продуктивність, створеного розгорнутим конвеєром.

Квоти обслуговування

Ваш обліковий запис AWS має стандартні квоти для «Амазонка» та AmazonTextract, якщо вхідні дані мають напівструктурний формат. Для перегляду квот на послуги див тут та цінності «Амазонка» та тут та цінності AmazonTextract.

Прибирати

Щоб уникнути постійної оплати, видаліть ресурси, які ви створили як частину цього рішення, коли закінчите.

на Amazon S3 консолі, вручну видаліть вміст у відрах, які ви створили для вхідних і вихідних даних.
на AWS CloudFormation консоль, виберіть Стеки у навігаційній панелі.
Виберіть основний стек і виберіть видаляти.

Це автоматично видаляє розгорнутий стек.

Ваш навчений «Амазонка» спеціальна модель класифікації залишиться у вашому обліковому записі. Якщо він вам більше не потрібен, в «Амазонка» консолі, видаліть створену модель.

Висновок

У цій публікації ми показали вам концепцію масштабованого навчального конвеєра для «Амазонка» спеціальні моделі класифікації та надання автоматизованого рішення для ефективного навчання нових моделей. The AWS CloudFormation Наданий шаблон дає змогу легко створювати власні моделі класифікації тексту, задовольняючи масштаби попиту. Рішення використовує нещодавно анонсовану функцію Euclid і приймає вхідні дані в текстовому або напівструктурованому форматі.

Тепер ми заохочуємо вас, наших читачів, протестувати ці інструменти. Ви можете дізнатися більше про підготовка навчальних даних і зрозуміти настроювані показники класифікатора. Спробуйте й подивіться на власні очі, як це може оптимізувати процес навчання моделі та підвищити ефективність. Будь ласка, поділіться з нами своїм відгуком!

Про авторів

Сандіп Сінгх є старшим спеціалістом із обробки даних у AWS Professional Services. Він захоплено допомагає клієнтам впроваджувати інновації та досягати їхніх бізнес-цілей, розробляючи найсучасніші рішення на базі AI/ML. Зараз він зосереджений на генеративному штучному інтелекті, магістерських програмах, оперативному проектуванні та масштабуванні машинного навчання на підприємствах. Він використовує останні досягнення ШІ, щоб створити цінність для клієнтів.

Яньян Чжан є старшим спеціалістом із обробки даних у команді енергопостачання AWS Professional Services. Вона захоплена тим, що допомагає клієнтам вирішувати реальні проблеми за допомогою знань AI/ML. Останнім часом вона зосередилася на дослідженні потенціалу Generative AI та LLM. Поза роботою вона любить подорожувати, працювати та досліджувати нові речі.

Вік Талукдар є старшим архітектором команди Amazon Comprehend Service. Він працює з клієнтами AWS, щоб допомогти їм запровадити машинне навчання у великих масштабах. Поза роботою він захоплюється читанням і фотографією.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
ПлатонЕСГ. Автомобільні / електромобілі, вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
ChartPrime. Розвивайте свою торгову гру за допомогою ChartPrime. Доступ тут.
BlockOffsets. Модернізація екологічної компенсаційної власності. Доступ тут.
джерело: https://aws.amazon.com/blogs/machine-learning/build-a-classification-pipeline-with-amazon-comprehend-custom-classification-part-i/

Часова мітка: Вересень 14, 2023

Часова мітка: Квітень 13, 2023

Перевидано Платоном

Зменшіть харчові відходи, щоб покращити сталість і фінансові результати в роздрібній торгівлі за допомогою Amazon Forecast

3D-маркування хмар точок LiDAR за допомогою датчика Velodyne LiDAR в Amazon SageMaker Ground Truth

Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML

Отримуйте кращі результати пошуку за допомогою плагіна Amazon Kendra Intelligent Ranking і OpenSearch

Як Patsnap використовував висновок GPT-2 на Amazon SageMaker із низькою затримкою та вартістю | Веб-сервіси Amazon

Захистіть попередньо підписані URL-адреси Amazon SageMaker Studio. Частина 3: приватний API-доступ кількох облікових записів до Studio

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки