«Дані, заблоковані в тексті, аудіо, соціальних мережах та інших неструктурованих джерелах, можуть бути конкурентною перевагою для фірм, які знають, як їх використовувати»
Лише 18% організацій в а Опитування Deloitte у 2019 році повідомили, що можуть скористатися перевагами неструктурованих даних. Більшість даних, від 80% до 90%, є неструктурованими даними. Це великий невикористаний ресурс, який може дати підприємствам конкурентну перевагу, якщо вони знатимуть, як ним скористатися. Може бути важко знайти інформацію з цих даних, особливо якщо потрібні зусилля для їх класифікації, позначення тегами або міток. «Амазонка» Спеціальна класифікація може бути корисною в цій ситуації. «Амазонка» це служба обробки природної мови (NLP), яка використовує машинне навчання для виявлення цінних ідей і зв’язків у тексті.
Категоризація або класифікація документів має значні переваги в різних сферах діяльності –
- Покращено пошук і пошук – Класифікуючи документи за відповідними темами чи категоріями, користувачам значно легше шукати та отримувати потрібні документи. Вони можуть шукати в певних категоріях, щоб звузити результати.
- Управління знаннями – Класифікація документів у систематичний спосіб допомагає організувати базу знань організації. Це полегшує пошук відповідної інформації та перегляд зв’язків між пов’язаним вмістом.
- Оптимізовані робочі процеси – Автоматичне сортування документів може допомогти оптимізувати багато бізнес-процесів, як-от обробка рахунків-фактур, підтримка клієнтів або дотримання нормативних вимог. Документи можна автоматично направляти потрібним людям або робочим процесам.
- Економія коштів і часу – Ручна категоризація документів – справа трудомістка, трудомістка та дорога. Технології штучного інтелекту можуть взяти на себе цю повсякденну задачу та класифікувати тисячі документів за короткий час за значно менших витрат.
- Генерація інсайту – Аналіз тенденцій у категоріях документів може надати корисну інформацію про бізнес. Наприклад, збільшення кількості скарг клієнтів у категорії продукту може означати деякі проблеми, які потрібно вирішити.
- Управління та забезпечення виконання політики – Встановлення правил категоризації документів допомагає забезпечити правильну класифікацію документів відповідно до політики організації та стандартів управління. Це дозволяє покращити моніторинг і аудит.
- Персоналізований досвід – У таких контекстах, як вміст веб-сайту, категоризація документів дозволяє показувати користувачам персоналізований вміст на основі їхніх інтересів і вподобань, які визначаються їхньою поведінкою веб-переглядача. Це може збільшити залучення користувачів.
Складність розробки індивідуальної моделі машинного навчання класифікації залежить від низки аспектів, таких як якість даних, алгоритм, масштабованість і знання домену, щоб згадати декілька. Важливо почати з чіткого визначення проблеми, чистих і відповідних даних і поступово проходити різні етапи розробки моделі. Однак компанії можуть створювати власні унікальні моделі машинного навчання за допомогою спеціальної класифікації Amazon Comprehend, щоб автоматично класифікувати текстові документи за категоріями або тегами, щоб відповідати вимогам бізнесу та відображати бізнес-технології та категорії документів. Оскільки тегування або категоризація людиною більше не потрібні, це може заощадити підприємствам багато часу, грошей і праці. Ми зробили цей процес простим, автоматизувавши весь конвеєр навчання.
У першій частині цієї багатосерійної публікації в блозі ви дізнаєтеся, як створити масштабований навчальний конвеєр і підготувати навчальні дані для моделей Comprehend Custom Classification. Ми запровадимо спеціальний навчальний конвеєр класифікатора, який можна розгорнути у вашому обліковому записі AWS кількома кліками. Ми використовуємо набір даних новин BBC і навчатимемо класифікатор ідентифікувати клас (наприклад, політика, спорт), до якого належить документ. Конвеєр дозволить вашій організації швидко реагувати на зміни та навчати нові моделі без необхідності кожного разу починати з нуля. Ви можете легко розширити масштаб і навчити кілька моделей відповідно до ваших потреб.
Передумови
- Активний обліковий запис AWS (клацніть тут щоб створити новий обліковий запис AWS)
- Доступ до Amazon Comprehend, Amazon S3, Amazon Lambda, Amazon Step Function, Amazon SNS і Amazon CloudFormation
- Навчальні дані (напівструктура або текст), підготовлені в наступному розділі
- Базові знання про Python і машинне навчання загалом
Підготувати навчальні дані
Це рішення може приймати будь-які дані текстовий формат (наприклад, CSV) або напівструктурований формат (наприклад, PDF).
Введення тексту
«Амазонка» Спеціальна класифікація підтримує два режими: багатокласовий і багатомітковий.
У багатокласовому режимі кожному документу може бути призначений лише один клас. Навчальні дані мають бути підготовлені у вигляді файлу CSV із двома стовпцями, кожен рядок якого містить окремий клас і текст документа, який демонструє клас.
Приклад для Набір даних новин BBC:
У режимі кількох міток кожному документу призначено принаймні один клас, але може бути більше. Навчальні дані мають бути у вигляді файлу CSV із двома стовпцями, кожен рядок якого містить один або кілька класів і текст навчального документа. Більш ніж один клас слід позначати за допомогою розділювача між кожним класом.
Жоден заголовок не повинен бути включений у файл CSV для жодного з режимів навчання.
Напівструктурований вхід
Починаючи з 2023 року, «Амазонка» тепер підтримує моделі навчання з використанням напівструктурованих документів. Навчальні дані для напівструктурного введення складаються з набору документів з мітками, які можуть бути попередньо ідентифікованими документами зі сховища документів, до якого ви вже маєте доступ. Нижче наведено приклад даних CSV файлу анотацій, необхідних для навчання (Зразок даних):
Файл CSV із анотаціями містить три стовпці: перший стовпець містить мітку для документа, другий стовпець – ім’я документа (тобто ім’я файлу), а останній стовпець – номер сторінки документа, який потрібно включити до навчальний набір даних. У більшості випадків, якщо CSV-файл анотацій знаходиться в тій же папці, що й усі інші документи, вам просто потрібно вказати назву документа у другому стовпці. Однак, якщо файл CSV знаходиться в іншому місці, вам потрібно буде вказати шлях до розташування у другому стовпці, наприклад path/to/prefix/document1.pdf
.
Щоб дізнатися більше про те, як підготувати дані про навчання, зверніться до тут.
Огляд рішення
- «Амазонка» конвеєр навчання починається, коли навчальні дані (файл .csv для введення тексту та файл .csv анотації для введення напівструктури) завантажуються до спеціальної служби Amazon Simple Storage Service (Amazon S3) відро.
- An AWS Lambda функція викликається Amazon S3 тригер таким чином, що кожного разу, коли об’єкт завантажується до вказаного Amazon S3 розташування, функція AWS Lambda отримує ім’я вихідного сегмента та ім’я ключа завантаженого об’єкта та передає його до навчання крокова функція робочий процес.
- У функції кроку навчання після отримання назви сегмента даних навчання та назви ключа об’єкта як вхідних параметрів робочий процес навчання спеціальної моделі запускається як серія лямбда-функцій, як описано:
StartComprehendTraining
: ця функція AWS Lambda визначає aComprehendClassifier
залежно від типу вхідних файлів (тобто текстових або напівструктурованих), а потім запускає «Амазонка» замовна класифікація навчального завдання за викликом create_document_classifier Інтерфакт прикладного програмування (API), який повертає імена ресурсів Amazon (ARN) навчального завдання. Згодом ця функція перевіряє статус навчального завдання шляхом виклику описувати_документ_класифікатор API. Нарешті, він повертає ARN навчального завдання та статус завдання як вихідні дані для наступного етапу процесу навчання.GetTrainingJobStatus
: Ця AWS Lambda перевіряє статус завдання навчання кожні 15 хвилин шляхом виклику описувати_документ_класифікатор API, доки статус завдання навчання не зміниться на Завершено або Помилка.GenerateMultiClass
orGenerateMultiLabel
: Якщо ви виберете так для звіту про продуктивність під час запуску стека одна з цих двох AWS Lambda запустить аналіз відповідно до ваших вихідних даних моделі Amazon Comprehend, яка генерує аналіз продуктивності для кожного класу та зберігає його в Amazon S3.GenerateMultiClass
: цей AWS Lambda буде викликаний, якщо ваші дані є MultiClass і ви вибираєте так для звіту про виконання.GenerateMultiLabel
: цей AWS Lambda буде викликаний, якщо ваші дані є MultiLabel і ви вибираєте так для звіту про виконання.
- Після успішного завершення навчання рішення генерує такі результати:
- Спеціальна модель класифікації: навчена модель ARN буде доступна у вашому обліковому записі для майбутніх висновків.
- Матриця плутанини [Необов’язковоl]: матриця плутанини (
confusion_matrix
.json) буде доступний у визначеному користувачем виведенні Amazon S3 шлях залежно від вибору користувача. - Служба простих сповіщень Amazon повідомлення [Необов’язковоl]: сповіщення електронною поштою про стан навчання буде надіслано передплатникам залежно від початкового вибору користувача.
Проходження
Запуск рішення
Щоб розгорнути конвеєр, виконайте такі дії:
- Вибирати Запустити стек Кнопка:
- Виберіть Далі
- Укажіть деталі конвеєра з параметрами, які відповідають вашому випадку використання:
Інформація для кожної деталі стека:
- Ім'я стека (обов'язково) – назва, яку ви для цього вказали AWS CloudFormation стек. Ім’я має бути унікальним у регіоні, у якому ви його створюєте.
- Q01ClassifierInputBucketName (обов’язково) – Назва сегмента Amazon S3 для зберігання ваших вхідних даних. Це має бути глобально унікальне ім’я, а стек AWS CloudFormation допоможе вам створити сегмент під час його запуску.
- Q02ClassifierOutputBucketName (обов’язково) – Назва сегмента Amazon S3 для зберігання результатів Amazon Comprehend і конвеєра. Це також має бути глобально унікальна назва.
- Q03Формат введення – Ви можете вибрати спадне меню текст (якщо ваші навчальні дані є файлами csv) або напівструктура (якщо ваші навчальні дані є напівструктурованими [наприклад, PDF-файли]) на основі вашого формату введення даних.
- Q04Мова – Вибір, що випадає, для вибору мови документів зі списку підтримуваних. Зауважте, що наразі підтримується лише англійська мова, якщо ваш формат введення є напівструктурним.
- Q05МультиКлас – Вибір у спадному списку, виберіть так якщо ви вводите режим MultiClass. В іншому випадку виберіть немає.
- Q06LabelDelimiter – Потрібно, лише якщо ваша відповідь Q05MultiClass немає. Цей роздільник використовується у ваших навчальних даних для відокремлення кожного класу.
- Q07ValidationDataset – Вибір у спадному меню, змініть відповідь так якщо ви хочете перевірити продуктивність навченого класифікатора за допомогою власних тестових даних.
- Q08S3ValidationPath – Потрібно, лише якщо ваша відповідь Q07ValidationDataset так.
- Q09Звіт про продуктивність – Вибір у спадному списку, виберіть так якщо ви хочете створити звіт про продуктивність на рівні класу після тренування моделі. Звіт буде збережено у вказаному вами вихідному сегменті в Q02ClassifierOutputBucketName.
- Q10 Сповіщення електронною поштою – Вибір у спадному списку. Виберіть так якщо ви хочете отримувати сповіщення після навчання моделі.
- Q11Ідентифікатор електронної пошти – Введіть дійсну електронну адресу для отримання сповіщень про звіт про продуктивність. Зверніть увагу, що після запуску стека AWS CloudFormation ви повинні підтвердити підписку зі своєї електронної пошти, перш ніж ви зможете отримати сповіщення про завершення навчання.
- У розділі Amazon Configure stack options додайте додаткові теги, дозволи та інші додаткові параметри.
- Вибирати МАЙБУТНІ
- Перегляньте деталі стека та виберіть Я підтверджую це AWS CloudFormation може створити AWS IAM ресурси.
- Вибирати Надіслати. Це ініціює конвеєрне розгортання у вашому обліковому записі AWS.
- Після успішного розгортання стека ви можете почати використовувати конвеєр. Створити
/training-data
папку у вказаному вами місці Amazon S3 для введення. Примітка: Amazon S3 автоматично застосовує шифрування на стороні сервера (SSE-S3) для кожного нового об’єкта, якщо ви не вкажете інший параметр шифрування. Будь ласка, зверніться Захист даних в Amazon S3 для отримання додаткової інформації про захист даних і шифрування в Amazon S3.
- Завантажте дані про тренування в папку. (Якщо навчальні дані є напівструктурованими, завантажте всі PDF-файли перед завантаженням інформації про мітки у форматі .csv).
Ви готові! Ви успішно розгорнули конвеєр і можете перевірити його стан у функції кроку розгортання. (Ви матимете навчену модель на панелі спеціальної класифікації Amazon Comprehend).
Якщо вибрати модель і її версію всередині «Амазонка» Консоль, тоді ви можете побачити більше деталей про модель, яку ви щойно навчили. Він включає в себе вибраний режим, який відповідає опції Q05MultiClass, кількість міток і кількість навчених і тестових документів у ваших даних навчання. Ви також можете перевірити загальну продуктивність нижче; однак, якщо ви хочете детально перевірити продуктивність для кожного класу, зверніться до звіту про продуктивність, створеного розгорнутим конвеєром.
Квоти обслуговування
Ваш обліковий запис AWS має стандартні квоти для «Амазонка» та AmazonTextract, якщо вхідні дані мають напівструктурний формат. Для перегляду квот на послуги див тут та цінності «Амазонка» та тут та цінності AmazonTextract.
Прибирати
Щоб уникнути постійної оплати, видаліть ресурси, які ви створили як частину цього рішення, коли закінчите.
- на Amazon S3 консолі, вручну видаліть вміст у відрах, які ви створили для вхідних і вихідних даних.
- на AWS CloudFormation консоль, виберіть Стеки у навігаційній панелі.
- Виберіть основний стек і виберіть видаляти.
Це автоматично видаляє розгорнутий стек.
- Ваш навчений «Амазонка» спеціальна модель класифікації залишиться у вашому обліковому записі. Якщо він вам більше не потрібен, в «Амазонка» консолі, видаліть створену модель.
Висновок
У цій публікації ми показали вам концепцію масштабованого навчального конвеєра для «Амазонка» спеціальні моделі класифікації та надання автоматизованого рішення для ефективного навчання нових моделей. The AWS CloudFormation Наданий шаблон дає змогу легко створювати власні моделі класифікації тексту, задовольняючи масштаби попиту. Рішення використовує нещодавно анонсовану функцію Euclid і приймає вхідні дані в текстовому або напівструктурованому форматі.
Тепер ми заохочуємо вас, наших читачів, протестувати ці інструменти. Ви можете дізнатися більше про підготовка навчальних даних і зрозуміти настроювані показники класифікатора. Спробуйте й подивіться на власні очі, як це може оптимізувати процес навчання моделі та підвищити ефективність. Будь ласка, поділіться з нами своїм відгуком!
Про авторів
Сандіп Сінгх є старшим спеціалістом із обробки даних у AWS Professional Services. Він захоплено допомагає клієнтам впроваджувати інновації та досягати їхніх бізнес-цілей, розробляючи найсучасніші рішення на базі AI/ML. Зараз він зосереджений на генеративному штучному інтелекті, магістерських програмах, оперативному проектуванні та масштабуванні машинного навчання на підприємствах. Він використовує останні досягнення ШІ, щоб створити цінність для клієнтів.
Яньян Чжан є старшим спеціалістом із обробки даних у команді енергопостачання AWS Professional Services. Вона захоплена тим, що допомагає клієнтам вирішувати реальні проблеми за допомогою знань AI/ML. Останнім часом вона зосередилася на дослідженні потенціалу Generative AI та LLM. Поза роботою вона любить подорожувати, працювати та досліджувати нові речі.
Вік Талукдар є старшим архітектором команди Amazon Comprehend Service. Він працює з клієнтами AWS, щоб допомогти їм запровадити машинне навчання у великих масштабах. Поза роботою він захоплюється читанням і фотографією.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. Автомобільні / електромобілі, вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- ChartPrime. Розвивайте свою торгову гру за допомогою ChartPrime. Доступ тут.
- BlockOffsets. Модернізація екологічної компенсаційної власності. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/build-a-classification-pipeline-with-amazon-comprehend-custom-classification-part-i/
- : має
- :є
- $UP
- 1
- 100
- 11
- 15%
- 2023
- 24
- 26%
- 7
- 9
- a
- Здатний
- МЕНЮ
- Приймає
- доступ
- За
- рахунки
- Achieve
- визнавати
- через
- активний
- додавати
- адреса
- адресований
- прийняти
- просунутий
- досягнення
- Перевага
- після
- AI
- AI / ML
- алгоритм
- ВСІ
- дозволяє
- вже
- Також
- Amazon
- «Амазонка»
- Amazon Web Services
- an
- аналіз
- Аналізуючи
- та
- оголошений
- відповідь
- більше
- API
- додаток
- застосовується
- ЕСТЬ
- AS
- аспекти
- призначений
- At
- аудіо
- аудит
- Автоматизований
- автоматичний
- автоматично
- автоматизація
- доступний
- уникнути
- геть
- AWS
- AWS CloudFormation
- AWS Lambda
- Професійні послуги AWS
- база
- заснований
- BBC
- BE
- було
- перед тим
- поведінка
- буття
- належить
- нижче
- Переваги
- замовляти
- Краще
- між
- Великий
- Блог
- Приносить
- Перегляд
- будувати
- бізнес
- підприємства
- але
- button
- by
- званий
- покликання
- CAN
- випадок
- випадків
- категорії
- категоризація
- Категорія
- зміна
- Зміни
- вантажі
- перевірка
- Перевірки
- Вибирати
- Вибираючи
- клас
- класів
- класифікація
- класифікований
- Класифікувати
- ясно
- клацання
- збирати
- Колонка
- Колони
- конкурентоспроможний
- скарги
- повний
- Зроблено
- складність
- дотримання
- осягнути
- У складі
- концепція
- підтвердити
- замішання
- Зв'язки
- Консоль
- містить
- зміст
- зміст
- контексти
- відповідає
- Коштувати
- може
- створювати
- Створити цінність
- створений
- створення
- В даний час
- виготовлений на замовлення
- клієнт
- підтримка клієнтів
- Клієнти
- дані
- захист даних
- вчений даних
- присвячених
- дефолт
- певний
- Визначає
- визначення
- доставка
- deloitte
- Попит
- демонструє
- Залежно
- розгортання
- розгорнути
- розгортання
- описаний
- деталь
- докладно
- деталі
- певний
- розвивається
- розробка
- різний
- важкий
- документ
- документація
- Долар
- домен
- домени
- зроблений
- Не знаю
- вниз
- e
- кожен
- легше
- легко
- край
- ефективність
- продуктивно
- легко
- зусилля
- або
- включіть
- заохочувати
- шифрування
- енергія
- зачеплення
- Машинобудування
- англійська
- підвищувати
- забезпечувати
- Що натомість? Створіть віртуальну версію себе у
- підприємств
- істотний
- Європа
- Кожен
- приклад
- дорогий
- Дослідження
- не вдалося
- особливість
- зворотний зв'язок
- кілька
- Рисунок
- філе
- Файли
- в кінці кінців
- знайти
- фірми
- Перший
- пристосування
- Сфокусувати
- увагу
- після
- для
- формат
- від
- функція
- Функції
- майбутнє
- породжувати
- генерується
- генерує
- генеративний
- Генеративний ШІ
- Давати
- Глобально
- управління
- поступово
- Мати
- має
- he
- допомога
- допомогу
- допомагає
- її
- Як
- How To
- Однак
- HTML
- HTTPS
- людина
- i
- ідентифікувати
- if
- in
- включати
- включені
- includes
- Augmenter
- зазначений
- інформація
- початковий
- Посвячені
- оновлювати
- вхід
- витрати
- всередині
- розуміння
- інтереси
- в
- вводити
- викликали
- питання
- IT
- ЙОГО
- робота
- JPG
- json
- просто
- ключ
- знання
- етикетка
- етикетки
- праця
- мова
- великий
- останній
- запущений
- запуск
- УЧИТЬСЯ
- вивчення
- найменш
- як
- Лінія
- список
- LLM
- розташований
- розташування
- замкнений
- довше
- серія
- любить
- знизити
- машина
- навчання за допомогою машини
- made
- головний
- Більшість
- РОБОТИ
- керівництво
- вручну
- багато
- карта
- Матриця
- Може..
- Медіа
- Зустрічатися
- може бути
- хвилин
- режим
- модель
- Моделі
- Режими
- гроші
- моніторинг
- більше
- найбільш
- Гора
- багато
- множинний
- повинен
- ім'я
- Імена
- вузький
- навігація
- необхідно
- Необхідність
- необхідний
- Нові
- новини
- наступний
- nlp
- немає
- сповіщення
- зараз
- номер
- об'єкт
- цілей
- of
- on
- ONE
- постійний
- тільки
- варіант
- Опції
- or
- організація
- організації
- Інше
- інакше
- наші
- з
- вихід
- поза
- над
- загальний
- власний
- сторінка
- pane
- панель
- параметри
- частина
- особливо
- проходити
- пристрасний
- шлях
- Люди
- для
- продуктивність
- Дозволи
- малюнок
- трубопровід
- plato
- Інформація про дані Платона
- PlatoData
- будь ласка
- Політика
- політика
- політика
- це можливо
- пошта
- потенціал
- Харчування
- переваги
- Готувати
- підготовлений
- Проблема
- проблеми
- процес
- процеси
- обробка
- Product
- професійний
- Програмування
- захист
- забезпечувати
- за умови
- забезпечення
- Python
- якість
- швидко
- читачі
- читання
- реальний
- отримати
- отримання
- останній
- нещодавно
- послатися
- регіон
- регуляторні
- Відповідність нормативам
- пов'язаний
- доречний
- залишатися
- звітом
- Повідомляється
- Сховище
- вимагається
- Вимога
- ресурс
- ресурси
- Реагувати
- результати
- Умови повернення
- право
- Правила
- прогін
- то ж
- зберегти
- зберігаються
- масштабованість
- масштабовані
- шкала
- ваги
- Масштабування
- вчений
- подряпати
- Пошук
- другий
- розділ
- побачити
- вибір
- старший
- посланий
- окремий
- Серія
- обслуговування
- Послуги
- комплект
- установка
- налаштування
- Поділитись
- вона
- Короткий
- Повинен
- показав
- показаний
- значний
- означати
- простий
- один
- ситуація
- соціальна
- соціальні медіа
- рішення
- Рішення
- ВИРІШИТИ
- деякі
- Source
- Джерела
- конкретний
- зазначений
- SPORTS
- стек
- Стажування
- етапи
- стандартів
- старт
- починається
- впроваджений
- Статус
- Крок
- заходи
- зберігання
- зберігати
- раціоналізувати
- абоненти
- передплата
- Згодом
- Успішно
- такі
- підтримка
- Підтриманий
- Опори
- Огляд
- TAG
- з урахуванням
- Приймати
- Завдання
- команда
- технології
- методи
- Технологія
- шаблон
- тест
- текст
- Класифікація тексту
- ніж
- Що
- Команда
- Джерело
- їх
- Їх
- потім
- Ці
- вони
- речі
- це
- тисячі
- три
- через
- час
- трудомісткий
- до
- інструменти
- теми
- поїзд
- навчений
- Навчання
- Подорож
- Тенденції
- викликати
- намагатися
- два
- тип
- розкрити
- при
- розуміти
- створеного
- невикористані
- до
- завантажено
- Завантаження
- us
- використання
- використання випадку
- використовуваний
- користувач
- користувачі
- використовує
- використання
- Цінний
- значення
- різноманітність
- версія
- вид
- хотіти
- шлях..
- we
- Web
- веб-сервіси
- веб-сайт
- коли
- який
- в той час як
- всі
- волі
- з
- в
- без
- Work
- робочий
- Робочі процеси
- робочий
- розробка
- працює
- Ти
- вашу
- зефірнет
- Zip