Діарізація мовця, важливий процес аналізу аудіо, сегментує аудіофайл на основі ідентичності мовця. У цьому дописі йдеться про інтеграцію PyAnnote Hugging Face для щоденника диктора з Amazon SageMaker асинхронні кінцеві точки.
Ми надаємо вичерпний посібник із розгортання рішень сегментації динаміків і кластеризації за допомогою SageMaker у хмарі AWS. Ви можете використовувати це рішення для додатків, які мають справу з аудіозаписами з кількома динаміками (понад 100).
Огляд рішення
Амазонська розшифровка це основний сервіс для діаризації доповідачів у AWS. Однак для непідтримуваних мов ви можете використовувати інші моделі (у нашому випадку PyAnnote), які будуть розгорнуті в SageMaker для висновку. Для коротких аудіофайлів, де висновок займає до 60 секунд, ви можете використовувати висновок у реальному часі. Більше 60 секунд, асинхронний слід використовувати висновок. Додатковою перевагою асинхронного висновку є економія коштів завдяки автоматичному масштабуванню кількості екземплярів до нуля, коли немає запитів для обробки.
Обіймати обличчя це популярний центр з відкритим кодом для моделей машинного навчання (ML). AWS і Hugging Face мають a партнерство що забезпечує плавну інтеграцію через SageMaker із набором контейнерів AWS Deep Learning Containers (DLC) для навчання та висновків у PyTorch або TensorFlow, а також оцінювачів і предикторів Hugging Face для SDK SageMaker Python. Функції та можливості SageMaker допомагають розробникам і дослідникам даних легко розпочати роботу з обробки природної мови (NLP) на AWS.
Інтеграція цього рішення передбачає використання попередньо навченої моделі діаризації мовця Hugging Face за допомогою Бібліотека PyAnnote. PyAnnote — це набір інструментів з відкритим вихідним кодом, написаний на Python для діаризації доповідачів. Ця модель, навчена на зразковому наборі аудіоданих, забезпечує ефективне розділення динаміків в аудіофайлах. Модель розгортається на SageMaker як асинхронне налаштування кінцевої точки, що забезпечує ефективну та масштабовану обробку завдань діаризації.
Наступна діаграма ілюструє архітектуру рішення.
Для цієї публікації ми використовуємо наступний аудіофайл.
Стерео- або багатоканальні аудіофайли автоматично мікшуються до моно шляхом усереднення каналів. Під час завантаження аудіофайли, відібрані з іншою частотою, автоматично змінюються до 16 кГц.
Передумови
Виконайте такі передумови:
- Створіть домен SageMaker.
- Переконайтеся, що ваш Управління ідентифікацією та доступом AWS (IAM) користувач має необхідні права доступу для створення a Роль SageMaker.
- Переконайтеся, що обліковий запис AWS має квоту обслуговування для розміщення кінцевої точки SageMaker для екземпляра ml.g5.2xlarge.
Створіть функцію моделі для доступу до діаризації мовця PyAnnote із Hugging Face
Ви можете використовувати Hugging Face Hub, щоб отримати доступ до потрібного попередньо навченого Модель діаризації спікера PyAnnote. Ви використовуєте той самий сценарій для завантаження файлу моделі під час створення кінцевої точки SageMaker.
Дивіться наступний код:
Запакуйте код моделі
Підготуйте такі важливі файли, як inference.py, який містить код висновку:
Підготуйте a requirements.txt
файл, який містить необхідні бібліотеки Python, необхідні для виконання висновку:
Нарешті, стисніть inference.py
та файли requirements.txt і збережіть його як model.tar.gz
:
Налаштуйте модель SageMaker
Визначте ресурс моделі SageMaker, вказавши URI зображення, розташування даних моделі Служба простого зберігання Amazon (S3) і роль SageMaker:
Завантажте модель на Amazon S3
Завантажте заархівований файл моделі PyAnnote Hugging Face у відро S3:
Створіть асинхронну кінцеву точку SageMaker
Налаштуйте асинхронну кінцеву точку для розгортання моделі на SageMaker за допомогою наданої конфігурації асинхронного висновку:
Перевірте кінцеву точку
Оцініть функціональність кінцевої точки, надіславши аудіофайл для діаризації та отримавши вихідні дані JSON, які зберігаються в указаному вихідному шляху S3:
Щоб розгорнути це рішення в масштабі, ми пропонуємо використовувати AWS Lambda, Служба простих сповіщень Amazon (Amazon SNS), або Служба простої черги Amazon (Amazon SQS). Ці служби створені для масштабованості, керованих подіями архітектур та ефективного використання ресурсів. Вони можуть допомогти відокремити процес асинхронного висновку від обробки результатів, дозволяючи масштабувати кожен компонент незалежно та ефективніше обробляти пакети запитів на висновки.
результати
Вихідні дані моделі зберігаються в s3://sagemaker-xxxx /async_inference/output/.
Результат показує, що аудіозапис сегментовано на три стовпці:
- Початок (час початку в секундах)
- Кінець (час закінчення в секундах)
- Динамік (мітка динаміка)
Наступний код показує приклад наших результатів:
Прибирати
Ви можете встановити політику масштабування на нуль, встановивши MinCapacity на 0; асинхронний висновок дозволяє автоматично масштабувати до нуля без запитів. Вам не потрібно видаляти кінцеву точку, це ваги від нуля, коли знову знадобиться, зменшуючи витрати, коли не використовується. Перегляньте наступний код:
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/deploy-a-hugging-face-pyannote-speaker-diarization-model-on-amazon-sagemaker-as-an-asynchronous-endpoint/
- : має
- :є
- : ні
- :де
- $UP
- 1
- 10
- 100
- 11
- 118
- 12
- 13
- 14
- 16
- 17
- 23
- 25
- 26%
- 27
- 28
- 31
- 60
- 7
- 8
- 9
- a
- МЕНЮ
- доступ
- доступ до
- поступливий
- рахунки
- через
- додавати
- доданий
- коригує
- просунутий
- знову
- AI
- Послуги ШІ
- AI / ML
- Дозволити
- дозволяє
- Також
- Amazon
- Amazon SageMaker
- Amazon Web Services
- an
- аналіз
- аналітика
- та
- будь-який
- додаток
- застосування
- підхід
- архітектура
- архітектури
- ЕСТЬ
- навколо
- AS
- At
- Спроби
- аудіо
- автоматичний
- автоматично
- усереднення
- AWS
- заснований
- BE
- було
- користь
- Переваги
- між
- бізнес
- підприємства
- by
- CAN
- можливості
- випадок
- випадків
- Зміни
- канали
- клас
- клієнт
- хмара
- Кластеризація
- код
- Колони
- коментарі
- загальний
- компонент
- всеосяжний
- концепція
- одночасно
- конфігурація
- Контейнери
- містить
- управління
- Коштувати
- економія на витратах
- витрати
- вважати
- створювати
- створення
- Клієнти
- дані
- справу
- глибокий
- глибоке навчання
- визначати
- доставляти
- заглиблюється
- демонстрація
- розгортання
- розгорнути
- розгортання
- дизайн
- призначений
- бажаний
- розвиненою
- Розробник
- розробників
- розробка
- схема
- різний
- цифровий
- цифрове перетворення
- каталог
- документація
- Не знаю
- Завантаження
- динамічно
- кожен
- простота
- Ефективний
- фактично
- ефективний
- продуктивно
- дозволяє
- кінець
- Кінцева точка
- помилка
- істотний
- приклад
- Крім
- досвід
- дослідити
- Face
- риси
- філе
- Файли
- після
- для
- формат
- від
- функція
- функціональність
- генеративний
- отримати
- отримання
- GitHub
- керівництво
- обробляти
- Мати
- he
- допомога
- допоміг
- допомагає
- його
- хостинг
- Як
- How To
- Однак
- HTML
- HTTP
- HTTPS
- Концентратор
- HuggingFace
- Сотні
- Особистість
- if
- ілюструє
- зображення
- реалізовані
- імпорт
- in
- самостійно
- Індію
- екземпляр
- Інтеграція
- інтеграція
- в
- включає в себе
- IT
- подорож
- JPG
- json
- ключ
- етикетка
- мова
- мови
- великий
- запуск
- вивчення
- дозволяє
- libraries
- як
- загрузка
- погрузка
- розташування
- довше
- машина
- навчання за допомогою машини
- засоби
- ML
- модель
- Моделі
- більше
- множинний
- Природний
- Обробка природних мов
- необхідно
- Необхідність
- необхідний
- nlp
- немає
- ніхто
- сповіщення
- номер
- об'єкт
- of
- Пропозиції
- on
- відкрити
- з відкритим вихідним кодом
- Оптимізує
- or
- OS
- Інше
- наші
- з
- вихід
- над
- загальний
- власний
- панди
- частина
- шлях
- Дозволи
- трубопровід
- платформа
- plato
- Інформація про дані Платона
- PlatoData
- політика
- популярний
- пошта
- Харчування
- Прогнози
- передумови
- процес
- обробка
- проектів
- докази
- забезпечувати
- за умови
- забезпечує
- забезпечення
- громадськість
- put
- Python
- піторх
- питань
- ставка
- досягати
- реального часу
- запис
- знижує
- зниження
- посилання
- регіон
- реєструвати
- надійний
- замінювати
- представляє
- запитів
- вимагається
- Вимога
- ресурс
- ресурси
- відповідь
- результат
- результати
- повертати
- Роль
- прогін
- біг
- мудрець
- продажів
- то ж
- зразок
- зберегти
- Економія
- масштабованість
- масштабовані
- шкала
- Масштабування
- Вчені
- сценарій
- scripts
- Sdk
- безшовні
- плавно
- seconds
- сектор
- побачити
- сегментація
- сегменти
- відправка
- розділення
- обслуговування
- Послуги
- Сесія
- сесіях
- комплект
- установка
- установка
- кілька
- Форма
- Короткий
- Повинен
- Шоу
- простий
- один
- Софтвер
- розробка програмного забезпечення
- рішення
- Рішення
- Source
- Гучномовець
- спеціаліст
- конкретний
- зазначений
- уточнюючи
- витрачає
- розкол
- старт
- почалася
- зберігання
- зберігати
- просто
- Стратегічний
- успіх
- пропонувати
- Переконайтеся
- система
- приймає
- завдання
- технології
- тензорний потік
- ніж
- Що
- Команда
- Там.
- Ці
- вони
- це
- тисячі
- три
- через
- час
- до
- сьогодні
- Інструментарій
- тема
- факел
- навчений
- Навчання
- Перетворення
- Трансформатори
- намагатися
- ПЕРЕГЛЯД
- на
- використання
- використовуваний
- користувач
- використовує
- використання
- варіант
- версія
- Відео
- W
- чекати
- хотіти
- we
- Web
- веб-сервіси
- коли
- який
- ВООЗ
- волі
- з
- робочий
- письмовий
- років
- Ти
- вашу
- зефірнет
- нуль