Автоматично визначайте мови в багатомовному аудіо за допомогою Amazon Transcribe

Перевидано Платоном

читають: 0

Якщо ви працюєте в країні з кількома офіційними мовами або в кількох регіонах, ваші аудіофайли можуть містити різні мови. Учасники можуть розмовляти абсолютно різними мовами або перемикатися між мовами. Розгляньте можливість звернення до служби підтримки клієнтів, щоб повідомити про проблему в регіоні зі значною кількістю багатомовного населення. Незважаючи на те, що розмова може початися однією мовою, цілком можливо, що клієнт може перейти на іншу мову, щоб описати проблему, залежно від рівня комфорту або переваг використання інших мов. Подібним чином представник служби підтримки клієнтів може переходити між мовами під час передачі інструкцій з експлуатації або усунення несправностей.

Щонайменше 3 секунди аудіо, Амазонська розшифровка може автоматично ідентифікувати та ефективно генерувати стенограми мовами, якими розмовляють у аудіо, не потребуючи людей для визначення мов. Це стосується різних випадків використання, таких як розшифровка дзвінків клієнтів, перетворення голосової пошти на текст, запис взаємодії на зустрічі, відстеження спілкування користувачів на форумі або моніторинг виробництва медіаконтенту та робочих процесів локалізації.

У цьому дописі описано кроки для транскрибування багатомовного аудіофайлу за допомогою Amazon Transcribe. Ми обговорюємо, як зробити аудіофайли доступними для Amazon Transcribe і ввімкнути транскрипцію багатомовних аудіофайлів під час виклику API Amazon Transcribe.

Огляд рішення

Amazon Transcribe – це служба AWS, яка спрощує конвертацію мовлення в текст. Додати функцію перетворення мовлення в текст до будь-якої програми легко за допомогою Amazon Transcribe, служби автоматичного розпізнавання мовлення (ASR). Ви можете вводити аудіовхід за допомогою Amazon Transcribe, створювати чіткі стенограми, які легко читати та переглядати, підвищувати точність за допомогою налаштування та фільтрувати інформацію для захисту конфіденційності клієнта.

Розчин також використовує Служба простого зберігання Amazon (Amazon S3), служба зберігання об’єктів, створена для зберігання та отримання будь-якої кількості даних з будь-якого місця. Це проста служба зберігання, яка пропонує найкращі в галузі довговічність, доступність, продуктивність, безпеку та практично необмежену масштабованість за дуже низькою ціною. Коли ви зберігаєте дані в Amazon S3, ви працюєте з ресурсами, відомими як Відра та об'єкти. Відро - це контейнер для предметів. Об’єкт – це файл і будь-які метадані, які описують файл.

У цій публікації ми проведемо вас через такі кроки, щоб реалізувати багатомовне рішення транскрипції аудіо:

Створіть відро S3.
Завантажте аудіофайл у відро.
Створіть завдання транскрипції.
Перегляньте результат роботи.

Передумови

Для цього покрокового керівництва ви повинні мати такі передумови:

Amazon Transcribe надає можливість зберігати транскрибований вихід у сегменті S3, керованому службою або клієнтом. У цьому дописі ми маємо Amazon Transcribe записувати результати в сегмент S3, керований службою.

Зауважте, що Amazon Transcribe є регіональною службою, а викликані кінцеві точки API Amazon Transcribe мають бути в тому самому регіоні, що й сегменти S3.

Створіть відро S3 для зберігання вхідних аудіофайлів

Щоб створити сегмент S3, виконайте такі дії:

На консолі Amazon S3 виберіть Створити відро.
для Назва відра, введіть глобально унікальну назву для відра.
для Регіон AWS, виберіть той самий регіон, що й ваші кінцеві точки Amazon Transcribe API.
Залиште всі параметри за замовчуванням як є.
Вибирати Створити відро.

Завантажте аудіофайл у відро S3

Завантажте свій багатомовний аудіофайл у сегмент S3 у своєму обліковому записі AWS. Для цілей цієї вправи ми використовуємо наступний зразок багатомовний аудіофайл. Він фіксує дзвінок служби підтримки клієнтів англійською та іспанською мовами.

На консолі Amazon S3 виберіть Відра у навігаційній панелі.
Виберіть раніше створене відро для зберігання вхідних аудіофайлів.
Вибирати Завантажувати.
Вибирати Додати файли.
Виберіть аудіофайл, який потрібно транскрибувати, з локального комп’ютера.
Вибирати Завантажувати.

Ваш аудіофайл незабаром буде доступний у сегменті S3.

Створіть завдання транскрипції

Після завантаження аудіофайлу ми створюємо завдання транскрипції.

На консолі Amazon Transcribe виберіть Роботи з транскрипції у навігаційній панелі.
Вибирати Створити роботу.
для ІМ'Я, введіть унікальну назву для завдання.
Це також буде назва вихідного файлу стенограми.
для Налаштування мовивиберіть Автоматична ідентифікація кількох мов.
Ця функція дозволяє Amazon Transcribe автоматично визначати та транскрибувати всі мови, якими розмовляють у аудіофайлі.
для Параметри мови для автоматичної ідентифікації мови, не вибирайте.
Amazon Transcribe автоматично визначає та транскрибує всі мови, якими розмовляють у аудіо. Щоб підвищити точність транскрипції, ви можете додатково вибрати дві або більше мов, якими, як вам відомо, говорили в аудіо.
для Тип моделі, тільки Загальна модель опція доступна на момент написання цієї публікації.
для Вхідні данівиберіть Перегляньте S3.
Виберіть вихідний аудіофайл, який ми завантажили раніше.
для Вихідні дані, Ви можете вибрати будь-який Сервісно-кероване відро S3 or Ковш S3 вказав клієнт. Для цієї публікації виберіть Сервісно-кероване відро S3.
Вибирати МАЙБУТНІ.
Вибирати Створити роботу.

Перегляньте результати роботи

Коли завдання транскрипції буде завершено, відкрийте завдання транскрипції.

Прокрутіть вниз до Попередній перегляд транскрипції розділ. Транскрипція звуку відображається на текст вкладка. Транскрипція включає англійську та іспанську частини розмови.

За бажанням ви можете завантажити копію стенограми як файл JSON, який можна використовувати для подальшого використання аналітика після виклику.

Прибирати

Щоб уникнути майбутніх витрат, очистіть і видаліть відро S3, яке ви створили для зберігання файлу джерела вхідного аудіо. Переконайтеся, що файли зберігаються деінде, оскільки це назавжди видалить усі об’єкти, що містяться у відрі. На консолі Amazon Transcribe виберіть і видаліть раніше створене завдання для транскрипції.

Висновок

У цій публікації ми створили наскрізний робочий процес для автоматизації ідентифікації та транскрипції багатомовних аудіофайлів без написання коду. Ми використали нову функцію в Amazon Transcribe, щоб автоматично визначати різні мови в аудіофайлі та правильно транскрибувати кожну мову.

Для отримання додаткової інформації зверніться до Ідентифікація мови за допомогою завдань пакетної транскрипції.

Про авторів

Муртуза Ботвала є старшим архітектором рішень в AWS, який цікавиться технологіями AI/ML. Йому подобається працювати з клієнтами, щоб допомогти їм досягти результатів у бізнесі. Поза роботою він любить активний відпочинок і проводить час із родиною.

Віктор Ред захоплюється AI/ML і розробкою програмного забезпечення. Він допоміг запустити Amazon Alexa в США та Мексиці. Він також передав Amazon Texttract до AWS Partners і запустив AWS Contact Center Intelligence (CCI). Наразі він є глобальним технічним керівником партнерів розмовного штучного інтелекту.

Бабу Шрінівасан є старшим спеціалістом AWS SA (Language AI Services) із Чикаго. Він зосереджується на Amazon Transcribe (мовлення в текст), допомагаючи нашим клієнтам використовувати послуги ШІ для вирішення бізнес-завдань. Поза роботою він захоплюється обробкою дерева та влаштовує магічні шоу.

Часова мітка: 14 Грудня, 202214 Грудня, 2022

Часова мітка: Липень 8, 2022

Передайте навчання для моделей класифікації зображень TensorFlow в Amazon SageMaker

Кластер джерел:

AWS Машинне навчання

Вихідний вузол: 1655641

Часова мітка: Вересень 7, 2022

Вбудований у Amazon SageMaker LightGBM тепер пропонує розподілене навчання за допомогою Dask

Кластер джерел:

AWS Машинне навчання

Вихідний вузол: 1797416

Часова мітка: Січень 30, 2023

Автоматично визначайте мови в багатомовному аудіо за допомогою Amazon Transcribe

Перевидано Платоном

Огляд рішення

Передумови

Створіть відро S3 для зберігання вхідних аудіофайлів

Завантажте аудіофайл у відро S3

Створіть завдання транскрипції

Перегляньте результати роботи

Прибирати

Висновок

Про авторів

Більше від AWS Машинне навчання

Створіть рішення для прогнозованого обслуговування за допомогою Amazon Kinesis, AWS Glue і Amazon SageMaker

Дозвольте людям з вадами зору чути документи за допомогою Amazon Textract і Amazon Polly

Навчання масштабу та визначення тисяч моделей машинного навчання за допомогою Amazon SageMaker | Веб-сервіси Amazon

AWS пропонує нові посібники зі штучного інтелекту, машинного навчання та генеративного штучного інтелекту для планування вашої стратегії ШІ | Веб-сервіси Amazon

Вбудований PaddleOCR із проектами Amazon SageMaker для MLO для оптичного розпізнавання символів на документах, що посвідчують особу

Передайте навчання для моделей класифікації зображень TensorFlow в Amazon SageMaker

Вбудований у Amazon SageMaker LightGBM тепер пропонує розподілене навчання за допомогою Dask

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки