Упорядкуйте свої стенограми в абзаци за допомогою Amazon Transcribe

Перевидано Платоном

читають: 0

У перегляді елементів елементи надаються у формі своєчасно впорядкованого списку, де кожен елемент містить додаткову інформацію метаданих:

{ "results": { "items": [ { "channel_label": "ch_0", "start_time": "1.509", "speaker_label": "spk_0", "end_time": "2.21", "alternatives": [ { "confidence": "0.999", "content": "Hi" } ], "type": "pronunciation" }, { "channel_label": "ch_0", "speaker_label": "spk_0", "alternatives": [ { "confidence": "0.0", "content": "," } ], "type": "punctuation" }, { "channel_label": "ch_0", "start_time": "2.22", "speaker_label": "spk_0", "end_time": "2.9", "alternatives": [ { "confidence": "0.999", "content": "welcome" } ], "type": "pronunciation" }, { "channel_label": "ch_0", "speaker_label": "spk_0", "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ] }
}

Метадані такі:

тип – Значення типу вказує, чи є конкретний елемент пунктуацією чи вимовою. Прикладами підтримуваних знаків пунктуації є кома, крапка та знак питання.
Альтернативи – Масив об’єктів, що містить фактичну транскрипцію разом із рівнем достовірності, упорядкованим за рівнем достовірності. Якщо функцію альтернативних результатів не ввімкнено, цей список завжди містить лише один елемент.
- Довіра – Показник того, наскільки Amazon Transcribe впевнений у правильності транскрипції. Він використовує значення від 0 до 1, де 1 означає 100% впевненість.
- зміст – Переписане слово.
Час початку – Покажчик часу аудіо- чи відеофайлу, що вказує на початок елемента у форматі ss.SSS.
Час закінчення – Покажчик часу аудіо- чи відеофайлу, що вказує кінець елемента у форматі ss.SSS.
Мітка каналу – Ідентифікатор каналу, який присутній в елементі лише тоді, коли функцію ідентифікації каналу було ввімкнено в конфігурації завдання.
Етикетка динаміка – Ідентифікатор динаміка, який присутній в елементі лише тоді, коли функцію поділу динаміків було ввімкнено в конфігурації завдання.

Визначення абзаців

Ідентифікація абзаців ґрунтується на інформації метаданих у поданні елементів. Зокрема, ми використовуємо інформацію про час початку та закінчення, а також тип транскрипції та вміст, щоб ідентифікувати речення, а потім вирішити, які речення є найкращими кандидатами для точок входу в абзац.

Реченням вважається перелік елементів транскрипції, який існує між пунктами пунктуації, на яких стоїть крапка. Винятком є початок і кінець стенограми, які за замовчуванням є межами речень. На наступному малюнку показано приклад цих елементів.

Ідентифікація речень проста за допомогою Amazon Transcribe, оскільки пунктуація є стандартною функцією разом із типами пунктуації кома, крапка, знак питання. У цій концепції ми використовуємо крапку як межу речення.

Не кожне речення має бути пунктом абзацу. Щоб ідентифікувати абзаци, ми вводимо нову інформацію на рівні речень, яка називається затримкою початку, як показано на наступному малюнку. Ми використовуємо початкову затримку, щоб визначити часову затримку, яку мовець вносить у вимову поточного речення порівняно з попереднім.

Для розрахунку затримки початку для кожного мовця потрібен час початку поточного речення та час закінчення попереднього. Оскільки Amazon Transcribe надає час початку та завершення для кожного елемента, обчислення потребує використання першого та останнього елементів поточного та попереднього речень відповідно.

Знаючи затримки початку кожного речення, ми можемо застосувати статистичний аналіз і визначити значущість кожної затримки порівняно із загальною сукупністю затримок. У нашому контексті значні затримки – це ті, що перевищують типову тривалість населення. На наступному графіку показано приклад.

Для цієї концепції ми вирішуємо вважати речення із затримкою початку, що перевищує середнє значення, значущими, і вводимо точку абзацу на початку кожного такого речення. Окрім середнього значення, існують інші варіанти, як-от прийняти всі затримки початку, що перевищують медіану, або значення третього квантиля чи верхнього граничного значення сукупності.

Ми додаємо ще один додатковий крок до процесу ідентифікації абзацу, беручи до уваги кількість слів, що містяться в кожному абзаці. Коли абзаци містять значну кількість слів, ми запускаємо операцію поділу, додаючи таким чином ще один абзац до кінцевого результату.

У контексті підрахунку слів ми визначаємо як значну кількість слів, яка перевищує верхнє значення. Ми приймаємо це рішення навмисно, щоб обмежити операції розділення абзацами, які дійсно поводяться як викиди в наших результатах. На наступному графіку показано приклад.

Операція розділення вибирає точку входу нового абзацу з урахуванням максимальної затримки початку речення. Таким чином, новий абзац вводиться в реченні, яке демонструє максимальну затримку початку всередині поточного абзацу. Поділ можна повторювати, доки кількість слів не перевищить вибрану межу, у нашому випадку значення верхньої межі. На наступному малюнку показано приклад.

Висновок

У цій публікації ми представили концепцію автоматичного введення абзаців у ваші стенограми без ручного втручання на основі метаданих, які Amazon Transcribe надає разом із фактичною стенограмою.

Ця концепція не залежить від мови чи акценту, оскільки вона спирається на нелінгвістичні метадані, щоб запропонувати точки входу абзацу. Майбутні варіації можуть включати граматичну або семантичну інформацію про регістр для кожної мови, ще більше покращуючи логіку ідентифікації абзацу.

Якщо у вас є відгуки про цю публікацію, надішліть свої коментарі в розділі коментарів. Ми з нетерпінням чекаємо від вас. Перевірити Функції Amazon Transcribe для отримання додаткових функцій, які допоможуть отримати максимальну користь від ваших стенограм.

Про авторів

Костас Цуванас є архітектором корпоративних рішень у Amazon Web Services. Він допомагає клієнтам розробляти хмарні рішення, щоб реалізувати свій бізнес-потенціал. Його основна увага — торгові платформи та високопродуктивні обчислювальні системи. Він також захоплюється геномікою та біоінформатикою.

Павло Каймакіс є архітектором корпоративних рішень, який опікується корпоративними клієнтами в GR/CY/MT, підтримуючи їх своїм досвідом у розробці та впровадженні рішень, які приносять їм цінність. Павло присвятив найбільше часу у своїй кар’єрі сектору підтримки продуктів і клієнтів – як з інженерної, так і з управлінської точки зору. Павло любить подорожувати, і він завжди готовий досліджувати нові місця світу.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoAiStream. Web3 Data Intelligence. Розширення знань. Доступ тут.
Карбування майбутнього з Адріенн Ешлі. Доступ тут.
Купуйте та продавайте акції компаній, які вийшли на IPO, за допомогою PREIPO®. Доступ тут.
джерело: https://aws.amazon.com/blogs/machine-learning/arrange-your-transcripts-into-paragraphs-with-amazon-transcribe/

Часова мітка: 6 Червня, 2023.

Часова мітка: Лютий 9, 2023

Упорядкуйте свої стенограми в абзаци за допомогою Amazon Transcribe | Веб-сервіси Amazon

Перевидано Платоном

Визначення абзаців

Висновок

Про авторів

Більше від AWS Машинне навчання

Інтелектуальна обробка документів за допомогою Amazon Texttract, Amazon Bedrock і LangChain | Веб-сервіси Amazon

Автоматично визначайте мови в багатомовному аудіо за допомогою Amazon Transcribe

Потужна рекомендація та пошук за допомогою графа знань IMDb – Частина 1

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки