Збільшення соціальної активності в Інтернеті, як-от спілкування в соціальних мережах або онлайн-ігри, часто супроводжується ворожою або агресивною поведінкою, яка може призвести до небажаних проявів ненависті, кіберзалякування або агресивних дій. Наприклад, багато ігрових онлайн-спільнот пропонують функцію голосового чату для полегшення спілкування між своїми користувачами. Хоча голосовий чат часто підтримує дружні жарти та сміття, він також може призвести до таких проблем, як ворожнеча, кіберзалякування, переслідування та шахрайство. Позначення шкідливих висловлювань допомагає організаціям підтримувати розмови ввічливо та підтримувати безпечне та інклюзивне онлайн-середовище, у якому користувачі можуть створювати, ділитися та вільно брати участь. Сьогодні багато компаній покладаються виключно на людей-модераторів для перегляду токсичного вмісту. Однак масштабування людських модераторів для задоволення цих потреб із достатньою якістю та швидкістю коштує дорого. Як наслідок, багато організацій ризикують зіткнутися з високим рівнем відтоку користувачів, репутаційною шкодою та регуляторними штрафами. Крім того, модератори часто зазнають психологічного впливу, переглядаючи токсичний вміст.
Амазонська розшифровка — це служба автоматичного розпізнавання мовлення (ASR), яка дозволяє розробникам легко додавати до своїх програм можливість перетворення мовлення в текст. Сьогодні ми раді оголосити Виявлення токсичності транскрипції Amazon, функція машинного навчання (ML), яка використовує звукові та текстові підказки для ідентифікації та класифікації голосового токсичного вмісту за семи категоріями, включаючи сексуальні домагання, ворожі висловлювання, погрози, образи, ненормативну лексику, образи та графічні висловлювання. . На додаток до тексту, виявлення токсичності використовує мовні підказки, такі як тон і висота, щоб відточити токсичний намір у мовленні.
Це вдосконалення стандартних систем модерації вмісту, які розроблені для зосередження лише на конкретних термінах без урахування наміру. Більшість підприємств мають SLA 7–15 днів для перегляду вмісту, про який повідомляють користувачі, оскільки модератори повинні прослуховувати довгі аудіофайли, щоб оцінити, чи і коли розмова стала шкідливою. За допомогою Amazon Transcribe Toxicity Detection модератори переглядають лише певну частину аудіофайлу, позначену як токсичний вміст (порівняно з усім аудіофайлом). Вміст, який модератори мають переглядати, скорочується на 95%, що дає змогу клієнтам скоротити час дії SLA лише до кількох годин, а також завчасно модерувати більше вмісту, крім того, що позначають користувачі. Це дозволить підприємствам автоматично виявляти та модерувати вміст у великих масштабах, забезпечувати безпечне та інклюзивне онлайн-середовище та вживати заходів до того, як це призведе до відтоку користувачів або погіршить репутацію. Моделі, які використовуються для виявлення токсичного вмісту, обслуговуються Amazon Transcribe і періодично оновлюються для підтримки точності та актуальності.
У цій публікації ви дізнаєтесь, як:
- Визначайте шкідливий вміст у мові за допомогою Amazon Transcribe Toxicity Detection
- Використовуйте консоль Amazon Transcribe для виявлення токсичності
- Створіть завдання транскрипції з виявленням токсичності за допомогою Інтерфейс командного рядка AWS (AWS CLI) і Python SDK
- Використовуйте відповідь API виявлення токсичності Amazon Transcribe
Виявляйте токсичність в аудіочаті за допомогою Amazon Transcribe Toxicity Detection
Тепер Amazon Transcribe пропонує просте рішення на основі ML для позначення шкідливої мови в розмовах. Ця функція особливо корисна для соціальних мереж, ігор і загальних потреб, усуваючи потребу клієнтам надавати власні дані для навчання моделі ML. Виявлення токсичності класифікує токсичний аудіовміст за наступними семи категоріями та надає оцінку достовірності (0–1) для кожної категорії:
- Богохульство – Висловлювання, що містять слова, фрази чи абревіатури, які є неввічливими, вульгарними чи образливими.
- Ненависна мова – Виступи, які критикують, ображають, засуджують або дегуманізують особу чи групу на основі їхньої приналежності (наприклад, раси, етнічного походження, статі, релігії, сексуальної орієнтації, здібностей і національного походження).
- Сексуальний – Мова, яка вказує на сексуальний інтерес, активність або збудження з використанням прямих чи непрямих посилань на частини тіла, фізичні риси чи стать.
- Образи – Висловлювання, що містять принизливу, глузливу, образливу або принижуючу мову. Такий тип мови також називають залякуванням.
- Насильство чи погроза – Висловлювання, що містять погрози з метою заподіяти біль, травму або ворожнечу по відношенню до особи чи групи.
- Графічний – Мова, яка використовує візуально описові та неприємно яскраві образи. Цей тип мови часто навмисно багатослівний, щоб посилити дискомфорт одержувача.
- Переслідування або образа – Висловлювання, спрямовані на те, щоб вплинути на психологічне благополуччя одержувача, включаючи принизливі та об’єктивні слова.
Ви можете отримати доступ до Toxicity Detection або через консоль Amazon Transcribe, або викликаючи API безпосередньо за допомогою AWS CLI або AWS SDK. На консолі Amazon Transcribe ви можете завантажити аудіофайли, які хочете перевірити на токсичність, і отримати результати всього за кілька кліків. Amazon Transcribe визначатиме та класифікуватиме токсичний вміст, як-от переслідування, ворожі висловлювання, сексуальний вміст, насильство, образи та ненормативну лексику. Amazon Transcribe також надає оцінку надійності для кожної категорії, надаючи цінну інформацію про рівень токсичності вмісту. Виявлення токсичності наразі доступне в стандартному API Amazon Transcribe для пакетної обробки та підтримує англійську мову США.
Покрокове керівництво консолі Amazon Transcribe
Щоб почати, увійдіть у Консоль управління AWS і перейдіть до Amazon Transcribe. Щоб створити нове завдання транскрипції, вам потрібно завантажити записані файли в Служба простого зберігання Amazon (Amazon S3) перед їх обробкою. На сторінці налаштувань звуку, як показано на наступному знімку екрана, увімкніть Виявлення токсичності і перейдіть до створення нового завдання. Amazon Transcribe оброблятиме завдання транскрипції у фоновому режимі. У міру виконання завдання ви можете очікувати зміни статусу на ВИКОНАНО коли процес завершиться.
Щоб переглянути результати завдання транскрипції, виберіть завдання зі списку завдань, щоб відкрити його. Прокрутіть униз до Попередній перегляд транскрипції розділ для перевірки результатів на Токсичність вкладка. Інтерфейс користувача показує кольорові сегменти транскрипції, щоб вказати рівень токсичності, визначений оцінкою достовірності. Щоб налаштувати відображення, ви можете використовувати панелі перемикань у фільтри панель. Ці смужки дозволяють регулювати порогові значення та відповідно фільтрувати категорії токсичності.
Наступний знімок екрана охоплює частини тексту транскрипції через наявність конфіденційної або токсичної інформації.
API транскрипції із запитом на виявлення токсичності
У цьому розділі ми допоможемо вам створити завдання транскрипції з виявленням токсичності за допомогою інтерфейсів програмування. Якщо аудіофайл ще не знаходиться в сегменті S3, завантажте його, щоб забезпечити доступ через Amazon Transcribe. Подібно до створення завдання транскрипції на консолі, під час виклику завдання вам потрібно надати такі параметри:
- TranscriptionJobName – Вкажіть унікальну назву завдання.
- MediaFileUri – Введіть розташування URI аудіофайлу на Amazon S3. Amazon Transcribe підтримує такі аудіоформати: MP3, MP4, WAV, FLAC, AMR, OGG або WebM
- LanguageCode - Встановлений в
en-US
. На момент написання цієї статті виявлення токсичності підтримує лише англійську мову США. - Категорії токсичності – Передайте
ALL
значення для включення всіх підтримуваних категорій виявлення токсичності.
Нижче наведено приклади запуску завдання транскрипції з увімкненим виявленням токсичності за допомогою Python3:
Ви можете викликати те саме завдання транскрипції з виявленням токсичності за допомогою такої команди AWS CLI:
API транскрипції з реакцією виявлення токсичності
Вихід JSON для виявлення токсичності Amazon Transcribe міститиме результати транскрипції в полі результатів. Увімкнення виявлення токсичності додає додаткове поле під назвою toxicityDetection
під полем результатів. toxicityDetection
містить список транскрибованих елементів із такими параметрами:
- текст – Необроблений транскрибований текст
- токсичність – Оцінка достовірності виявлення (значення між 0–1)
- категорії – Оцінка впевненості для кожної категорії токсичного мовлення
- Час початку – Початкова позиція виявлення в аудіофайлі (секунди)
- end_time – Кінцева позиція виявлення в аудіофайлі (секунди)
Нижче наведено зразок скороченої відповіді виявлення токсичності, який можна завантажити з консолі:
Підсумки
У цій публікації ми надали огляд нової функції Amazon Transcribe Toxicity Detection. Ми також описали, як ви можете проаналізувати вихід JSON для виявлення токсичності. Щоб дізнатися більше, перегляньте консоль Amazon Transcribe і спробуйте API транскрипції з виявленням токсичності.
Amazon Transcribe Toxicity Detection тепер доступний у таких регіонах AWS: Схід США (Огайо), Схід США (Північна Вірджинія), Захід США (Орегон), Азіатсько-Тихоокеанський регіон (Сідней), Європа (Ірландія) та Європа (Лондон). Щоб дізнатися більше, відвідайте Амазонська розшифровка.
Дізнатися більше про модерація контенту на AWS і наші модерування вмісту. Варіанти використання ML. Зробіть перший крок назустріч спрощення операцій модерації вмісту за допомогою AWS.
Про автора
Лана Чжан є старшим архітектором рішень у команді AWS WWSO AI Services, яка спеціалізується на AI та ML для модерації вмісту, комп’ютерного зору та обробки природної мови. Завдяки своєму досвіду вона присвятила себе просуванню рішень AWS AI/ML і допомозі клієнтам трансформувати їхні бізнес-рішення в різних галузях, включаючи соціальні мережі, ігри, електронну комерцію, рекламу та маркетинг.
Суміт Кумар є старшим менеджером із продуктів, технічним відділом команди AWS AI Language Services. Він має 10 років досвіду управління продуктами в різних сферах і захоплюється ШІ/ML. Поза роботою Саміт любить подорожувати та любить грати в крикет і лаун-теніс.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. Автомобільні / електромобілі, вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- BlockOffsets. Модернізація екологічної компенсаційної власності. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/flag-harmful-language-in-spoken-conversations-with-amazon-transcribe-toxicity-detection/
- : має
- :є
- : ні
- 10
- 100
- 16
- 17
- 20
- 24
- 7
- 95%
- a
- здатність
- МЕНЮ
- зловживання
- доступ
- відповідно
- бухгалтерський облік
- точність
- через
- дію
- діяльності
- діяльність
- додавати
- доповнення
- Додає
- реклама
- агресивний
- AI
- Послуги ШІ
- AI / ML
- ВСІ
- дозволяти
- вже
- Також
- хоча
- Amazon
- Амазонська розшифровка
- Amazon Web Services
- серед
- an
- та
- Оголосити
- API
- Інтерфейси
- застосування
- ЕСТЬ
- AS
- Азія
- Азіатсько-Тихоокеанському регіоні
- допомагати
- At
- виснаження
- аудіо
- автоматичний
- автоматично
- доступний
- AWS
- фон
- бари
- основа
- BE
- стали
- оскільки
- перед тим
- поведінка
- між
- За
- тіло
- обидва
- Перерва
- знущання
- бізнес
- by
- званий
- покликання
- CAN
- можливості
- категорії
- Категорія
- Викликати
- зміна
- перевірка
- Вибирати
- Класифікувати
- Комунікація
- спільноти
- Компанії
- повний
- Зроблено
- комп'ютер
- Комп'ютерне бачення
- довіра
- Консоль
- містить
- зміст
- Розмова
- розмови
- покритий
- створювати
- створення
- крикет
- Критикує
- В даний час
- Клієнти
- налаштувати
- дані
- Днів
- присвячених
- описаний
- призначений
- виявляти
- Виявлення
- певний
- розробників
- прямий
- безпосередньо
- дисплей
- Різне
- домени
- вниз
- скачати
- два
- e-commerce
- кожен
- Схід
- легко
- або
- усуваючи
- включіть
- включений
- дозволяє
- кінець
- англійська
- забезпечувати
- Що натомість? Створіть віртуальну версію себе у
- підприємств
- Весь
- Навколишнє середовище
- особливо
- етнічна приналежність
- Європа
- оцінювати
- приклад
- Приклади
- збуджений
- очікувати
- дорогий
- досвід
- експертиза
- додатково
- фасилітувати
- облицювання
- не вдалося
- особливість
- кілька
- поле
- філе
- Файли
- фільтрувати
- кінець
- Перший
- позначений прапором
- Сфокусувати
- після
- для
- дружній
- від
- функціональність
- азартні ігри
- Стать
- Загальне
- отримати
- Go
- йде
- Графічний
- Group
- керівництво
- шкідливий
- Мати
- he
- допомагає
- її
- тут
- Високий
- ГОДИННИК
- Як
- How To
- Однак
- HTML
- HTTP
- HTTPS
- людина
- ідентифікувати
- Особистість
- if
- вплив
- імпорт
- поліпшення
- in
- включати
- includes
- У тому числі
- Включно
- Augmenter
- вказувати
- вказує
- промисловості
- інформація
- розуміння
- Образа
- призначених
- намір
- Намір
- навмисно
- інтерес
- Інтерфейси
- в
- Ірландія
- IT
- пунктів
- робота
- JPG
- json
- просто
- тримати
- мова
- вести
- УЧИТЬСЯ
- вивчення
- рівень
- Лінія
- список
- розташування
- Лондон
- любить
- машина
- навчання за допомогою машини
- підтримувати
- РОБОТИ
- управління
- менеджер
- багато
- Маркетинг
- Медіа
- Зустрічатися
- ML
- модель
- Моделі
- помірність
- більше
- найбільш
- повинен
- ім'я
- National
- Природний
- Обробка природних мов
- Необхідність
- потреби
- мережа
- Нові
- зараз
- of
- пропонувати
- часто
- Огайо
- on
- онлайн
- онлайн-ігор
- тільки
- відкрити
- операції
- or
- Орегон
- організації
- походження
- наші
- з
- вихід
- поза
- огляд
- власний
- Тихий океан
- сторінка
- Біль
- параметри
- брати участь
- частини
- проходити
- пристрасний
- людина
- фрази
- фізичний
- Крок
- plato
- Інформація про дані Платона
- PlatoData
- ігри
- частина
- положення
- пошта
- наявність
- проблеми
- процес
- Оброблено
- обробка
- Product
- Управління продуктом
- менеджер по продукції
- нецензурна лексика
- Програмування
- сприяння
- забезпечувати
- за умови
- забезпечує
- забезпечення
- Python
- якість
- Гонки
- ставки
- Сировина
- готовий
- визнання
- записаний
- зменшити
- Знижений
- посилання
- райони
- регуляторні
- актуальність
- релігія
- покладатися
- Повідомляється
- відповідь
- результат
- результати
- огляд
- рецензування
- Risk
- сейф
- то ж
- шкала
- Масштабування
- шахрайство
- рахунок
- прокрутки
- sdks
- seconds
- розділ
- пошук
- сегмент
- сегменти
- старший
- чутливий
- обслуговування
- Послуги
- комплект
- налаштування
- сім
- секс
- Сексуальний
- Поділитись
- вона
- показаний
- Шоу
- підпис
- аналогічний
- простий
- соціальна
- соціальні медіа
- Соціальна мережа
- виключно
- рішення
- Рішення
- спеціалізується
- конкретний
- мова
- Розпізнавання мови
- мовлення в текст
- швидкість
- говорять
- standard
- старт
- почалася
- Починаючи
- Статус
- Крок
- зберігання
- такі
- достатній
- Підтриманий
- Опори
- Сідней
- Systems
- Приймати
- говорити
- команда
- технічний
- terms
- тест
- Що
- Команда
- їх
- Їх
- Ці
- вони
- це
- загрози
- через
- час
- до
- сьогодні
- до
- до
- поїзд
- перетворення
- подорожувати
- правда
- намагатися
- тип
- ui
- при
- створеного
- незатребуваної
- оновлений
- us
- використання
- використовуваний
- користувач
- користувачі
- використовує
- використання
- Цінний
- значення
- різноманітність
- через
- Насильство
- Віргінія
- бачення
- візит
- Голос
- vs
- вульгарний
- чекати
- хотіти
- we
- Web
- веб-сервіси
- ДОБРЕ
- West
- коли
- в той час як
- волі
- з
- без
- слова
- Work
- лист
- років
- ще
- Ти
- вашу
- зефірнет