Рост социальной активности в Интернете, такой как общение в социальных сетях или онлайн-игры, часто сопровождается враждебным или агрессивным поведением, которое может привести к нежелательным проявлениям разжигания ненависти, киберзапугиванию или преследованиям. Например, многие игровые онлайн-сообщества предлагают функции голосового чата для облегчения общения между своими пользователями. Хотя голосовой чат часто поддерживает дружеские подшучивания и ругань, он также может привести к таким проблемам, как разжигание ненависти, киберзапугивание, домогательства и мошенничество. Пометка оскорбительного языка помогает организациям вести вежливые разговоры и поддерживать безопасную и инклюзивную онлайн-среду, в которой пользователи могут свободно создавать, делиться и участвовать. Сегодня многие компании полагаются исключительно на модераторов-людей для проверки токсичного контента. Однако масштабирование модераторов-людей для удовлетворения этих потребностей с достаточным качеством и скоростью обходится дорого. В результате многие организации рискуют столкнуться с высокими показателями отсева пользователей, репутационным ущербом и нормативными штрафами. Кроме того, модераторы часто испытывают психологическое воздействие, просматривая токсичный контент.
Amazon транскрибировать — это служба автоматического распознавания речи (ASR), которая позволяет разработчикам легко добавлять в свои приложения возможности преобразования речи в текст. Сегодня мы рады сообщить Обнаружение токсичности Amazon Transcribe, возможность на основе машинного обучения (ML), которая использует как звуковые, так и текстовые подсказки для выявления и классификации голосового токсичного контента по семи категориям, включая сексуальные домогательства, разжигание ненависти, угрозы, оскорбления, ненормативную лексику, оскорбления и нецензурную лексику. . В дополнение к тексту, Toxicity Detection использует речевые сигналы, такие как тона и высота тона, чтобы отточить токсические намерения в речи.
Это улучшение по сравнению со стандартными системами модерации контента, которые предназначены для фокусировки только на определенных терминах без учета намерений. У большинства предприятий SLA составляет от 7 до 15 дней для проверки контента, о котором сообщают пользователи, поскольку модераторы должны прослушивать длинные аудиофайлы, чтобы оценить, стал ли разговор токсичным и когда. При использовании Amazon Transcribe Toxicity Detection модераторы просматривают только определенную часть аудиофайла, помеченного как токсичное содержимое (а не весь аудиофайл). Контент, который должны просматривать модераторы-люди, сокращается на 95 %, что позволяет клиентам сократить SLA до нескольких часов, а также дает им возможность проактивно модерировать больше контента, чем просто то, что отмечено пользователями. Это позволит предприятиям автоматически обнаруживать и модерировать контент в масштабе, обеспечивать безопасную и инклюзивную онлайн-среду и принимать меры до того, как это может привести к оттоку пользователей или репутационному ущербу. Модели, используемые для обнаружения токсичного контента, поддерживаются Amazon Transcribe и периодически обновляются для обеспечения точности и актуальности.
В этом посте вы узнаете, как:
- Выявление вредоносного контента в речи с помощью Amazon Transcribe Toxicity Detection
- Используйте консоль Amazon Transcribe для обнаружения токсичности
- Создайте задание транскрипции с обнаружением токсичности с помощью Интерфейс командной строки AWS (интерфейс командной строки AWS) и Python SDK
- Используйте ответ API обнаружения токсичности Amazon Transcribe
Обнаружение токсичности в аудиочате с помощью Amazon Transcribe Toxicity Detection
Amazon Transcribe теперь предоставляет простое решение на основе машинного обучения для пометки нежелательных выражений в устных разговорах. Эта функция особенно полезна для социальных сетей, игр и общих потребностей, поскольку клиентам не нужно предоставлять свои собственные данные для обучения модели машинного обучения. Обнаружение токсичности классифицирует токсичный аудиоконтент по следующим семи категориям и предоставляет оценку достоверности (0–1) для каждой категории:
- профанация – Речь, содержащая невежливые, вульгарные или оскорбительные слова, фразы или сокращения.
- Брань – Речь, которая критикует, оскорбляет, осуждает или дегуманизирует человека или группу на основе идентичности (например, расы, этнической принадлежности, пола, религии, сексуальной ориентации, способностей и национального происхождения).
- Сексуальный – Речь, указывающая на сексуальный интерес, активность или возбуждение с использованием прямых или косвенных ссылок на части тела, физические черты или пол.
- оскорбления – Речь, включающая унижающие достоинство, оскорбительные, насмешливые, оскорбительные или принижающие выражения. Этот тип языка также помечен как запугивание.
- Насилие или угроза – Речь, включающая угрозы, направленные на причинение боли, травм или враждебности по отношению к какому-либо лицу или группе лиц.
- графический – Речь, в которой используются визуально описательные и неприятно яркие образы. Этот тип языка часто преднамеренно многословен, чтобы усилить дискомфорт получателя.
- Преследование или оскорбление – Речь, направленная на то, чтобы повлиять на психологическое благополучие адресата, включая унизительные и объективизирующие выражения.
Вы можете получить доступ к Toxicity Detection либо через консоль Amazon Transcribe, либо путем прямого вызова API с помощью AWS CLI или AWS SDK. В консоли Amazon Transcribe вы можете загрузить аудиофайлы, которые хотите проверить на токсичность, и получить результаты всего за несколько кликов. Amazon Transcribe выявит и классифицирует токсичный контент, например оскорбительный, разжигающий ненависть, сексуальный контент, насилие, оскорбления и ненормативную лексику. Amazon Transcribe также предоставляет оценку достоверности для каждой категории, предоставляя ценную информацию об уровне токсичности контента. Обнаружение токсичности в настоящее время доступно в стандартном API Amazon Transcribe для пакетной обработки и поддерживает английский язык (США).
Пошаговое руководство по консоли Amazon Transcribe
Чтобы начать, войдите в Консоль управления AWS и перейдите на Amazon Transcribe. Чтобы создать новое задание транскрипции, вам необходимо загрузить записанные файлы в Простой сервис хранения Amazon (Amazon S3), прежде чем их можно будет обработать. На странице настроек звука, как показано на следующем снимке экрана, включите Обнаружение токсичности и приступайте к созданию нового задания. Amazon Transcribe выполнит задание транскрипции в фоновом режиме. По мере выполнения задания можно ожидать, что статус изменится на ВЫПОЛНЕНО когда процесс завершен.
Чтобы просмотреть результаты задания транскрипции, выберите задание из списка заданий, чтобы открыть его. Прокрутите вниз до Предварительный просмотр транскрипции раздел для проверки результатов на Токсичность вкладка Пользовательский интерфейс показывает сегменты транскрипции с цветовой кодировкой, чтобы указать уровень токсичности, определяемый оценкой достоверности. Чтобы настроить отображение, вы можете использовать переключатели в Фильтры панель. Эти полосы позволяют настроить пороговые значения и соответствующим образом отфильтровать категории токсичности.
На следующем снимке экрана часть текста транскрипции закрыта из-за наличия конфиденциальной или токсичной информации.
API транскрипции с запросом на обнаружение токсичности
В этом разделе мы проведем вас через создание задания транскрипции с обнаружением токсичности с использованием программных интерфейсов. Если аудиофайл еще не находится в корзине S3, загрузите его, чтобы обеспечить доступ Amazon Transcribe. Как и при создании задания транскрипции на консоли, при вызове задания необходимо указать следующие параметры:
- ТранскрипцияJobName – Укажите уникальное имя задания.
- Медиафайлури – Введите местоположение URI аудиофайла на Amazon S3. Amazon Transcribe поддерживает следующие аудиоформаты: MP3, MP4, WAV, FLAC, AMR, OGG или WebM.
- Код языка - Установлен в
en-US
. На момент написания этой статьи Toxicity Detection поддерживает только английский язык (США). - ТоксичностьКатегории - Пройти
ALL
значение, чтобы включить все поддерживаемые категории обнаружения токсичности.
Ниже приведены примеры запуска задания транскрипции с включенным обнаружением токсичности с использованием Python3.
Вы можете вызвать то же задание транскрипции с обнаружением токсичности, используя следующую команду интерфейса командной строки AWS:
API транскрипции с ответом на обнаружение токсичности
Выходные данные JSON для обнаружения токсичности Amazon Transcribe будут включать результаты транскрипции в поле результатов. Включение обнаружения токсичности добавляет дополнительное поле под названием toxicityDetection
под полем результатов. toxicityDetection
включает список транскрибируемых элементов со следующими параметрами:
- текст - Необработанный транскрибированный текст
- токсичность – показатель достоверности обнаружения (значение от 0 до 1).
- категории – Оценка достоверности для каждой категории токсичной речи
- начальное время – Начальная позиция обнаружения в аудиофайле (секунды)
- время окончания – Конечная позиция обнаружения в аудиофайле (секунды)
Ниже приведен образец сокращенного ответа об обнаружении токсичности, который можно загрузить с консоли:
Обзор
В этом посте мы представили обзор новой функции Amazon Transcribe Toxicity Detection. Мы также описали, как можно анализировать вывод JSON для обнаружения токсичности. Для получения дополнительной информации откройте консоль Amazon Transcribe и опробуйте Transcription API с функцией обнаружения токсичности.
Amazon Transcribe Toxicity Detection теперь доступен в следующих регионах AWS: Восток США (Огайо), Восток США (Северная Вирджиния), Запад США (Орегон), Азиатско-Тихоокеанский регион (Сидней), Европа (Ирландия) и Европа (Лондон). Чтобы узнать больше, посетите Amazon транскрибировать.
Узнать больше о модерация контента на AWS и наш варианты использования машинного обучения для модерации контента. Сделайте первый шаг навстречу оптимизация операций модерации контента с помощью AWS.
Об авторе
Лана Чжан является старшим архитектором решений в команде AWS WWSO AI Services, специализирующейся на искусственном интеллекте и машинном обучении для модерации контента, компьютерного зрения и обработки естественного языка. Благодаря своему опыту она занимается продвижением решений AWS AI/ML и помогает клиентам трансформировать их бизнес-решения в различных отраслях, включая социальные сети, игры, электронную коммерцию, рекламу и маркетинг.
Сумит Кумар является старшим менеджером по продукту, техническим специалистом в команде AWS AI Language Services. Он имеет 10-летний опыт управления продуктами в различных областях и увлечен AI/ML. Вне работы Сумит любит путешествовать и любит играть в крикет и большой теннис.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Автомобили / электромобили, Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- Смещения блоков. Модернизация права собственности на экологические компенсации. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/flag-harmful-language-in-spoken-conversations-with-amazon-transcribe-toxicity-detection/
- :имеет
- :является
- :нет
- 10
- 100
- 16
- 17
- 20
- 24
- 7
- 95%
- a
- способность
- О нас
- злоупотребление
- доступ
- соответственно
- Бухгалтерский учет
- точность
- через
- Действие
- активно
- деятельность
- Добавить
- дополнение
- Добавляет
- Реклама
- агрессивный
- AI
- Услуги искусственного интеллекта
- AI / ML
- Все
- позволять
- уже
- причислены
- Несмотря на то, что
- Amazon
- Amazon транскрибировать
- Amazon Web Services
- среди
- an
- и
- анонсировать
- API
- API
- Приложения
- МЫ
- AS
- Азия
- Азиатско-Тихоокеанский регион
- содействие
- At
- истирание
- аудио
- Автоматический
- автоматически
- доступен
- AWS
- фон
- бары
- основа
- BE
- стали
- , так как:
- до
- поведение
- между
- Beyond
- тело
- изоферменты печени
- Ломать
- издевательства
- бизнес
- by
- под названием
- вызова
- CAN
- возможности
- категории
- Категории
- Вызывать
- изменение
- проверка
- Выберите
- классифицировать
- Связь
- Сообщества
- Компании
- полный
- Заполненная
- компьютер
- Компьютерное зрение
- доверие
- Консоли
- содержит
- содержание
- Разговор
- Беседы
- покрытый
- Создайте
- Создающий
- крикет
- рецензирует
- В настоящее время
- Клиенты
- настроить
- данным
- Дней
- преданный
- описано
- предназначенный
- обнаруживать
- обнаружение
- определены
- застройщиков
- направлять
- непосредственно
- Дисплей
- Разное
- доменов
- вниз
- скачать
- два
- электронная коммерция
- каждый
- восток
- легко
- или
- уничтожение
- включить
- включен
- позволяет
- конец
- Английский
- обеспечивать
- Enter
- предприятий
- Весь
- Окружающая среда
- особенно
- этническая принадлежность
- Европе
- оценивать
- пример
- Примеры
- возбужденный
- ожидать
- дорогим
- опыт
- опыта
- дополнительно
- содействовал
- всего лишь пяти граммов героина
- XNUMX ошибка
- Особенность
- несколько
- поле
- Файл
- Файлы
- фильтр
- конец
- First
- Помеченные
- Фокус
- после
- Что касается
- дружественный
- от
- функциональность
- игровой
- пол
- Общие
- получить
- Go
- идет
- графический
- группы
- инструкция
- вредный
- Есть
- he
- помогает
- ее
- здесь
- High
- ЧАСЫ
- Как
- How To
- Однако
- HTML
- HTTP
- HTTPS
- человек
- определения
- Личность
- if
- влияние
- Импортировать
- улучшение
- in
- включают
- включает в себя
- В том числе
- включительно
- Увеличение
- указывать
- указывает
- промышленности
- информация
- размышления
- обида
- предназначенных
- намерение
- Намерение
- намеренно
- интерес
- интерфейсы
- в
- Ирландия
- IT
- пункты
- работа
- JPG
- JSON
- всего
- Сохранить
- язык
- вести
- УЧИТЬСЯ
- изучение
- уровень
- линия
- Список
- расположение
- Лондон
- любит
- машина
- обучение с помощью машины
- поддерживать
- ДЕЛАЕТ
- управление
- менеджер
- многих
- Маркетинг
- Медиа
- Встречайте
- ML
- модель
- Модели
- умеренность
- БОЛЕЕ
- самых
- должен
- имя
- национальный
- натуральный
- Обработка естественного языка
- Необходимость
- потребности
- сетей
- Новые
- сейчас
- of
- предлагают
- .
- Огайо
- on
- онлайн
- онлайн-игр
- только
- открытый
- Операционный отдел
- or
- Орегон
- организации
- происхождения
- наши
- внешний
- выходной
- внешнюю
- обзор
- собственный
- Тихий океан
- страница
- боль
- параметры
- участвовать
- части
- pass
- страстный
- человек
- фразы
- физический
- Pitch
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- игры
- часть
- должность
- После
- присутствие
- проблемам
- процесс
- Обработанный
- обработка
- Продукт
- Управление продуктом
- Менеджер по продукции
- ПРОФАНСТВО
- Программирование
- Содействие
- обеспечивать
- при условии
- приводит
- обеспечение
- Питон
- Гонки
- Стоимость
- Сырье
- готовый
- признание
- записанный
- уменьшить
- Цена снижена
- Рекомендации
- районы
- регуляторы
- актуальность
- религия
- полагаться
- Сообщается
- ответ
- результат
- Итоги
- обзоре
- обзор
- Снижение
- безопасный
- то же
- Шкала
- масштабирование
- мошенничество
- Гол
- пролистать
- SDKS
- секунды
- Раздел
- поиск
- сегмент
- сегментами
- старший
- чувствительный
- обслуживание
- Услуги
- набор
- настройки
- семь
- Секс
- Сексуальный
- Поделиться
- она
- показанный
- Шоу
- подпись
- аналогичный
- просто
- Соцсети
- социальные сети
- Социальная сеть
- только
- Решение
- Решения
- специализация
- конкретный
- речь
- Распознавание речи
- речи в текст
- скорость
- говорят
- стандарт
- Начало
- и политические лидеры
- Начало
- Статус:
- Шаг
- диск
- такие
- достаточный
- Поддержанный
- Поддержка
- Сидней
- системы
- взять
- говорить
- команда
- Технический
- terms
- тестXNUMX
- который
- Ассоциация
- их
- Их
- Эти
- они
- этой
- угрозы
- Через
- время
- в
- сегодня
- к
- к
- Train
- превращение
- путешествовать
- правда
- стараться
- напишите
- ui
- под
- созданного
- Незапрошенный
- обновление
- us
- использование
- используемый
- Информация о пользователе
- пользователей
- использования
- через
- ценный
- ценностное
- разнообразие
- с помощью
- Насилие
- Виргиния
- видение
- Войти
- Режимы
- vs
- вульгарный
- ждать
- хотеть
- we
- Web
- веб-сервисы
- ЧТО Ж
- запад
- когда
- в то время как
- будете
- без
- слова
- Работа
- письмо
- лет
- еще
- Ты
- ВАШЕ
- зефирнет