Пользовательский контент (UGC) растет в геометрической прогрессии, а также требования и затраты на обеспечение безопасности и соответствия контента и онлайн-сообществ. Современные веб- и мобильные платформы подпитывают бизнес и привлекают пользователей с помощью социальных функций, от стартапов до крупных организаций. Члены онлайн-сообщества ожидают безопасного и инклюзивного взаимодействия, когда они могут свободно использовать и публиковать изображения, видео, текст и аудио. Постоянно растущий объем, разнообразие и сложность пользовательского контента затрудняют масштабирование традиционных рабочих процессов модерации людьми для защиты пользователей. Эти ограничения вынуждают клиентов прибегать к неэффективным, дорогостоящим и реактивным процессам смягчения последствий, которые несут ненужный риск для пользователей и бизнеса. Результатом является плохой, вредный и не инклюзивный опыт сообщества, который отвлекает пользователей, негативно влияя на сообщество и бизнес-цели.
Решением являются масштабируемые рабочие процессы модерации контента, основанные на технологиях искусственного интеллекта (ИИ), машинного обучения (МО), глубокого обучения (ГО) и обработки естественного языка (НЛП). Эти конструкции переводят, расшифровывают, распознают, обнаруживают, маскируют, редактируют и стратегически вовлекают человеческий талант в рабочий процесс модерации, чтобы выполнять действия, необходимые для обеспечения безопасности и вовлеченности пользователей, при одновременном повышении точности и эффективности процессов и снижении эксплуатационных расходов.
В этом посте рассматривается, как создавать рабочие процессы модерации контента с помощью сервисов AWS AI. Чтобы узнать больше о потребностях бизнеса, влиянии и снижении затрат, которые автоматическая модерация контента приносит в социальные сети, игры, электронную коммерцию и рекламную индустрию, см. Используйте сервисы AWS AI для автоматизации модерации контента и соответствия требованиям.
Обзор решения
Вам не нужны знания в области машинного обучения для реализации этих рабочих процессов, и вы можете адаптировать эти шаблоны к вашим конкретным бизнес-потребностям! AWS предоставляет эти возможности с помощью полностью управляемых сервисов, которые устраняют операционную сложность и недифференцированную тяжелую работу, а также без команды специалистов по обработке и анализу данных.
В этом посте мы покажем, как эффективно модерировать места, где клиенты обсуждают и просматривают продукты, используя текст, аудио, изображения, видео и даже файлы PDF. Следующая диаграмма иллюстрирует архитектуру решения.
Предпосылки
По умолчанию эти шаблоны демонстрируют бессерверную методологию, при которой вы платите только за то, что используете. Вы продолжаете платить за вычислительные ресурсы, такие как АМС Фаргейт контейнеры и хранилища, такие как Простой сервис хранения Amazon (Amazon S3), пока вы не удалите эти ресурсы. Обсуждаемые сервисы AWS AI также следуют модели ценообразования на основе потребления за операцию.
В непроизводственных средах можно протестировать каждый из этих шаблонов в рамках уровня бесплатного пользования при условии, что ваша учетная запись соответствует требованиям.
Умеренный простой текст
Во-первых, вам нужно реализовать модерацию контента для простого текста. Эта процедура служит основой для более сложных типов носителей и включает в себя два высокоуровневых шага:
- Перевести текст.
- Проанализируйте текст.
Глобальные клиенты хотят сотрудничать с социальными платформами на своем родном языке. Удовлетворение этого ожидания может добавить сложности, поскольку проектные группы должны создать рабочий процесс или шаги для каждого языка. Вместо этого вы можете использовать Amazon Translate для преобразования текста в более чем 70 языков и вариантов в более чем 15 регионах. Эта возможность позволяет вам писать правила анализа для одного языка и применять эти правила во всем глобальном интернет-сообществе.
Amazon Translate – это сервис нейронного машинного перевода, который обеспечивает быстрый, качественный, доступный и настраиваемый языковой перевод. Вы можете интегрировать его в свои рабочие процессы, чтобы определить доминирующий язык и перевести текст. Следующая диаграмма иллюстрирует рабочий процесс.
API работают следующим образом:
- Ассоциация Обнаружениедоминантного языка API определяет доминирующий язык вводимого текста. Список языков, которые может обнаружить Amazon Comprehend, см. Доминирующий язык.
- Ассоциация Перевести текст API переводит входной текст с исходного языка на целевой язык с необязательным маскировка ненормативной лексики. Список доступных языков и языковых кодов см. Поддерживаемые языки и языковые коды.
- Ассоциация НачатьВыполнение и Стартсинквыполнение API запускают Шаговые функции AWS Государственный аппарат.
Затем вы можете использовать НЛП для обнаружения связей в тексте, таких как обнаружение ключевых фраз, анализ настроений и обнаружение информации, позволяющей установить личность (PII). Amazon Comprehend API-интерфейсы извлекают эти ценные сведения и передают их в обработчики пользовательских функций.
Запуск этих обработчиков внутри AWS Lambda functions эластично масштабирует ваш код, не думая о серверах или кластерах. Кроме того, вы можете обрабатывать аналитические данные из Amazon Comprehend с помощью шаблоны архитектуры микросервисов. Независимо от среды выполнения ваш код фокусируется на использовании результатов, а не на анализе текста.
Следующая диаграмма иллюстрирует рабочий процесс.
Лямбда-функции взаимодействуют со следующими API:
- Ассоциация Обнаружение объектов API обнаруживает и группирует имена объектов реального мира, таких как люди и места в тексте. Вы можете использовать пользовательский словарь для исправления неуместных и специфичных для бизнеса типов сущностей.
- Ассоциация детектсентимент API определяет общее настроение текста как положительное, отрицательное или нейтральное. Пользовательские классификаторы можно научить распознавать представляющие интерес отраслевые ситуации и извлекать концептуальное значение текста.
- Ассоциация Обнаружение PIIentities API идентифицирует PII в вашем тексте, таком как адрес, номер банковского счета или номер телефона. Выходные данные содержат тип объекта PII и его соответствующее местоположение.
Умеренные аудиофайлы
Чтобы модерировать аудиофайлы, вы должны преобразовать файл в текст, а затем проанализировать его. Этот процесс имеет два варианта в зависимости от того, обрабатываете ли вы отдельные файлы (синхронно) или живые аудиопотоки (асинхронно). Синхронные рабочие процессы идеально подходят для пакетной обработки, когда вызывающая сторона получает один полный ответ. Напротив, аудиопотоки требуют периодической выборки с несколькими результатами транскрипции.
Amazon транскрибировать — это служба автоматического распознавания речи, которая использует модели машинного обучения для преобразования аудио в текст. Вы можете интегрировать его в синхронные рабочие процессы, начало работы над транскрипцией и периодически запрос статуса задания. После завершения задания вы можете проанализировать выходные данные, используя рабочий процесс модерации простого текста из предыдущего шага.
Следующая диаграмма иллюстрирует рабочий процесс.
API работают следующим образом:
- Ассоциация Начать транскрипцию API запускает асинхронное задание для преобразования речи в текст.
- Ассоциация Получить задание по транскрипции API возвращает информацию о задании транскрипции. Чтобы увидеть статус задания, проверьте
TranscriptionJobStatus
поле. Если свойство статусаCOMPLETED
, вы можете найти результаты в месте, указанном вTranscriptFileUri
поле. Если вы включите редактирование содержимого, отредактированная стенограмма появится вRedactedTranscriptFileUri
.
Живые аудиопотоки нуждаются в другом шаблоне, который поддерживает модель доставки в реальном времени. Потоковое вещание может включать в себя предварительно записанные медиафайлы, такие как фильмы, музыку и подкасты, а также медиаданные в реальном времени, такие как прямые трансляции новостей. Вы можете мгновенно транскрибировать аудиофрагменты, используя Трансляция Amazon Transcribe по протоколам HTTP/2 и WebSockets. После публикации чанка на сервисе вы получаете один или несколько объекты результата транскрипции описание частичных и полных сегментов транскрипции. Сегменты, требующие модерации, могут повторно использовать рабочий процесс обычного текста из предыдущего раздела. Следующая диаграмма иллюстрирует этот процесс.
Ассоциация Начать потоковую транскрипцию API запускает двунаправленный поток HTTP/2, в котором аудио передается в Amazon Transcribe, передавая результаты транскрипции в ваше приложение.
Умеренные изображения и фотографии
Модерация изображений требует обнаружения неприемлемого, нежелательного или оскорбительного контента, содержащего наготу, намеки, насилие и другие категории изображений и фотографий.
Апостол позволяет упростить или автоматизировать рабочие процессы модерации изображений и видео, не требуя знаний в области машинного обучения. Amazon Rekognition возвращает иерархическую таксономию ярлыков, связанных с модерацией. Эта информация позволяет легко определить детальные бизнес-правила в соответствии с вашими стандартами и практиками, безопасностью пользователей и рекомендациями по соответствию. Для использования этих возможностей не требуется опыт машинного обучения. Amazon Rekognition может обнаруживать и читать текст на изображении и возвращать ограничивающие рамки для каждого найденного слова. Amazon Rekognition поддерживает обнаружение текста, написанного на английском, арабском, русском, немецком, французском, итальянском, португальском и испанском языках!
Вы можете использовать машинные прогнозы для полной автоматизации конкретных задач модерации. Эта возможность позволяет модераторам-людям сосредоточиться на работе более высокого порядка. Кроме того, Amazon Rekognition может быстро просматривать миллионы изображений или тысячи видео с помощью машинного обучения и помечать подмножество ресурсов, требующих дальнейших действий. Предварительная фильтрация помогает обеспечить всесторонний, но экономически эффективный охват модерации, уменьшая при этом объем контента, модерируемого людьми.
Следующая диаграмма иллюстрирует рабочий процесс.
API работают следующим образом:
- Ассоциация детектмодератионлейблс API обнаруживает небезопасный контент в указанных изображениях в формате JPEG или PNG. Используйте DetectModerationLabels для модерации изображений в зависимости от ваших требований. Например, вы можете отфильтровать изображения с изображением наготы, но не изображения с непристойным содержанием.
- Ассоциация Детекттекст API обнаруживает текст на входном изображении и преобразует его в машиночитаемый текст.
Умеренные форматированные текстовые документы
Далее вы можете использовать Амазонка Текст для извлечения рукописного текста и данных из отсканированных документов. Этот процесс начинается с вызова СтартДокументАнализ действие для анализа файлов Microsoft Word и Adobe PDF. Вы можете следить за ходом выполнения задания с помощью ПолучитьДокументАнализ действия.
Результат анализа указывает каждую непокрытую страницу, абзац, таблицу и пару ключ-значение в документе. Например, предположим, что поставщик медицинских услуг должен маскировать имена пациентов только в поле описания заявления. В этом случае аналитический отчет может интеллектуальные конвейеры обработки документов которые модерируют и редактируют конкретное поле данных. Следующая диаграмма иллюстрирует конвейер.
API работают следующим образом:
- Ассоциация СтартДокументАнализ API запускает асинхронный анализ входного документа на наличие отношений между обнаруженными элементами, такими как пары ключ-значение, таблицы и элементы выбора.
- Ассоциация ПолучитьДокументАнализ API получает результаты асинхронной операции Amazon Text, которая анализирует текст в документе.
Умеренные видео
Стандартный подход к модерации видеоконтента заключается в процедуре выборки кадров. Во многих вариантах использования не нужно проверять каждый кадр, достаточно выбирать один кадр каждые 15–30 секунд. Семплированные видеокадры могут повторно использовать конечный автомат для модерации изображений из предыдущего раздела. Точно так же существующий процесс модерации звука может поддерживать звуковое содержимое файла. Следующая диаграмма иллюстрирует этот рабочий процесс.
Ассоциация взывать API запускает функцию Lambda и синхронно ожидает ответа.
Предположим, медиафайл представляет собой целый фильм с несколькими сценами. В таком случае вы можете использовать API сегмента Amazon Rekognition, составной API для обнаружения технических сигналов или обнаружения ударов. Затем вы можете использовать эти временные смещения для параллельной обработки каждого сегмента с предыдущим шаблоном модерации видео, как показано на следующей диаграмме.
API работают следующим образом:
- Ассоциация Стартсегментатиондетектион API запускает асинхронное определение обнаружения сегмента в сохраненном видео
- Ассоциация GetSegmentationDetection API получает результаты обнаружения сегментов анализа Amazon Rekognition Video, запущенного API StartSegmentDetection.
Для извлечения отдельных кадров из фильма не требуется многократная загрузка объекта из Amazon S3. Наивное решение включает чтение видео в память и разбиение на страницы до конца. Этот шаблон идеально подходит для коротких клипов и в тех случаях, когда оценки не зависят от времени.
Другая стратегия предполагает однократное перемещение файла в Эластичная файловая система Amazon (Amazon EFS), полностью управляемая, масштабируемая, совместно используемая файловая система для других сервисов AWS, таких как Lambda. С Amazon EFS для Lambda, вы можете эффективно распределять данные между вызовами функций. Каждый вызов эффективно обрабатывает небольшой фрагмент, открывая потенциал для массовой параллельной обработки и сокращения времени обработки.
Убирать
После того, как вы поэкспериментируете с методами, описанными в этом посте, вам следует удалить любой контент в корзинах S3, чтобы избежать будущих затрат. Если вы реализовали эти шаблоны с подготовленными вычислительными ресурсами, такими как Эластичное вычислительное облако Amazon (Amazon EC2) или Amazon Elastic Контейнерный Сервис (Amazon ECS), вам следует остановить эти экземпляры, чтобы избежать дополнительных расходов.
Заключение
Пользовательский контент и его ценность для игр, социальных сетей, электронной коммерции, финансовых и медицинских организаций будут продолжать расти. Тем не менее стартапам и крупным организациям необходимо создать эффективные процессы модерации для защиты пользователей, информации и бизнеса при одновременном снижении эксплуатационных расходов. Это решение демонстрирует, как технологии AI, ML и NLP могут эффективно помочь модерировать контент в любом масштабе. Вы можете настроить сервисы AWS AI в соответствии со своими потребностями в модерации! Эти полностью управляемые возможности устраняют операционные сложности. Эта гибкость стратегически интегрирует контекстную информацию и человеческий талант в ваши процессы модерации.
Для получения дополнительной информации, ресурсов и бесплатного начала работы сегодня посетите веб-сайт Домашняя страница модерации контента AWS.
Об авторах
Нейт Бахмайер является старшим архитектором решений AWS, который кочует по Нью-Йорку, внедряя одну облачную интеграцию за другой. Он специализируется на переносе и модернизации приложений. Кроме того, Нейт учится на дневном отделении и имеет двоих детей.
Рам Патанги работает архитектором решений в Amazon Web Services в районе залива Сан-Франциско. Он помог клиентам в сельском хозяйстве, страховании, банковском деле, розничной торговле, здравоохранении и медико-биологических науках, гостиничном бизнесе и высокотехнологичных вертикалях успешно вести свой бизнес в облаке AWS. Специализируется на базах данных, аналитике и машинном обучении.
Руп Бейнс работает архитектором решений в AWS, специализируясь на AI/ML. Он увлечен тем, что помогает клиентам внедрять инновации и достигать своих бизнес-целей с помощью искусственного интеллекта и машинного обучения. В свободное время Руп любит читать и ходить в походы.
- Коинсмарт. Лучшая в Европе биржа биткойнов и криптовалют.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. БЕСПЛАТНЫЙ ДОСТУП.
- КриптоХок. Альткоин Радар. Бесплатная пробная версия.
- Источник: https://aws.amazon.com/blogs/machine-learning/content-moderation-design-patterns-with-aws-managed-ai-services/
- "
- 100
- 70
- О нас
- АБСТРАКТ НАЯ
- Учетная запись
- через
- Действие
- действия
- дополнение
- дополнительный
- адрес
- Реклама
- сельское хозяйство
- AI
- Услуги искусственного интеллекта
- Amazon
- Amazon Web Services
- количество
- анализ
- аналитика
- API
- API
- Применение
- Приложения
- подхода
- архитектура
- ПЛОЩАДЬ
- искусственный
- искусственный интеллект
- Искусственный интеллект (AI)
- Искусственный интеллект и машинное обучение
- Активы
- аудио
- автоматизировать
- Автоматизированный
- Автоматический
- доступен
- AWS
- Банка
- счет в банке
- Банковское дело
- залив
- строить
- бизнес
- бизнес
- гость
- возможности
- нести
- случаев
- сложные
- расходы
- клипсы
- облако
- код
- сотрудничать
- как
- Сообщества
- сообщество
- сложности
- Соответствие закону
- уступчивый
- комплексный
- Вычисление
- Коммутация
- потреблять
- потребление
- Container
- Контейнеры
- содержит
- содержание
- продолжать
- способствовать
- соответствующий
- рентабельным
- Расходы
- Создайте
- изготовленный на заказ
- Клиенты
- настраиваемый
- данным
- наука о данных
- базы данных
- обеспечивает
- поставка
- демонстрировать
- в зависимости
- Проект
- обнаруженный
- обнаружение
- различный
- обсуждать
- Документация
- не
- управлять
- электронная коммерция
- электронной коммерции
- затрат
- эффективный
- эффективно
- включить
- обязательство
- Английский
- организация
- пример
- существующий
- ожидать
- опыт
- Впечатления
- эксперимент
- опыта
- экспоненциально
- БЫСТРО
- быстрее
- Особенности
- финансовый
- Трансформируемость
- поток
- Фокус
- фокусируется
- следовать
- после
- найденный
- Год основания
- КАДР
- Франциско
- Бесплатно
- Французский
- топливо
- функция
- далее
- будущее
- игровой
- Глобальный
- Группы
- Расти
- методические рекомендации
- Медицина
- здравоохранение
- помощь
- помощь
- помогает
- высококачественный
- Как
- How To
- HTTPS
- человек
- изображение
- Влияние
- осуществлять
- в XNUMX году
- включают
- повышение
- individual
- промышленности
- информация
- вход
- размышления
- страхование
- интегрировать
- интеграции.
- Интеллекта
- интерес
- IT
- работа
- Основные
- Дети
- Этикетки
- язык
- Языки
- большой
- УЧИТЬСЯ
- изучение
- Медико-биологическая промышленность
- Подтяжка лица
- Список
- расположение
- машина
- обучение с помощью машины
- ДЕЛАЕТ
- управляемого
- маска
- смысл
- Медиа
- заседания
- Участники
- Память
- Microsoft
- может быть
- миллионы
- ML
- Мобильный телефон
- модель
- Модели
- монитор
- БОЛЕЕ
- кино
- Кино
- перемещение
- с разными
- Музыка
- имена
- натуральный
- отрицательный
- New York
- Новости
- номер
- онлайн
- работать
- операция
- организации
- Другое
- общий
- страстный
- шаблон
- ОПЛАТИТЬ
- Люди
- фразы
- Платформы
- Подкасты
- состояния потока
- Португальский
- положительный
- потенциал
- мощностью
- Predictions
- предыдущий
- цены
- процесс
- Процессы
- обработка
- Продукция
- собственность
- для защиты
- протоколы
- обеспечивать
- быстро
- Reading
- реального времени
- Получать
- признавать
- снижение
- Отношения
- отчету
- требовать
- обязательный
- Требования
- Полезные ресурсы
- ответ
- Итоги
- розничный
- возвращают
- Возвращает
- обзоре
- Отзывы
- Снижение
- условиями,
- Run
- безопасный
- Сохранность
- Сан -
- Сан-Франциско
- масштабируемые
- Шкала
- Сцены
- Наука
- НАУКА
- секунды
- сегмент
- сегментами
- настроение
- Serverless
- обслуживание
- Услуги
- общие
- Короткое
- показанный
- Аналогичным образом
- просто
- небольшой
- Соцсети
- социальные сети
- Решение
- Решения
- сложный
- пространства
- специализируется
- стандарт
- стандартов
- Начало
- и политические лидеры
- начинается
- Стартапы
- Область
- Статус:
- диск
- Стратегия
- поток
- потоковый
- "Студент"
- Успешно
- поддержка
- Поддержка
- система
- Талант
- цель
- задачи
- команда
- Технический
- технологии
- тестXNUMX
- Источник
- мышление
- тысячи
- Через
- время
- сегодня
- вместе
- традиционный
- Запись
- Переводы
- Типы
- открывай
- использование
- пользователей
- ценностное
- разнообразие
- вертикалей
- Видео
- Видео
- объем
- Web
- веб-сервисы
- Что
- будь то
- в то время как
- в
- без
- Работа