Применить маскировку ненормативной лексики в Amazon Translate

Переиздано Платоном

Читают: 0

Amazon Translate — это служба нейронного машинного перевода, которая обеспечивает быстрый, качественный, доступный и настраиваемый языковой перевод. В этом посте показано, как вы можете маскировать ненормативную лексику и фразы с помощью строки grawlix («?$#@$»).

Amazon Translate обычно выбирает чистые слова для перевода. Но в некоторых ситуациях вы хотите, чтобы слова, которые обычно считаются ненормативной лексикой, не появлялись в переведенном выводе. Например, когда вы переводите титры к видео или содержимое субтитров или включаете внутриигровой чат и хотите, чтобы переведенный контент соответствовал возрасту и не содержал ненормативной лексики, Amazon Translate позволяет маскировать ненормативные слова и фразы с помощью маскировка ненормативной лексики параметр. Вы можете применить маскировку ненормативной лексики к обоим перевод в реальном времени or асинхронная пакетная обработка в Amazon Translate. При использовании Amazon Translate с включенной маскировкой ненормативной лексики пятисимвольная последовательность ?$#@$ используется для маскировки каждого ненормативного слова или фразы независимо от количества символов. Amazon Translate определяет каждое непристойное слово или фразу буквально, а не контекстуально.

Обзор решения

Чтобы замаскировать ненормативную лексику в выходных данных перевода, можно включить параметр ненормативной лексики в дополнительных настройках консоли Amazon Translate при выполнении переводов с помощью Amazon Translate как в режиме реального времени, так и в асинхронной пакетной обработке запросов. В следующих разделах показано использование маскировки ненормативной лексики для запросов на перевод в режиме реального времени через консоль Amazon Translate. Интерфейс командной строки AWS (интерфейс командной строки AWS) или с помощью SDK для перевода Amazon (Питон Бото3).

Консоль Amazon Translate

Чтобы продемонстрировать обработку ненормативной лексики с помощью перевода в реальном времени, мы используем следующий образец текста на французском языке, который содержит слово, которое считается ненормативной лексикой для перевода на английский язык:

Ne sois pas une xxxxx

Выполните следующие шаги в консоли Amazon Translate:

Выберите Французский (фр) как Язык источника.
Выберите Английский (В) как Язык перевода.
Введите текст предыдущего примера в поле Язык источника текстовая область.

Переведенный текст появится под Язык перевода. Он содержит слово, которое считается ненормативной лексикой в английском языке.

Расширьте Дополнительные настройки и включить профанация.

Слово теперь заменено строкой grawlix ?$#@$.

Интерфейс командной строки AWS

Вызов translate-text Команда AWS CLI с --settings Profanity=MASK маскирует ненормативную лексику в переведенном тексте.

Следующие команды AWS CLI отформатированы для Unix, Linux и macOS. Для Windows замените обратную косую черту () Символ продолжения Unix в конце каждой строки с символом вставки (^).

aws translate translate-text --text <<INPUT TEXT>> --source-language-code fr --target-language-code en --settings Profanity=MASK

Вы получите ответ, подобный следующему фрагменту:

{ "TranslatedText": "<output text with ?$#@$>", "SourceLanguageCode": "fr", "TargetLanguageCode": "en", "AppliedSettings": { "Profanity": "MASK" }
}

Amazon Translate SDK (Python Boto3)

В следующем коде Python 3 используется вызов перевода в реальном времени с настройкой ненормативной лексики:

import boto3
import json translate = boto3.client('translate') SOURCE_TEXT = ("<Sample Input Text>") OUTPUT_LANG_CODE = 'en' result = translate.translate_text( Text=SOURCE_TEXT, SourceLanguageCode='auto', TargetLanguageCode=OUTPUT_LANG_CODE, Settings={'Profanity': 'MASK'}
) print("Translated Text:{}".format(result['TranslatedText']))

Заключение

Вы можете использовать параметр маскирования ненормативной лексики, чтобы маскировать слова и фразы, которые считаются ненормативной лексикой, чтобы ваш переведенный текст оставался чистым и соответствовал вашим бизнес-требованиям. Чтобы узнать больше обо всех способах настройки переводов, см. Настройка ваших переводов с помощью Amazon Translate.

Об авторах

Шива Раджамани является архитектором корпоративных решений в AWS из Бостона. Ему нравится тесно сотрудничать с клиентами и поддерживать их цифровую трансформацию и внедрение AWS. Его основные направления - бессерверные решения, интеграция приложений и безопасность. Вне работы он любит активный отдых и смотрит документальные фильмы.

Судханшу Малхотра является архитектором корпоративных решений для AWS из Бостона. Он энтузиаст технологий, которому нравится помогать клиентам находить инновационные решения сложных бизнес-задач. Его основными областями деятельности являются DevOps, машинное обучение и безопасность. Когда он не работает с клиентами на пути к облаку, ему нравится читать, ходить в походы и исследовать новые кухни.

Уотсон Дж. Шриватсан является старшим менеджером по продукту Amazon Translate, сервиса обработки естественного языка AWS. По выходным он исследует природу на северо-западе Тихого океана.