Modèles de conception de modération de contenu avec les services d'IA gérés par AWS

Republié par Platon

Suiveurs: 0

Le contenu généré par les utilisateurs (UGC) croît de manière exponentielle, ainsi que les exigences et les coûts nécessaires pour assurer la sécurité et la conformité du contenu et des communautés en ligne. Les plates-formes Web et mobiles modernes alimentent les entreprises et stimulent l'engagement des utilisateurs grâce à des fonctionnalités sociales, des startups aux grandes organisations. Les membres de la communauté en ligne s'attendent à des expériences sûres et inclusives où ils peuvent librement consommer et contribuer des images, des vidéos, du texte et de l'audio. Le volume, la variété et la complexité sans cesse croissants de l'UGC rendent les flux de travail traditionnels de modération humaine difficiles à mettre à l'échelle pour protéger les utilisateurs. Ces limitations obligent les clients à recourir à des processus d'atténuation inefficaces, coûteux et réactifs qui comportent un risque inutile pour les utilisateurs et l'entreprise. Le résultat est une expérience communautaire médiocre, nuisible et non inclusive qui désengage les utilisateurs, ce qui a un impact négatif sur la communauté et les objectifs commerciaux.

La solution consiste en des flux de travail de modération de contenu évolutifs qui s'appuient sur les technologies d'intelligence artificielle (IA), d'apprentissage automatique (ML), d'apprentissage en profondeur (DL) et de traitement du langage naturel (NLP). Ces constructions traduisent, transcrivent, reconnaissent, détectent, masquent, expurgent et intègrent stratégiquement des talents humains dans le flux de travail de modération, afin d'exécuter les actions nécessaires pour assurer la sécurité et l'engagement des utilisateurs tout en augmentant la précision et l'efficacité des processus, et en réduisant les coûts opérationnels.

Cet article explique comment créer des flux de travail de modération de contenu à l'aide des services AWS AI. Pour en savoir plus sur les besoins commerciaux, l'impact et les réductions de coûts que la modération de contenu automatisée apporte aux secteurs des médias sociaux, des jeux, du commerce électronique et de la publicité, consultez Utilisez les services AWS AI pour automatiser la modération et la conformité du contenu.

Vue d'ensemble de la solution

Vous n'avez pas besoin d'expertise en ML pour mettre en œuvre ces flux de travail et pouvez adapter ces modèles aux besoins spécifiques de votre entreprise ! AWS fournit ces fonctionnalités via des services entièrement gérés qui éliminent la complexité opérationnelle et les charges lourdes indifférenciées, et sans équipe de science des données.

Dans cet article, nous montrons comment modérer efficacement les espaces où les clients discutent et examinent les produits en utilisant du texte, de l'audio, des images, de la vidéo et même des fichiers PDF. Le diagramme suivant illustre l'architecture de la solution.

Pré-requis

Par défaut, ces modèles illustrent une méthodologie sans serveur, où vous ne payez que ce que vous utilisez. Vous continuez à payer pour les ressources de calcul, telles que AWSFargate conteneurs et stockage, tels que Service de stockage simple Amazon (Amazon S3), jusqu'à ce que vous supprimiez ces ressources. Les services AWS AI discutés suivent également un modèle de tarification de la consommation par opération.

Les environnements de non-production peuvent tester chacun de ces modèles dans le niveau gratuit, en supposant l'éligibilité de votre compte.

Texte brut modéré

Tout d'abord, vous devez implémenter la modération de contenu pour le texte brut. Cette procédure sert de base pour les types de médias plus sophistiqués et comporte deux étapes de haut niveau :

Traduit le texte.
Analysez le texte.

Les clients mondiaux souhaitent collaborer avec des plateformes sociales dans leur langue maternelle. Répondre à cette attente peut ajouter de la complexité, car les équipes de conception doivent créer un flux de travail ou des étapes pour chaque langue. Au lieu de cela, vous pouvez utiliser Amazon Traduire pour convertir du texte dans plus de 70 langues et variantes dans plus de 15 régions. Cette fonctionnalité vous permet d'écrire des règles d'analyse pour un seul langage et d'appliquer ces règles à l'ensemble de la communauté en ligne mondiale.

Amazon Translate est un service de traduction automatique neuronale qui fournit une traduction linguistique rapide, de haute qualité, abordable et personnalisable. Vous pouvez l'intégrer à vos workflows pour détecter la langue dominante et traduit le texte. Le diagramme suivant illustre le flux de travail.

Machine d'état pour normaliser le texte

Les API fonctionnent comme suit :

Les DétecterLangueDominante L'API détermine la langue dominante du texte d'entrée. Pour obtenir la liste des langues qu'Amazon Comprehend peut détecter, consultez Langue dominante.
Les Traduire le texte L'API traduit le texte d'entrée de la langue source vers la langue cible avec option masquage de grossièretés. Pour une liste des langues disponibles et des codes de langue, voir Langues et codes de langue pris en charge.
Les DémarrerExécution ainsi que StartSyncExecutionStartSyncExecution Les API démarrent un Fonctions d'étape AWS machine d'état.

Ensuite, vous pouvez utiliser la PNL pour découvrir des connexions dans le texte, comme la découverte de phrases clés, l'analyse des sentiments et la détection d'informations personnellement identifiables (PII). Amazon comprendre Les API extraient ces précieuses informations et les transmettent à des gestionnaires de fonctions personnalisés.

Courir ces gestionnaires à l'intérieur AWS Lambda adapte votre code de manière élastique sans penser aux serveurs ou aux clusters. Alternativement, vous pouvez traiter les informations d'Amazon Comprehend avec modèles d'architecture de microservices. Quel que soit le runtime, votre code se concentre sur l'utilisation des résultats, et non sur l'analyse du texte.

Le diagramme suivant illustre le flux de travail.

Machine d'état pour modérer le texte

Les fonctions Lambda interagissent avec les API suivantes :

Les Détecter les entités L'API découvre et regroupe les noms d'objets du monde réel tels que les personnes et les lieux dans le texte. Vous pouvez utiliser un vocabulaire personnalisé pour masquer les types d'entités inappropriés et spécifiques à l'entreprise.
Les Détecter Sentiment L'API identifie le sentiment général du texte comme positif, négatif ou neutre. Vous pouvez former des classificateurs personnalisés pour reconnaître les situations d'intérêt spécifiques à l'industrie et extraire la signification conceptuelle du texte.
Les Détecter les PIIEntities L'API identifie les PII dans votre texte, comme l'adresse, le numéro de compte bancaire ou le numéro de téléphone. La sortie contient le type d'entité PII et son emplacement correspondant.

Modérer les fichiers audio

Pour modérer des fichiers audio, vous devez transcrire le fichier en texte puis l'analyser. Ce processus a deux variantes selon que vous traitez des fichiers individuels (synchrone) ou des flux audio en direct (asynchrone). Les flux de travail synchrones sont idéaux pour le traitement par lots, l'appelant recevant une réponse complète. En revanche, les flux audio nécessitent un échantillonnage périodique avec plusieurs résultats de transcription.

Amazon Transcribe est un service de reconnaissance vocale automatique qui utilise des modèles ML pour convertir l'audio en texte. Vous pouvez l'intégrer dans des workflows synchrones en commencer un travail de transcription et périodiquement interroger le statut du travail. Une fois la tâche terminée, vous pouvez analyser la sortie à l'aide du flux de travail de modération de texte brut de l'étape précédente.

Le diagramme suivant illustre le flux de travail.

Machine d'état pour la transcription de fichiers audio

Les API fonctionnent comme suit :

Les DébutTranscriptionJob L'API démarre une tâche asynchrone pour transcrire la parole en texte.
Les ObtenirTranscriptionJob L'API renvoie des informations sur une tâche de transcription. Pour voir l'état du travail, vérifiez le TranscriptionJobStatus domaine. Si la propriété status est COMPLETED, vous pouvez trouver les résultats à l'emplacement spécifié dans le TranscriptFileUri domaine. Si vous activez la rédaction du contenu, la transcription rédigée apparaît dans RedactedTranscriptFileUri.

Les flux audio en direct nécessitent un modèle différent prenant en charge un modèle de diffusion en temps réel. Le streaming peut inclure des médias préenregistrés, tels que des films, de la musique et des podcasts, et des médias en temps réel, tels que des émissions d'actualités en direct. Vous pouvez transcrire des morceaux audio instantanément en utilisant Amazon Transcribe en streaming via les protocoles HTTP/2 et WebSockets. Après avoir publié un morceau sur le service, vous recevez un ou plusieurs objets de résultat de transcription décrivant les segments de transcription partielle et complète. Les segments qui nécessitent une modération peuvent réutiliser le flux de travail en texte brut de la section précédente. Le schéma suivant illustre ce processus.

Diagramme de flux pour modérer les flux audio en temps réel

Les DémarrerStreamingTranscription L'API démarre un flux HTTP/2 bidirectionnel où l'audio est diffusé vers Amazon Transcribe, diffusant les résultats de la transcription vers votre application.

Images et photos modérées

La modération des images nécessite de détecter le contenu inapproprié, indésirable ou offensant contenant de la nudité, de la suggestivité, de la violence et d'autres catégories à partir du contenu des images et des photos.

Amazon Reconnaissance vous permet de rationaliser ou d'automatiser vos flux de travail de modération d'images et de vidéos sans nécessiter d'expertise en ML. Amazon Rekognition renvoie une taxonomie hiérarchique des étiquettes liées à la modération. Ces informations facilitent la définition de règles commerciales granulaires en fonction de vos normes et pratiques, de la sécurité des utilisateurs et des directives de conformité. Aucune expérience en ML n'est requise pour utiliser ces fonctionnalités. Amazon Rekognition peut détecter et lire le texte d'une image et renvoyer des cadres de délimitation pour chaque mot trouvé. Amazon Rekognition prend en charge la détection de texte écrit en anglais, arabe, russe, allemand, français, italien, portugais et espagnol !

Vous pouvez utiliser les prédictions de la machine pour automatiser entièrement des tâches de modération spécifiques. Cette capacité permet aux modérateurs humains de se concentrer sur le travail d'ordre supérieur. De plus, Amazon Rekognition peut examiner rapidement des millions d'images ou des milliers de vidéos à l'aide de ML et signaler le sous-ensemble d'actifs nécessitant une action supplémentaire. Le préfiltrage permet de fournir une couverture de modération complète mais rentable tout en réduisant la quantité de contenu modéré par les équipes humaines.

Le diagramme suivant illustre le flux de travail.

Machine d'état pour modérer les images

Les API fonctionnent comme suit :

Les DétecterModérationÉtiquettes L'API détecte le contenu dangereux dans les images au format JPEG ou PNG spécifiées. Utilisez DetectModerationLabels pour modérer les images en fonction de vos besoins. Par exemple, vous souhaiterez peut-être filtrer les images contenant de la nudité, mais pas les images contenant du contenu suggestif.
Les DétecterTexte L'API détecte le texte dans l'image d'entrée et le convertit en texte lisible par machine.

Documents en texte enrichi modérés

Ensuite, vous pouvez utiliser Extrait d'Amazon pour extraire du texte manuscrit et des données à partir de documents numérisés. Ce processus commence par l'invocation du DébutAnalyseDocument action pour analyser les fichiers Microsoft Word et Adobe PDF. Vous pouvez surveiller l'avancement du travail avec le GetDocumentAnalyse l'action.

Le résultat de l'analyse spécifie chaque page, paragraphe, tableau et paire clé-valeur non couverts dans le document. Par exemple, supposons qu'un prestataire de santé doive masquer les noms des patients uniquement dans le champ de description de la réclamation. Dans ce cas, le rapport d'analyse peut alimenter pipelines de traitement de documents intelligents qui modèrent et expurgent le champ de données spécifique. Le schéma suivant illustre le pipeline.

Machine d'état pour la modération de documents en texte enrichi

Les API fonctionnent comme suit :

Les DébutAnalyseDocument L'API démarre l'analyse asynchrone d'un document d'entrée pour les relations entre les éléments détectés tels que les paires clé-valeur, les tableaux et les éléments de sélection
Les GetDocumentAnalyse L'API obtient les résultats d'une opération asynchrone Amazon Textract qui analyse le texte d'un document

Modérer les vidéos

Une approche standard de la modération de contenu vidéo consiste à utiliser une procédure d'échantillonnage d'images. De nombreux cas d'utilisation n'ont pas besoin de vérifier chaque image, et en sélectionner une toutes les 15 à 30 secondes est suffisant. Les images vidéo échantillonnées peuvent réutiliser la machine d'état pour modérer les images de la section précédente. De même, le processus existant de modération audio peut prendre en charge le contenu audible du fichier. Le diagramme suivant illustre ce flux de travail.

Machine d'état pour modérer les fichiers vidéo

Les invoquer L'API exécute une fonction Lambda et attend la réponse de manière synchrone.

Supposons que le fichier multimédia soit un film entier avec plusieurs scènes. Dans ce cas, vous pouvez utiliser le API de segment Amazon Rekognition, une API composite pour la détection d'indices techniques ou la détection de coups. Ensuite, vous pouvez utiliser ces décalages temporels pour traiter en parallèle chaque segment avec le modèle de modération vidéo précédent, comme illustré dans le schéma suivant.

Machine d'état pour la modération de documents en texte enrichi

Les API fonctionnent comme suit :

Les DébutSegmentationDétection L'API démarre la détection asynchrone de la détection de segment dans une vidéo stockée
Les ObtenirSegmentationDetection L'API obtient les résultats de détection de segment d'une analyse Amazon Rekognition Video lancée par l'API StartSegmentDetection

L'extraction d'images individuelles du film ne nécessite pas de récupérer plusieurs fois l'objet depuis Amazon S3. Une solution naïve consiste à lire la vidéo en mémoire et à la paginer jusqu'à la fin. Ce modèle est idéal pour les clips courts et lorsque les évaluations ne sont pas sensibles au facteur temps.

Une autre stratégie consiste à déplacer le fichier une fois pour Système de fichiers Amazon Elastic (Amazon EFS), un système de fichiers partagé entièrement géré et évolutif pour d'autres services AWS, tels que Lambda. Avec Amazon EFS pour Lambda, vous pouvez répartir efficacement les données entre les appels de fonction. Chaque invocation gère efficacement un petit morceau, libérant le potentiel d'un traitement massivement parallèle et de temps de traitement plus rapides.

Nettoyer

Après avoir expérimenté les méthodes de cet article, vous devez supprimer tout contenu dans les compartiments S3 pour éviter des coûts futurs. Si vous implémentez ces modèles avec des ressources de calcul provisionnées telles que Cloud de calcul élastique Amazon (Amazon EC2) ou Service de conteneur élastique Amazon (Amazon ECS), vous devez arrêter ces instances pour éviter des frais supplémentaires.

Conclusion

Le contenu généré par les utilisateurs et sa valeur pour les organisations de jeux, de médias sociaux, de commerce électronique et de services financiers et de santé continueront de croître. Pourtant, les startups et les grandes organisations doivent créer des processus de modération efficaces pour protéger les utilisateurs, les informations et l'entreprise, tout en réduisant les coûts opérationnels. Cette solution montre comment les technologies d'IA, de ML et de NLP peuvent vous aider efficacement à modérer du contenu à grande échelle. Vous pouvez personnaliser les services AWS AI pour répondre à vos besoins spécifiques de modération ! Ces capacités entièrement gérées éliminent les complexités opérationnelles. Cette flexibilité intègre stratégiquement des informations contextuelles et des talents humains dans vos processus de modération.

Pour plus d'informations, des ressources et pour commencer gratuitement dès aujourd'hui, visitez le Page d'accueil de modération de contenu AWS.

À propos des auteurs

Nate Bachmeier est un architecte de solutions senior AWS qui explore New York de manière nomade, une intégration cloud à la fois. Il est spécialisé dans la migration et la modernisation d'applications. En plus de cela, Nate est étudiant à temps plein et a deux enfants.

Ram Pathangi est architecte de solutions chez Amazon Web Services dans la région de la baie de San Francisco. Il a aidé des clients des secteurs de l'agriculture, de l'assurance, de la banque, de la vente au détail, de la santé et des sciences de la vie, de l'hôtellerie et de la haute technologie à gérer leurs activités avec succès sur le cloud AWS. Il est spécialisé dans les bases de données, l'analyse et l'apprentissage automatique.

Roop Bains est un architecte de solutions chez AWS spécialisé dans l'IA/ML. Il se passionne pour aider les clients à innover et à atteindre leurs objectifs commerciaux en utilisant l'intelligence artificielle et l'apprentissage automatique. Dans ses temps libres, Roop aime lire et faire de la randonnée.

Horodatage: 9 mai 2022

Horodatage: Le 25 juillet 2023

Republié par Platon

Permettre une prise de décision intelligente avec Amazon SageMaker Canvas et Amazon QuickSight

Intégrez ServiceNow au chatbot Amazon Lex pour le traitement des tickets

Améliorez le raisonnement multi-sauts dans les LLM en apprenant à partir de commentaires humains riches

Déployez BLOOM-176B et OPT-30B sur Amazon SageMaker avec de grands modèles d'inférence Deep Learning Containers et DeepSpeed

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte