Wzorce projektowe moderacji treści z usługami AI zarządzanymi przez AWS

Opublikowane ponownie przez Plato

Obserwuje: 0

Treści generowane przez użytkowników (UGC) rosną wykładniczo, podobnie jak wymagania i koszty zapewnienia bezpieczeństwa i zgodności treści i społeczności internetowych. Nowoczesne platformy internetowe i mobilne napędzają firmy i zwiększają zaangażowanie użytkowników dzięki funkcjom społecznościowym, od start-upów po duże organizacje. Członkowie społeczności online oczekują bezpiecznych i integracyjnych doświadczeń, w których mogą swobodnie konsumować i dodawać obrazy, filmy, tekst i dźwięk. Stale rosnąca ilość, różnorodność i złożoność UGC sprawiają, że tradycyjne przepływy pracy związane z moderacją przez ludzi są trudne do skalowania w celu ochrony użytkowników. Ograniczenia te zmuszają klientów do nieefektywnych, kosztownych i reaktywnych procesów ograniczania ryzyka, które niosą ze sobą niepotrzebne ryzyko dla użytkowników i firmy. Rezultatem jest słabe, szkodliwe i nieobejmujące środowisko społeczności, które odrywa użytkowników, co ma negatywny wpływ na społeczność i cele biznesowe.

Rozwiązanie to skalowalne przepływy pracy moderacji treści, które opierają się na technologiach sztucznej inteligencji (AI), uczenia maszynowego (ML), głębokiego uczenia (DL) i przetwarzania języka naturalnego (NLP). Konstrukcje te tłumaczą, transkrybują, rozpoznają, wykrywają, maskują, redagują i strategicznie wprowadzają ludzkie talenty do przepływu pracy moderacji, aby uruchamiać działania potrzebne do zapewnienia bezpieczeństwa i zaangażowania użytkowników przy jednoczesnym zwiększeniu dokładności i wydajności procesów oraz obniżeniu kosztów operacyjnych.

W tym poście opisujemy, jak budować przepływy pracy moderacji treści za pomocą usług AWS AI. Aby dowiedzieć się więcej o potrzebach biznesowych, wpływie i redukcji kosztów, jakie zautomatyzowane moderowanie treści wnosi do mediów społecznościowych, gier, handlu elektronicznego i reklamy, zobacz Wykorzystaj usługi AWS AI, aby zautomatyzować moderację treści i zgodność.

Omówienie rozwiązania

Nie potrzebujesz specjalistycznej wiedzy w zakresie ML, aby wdrożyć te przepływy pracy i możesz dostosować te wzorce do konkretnych potrzeb biznesowych! AWS zapewnia te możliwości dzięki w pełni zarządzanym usługom, które eliminują złożoność operacyjną i niezróżnicowane podnoszenie ciężarów, bez zespołu zajmującego się analizą danych.

W tym poście pokazujemy, jak skutecznie moderować przestrzenie, w których klienci dyskutują i recenzują produkty za pomocą tekstu, dźwięku, obrazów, wideo, a nawet plików PDF. Poniższy diagram ilustruje architekturę rozwiązania.

Wymagania wstępne

Domyślnie te wzorce demonstrują metodologię bezserwerową, w której płacisz tylko za to, z czego korzystasz. Nadal płacisz za zasoby obliczeniowe, takie jak AWS-Fargate pojemniki i przechowywanie, takie jak Usługa Amazon Simple Storage (Amazon S3), dopóki nie usuniesz tych zasobów. Omawiane usługi AWS AI również realizują model wyceny zużycia na operację.

Środowiska nieprodukcyjne mogą testować każdy z tych wzorców w warstwie Bezpłatna, zakładając, że Twoje konto spełnia kryteria.

Umiarkowany zwykły tekst

Najpierw musisz wdrożyć moderację treści dla zwykłego tekstu. Ta procedura służy jako podstawa dla bardziej wyrafinowanych typów mediów i obejmuje dwa etapy wysokiego poziomu:

Przetłumacz tekst.
Przeanalizuj tekst.

Globalni klienci chcą współpracować z platformami społecznościowymi w swoim ojczystym języku. Spełnienie tego oczekiwania może zwiększyć złożoność, ponieważ zespoły projektowe muszą skonstruować przepływ pracy lub kroki dla każdego języka. Zamiast tego możesz użyć Tłumacz Amazon konwertować tekst na ponad 70 języków i wariantów w ponad 15 regionach. Ta funkcja umożliwia pisanie reguł analizy dla jednego języka i stosowanie tych reguł w globalnej społeczności internetowej.

Amazon Translate to neuronowa usługa tłumaczenia maszynowego, która zapewnia szybkie, wysokiej jakości, niedrogie i konfigurowalne tłumaczenie językowe. Możesz zintegrować go ze swoimi przepływami pracy, aby wykryć dominujący język i Przetłumacz tekst. Poniższy diagram ilustruje przepływ pracy.

Maszyna stanowa do normalizacji tekstu

Interfejsy API działają w następujący sposób:

Połączenia Wykryj dominujący język API określa dominujący język tekstu wejściowego. Aby zapoznać się z listą języków, które może wykryć Amazon Comprehend, zobacz Dominujący język.
Połączenia Przetłumacz tekst API tłumaczy tekst wejściowy z języka źródłowego na język docelowy z opcją maskowanie wulgaryzmów. Aby uzyskać listę dostępnych języków i kodów języków, zobacz Obsługiwane języki i kody języków.
Połączenia Rozpocznij wykonanie i Rozpocznij wykonanie synchronizacji API uruchamiają Funkcje kroków AWS maszyna stanowa.

Następnie możesz użyć NLP do odkrywania połączeń w tekście, takich jak odkrywanie kluczowych fraz, analizowanie nastrojów i wykrywanie informacji umożliwiających identyfikację osób (PII). Amazon Comprehend Interfejsy API wyodrębniają te cenne informacje i przekazują je do niestandardowych programów obsługi funkcji.

Prowadzenie tych przewodników w środku AWS Lambda funkcje elastycznie skalują Twój kod bez myślenia o serwerach lub klastrach. Alternatywnie możesz przetwarzać spostrzeżenia z Amazon Zrozum za pomocą wzorce architektury mikrousług. Niezależnie od środowiska wykonawczego Twój kod koncentruje się na wykorzystaniu wyników, a nie na analizowaniu tekstu.

Poniższy diagram ilustruje przepływ pracy.

Maszyna stanowa do moderowania tekstu

Funkcje lambda współdziałają z następującymi API:

Połączenia Wykrywanie jednostek API wykrywa i grupuje nazwy obiektów ze świata rzeczywistego, takich jak ludzie i miejsca w tekście. Możesz użyć niestandardowego słownictwa, aby zredagować nieodpowiednie i specyficzne dla firmy typy jednostek.
Połączenia Wykryj sentyment API identyfikuje ogólny sentyment tekstu jako pozytywny, negatywny lub neutralny. Możesz szkolić klasyfikatory niestandardowe, aby rozpoznawały interesujące sytuacje branżowe i wydobywały znaczenie pojęciowe tekstu.
Połączenia WykryjPIIEntities Interfejs API identyfikuje w tekście informacje umożliwiające identyfikację, takie jak adres, numer konta bankowego lub numer telefonu. Dane wyjściowe zawierają typ podmiotu PII i jego odpowiednią lokalizację.

Moderuj pliki audio

Aby moderować pliki audio, musisz dokonać transkrypcji pliku na tekst, a następnie go przeanalizować. Ten proces ma dwa warianty w zależności od tego, czy przetwarzasz pojedyncze pliki (synchronicznie), czy strumienie audio na żywo (asynchronicznie). Synchroniczne przepływy pracy są idealne do przetwarzania wsadowego, gdzie dzwoniący otrzymuje jedną kompletną odpowiedź. W przeciwieństwie do tego, strumienie audio wymagają okresowego próbkowania z wieloma wynikami transkrypcji.

Amazon Transcribe to usługa automatycznego rozpoznawania mowy, która wykorzystuje modele ML do konwersji dźwięku na tekst. Możesz zintegrować go z synchronicznymi przepływami pracy przez rozpoczęcie pracy związanej z transkrypcją i okresowo zapytanie o status pracy. Po zakończeniu zadania możesz przeanalizować dane wyjściowe, korzystając z przepływu pracy moderacji zwykłego tekstu z poprzedniego kroku.

Poniższy diagram ilustruje przepływ pracy.

Maszyna stanowa do transkrypcji plików audio

Interfejsy API działają w następujący sposób:

Połączenia StartTranskrypcjaZlecenie API uruchamia asynchroniczne zadanie transkrypcji mowy na tekst.
Połączenia Pobierz transkrypcjęJob API zwraca informacje o zadaniu transkrypcji. Aby zobaczyć status zadania, sprawdź TranscriptionJobStatus pole. Jeśli właściwość status to COMPLETED, wyniki można znaleźć w lokalizacji określonej w TranscriptFileUri pole. Jeśli włączysz redagowanie treści, zredagowana transkrypcja pojawi się w RedactedTranscriptFileUri.

Strumienie audio na żywo wymagają innego wzorca, który obsługuje model dostarczania w czasie rzeczywistym. Transmisja strumieniowa może obejmować nagrane wcześniej media, takie jak filmy, muzyka i podcasty, oraz media w czasie rzeczywistym, takie jak transmisje wiadomości na żywo. Możesz natychmiast transkrybować fragmenty audio za pomocą Transkrypcja na Amazon przez protokoły HTTP/2 i WebSockets. Po opublikowaniu fragmentu w serwisie otrzymujesz co najmniej jeden fragment obiekty wynikowe transkrypcji opisywanie częściowych i pełnych segmentów transkrypcyjnych. Segmenty wymagające moderacji mogą ponownie wykorzystać przepływ pracy w postaci zwykłego tekstu z poprzedniej sekcji. Poniższy diagram ilustruje ten proces.

Schemat blokowy moderowania strumieni audio w czasie rzeczywistym

Połączenia Rozpocznij transmisję strumieniową API uruchamia dwukierunkowy strumień HTTP/2, w którym strumienie audio są przesyłane do Amazon Transscribe, przesyłając wyniki transkrypcji do Twojej aplikacji.

Moderuj obrazy i zdjęcia

Moderowanie obrazów wymaga wykrywania nieodpowiednich, niechcianych lub obraźliwych treści zawierających nagość, sugestywność, przemoc i inne kategorie z obrazów i treści zdjęć.

Amazon Rekognition umożliwia usprawnienie lub zautomatyzowanie procesów moderowania obrazów i wideo bez konieczności posiadania specjalistycznej wiedzy z zakresu ML. Amazon Rekognition zwraca hierarchiczną taksonomię etykiet związanych z moderacją. Te informacje ułatwiają definiowanie szczegółowych reguł biznesowych zgodnie ze standardami i praktykami, bezpieczeństwem użytkowników i wytycznymi dotyczącymi zgodności. Do korzystania z tych możliwości nie jest wymagane doświadczenie w zakresie ML. Amazon Rekognition może wykryć i odczytać tekst na obrazie oraz zwrócić ramki ograniczające dla każdego znalezionego słowa. Amazon Rekognition obsługuje wykrywanie tekstu napisanego w języku angielskim, arabskim, rosyjskim, niemieckim, francuskim, włoskim, portugalskim i hiszpańskim!

Możesz użyć przewidywań maszynowych, aby całkowicie zautomatyzować określone zadania moderacji. Ta funkcja umożliwia moderatorom skupienie się na pracy wyższego rzędu. Ponadto Amazon Rekognition może szybko przeglądać miliony obrazów lub tysiące filmów za pomocą ML i oznaczać podzbiór zasobów wymagających dalszych działań. Wstępne filtrowanie pomaga zapewnić kompleksową, a przy tym opłacalną moderację, jednocześnie zmniejszając ilość treści moderowanych przez zespoły ludzkie.

Poniższy diagram ilustruje przepływ pracy.

Maszyna stanowa do moderowania obrazów

Interfejsy API działają w następujący sposób:

Połączenia Wykryj etykiety moderacji Interfejs API wykrywa niebezpieczną zawartość w określonych obrazach w formacie JPEG lub PNG. Użyj DetectModerationLabels, aby moderować zdjęcia w zależności od wymagań. Na przykład możesz chcieć odfiltrować obrazy zawierające nagość, ale nie zawierające treści o charakterze sugestywnym.
Połączenia Wykryj tekst API wykrywa tekst w obrazie wejściowym i konwertuje go na tekst do odczytu maszynowego.

Umiarkowane dokumenty z tekstem sformatowanym

Następnie możesz użyć Ekstrakt z amazonki do wyodrębniania odręcznego tekstu i danych z zeskanowanych dokumentów. Proces ten zaczyna się od przywołania Rozpocznij analizę dokumentów czynność parsowania plików Microsoft Word i Adobe PDF. Możesz monitorować postęp pracy za pomocą Pobierz analizę dokumentów akcji.

Wynik analizy określa każdą niepokrytą stronę, akapit, tabelę i parę klucz-wartość w dokumencie. Załóżmy na przykład, że dostawca usług zdrowotnych musi maskować nazwiska pacjentów tylko w polu opisu roszczenia. W takim przypadku raport z analizy może zasilać inteligentne potoki przetwarzania dokumentów które moderują i redagują określone pole danych. Poniższy diagram ilustruje potok.

Maszyna stanowa do moderowania dokumentów w formacie RTF

Interfejsy API działają w następujący sposób:

Połączenia Rozpocznij analizę dokumentów API rozpoczyna asynchroniczną analizę dokumentu wejściowego pod kątem relacji między wykrytymi elementami, takimi jak pary klucz-wartość, tabele i elementy wyboru
Połączenia Pobierz analizę dokumentów API uzyskuje wyniki dla asynchronicznej operacji Amazon Text, która analizuje tekst w dokumencie

Moderuj filmy

Standardowym podejściem do moderacji treści wideo jest procedura próbkowania klatek. Wiele przypadków użycia nie wymaga sprawdzania każdej klatki i wystarczy wybrać jedną co 15–30 sekund. Próbkowane klatki wideo mogą ponownie wykorzystać maszynę stanów do moderowania obrazów z poprzedniej sekcji. Podobnie istniejący proces moderowania dźwięku może obsługiwać słyszalną zawartość pliku. Poniższy diagram ilustruje ten przepływ pracy.

Maszyna stanowa do moderowania plików wideo

Połączenia odwołać się API uruchamia funkcję Lambda i synchronicznie czeka na odpowiedź.

Załóżmy, że plik multimedialny to cały film z wieloma scenami. W takim przypadku możesz użyć Interfejs API segmentu rozpoznawania Amazon, złożony interfejs API do wykrywania wskazówek technicznych lub wykrywania strzałów. Następnie możesz użyć tych przesunięć czasowych do równoległego przetwarzania każdego segmentu z poprzednim wzorcem moderacji wideo, jak pokazano na poniższym diagramie.

Maszyna stanowa do moderowania dokumentów w formacie RTF

Interfejsy API działają w następujący sposób:

Połączenia Rozpocznij wykrywanie segmentacji API rozpoczyna asynchroniczne wykrywanie wykrywania segmentów w przechowywanym wideo
Połączenia Uzyskaj wykrywanie segmentacji API uzyskuje wyniki wykrywania segmentów z analizy wideo Amazon Rekognition rozpoczętej przez API StartSegmentDetection

Wyodrębnianie pojedynczych klatek z filmu nie wymaga wielokrotnego pobierania obiektu z Amazon S3. Naiwnym rozwiązaniem jest wczytanie filmu do pamięci i stronicowanie do końca. Ten wzór jest idealny do krótkich klipów i tam, gdzie oceny nie są wrażliwe na czas.

Inna strategia polega na jednokrotnym przeniesieniu pliku do: System plików Amazon Elastic (Amazon EFS), w pełni zarządzany, skalowalny, współdzielony system plików dla innych usług AWS, takich jak Lambda. Z Amazon EFS dla Lambda, możesz wydajnie dystrybuować dane w wywołaniach funkcji. Każde wywołanie skutecznie obsługuje niewielki fragment, odblokowując potencjał przetwarzania masowo równoległego i krótszego czasu przetwarzania.

Sprzątać

Po eksperymentowaniu z metodami w tym poście należy usunąć całą zawartość w zasobnikach S3, aby uniknąć przyszłych kosztów. Jeśli zaimplementowałeś te wzorce za pomocą udostępnionych zasobów obliczeniowych, takich jak Elastyczna chmura obliczeniowa Amazon (Amazon EC2) lub Usługa Amazon Elastic Container Service (Amazon ECS), powinieneś zatrzymać te instancje, aby uniknąć dalszych opłat.

Wnioski

Treści generowane przez użytkowników i ich wartość dla organizacji zajmujących się grami, mediami społecznościowymi, e-commerce oraz usługami finansowymi i zdrowotnymi będą nadal rosły. Mimo to start-upy i duże organizacje muszą tworzyć wydajne procesy moderacji, aby chronić użytkowników, informacje i biznes, przy jednoczesnym obniżeniu kosztów operacyjnych. To rozwiązanie pokazuje, w jaki sposób technologie AI, ML i NLP mogą skutecznie pomóc w moderowaniu zawartości na dużą skalę. Możesz dostosować usługi AWS AI do swoich potrzeb związanych z moderacją! Te w pełni zarządzane możliwości eliminują złożoność operacyjną. Ta elastyczność strategicznie integruje kontekstowe spostrzeżenia i ludzkie talenty z procesami moderacji.

Aby uzyskać dodatkowe informacje, zasoby i zacząć bezpłatnie już dziś, odwiedź Strona główna moderacji treści AWS.

O autorach

Nate'a Bachmeiera jest starszym architektem rozwiązań AWS, który nomadycznie eksploruje Nowy Jork, integrując jedną chmurę na raz. Specjalizuje się w migracji i modernizacji aplikacji. Poza tym Nate studiuje na pełny etat i ma dwójkę dzieci.

Ram Pathangi jest architektem rozwiązań w Amazon Web Services w rejonie Zatoki San Francisco. Pomógł klientom w rolnictwie, ubezpieczeniach, bankowości, handlu detalicznym, opiece zdrowotnej i naukach przyrodniczych, hotelarstwie i branżach hi-tech w prowadzeniu z powodzeniem ich firm w chmurze AWS. Specjalizuje się w bazach danych, analityce i uczeniu maszynowym.

Bainsy jest architektem rozwiązań w AWS skupiającym się na AI/ML. Jego pasją jest pomaganie klientom w innowacjach i osiąganiu celów biznesowych z wykorzystaniem sztucznej inteligencji i uczenia maszynowego. W wolnym czasie Roop lubi czytać i wędrować.