AWS Managed AI Services를 사용한 콘텐츠 조정 설계 패턴

플라톤에 의해 재발행

팔로워 : 0

UGC(사용자 생성 콘텐츠)는 기하급수적으로 증가할 뿐만 아니라 콘텐츠와 온라인 커뮤니티를 안전하고 규정을 준수하도록 유지하기 위한 요구 사항과 비용도 기하급수적으로 증가하고 있습니다. 최신 웹 및 모바일 플랫폼은 신생 기업에서 대규모 조직에 이르기까지 소셜 기능을 통해 비즈니스를 활성화하고 사용자 참여를 유도합니다. 온라인 커뮤니티 구성원은 이미지, 비디오, 텍스트 및 오디오를 자유롭게 사용하고 제공할 수 있는 안전하고 포괄적인 경험을 기대합니다. 계속 증가하는 UGC의 양, 다양성 및 복잡성으로 인해 기존의 인간 중재 워크플로는 사용자를 보호하기 위해 확장하기가 어렵습니다. 이러한 제한으로 인해 고객은 사용자와 비즈니스에 불필요한 위험을 초래하는 비효율적이고 비용이 많이 드는 사후 대응 완화 프로세스를 수행해야 합니다. 그 결과 사용자의 참여를 차단하고 커뮤니티 및 비즈니스 목표에 부정적인 영향을 미치는 열악하고 유해하며 포괄적이지 않은 커뮤니티 경험이 발생합니다.

솔루션은 인공 지능(AI), 기계 학습(ML), 딥 러닝(DL) 및 자연어 처리(NLP) 기술에 의존하는 확장 가능한 콘텐츠 조정 워크플로입니다. 이러한 구성은 번역, 전사, 인식, 감지, 마스킹, 수정 및 전략적으로 인재를 중재 워크플로에 도입하여 정확성과 프로세스 효율성을 높이고 운영 비용을 낮추면서 사용자를 안전하게 유지하고 참여를 유지하는 데 필요한 작업을 실행합니다.

이 게시물은 AWS AI 서비스를 사용하여 콘텐츠 조정 워크플로를 구축하는 방법을 검토합니다. 자동화된 콘텐츠 조정이 소셜 미디어, 게임, 전자 상거래 및 광고 산업에 가져오는 비즈니스 요구 사항, 영향 및 비용 절감에 대해 자세히 알아보려면 다음을 참조하십시오. AWS AI 서비스를 활용하여 콘텐츠 조정 및 규정 준수 자동화.

솔루션 개요

이러한 워크플로를 구현하기 위해 ML에 대한 전문 지식이 필요하지 않으며 이러한 패턴을 특정 비즈니스 요구에 맞게 조정할 수 있습니다! AWS는 데이터 과학 팀 없이 운영 복잡성과 획일화된 무거운 작업을 제거하는 완전 관리형 서비스를 통해 이러한 기능을 제공합니다.

이 게시물에서는 고객이 텍스트, 오디오, 이미지, 비디오 및 PDF 파일을 사용하여 제품에 대해 논의하고 검토하는 공간을 효율적으로 조정하는 방법을 보여줍니다. 다음 다이어그램은 솔루션 아키텍처를 보여줍니다.

사전 조건

기본적으로 이러한 패턴은 사용한 만큼만 비용을 지불하는 서버리스 방법론을 보여줍니다. 다음과 같은 컴퓨팅 리소스에 대해 계속 비용을 지불합니다. AWS 파게이트 컨테이너 및 스토리지와 같은 아마존 단순 스토리지 서비스 (Amazon S3), 해당 리소스를 삭제할 때까지. 논의된 AWS AI 서비스도 작업당 소비 요금 모델을 따릅니다.

비프로덕션 환경은 계정의 적격성을 가정하여 프리 티어 내에서 이러한 각 패턴을 테스트할 수 있습니다.

보통의 일반 텍스트

먼저 일반 텍스트에 대한 콘텐츠 조정을 구현해야 합니다. 이 절차는 보다 정교한 미디어 유형의 기초 역할을 하며 두 가지 고급 단계를 수반합니다.

문장을 번역하다.
텍스트를 분석합니다.

글로벌 고객은 모국어로 소셜 플랫폼과 협업하기를 원합니다. 디자인 팀이 각 언어에 대한 워크플로 또는 단계를 구성해야 하기 때문에 이러한 기대치를 충족하면 복잡성이 추가될 수 있습니다. 대신 다음을 사용할 수 있습니다. 아마존 번역 70개 이상의 지역에서 15개 이상의 언어 및 변형으로 텍스트를 변환합니다. 이 기능을 사용하면 단일 언어에 대한 분석 규칙을 작성하고 해당 규칙을 글로벌 온라인 커뮤니티에 적용할 수 있습니다.

Amazon Translate는 빠르고 고품질이며 경제적이며 사용자 지정 가능한 언어 번역을 제공하는 신경 기계 번역 서비스입니다. 이를 워크플로에 통합하여 지배적인 언어를 감지하고 문장을 번역하다. 다음 다이어그램은 워크플로를 보여줍니다.

텍스트 정규화를 위한 상태 머신

API는 다음과 같이 작동합니다.

XNUMXD덴탈의 주요 언어 감지 API는 입력 텍스트의 주요 언어를 결정합니다. Amazon Comprehend가 감지할 수 있는 언어 목록은 다음을 참조하십시오. 지배적인 언어.
XNUMXD덴탈의 번역텍스트 API는 선택 사항을 사용하여 소스 언어의 입력 텍스트를 대상 언어로 번역합니다. 욕설 마스킹. 사용 가능한 언어 및 언어 코드 목록은 다음을 참조하세요. 지원되는 언어 및 언어 코드.
XNUMXD덴탈의 실행 시작 와 StartSyncExecution API는 AWS 단계 함수 상태 머신.

다음으로, NLP를 사용하여 핵심 문구 검색, 감정 분석, 개인 식별 정보(PII) 감지와 같은 텍스트의 연결을 찾을 수 있습니다. 아마존 이해 API는 이러한 귀중한 통찰력을 추출하여 사용자 정의 함수 핸들러에 전달합니다.

내부에서 해당 핸들러 실행 AWS 람다 함수는 서버나 클러스터에 대해 생각하지 않고 코드를 탄력적으로 확장합니다. 또는 다음을 사용하여 Amazon Comprehend의 통찰력을 처리할 수 있습니다. 마이크로서비스 아키텍처 패턴. 런타임에 관계없이 코드는 텍스트 구문 분석이 아니라 결과 사용에 중점을 둡니다.

다음 다이어그램은 워크플로를 보여줍니다.

텍스트 중재를 위한 상태 머신

Lambda 함수는 다음 API와 상호 작용합니다.

XNUMXD덴탈의 엔티티 감지 API는 텍스트에서 사람 및 장소와 같은 실제 개체의 이름을 검색하고 그룹화합니다. 사용자 지정 어휘를 사용하여 부적절하고 비즈니스 관련 엔터티 유형을 수정할 수 있습니다.
XNUMXD덴탈의 감정 감지 API는 텍스트의 전반적인 감정을 긍정적, 부정적 또는 중립적으로 식별합니다. 산업별 관심 상황을 인식하고 텍스트의 개념적 의미를 추출하도록 사용자 정의 분류자를 훈련할 수 있습니다.
XNUMXD덴탈의 DetectPII엔티티 API는 주소, 은행 계좌 번호 또는 전화 번호와 같은 텍스트에서 PII를 식별합니다. 출력에는 PII 엔터티의 유형과 해당 위치가 포함됩니다.

중간 오디오 파일

오디오 파일을 조정하려면 파일을 텍스트로 변환한 다음 분석해야 합니다. 이 프로세스에는 개별 파일(동기식)을 처리하는지 아니면 라이브 오디오 스트림(비동기식)을 처리하는지에 따라 두 가지 변형이 있습니다. 동기식 워크플로는 호출자가 하나의 완전한 응답을 받는 일괄 처리에 이상적입니다. 대조적으로, 오디오 스트림은 여러 필사본 결과로 주기적 샘플링이 필요합니다.

아마존 전사 ML 모델을 사용하여 오디오를 텍스트로 변환하는 자동 음성 인식 서비스입니다. 다음을 통해 동기식 워크플로에 통합할 수 있습니다. 전사 작업 시작 그리고 주기적으로 작업 상태 쿼리. 작업이 완료되면 이전 단계의 일반 텍스트 조정 워크플로를 사용하여 출력을 분석할 수 있습니다.

다음 다이어그램은 워크플로를 보여줍니다.

오디오 파일을 기록하기 위한 상태 머신

API는 다음과 같이 작동합니다.

XNUMXD덴탈의 StartTranscription작업 API는 음성을 텍스트로 변환하는 비동기 작업을 시작합니다.
XNUMXD덴탈의 GetTranscription작업 API는 트랜스크립션 작업에 대한 정보를 반환합니다. 작업 상태를 보려면 다음을 확인하십시오. TranscriptionJobStatus 필드. 상태 속성이 다음과 같은 경우 COMPLETED, 에 지정된 위치에서 결과를 찾을 수 있습니다. TranscriptFileUri 필드. 콘텐츠 수정을 활성화하면 수정된 스크립트가 다음 위치에 나타납니다. RedactedTranscriptFileUri.

라이브 오디오 스트림에는 실시간 전달 모델을 지원하는 다른 패턴이 필요합니다. 스트리밍에는 영화, 음악 및 팟캐스트와 같은 미리 녹음된 미디어와 라이브 뉴스 방송과 같은 실시간 미디어가 포함될 수 있습니다. 다음을 사용하여 오디오 청크를 즉시 전사할 수 있습니다. Amazon Transcribe 스트리밍 HTTP/2 및 WebSockets 프로토콜을 통해. 서비스에 청크를 게시한 후 하나 이상의 전사 결과 개체 부분 및 전체 전사 세그먼트를 설명합니다. 조정이 필요한 세그먼트는 이전 섹션의 일반 텍스트 워크플로를 재사용할 수 있습니다. 다음 다이어그램은 이 프로세스를 보여줍니다.

실시간 오디오 스트림 조정을 위한 흐름도

XNUMXD덴탈의 스트리밍 시작 전사 API는 오디오가 Amazon Transcribe로 스트리밍되는 양방향 HTTP/2 스트림을 시작하여 트랜스크립션 결과를 애플리케이션으로 스트리밍합니다.

중간 이미지 및 사진

이미지를 조정하려면 이미지 및 사진 콘텐츠에서 과도한 노출, 외설, 폭력 및 기타 범주가 포함된 부적절하거나 원치 않거나 불쾌감을 주는 콘텐츠를 감지해야 합니다.

아마존 인식 ML 전문 지식 없이도 이미지 및 비디오 조정 워크플로를 간소화하거나 자동화할 수 있습니다. Amazon Rekognition은 조정 관련 레이블의 계층적 분류를 반환합니다. 이 정보를 통해 표준 및 관행, 사용자 안전 및 규정 준수 지침에 따라 세분화된 비즈니스 규칙을 쉽게 정의할 수 있습니다. 이러한 기능을 사용하는 데 ML 경험이 필요하지 않습니다. Amazon Rekognition은 이미지의 텍스트를 감지하고 읽고 찾은 각 단어에 대해 경계 상자를 반환할 수 있습니다. Amazon Rekognition은 영어, 아랍어, 러시아어, 독일어, 프랑스어, 이탈리아어, 포르투갈어 및 스페인어로 작성된 텍스트 감지를 지원합니다!

기계 예측을 사용하여 특정 조정 작업을 완전히 자동화할 수 있습니다. 이 기능을 통해 중재자는 상위 작업에 집중할 수 있습니다. 또한 Amazon Rekognition은 ML을 사용하여 수백만 개의 이미지 또는 수천 개의 비디오를 빠르게 검토하고 추가 조치가 필요한 자산의 하위 집합에 플래그를 지정할 수 있습니다. 사전 필터링은 인간 팀이 중재하는 콘텐츠의 양을 줄이는 동시에 포괄적이면서도 비용 효율적인 중재 범위를 제공하는 데 도움이 됩니다.

다음 다이어그램은 워크플로를 보여줍니다.

이미지 조정을 위한 상태 머신

API는 다음과 같이 작동합니다.

XNUMXD덴탈의 DetectModeration레이블 API는 지정된 JPEG 또는 PNG 형식 이미지에서 안전하지 않은 콘텐츠를 감지합니다. DetectModerationLabels를 사용하여 요구 사항에 따라 사진을 조정하십시오. 예를 들어 과도한 노출이 포함된 이미지는 필터링하지만 선정적인 콘텐츠가 포함된 이미지는 필터링하지 않을 수 있습니다.
XNUMXD덴탈의 텍스트 감지 API는 입력 이미지에서 텍스트를 감지하고 이를 기계가 읽을 수 있는 텍스트로 변환합니다.

서식 있는 텍스트 문서 중간

다음으로 아마존 텍사스 스캔한 문서에서 손으로 쓴 텍스트와 데이터를 추출합니다. 이 프로세스는 문서 분석 시작 Microsoft Word 및 Adobe PDF 파일을 구문 분석하는 작업입니다. 다음을 통해 작업 진행 상황을 모니터링할 수 있습니다. 문서 분석 가져오기 액션.

분석 결과는 문서에서 발견되지 않은 각 페이지, 단락, 표 및 키-값 쌍을 지정합니다. 예를 들어, 의료 제공자가 청구 설명 필드에서만 환자 이름을 마스킹해야 한다고 가정합니다. 이 경우 분석 보고서는 지능형 문서 처리 파이프라인 특정 데이터 필드를 조정하고 수정합니다. 다음 다이어그램은 파이프라인을 보여줍니다.

서식 있는 텍스트 문서를 조정하기 위한 상태 머신

API는 다음과 같이 작동합니다.

XNUMXD덴탈의 문서 분석 시작 API는 키-값 쌍, 테이블 및 선택 요소와 같은 감지된 항목 간의 관계에 대한 입력 문서의 비동기 분석을 시작합니다.
XNUMXD덴탈의 문서 분석 가져오기 API는 문서의 텍스트를 분석하는 Amazon Textract 비동기 작업에 대한 결과를 가져옵니다.

중간 비디오

비디오 콘텐츠 조정에 대한 표준 접근 방식은 프레임 샘플링 절차를 사용하는 것입니다. 많은 사용 사례에서 모든 프레임을 확인할 필요는 없으며 15-30초마다 하나씩 선택하면 충분합니다. 샘플링된 비디오 프레임은 상태 머신을 재사용하여 이전 섹션의 이미지를 조정할 수 있습니다. 유사하게, 오디오를 조정하는 기존 프로세스는 파일의 가청 콘텐츠를 지원할 수 있습니다. 다음 다이어그램은 이 워크플로를 보여줍니다.

비디오 파일 조정을 위한 상태 머신

XNUMXD덴탈의 호출 API는 Lambda 함수를 실행하고 동기식으로 응답을 기다립니다.

미디어 파일이 여러 장면이 있는 전체 영화라고 가정합니다. 그런 경우에는 다음을 사용할 수 있습니다. Amazon Rekognition 세그먼트 API, 기술적 단서 또는 샷 감지를 감지하기 위한 복합 API. 다음으로, 다음 다이어그램과 같이 이러한 시간 오프셋을 사용하여 이전 비디오 조정 패턴으로 각 세그먼트를 병렬 처리할 수 있습니다.

서식 있는 텍스트 문서를 조정하기 위한 상태 머신

API는 다음과 같이 작동합니다.

XNUMXD덴탈의 분할감지 시작 API는 저장된 비디오에서 세그먼트 감지의 비동기 감지를 시작합니다.
XNUMXD덴탈의 GetSegmentationDetection API는 StartSegmentDetection API에서 시작한 Amazon Rekognition Video 분석의 세그먼트 감지 결과를 가져옵니다.

영화에서 개별 프레임을 추출하기 위해 Amazon S3에서 객체를 여러 번 가져올 필요가 없습니다. 순진한 솔루션에는 비디오를 메모리로 읽고 끝까지 페이지를 매기는 것이 포함됩니다. 이 패턴은 짧은 클립과 평가가 시간에 민감하지 않은 경우에 이상적입니다.

또 다른 전략은 파일을 다음 위치로 한 번 이동하는 것입니다. 아마존 탄성 파일 시스템 (Amazon EFS), Lambda와 같은 다른 AWS 서비스를 위한 확장 가능한 완전 관리형 공유 파일 시스템. 와 함께 Lambda용 Amazon EFS, 함수 호출 간에 데이터를 효율적으로 배포할 수 있습니다. 각 호출은 작은 청크를 효율적으로 처리하여 대규모 병렬 처리 및 더 빠른 처리 시간의 가능성을 열어줍니다.

정리

이 게시물의 방법을 실험한 후에는 향후 비용을 피하기 위해 S3 버킷의 모든 콘텐츠를 삭제해야 합니다. 다음과 같은 프로비저닝된 컴퓨팅 리소스로 이러한 패턴을 구현한 경우 아마존 엘라스틱 컴퓨트 클라우드 (Amazon EC2) 또는 Amazon 탄력적 컨테이너 서비스 (Amazon ECS), 추가 요금을 피하기 위해 해당 인스턴스를 중지해야 합니다.

결론

사용자 생성 콘텐츠와 게임, 소셜 미디어, 전자 상거래, 금융 및 의료 서비스 조직에 대한 가치는 계속해서 성장할 것입니다. 그러나 신생 기업과 대규모 조직은 운영 비용을 낮추면서 사용자, 정보 및 비즈니스를 보호하기 위해 효율적인 중재 프로세스를 만들어야 합니다. 이 솔루션은 AI, ML 및 NLP 기술이 대규모 콘텐츠를 효율적으로 조정하는 데 어떻게 도움이 되는지 보여줍니다. AWS AI 서비스를 사용자 지정하여 특정 조정 요구 사항을 해결할 수 있습니다! 이러한 완전 관리형 기능은 운영 복잡성을 제거합니다. 이러한 유연성은 상황에 맞는 통찰력과 인재를 중재 프로세스에 전략적으로 통합합니다.

추가 정보, 리소스 및 지금 무료로 시작하려면 다음을 방문하십시오. AWS 콘텐츠 조정 홈페이지.

저자에 관하여

네이트 바흐마이어 한 번에 하나의 클라우드 통합으로 뉴욕을 유목민으로 탐색하는 AWS 수석 솔루션 아키텍트입니다. 그는 애플리케이션 마이그레이션 및 현대화를 전문으로 합니다. 이 외에도 Nate는 풀 타임 학생이며 두 명의 자녀가 있습니다.

램 파탕이 샌프란시스코 베이 지역에 있는 Amazon Web Services의 솔루션 아키텍트입니다. 그는 농업, 보험, 은행, 소매, 의료 및 생명 과학, 숙박, 하이테크 업종의 고객이 AWS 클라우드에서 성공적으로 비즈니스를 운영할 수 있도록 도왔습니다. 그는 데이터베이스, 분석 및 기계 학습을 전문으로 합니다.

루프 베인 AI/ML에 중점을 둔 AWS의 솔루션 아키텍트입니다. 그는 인공 지능과 기계 학습을 사용하여 고객이 혁신하고 비즈니스 목표를 달성하도록 돕는 데 열정을 쏟고 있습니다. 여가 시간에 루프는 독서와 하이킹을 즐깁니다.

타임 스탬프 : 2022 년 5 월 9 일

타임 스탬프 : 25년 2023월 XNUMX일

플라톤에 의해 재발행

Amazon SageMaker Canvas 및 Amazon QuickSight로 지능적인 의사 결정 지원

티켓 처리를 위해 ServiceNow를 Amazon Lex 챗봇과 통합

풍부한 인적 피드백을 통해 학습하여 LLM에서 멀티홉 추론을 개선합니다.

대규모 모델 추론 Deep Learning Containers 및 DeepSpeed를 사용하여 Amazon SageMaker에 BLOOM-176B 및 OPT-30B 배포

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정

솔루션 개요

사전 조건

보통의 일반 텍스트

중간 오디오 파일

중간 이미지 및 사진

서식 있는 텍스트 문서 중간

중간 비디오

정리

결론

저자에 관하여

더보기 AWS 기계 학습

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정