Amazon Rekognition 및 기타 콘텐츠 조정 서비스에서 콘텐츠 조정을 평가하기 위한 지표

플라톤에 의해 재발행

팔로워 : 0

콘텐츠 조정은 온라인에서 사용자 생성 콘텐츠를 심사하고 모니터링하는 프로세스입니다. 사용자와 브랜드 모두에게 안전한 환경을 제공하기 위해 플랫폼은 콘텐츠를 조정하여 플랫폼과 해당 잠재고객에게 적용되는 허용 가능한 행동에 대한 사전 설정된 지침에 해당하는지 확인해야 합니다.

플랫폼에서 콘텐츠를 조정하면 허용 가능한 UGC(사용자 생성 콘텐츠)를 만들고 다른 사용자와 공유할 수 있습니다. 플랫폼의 콘텐츠 조정 도구 및 절차에 따라 부적절하거나 유해하거나 금지된 행동을 실시간으로 방지, 차단 또는 제거할 수 있습니다.

당신이 사용할 수 Amazon Rekognition 콘텐츠 조정 부적절하거나 원하지 않거나 불쾌감을 주는 콘텐츠를 감지하고, 보다 안전한 사용자 경험을 제공하고, 광고주에게 브랜드 안전을 보장하고, 지역 및 글로벌 규정을 준수합니다.

이 게시물에서는 다양한 정확도 지표 측면에서 콘텐츠 조정 서비스의 성능 측면을 평가하는 데 필요한 핵심 요소에 대해 논의하고 Amazon Rekognition을 사용한 예를 제공합니다. 콘텐츠 조정 API.

무엇을 평가할 것인가

콘텐츠 조정 서비스를 평가할 때 다음 단계를 권장합니다.

사용 사례에서 API의 성능을 평가하려면 먼저 대표적인 테스트 데이터 세트를 준비해야 합니다. 다음은 몇 가지 고급 지침입니다.

수집 – 결국 Amazon Rekognition을 통해 실행하려는 데이터의 충분히 큰 무작위 샘플(이미지 또는 비디오)을 가져옵니다. 예를 들어 사용자 업로드 이미지를 검토하려는 경우 테스트를 위해 일주일 분량의 사용자 이미지를 사용할 수 있습니다. 처리하기에 너무 커지지 않으면서 충분한 이미지가 있는 세트(예: 1,000–10,000개의 이미지)를 선택하는 것이 좋지만 큰 세트가 더 좋습니다.
정의 – 애플리케이션의 콘텐츠 지침을 사용하여 Amazon Rekognition에서 탐지하려는 안전하지 않은 콘텐츠 유형을 결정합니다. 중재 개념 분류. 예를 들어 모든 유형의 노골적인 과도한 노출과 노골적인 폭력 또는 유혈을 감지하는 데 관심이 있을 수 있습니다.
주석 – 이제 기계 예측을 비교할 수 있도록 선택한 레이블을 사용하여 테스트 세트에 대해 사람이 생성한 ground truth가 필요합니다. 즉, 각 이미지에 선택한 개념의 존재 여부에 대한 주석이 추가됩니다. 이미지 데이터에 주석을 추가하려면 다음을 사용할 수 있습니다. 아마존 세이지 메이커 그라운드 진실 (GT) 이미지 주석을 관리합니다. 당신은 참조 할 수 있습니다 이미지 라벨링용 GT, 주석 통합 와 주석 출력 처리.

Amazon Rekognition으로 테스트 데이터 세트에 대한 예측 가져오기

다음으로 테스트 데이터 세트에 대한 예측을 얻으려고 합니다.

첫 번째 단계는 결과를 측정할 최소 신뢰 점수(50%와 같은 임계값)를 결정하는 것입니다. 기본 임계값은 50으로 설정되어 있으며, 이는 안전한 콘텐츠에 대해 너무 많은 잘못된 예측을 일으키지 않으면서 안전하지 않은 많은 콘텐츠를 검색하는 것 사이에서 적절한 균형을 제공합니다. 그러나 플랫폼에 비즈니스 요구 사항이 다를 수 있으므로 필요에 따라 이 신뢰도 임계값을 사용자 지정해야 합니다. 당신은 사용할 수 있습니다 MinConfidence API 요청의 매개변수는 콘텐츠 감지(리콜)와 감지 정확도(정밀도)의 균형을 유지합니다. 줄이면 MinConfidence, 대부분의 부적절한 콘텐츠를 감지할 수 있지만 실제로는 부적절한 콘텐츠도 선택할 수 있습니다. 증가하면 MinConfidence 감지된 모든 콘텐츠가 실제로 부적절하지만 일부 콘텐츠는 태그가 지정되지 않을 수 있습니다. 몇 가지 실험을 하는 것이 좋습니다. MinConfidence 데이터 세트의 값을 확인하고 데이터 도메인에 가장 적합한 값을 정량적으로 선택합니다.

그런 다음 Amazon Rekognition 조정 API(DetectModeration레이블).

이미지에서 모델 정확도 측정

사람이 생성한 정답 주석을 모델 예측과 비교하여 모델의 정확도를 평가할 수 있습니다. 모든 이미지에 대해 이 비교를 독립적으로 반복한 다음 전체 테스트 세트에 대해 집계합니다.

이미지별 결과 – 모델 예측은 쌍으로 정의됩니다. {label_name, confidence_score} (여기서 신뢰도 점수 >= 이전에 선택한 임계값). 각 이미지에 대해 정답(GT)과 일치하면 예측이 올바른 것으로 간주됩니다. 예측은 다음 옵션 중 하나입니다.
- 트루 포지티브(TP): 예측과 GT 모두 "안전하지 않음"
- 트루 네거티브(TN): 예측과 GT 모두 "안전"합니다.
- 오탐 영역 (FP): 예측에 "안전하지 않음"이 표시되지만 GT는 "안전함"입니다.
- 거짓 부정(FN): 예측은 "안전"하지만 GT는 "안전하지 않음"입니다.
모든 이미지에 대한 집계 결과 – 다음으로 이러한 예측을 데이터 세트 수준 결과로 집계할 수 있습니다.
- 위양성률(FPR) – 이것은 안전하지 않은 콘텐츠를 포함하는 것으로 모델에 의해 잘못 표시된 테스트 세트의 이미지 비율입니다: (FP): FP / (TN+FP).
- 위음성 비율(FNR) – 이것은 모델이 놓친 테스트 세트의 안전하지 않은 이미지의 비율입니다. (FN): FN / (FN+TP).
- 참양성률(TPR) – 리콜이라고도 하며 모델에 의해 올바르게 발견되거나 예측되는 안전하지 않은 콘텐츠(실제)의 백분율을 계산합니다. TP / (TP + FN) = 1 – FNR.
- Precision – TP / (TP+FP)의 총 예측 수에 대한 올바른 예측(안전하지 않은 콘텐츠)의 백분율을 계산합니다.

예제를 살펴보겠습니다. 테스트 세트에 10,000개의 이미지(안전한 이미지 9,950개와 안전하지 않은 이미지 50개)가 포함되어 있다고 가정해 보겠습니다. 이 모델은 9,800개의 이미지 중 9,950개를 안전한 것으로, 45개 중 50개의 이미지를 안전하지 않은 것으로 올바르게 예측합니다.

TP = 45
TN = 9800
FP = 9950 - 9800 = 150
FN = 50 - 45 = 5
RPF = 150 / (9950 + 150) = 0.015 = 1.5%
FNR = 5 / (5 + 45) = 0.1 = 10%
TPR/리콜 = 45 / (45 + 5) = 0.9 = 90%
Precision = 45 / (45 + 150) = 0.23 = 23%

비디오에서 모델 정확도 측정

비디오의 성능을 평가하려면 몇 가지 추가 단계가 필요합니다.

각 비디오에서 프레임의 하위 집합을 샘플링합니다. 초당 0.3–1 프레임(fps)의 속도로 균일하게 샘플링하는 것이 좋습니다. 예를 들어 비디오가 24fps로 인코딩되고 3초(0.3fps)마다 하나의 프레임을 샘플링하려는 경우 72프레임마다 하나를 선택해야 합니다.
Amazon Rekognition 콘텐츠 조정을 통해 이러한 샘플링된 프레임을 실행합니다. 이미 프레임을 샘플링하는 비디오 API(3fps 속도로)를 사용하거나 이미지 API를 사용할 수 있습니다. 이 경우 더 드문드문 샘플링할 수 있습니다. 비디오에 정보가 중복되는 경우 후자 옵션을 권장합니다(연속 프레임은 매우 유사함).
이전 섹션에서 설명한 대로 프레임당 결과를 계산합니다(이미지당 결과).
전체 테스트 세트에 대한 결과를 집계합니다. 비즈니스에 중요한 결과 유형에 따라 두 가지 옵션이 있습니다.
1. 프레임 수준 결과 – 이것은 샘플링된 모든 프레임을 독립적인 이미지로 간주하고 이전에 이미지(FPR, FNR, 리콜, 정밀도)에 대해 설명한 대로 정확하게 결과를 집계합니다. 일부 비디오가 다른 비디오보다 상당히 길면 전체 수에 더 많은 프레임을 기여하여 비교가 불균형하게 됩니다. 이 경우 초기 샘플링 전략을 동영상당 고정 프레임 수로 변경하는 것이 좋습니다. 예를 들어 비디오당 50–100개의 프레임을 균일하게 샘플링할 수 있습니다(비디오의 길이가 최소 2–3분이라고 가정).
2. 비디오 수준 결과 – 일부 사용 사례의 경우 모델이 비디오 프레임의 50% 또는 99%를 올바르게 예측할 수 있는지 여부는 중요하지 않습니다. 단일 프레임에서 하나의 잘못된 안전하지 않은 예측이라도 다운스트림 인간 평가를 트리거할 수 있으며 100% 정확한 예측이 있는 비디오만 진정으로 올바르게 간주됩니다. 이것이 사용 사례인 경우 각 비디오의 프레임에 대해 FPR/FNR/TPR을 계산하고 다음과 같이 비디오를 고려하는 것이 좋습니다.

동영상 ID	정확성	비디오별 분류
비디오 ID의 모든 프레임에 대해 집계된 결과	총 FP = 0 총 FN = 0	완벽한 예측
.	총 FP > 0	가양성(FP)
.	총 FN > 0	거짓 부정(FN)

각 비디오에 대해 독립적으로 계산한 후에는 앞에서 소개한 모든 측정항목을 계산할 수 있습니다.

잘못 신고(FP) 또는 누락된(FN) 동영상의 비율
정밀도 및 재현율

목표 대비 성과 측정

마지막으로 목표와 능력의 맥락에서 이러한 결과를 해석해야 합니다.

먼저 다음과 관련하여 비즈니스 요구 사항을 고려하십시오.

Data – 데이터(일일 볼륨, 데이터 유형 등) 및 안전하지 않은 콘텐츠와 안전한 콘텐츠의 배포에 대해 알아봅니다. 예를 들어 균형(50/50), 편향(10/90) 또는 매우 편향(1/99, 1%만 안전하지 않음을 의미)입니까? 이러한 분포를 이해하면 실제 메트릭 목표를 정의하는 데 도움이 될 수 있습니다. 예를 들어 안전한 콘텐츠의 수는 종종 안전하지 않은 콘텐츠(매우 왜곡됨)보다 XNUMX배 더 크므로 거의 이상 감지 문제가 됩니다. 이 시나리오 내에서 거짓 긍정의 수가 참 긍정의 수보다 많을 수 있으며 데이터 정보(분포 왜곡, 데이터 볼륨 등)를 사용하여 작업할 수 있는 FPR을 결정할 수 있습니다.
측정항목 목표 – 귀하의 비즈니스에서 가장 중요한 측면은 무엇입니까? FPR을 낮추는 것은 종종 더 높은 FNR을 대가로 치르게 되며(반대의 경우도 마찬가지임) 자신에게 맞는 올바른 균형을 찾는 것이 중요합니다. 안전하지 않은 콘텐츠를 놓칠 수 없다면 0%에 가까운 FNR(100% 재현율)을 원할 것입니다. 그러나 이렇게 하면 가장 많은 오탐지가 발생하므로 사후 예측 파이프라인을 기반으로 작업할 수 있는 대상(최대) FPR을 결정해야 합니다. 더 나은 균형을 찾고 FPR을 낮출 수 있도록 일정 수준의 위음성을 허용할 수 있습니다. 예를 들어 5% 대신 0% FNR을 수락하면 FPR을 2%에서 0.5%로 줄여 숫자를 상당히 줄일 수 있습니다. 플래그가 지정된 콘텐츠의.

다음으로, 플래그가 지정된 이미지를 구문 분석하는 데 사용할 메커니즘이 무엇인지 자문해 보십시오. API가 0% FPR 및 FNR을 제공하지 않을 수 있지만 여전히 엄청난 비용 절감과 확장을 가져올 수 있습니다(예: 이미지의 3%만 플래그 지정하면 콘텐츠의 97%를 이미 필터링한 것입니다). API를 플래그가 지정된 콘텐츠를 검토하는 인력과 같은 일부 다운스트림 메커니즘과 연결하면 목표(예: 플래그가 지정된 콘텐츠 0.5%)에 쉽게 도달할 수 있습니다. 이 페어링이 콘텐츠의 100%에 대해 사람이 검토하는 것보다 상당히 저렴하다는 점에 유의하십시오.

다운스트림 메커니즘을 결정했으면 지원할 수 있는 처리량을 평가하는 것이 좋습니다. 예를 들어, 일일 콘텐츠의 2%만 확인할 수 있는 인력이 있는 경우 콘텐츠 조정 API의 목표 목표는 2%의 플래그 비율(FPR+TPR)입니다.

마지막으로, 실측 정보 주석을 얻는 것이 너무 어렵거나 비용이 너무 많이 드는 경우(예: 데이터 볼륨이 너무 큰 경우) API에서 플래그가 지정된 소수의 이미지에 주석을 추가하는 것이 좋습니다. 이것은 FNR 평가를 허용하지 않지만(데이터에 거짓 음성이 포함되어 있지 않기 때문에) TPR 및 FPR을 계속 측정할 수 있습니다.

다음 섹션에서는 이미지 조정 평가를 위한 솔루션을 제공합니다. 비디오 중재 평가에 대해서도 유사한 접근 방식을 취할 수 있습니다.

솔루션 개요

다음 다이어그램은 테스트 데이터 세트에서 Amazon Rekognition 콘텐츠 조정의 성능을 평가하는 데 사용할 수 있는 다양한 AWS 서비스를 보여줍니다.

콘텐츠 중재 평가에는 다음 단계가 있습니다.

평가 데이터세트 업로드 아마존 단순 스토리지 서비스 (아마존 S3).
Ground Truth를 사용하여 Ground Truth 조정 레이블을 할당합니다.
몇 가지 임계값을 사용하여 Amazon Rekognition 사전 훈련 조정 API를 사용하여 예측 조정 레이블을 생성합니다. (예: 70%, 75% 및 80%).
참 양성, 참 음성, 거짓 양성 및 거짓 음성을 계산하여 각 임계값에 대한 성능을 평가합니다. 사용 사례에 대한 최적의 임계값을 결정합니다.
선택적으로 참 및 거짓 긍정을 기반으로 인력 규모를 조정하고 다음을 사용할 수 있습니다. 아마존 증강 AI (Amazon A2I) 플래그가 지정된 모든 콘텐츠를 수동 검토를 위해 지정된 인력에게 자동으로 보냅니다.

다음 섹션에서는 1, 2, 3단계에 대한 코드 조각을 제공합니다. 완전한 종단 간 소스 코드는 제공된 주피터 노트.

사전 조건

시작하기 전에 다음 단계를 완료하여 Jupyter 노트북을 설정하십시오.

노트북 인스턴스 생성 in 아마존 세이지 메이커.
노트북이 활성화되면 주피터 열기.
Jupyter 대시 보드에서 신제품, 선택 단말기.

터미널에서 다음 코드를 입력하십시오.

cd SageMaker
git clone https://github.com/aws-samples/amazon-rekognition-code-samples.git

이 게시물의 노트북을 엽니다. content-moderation-evaluation/Evaluating-Amazon-Rekognition-Content-Moderation-Service.ipynb.
평가 데이터세트 업로드 아마존 단순 스토리지 서비스 (아마존 S3).

이제 Jupyter 노트북에서 2~4단계를 진행합니다.

Ground Truth를 사용하여 중재 레이블 할당

Ground Truth에서 레이블을 할당하려면 다음 단계를 완료하십시오.

매니페스트 입력 파일 만들기 Ground Truth 작업에 대해 Amazon S3에 업로드합니다.

Ground Truth 레이블 지정 작업에 필요한 모든 조정 레이블이 포함된 레이블링 구성을 만듭니다. 사용할 수 있는 레이블 범주 수의 제한을 확인하려면 다음을 참조하십시오. 레이블 범주 할당량. 다음 코드 스니펫에서는 XNUMX개의 레이블을 사용합니다( Amazon Rekognition에서 사용되는 계층적 분류 자세한 내용은) 및 하나의 레이블(Safe_Content) 콘텐츠를 안전한 것으로 표시:

# customize CLASS_LIST to include all labels that can be used to classify sameple data, it's up to 10 labels
# In order to easily match image label with content moderation service supported taxonomy, 

CLASS_LIST = ["", "", "", "", "", "Safe_Content"]
print("Label space is {}".format(CLASS_LIST))

json_body = {"labels": [{"label": label} for label in CLASS_LIST]}
with open("class_labels.json", "w") as f:
    json.dump(json_body, f)

s3.upload_file("class_labels.json", BUCKET, EXP_NAME + "/class_labels.json")

Ground Truth 인력에게 레이블 지정 지침을 제공하는 사용자 지정 작업자 작업 템플릿을 생성하고 Amazon S3에 업로드합니다.
Ground Truth 레이블 작업은 이미지 분류(다중 레이블) 작업으로 정의됩니다. 지침 템플릿을 사용자 지정하는 지침은 소스 코드를 참조하십시오.
Ground Truth 작업을 완료하는 데 사용할 인력을 결정하십시오. 두 가지 옵션이 있습니다(자세한 내용은 소스 코드 참조).
1. 사용하십시오 개인 인력 조직에서 평가 데이터 세트에 레이블을 지정합니다.
2. 사용하십시오 공공 인력 평가 데이터 세트에 레이블을 지정합니다.

Ground Truth 레이블 지정 작업을 만들고 제출합니다. 다음 코드를 조정하여 구성할 수도 있습니다. 레이블 작업 매개변수 특정 비즈니스 요구 사항을 충족합니다. Ground Truth 작업 생성 및 구성에 대한 전체 지침은 소스 코드를 참조하십시오.

human_task_config = {
    "AnnotationConsolidationConfig": {
        "AnnotationConsolidationLambdaArn": acs_arn,
    },
    "PreHumanTaskLambdaArn": prehuman_arn,
    "MaxConcurrentTaskCount": 200,  # 200 images will be sent at a time to the workteam.
    "NumberOfHumanWorkersPerDataObject": 3,  # 3 separate workers will be required to label each image.
    "TaskAvailabilityLifetimeInSeconds": 21600,  # Your workteam has 6 hours to complete all pending tasks.
    "TaskDescription": task_description,
    "TaskKeywords": task_keywords,
    "TaskTimeLimitInSeconds": 180,  # Each image must be labeled within 3 minutes.
    "TaskTitle": task_title,
    "UiConfig": {
        "UiTemplateS3Uri": "s3://{}/{}/instructions.template".format(BUCKET, EXP_NAME),
    },
}

작업이 제출된 후 다음과 유사한 출력이 표시되어야 합니다.

Labeling job name is: ground-truth-cm-1662738403

평가 데이터 세트의 레이블 지정 작업이 성공적으로 완료될 때까지 기다린 후 다음 단계를 계속합니다.

Amazon Rekognition 조정 API를 사용하여 예측 조정 레이블을 생성합니다.

다음 코드 조각은 Amazon Rekognition을 사용하는 방법을 보여줍니다. 중재 API 중재 레이블을 생성하려면:

client=boto3.client('rekognition')
def moderate_image(photo, bucket):
    response = client.detect_moderation_labels(Image={'S3Object':{'Bucket':bucket,'Name':photo}})
    return len(response['ModerationLabels'])

성능 평가

먼저 평가 데이터 세트에 대한 Ground Truth 레이블 지정 작업 결과에서 정답 조정 레이블을 검색한 다음 Amazon Rekognition 조정 API를 실행하여 동일한 데이터 세트에 대한 예측 조정 레이블을 가져왔습니다. 이것은 이진 분류 문제(안전하지 않은 콘텐츠 대 안전하지 않은 콘텐츠)이므로 다음 메트릭을 계산합니다(안전하지 않은 콘텐츠가 양수라고 가정).

또한 해당 평가 측정항목을 계산합니다.

다음 코드 스니펫은 이러한 측정항목을 계산하는 방법을 보여줍니다.

FPR = FP / (FP + TN)
FNR = FN / (FN + TP)
Recall = TP / (TP + FN)
Precision = TP / (TP + FP)

결론

이 게시물은 다양한 정확도 메트릭 측면에서 콘텐츠 조정 서비스의 성능 측면을 평가하는 데 필요한 핵심 요소에 대해 설명합니다. 그러나 정확성은 특정 콘텐츠 조정 서비스를 선택할 때 평가해야 하는 많은 차원 중 하나일 뿐입니다. 서비스의 전체 기능 세트, 사용 편의성, 기존 통합, 개인 정보 보호 및 보안, 사용자 지정 옵션, 확장성 영향, 고객 서비스 및 가격 책정과 같은 다른 매개변수를 포함하는 것이 중요합니다. Amazon Rekognition의 콘텐츠 조정에 대해 자세히 알아보려면 다음을 방문하십시오. Amazon Rekognition 콘텐츠 조정.

저자 소개

아미 굽타 AWS의 수석 AI 서비스 솔루션 아키텍트입니다. 그는 규모에 맞게 잘 설계된 기계 학습 솔루션을 통해 고객을 지원하는 데 열정적입니다.

다비드 모돌로 AWS AI Labs의 응용 과학 관리자입니다. 그는 University of Edinburgh(UK)에서 컴퓨터 비전 박사 학위를 받았으며 실제 고객 문제에 대한 새로운 과학적 솔루션 개발에 열정적입니다. 일 외에는 여행을 즐기고 모든 종류의 스포츠, 특히 축구를 즐깁니다.

지안 우 AWS의 시니어 엔터프라이즈 솔루션 아키텍트입니다. 그는 6년 동안 AWS에서 모든 규모의 고객과 함께 일했습니다. 그는 클라우드 및 AI/ML 채택을 통해 고객이 더 빠르게 혁신하도록 돕는 데 열정을 쏟고 있습니다. AWS에 합류하기 전에 Jian은 소프트웨어 개발, 시스템 구현 및 인프라 관리에 10년 이상 집중했습니다. 일 외에도 그는 활동적인 생활을 하고 가족과 함께 시간을 보내는 것을 즐깁니다.

타임 스탬프 : 2022 년 10 월 5 일2022 년 10 월 6 일

타임 스탬프 : 1년 2023월 XNUMX일

Amazon Rekognition 및 기타 콘텐츠 조정 서비스에서 콘텐츠 조정을 평가하기 위한 지표

플라톤에 의해 재발행

무엇을 평가할 것인가

Amazon Rekognition으로 테스트 데이터 세트에 대한 예측 가져오기

이미지에서 모델 정확도 측정

비디오에서 모델 정확도 측정

목표 대비 성과 측정

솔루션 개요

사전 조건

Ground Truth를 사용하여 중재 레이블 할당

Amazon Rekognition 조정 API를 사용하여 예측 조정 레이블을 생성합니다.

성능 평가

결론

저자 소개

더보기 AWS 기계 학습

Amazon SageMaker 지리 공간 기능으로 농업 데이터 플랫폼 구축

Amazon SageMaker를 사용하여 ESM-2 단백질 언어 모델을 효율적으로 미세 조정 | 아마존 웹 서비스

Amazon Translate를 사용하여 실시간으로 문서 번역 | 아마존 웹 서비스

원클릭 Kubeflow on AWS 배포로 Amazon EKS 및 Amazon SageMaker에서 하이브리드 ML 워크플로 활성화

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정