Metrics For Evaluating Content Moderation In Amazon Rekognition And Other Content Moderation Services

Újra kiadta Platón

Követő: 0

A tartalommoderálás a felhasználók által generált online tartalmak szűrésének és nyomon követésének folyamata. Annak érdekében, hogy biztonságos környezetet biztosítsanak mind a felhasználók, mind a márkák számára, a platformoknak moderálniuk kell a tartalmat annak biztosítása érdekében, hogy az megfeleljen a platformra és a közönségre jellemző, az elfogadható viselkedésre vonatkozó előre meghatározott irányelveknek.

Amikor egy platform moderálja a tartalmat, elfogadható felhasználó által generált tartalom (UGC) hozható létre és osztható meg más felhasználókkal. A nem megfelelő, mérgező vagy tiltott viselkedések megelőzhetők, valós időben blokkolhatók vagy utólag eltávolíthatók, attól függően, hogy a platform milyen tartalommoderáló eszközöket és eljárásokat alkalmaz.

Használhatja Amazon Rekognition tartalommoderálás a nem megfelelő, nem kívánt vagy sértő tartalom észlelése, biztonságosabb felhasználói élmény megteremtése, a márkabiztonsági garanciák biztosítása a hirdetők számára, valamint a helyi és globális előírások betartása.

Ebben a bejegyzésben megvitatjuk azokat a kulcsfontosságú elemeket, amelyek szükségesek a tartalommoderálási szolgáltatás teljesítményének értékeléséhez a különböző pontossági mutatók tekintetében, és egy példát mutatunk be az Amazon Rekognition használatával. Tartalommoderációs API-k.

Mit kell értékelni

A tartalommoderálási szolgáltatás értékelésekor a következő lépéseket javasoljuk.

Mielőtt értékelné az API teljesítményét a használati eseteken, el kell készítenie egy reprezentatív tesztadatkészletet. Íme néhány magas szintű irányelv:

Gyűjtemény – Vegyünk egy elég nagy véletlenszerű mintát (képeket vagy videókat) azokból az adatokból, amelyeket végül futtatni szeretnénk az Amazon Rekognition szolgáltatáson keresztül. Például, ha azt tervezi, hogy moderálja a felhasználók által feltöltött képeket, akkor egy hétnyi felhasználói képet készíthet a teszthez. Javasoljuk, hogy olyan készletet válasszon, amelyben elegendő kép van anélkül, hogy túl nagy lenne a feldolgozáshoz (például 1,000–10,000 XNUMX kép), bár a nagyobb készletek jobbak.
Meghatározás – Használja az alkalmazás tartalmi irányelveit annak eldöntésére, hogy milyen típusú nem biztonságos tartalmat szeretne észlelni az Amazon Rekognitionból moderálás fogalmak taxonómia. Például érdekelheti a nyílt meztelenség és a megnyilvánuló erőszak vagy vérzés minden típusának észlelése.
Jegyzet – Most szüksége van egy ember által generált alapigazságra a tesztkészlethez a kiválasztott címkék használatával, hogy összehasonlíthassa a gépi előrejelzéseket velük. Ez azt jelenti, hogy minden képhez megjegyzés tartozik az Ön által választott fogalmak meglétére vagy hiányára. A képadatok kommentálásához használhatja Amazon SageMaker Ground Truth (GT) a képannotáció kezeléséhez. Lehet hivatkozni GT képcímkézéshez, a megjegyzések összevonása és a az annotáció kimenetének feldolgozása.

Az Amazon Rekognition segítségével előrejelzéseket kaphat tesztadatkészletéről

Ezután előrejelzéseket szeretne kapni a tesztadatkészlettel kapcsolatban.

Az első lépés az, hogy meghatározza azt a minimális megbízhatósági pontszámot (egy küszöbértéket, például 50%), amelynél az eredményeket mérni kívánja. Az alapértelmezett küszöbérték 50, ami jó egyensúlyt kínál a nagy mennyiségű nem biztonságos tartalom lekérése között anélkül, hogy túl sok téves előrejelzést adnánk a biztonságos tartalomra vonatkozóan. Az Ön platformja azonban eltérő üzleti igényekkel rendelkezhet, ezért szükség szerint testre kell szabnia ezt a megbízhatósági küszöböt. Használhatja a MinConfidence paramétert az API-kérelmeiben, hogy egyensúlyba hozza a tartalom észlelését (visszahívás) és az észlelés pontosságát (pontosság). Ha csökkenti MinConfidence, akkor valószínűleg észleli a legtöbb nem megfelelő tartalmat, de valószínűleg olyan tartalmat is felvesz, amely valójában nem helyénvaló. Ha növeli MinConfidence valószínűleg biztos lehet benne, hogy az összes észlelt tartalom valóban nem megfelelő, de előfordulhat, hogy egyes tartalmak nincsenek megcímkézve. Javasoljuk, hogy próbáljon ki néhányat MinConfidence értékeket az adatkészletében, és mennyiségileg kiválasztja a legjobb értéket az adattartományhoz.

Ezután futtassa a tesztkészlet minden mintáját (képet vagy videót) az Amazon Rekognition moderációs API-n keresztül (DetectModerationLabels).

Mérje meg a modell pontosságát a képeken

A modell pontosságát úgy értékelheti, hogy összehasonlítja az ember által generált alapigazság-annotációkat a modell előrejelzéseivel. Ezt az összehasonlítást minden képre külön-külön megismételjük, majd összesítjük a teljes tesztkészleten:

Képenkénti eredmények – A modell előrejelzése a pár {label_name, confidence_score} (ahol a megbízhatósági pontszám >= a korábban kiválasztott küszöb). Minden egyes kép esetében a jóslat akkor tekinthető helyesnek, ha megfelel az alapigazságnak (GT). Az előrejelzés a következő lehetőségek egyike:
- Valódi pozitív (TP): az előrejelzés és a GT is „nem biztonságos”
- Valódi negatív (TN): az előrejelzés és a GT is „biztonságos”
- álpozitív (FP): az előrejelzés szerint „nem biztonságos”, de a GT „biztonságos”
- Hamis negatív (FN): az előrejelzés „biztonságos”, de a GT „nem biztonságos”
Összesített eredmények az összes képre vonatkozóan – Ezután ezeket az előrejelzéseket adatkészlet-szintű eredményekké összesítheti:
- Hamis pozitív arány (FPR) – Ez a tesztkészletben található azon képek százalékos aránya, amelyeket a modell tévesen jelölt meg nem biztonságos tartalomként: (FP): FP / (TN+FP).
- Hamis negatív arány (FNR) – A tesztkészletben a modell által kihagyott nem biztonságos képek százalékos aránya: (FN): FN / (FN+TP).
- Valódi pozitív arány (TPR) – Visszahívásnak is nevezik, ez kiszámítja a nem biztonságos tartalom (az alapigazság) százalékos arányát, amelyet a modell helyesen fedez fel vagy jósol: TP / (TP + FN) = 1 – FNR.
- Pontosság – Kiszámítja a helyes előrejelzések százalékos arányát (nem biztonságos tartalom) az előrejelzések teljes számához viszonyítva: TP / (TP+FP).

Nézzünk egy példát. Tegyük fel, hogy a tesztkészlet 10,000 9,950 képet tartalmaz: 50 9,800 biztonságos és 9,950 nem biztonságos. A modell helyesen jósol 45 képből 50-at biztonságosnak és XNUMX-ből XNUMX-öt nem biztonságosnak:

TP = 45
TN = 9800
FP = 9950 – 9800 = 150
FN = 50 – 45 = 5
RPF = 150 / (9950 + 150) = 0.015 = 1.5%
FNR = 5 / (5 + 45) = 0.1 = 10%
TPR/visszahívás = 45 / (45 + 5) = 0.9 = 90%
Pontosság = 45 / (45 + 150) = 0.23 = 23%

Mérje meg a modell pontosságát a videókon

Ha szeretné értékelni a teljesítményt a videókon, néhány további lépésre van szükség:

Minden videóból vegyél mintát a képkockák egy részhalmazából. Javasoljuk az egységes mintavételezést 0.3–1 képkocka/másodperc (fps) sebességgel. Például, ha egy videó 24 képkocka/mp-es kódolású, és 3 másodpercenként (0.3 képkocka/másodpercenként) szeretne mintát venni egy képkockából, akkor 72 képkockánként ki kell választania egyet.
Futtassa ezeket a mintakockákat az Amazon Rekognition tartalommoderálásán keresztül. Használhatja videó API-nkat, amely már mintát vesz a képkockákról (3 fps sebességgel), vagy használhatja a kép API-t, ebben az esetben ritkábban szeretne mintát venni. Az utóbbi lehetőséget ajánljuk, tekintettel a videókban található információk redundanciájára (az egymást követő képkockák nagyon hasonlóak).
Számítsa ki a képkockánkénti eredményeket az előző részben leírtak szerint (képenkénti eredmények).
A teljes tesztkészlet összesített eredményei. Itt két lehetőség közül választhat, attól függően, hogy milyen típusú eredmény számít vállalkozása számára:
1. Képkocka szintű eredmények – Ez az összes mintavételezett képkockát független képnek tekinti, és az eredményeket pontosan úgy összesíti, ahogy korábban a képeknél kifejtettük (FPR, FNR, visszahívás, pontosság). Ha egyes videók jóval hosszabbak, mint mások, több képkockával járulnak hozzá a teljes számhoz, így az összehasonlítás kiegyensúlyozatlanná válik. Ebben az esetben javasoljuk, hogy módosítsa a kezdeti mintavételi stratégiát egy rögzített számú képkockára videónként. Például egységesen 50–100 képkockát vehet mintát videónként (feltéve, hogy a videók legalább 2–3 percesek).
2. Videó szintű eredmények – Bizonyos felhasználási esetekben nem mindegy, hogy a modell képes-e helyesen megjósolni a videó képkockáinak 50%-át vagy 99%-át. Még egyetlen hibás, nem biztonságos előrejelzés egyetlen képkockán is kiválthat egy downstream emberi értékelést, és csak a 100%-ban helyes előrejelzéssel rendelkező videók számítanak igazán helyesnek. Ha ez az Ön felhasználási esete, javasoljuk, hogy számolja ki az FPR/FNR/TPR értéket az egyes videók képkockái között, és vegye figyelembe a videót az alábbiak szerint:

Videóazonosító	Pontosság	Videónkénti kategorizálás
A Video ID összes képkockájára összesített eredmények	Összes FP = 0 Összes FN = 0	Tökéletes előrejelzések
.	Összes FP > 0	Hamis pozitív (FP)
.	Összes FN > 0	Hamis negatív (FN)

Miután ezeket az egyes videókhoz külön-külön kiszámolta, kiszámíthatja az összes korábban bemutatott mérőszámot:

A helytelenül megjelölt (FP) vagy kihagyott (FN) videók százalékos aránya
Precizitás és visszahívás

Mérje meg a teljesítményt a gólokhoz képest

Végül ezeket az eredményeket céljainak és képességeinek összefüggésében kell értelmeznie.

Először is mérlegelje üzleti igényeit a következők tekintetében:

dátum – Ismerje meg adatait (napi mennyiség, adattípus stb.) és a nem biztonságos vagy biztonságos tartalmak terjesztését. Például kiegyensúlyozott (50/50), ferde (10/90) vagy nagyon ferde (1/99, vagyis csak 1% nem biztonságos)? Az ilyen eloszlás megértése segíthet meghatározni a tényleges metrikacélokat. Például a biztonságos tartalmak száma gyakran egy nagyságrenddel nagyobb, mint a nem biztonságos tartalom (nagyon ferde), ami szinte anomália-észlelési problémát jelent. Ebben a forgatókönyvben előfordulhat, hogy a hamis pozitívak száma meghaladja a valódi pozitívak számát, és felhasználhatja az adatinformációit (eloszlási ferdeség, adatmennyiség stb.) annak eldöntésére, hogy milyen FPR-rel dolgozhat.
Metrikus célok – Melyek a vállalkozásod legkritikusabb szempontjai? Az FPR csökkentése gyakran magasabb FNR árába kerül (és fordítva), és fontos megtalálni az Ön számára megfelelő egyensúlyt. Ha nem hagyhat ki egyetlen nem biztonságos tartalmat sem, akkor valószínűleg közel 0%-os FNR-t (100%-os visszahívást) szeretne. Ez azonban a legtöbb téves pozitív eredményt fogja okozni, és az utólagos előrejelzési folyamat alapján el kell döntenie a cél (maximális) FPR-t, amellyel dolgozni tud. Érdemes megengedni bizonyos szintű téves negatív értékeket, hogy jobb egyensúlyt találhassunk, és csökkentsük az FPR-t: például 5%-os FNR elfogadása 0% helyett 2%-ról 0.5%-ra csökkentheti az FPR-t, jelentősen csökkentve a számot. megjelölt tartalomból.

Ezután tegye fel magának a kérdést, hogy milyen mechanizmusokat fog használni a megjelölt képek elemzéséhez. Annak ellenére, hogy az API-k nem biztos, hogy 0%-os FPR-t és FNR-t biztosítanak, mégis hatalmas megtakarítást és léptéket hozhat (például ha csak a képek 3%-át jelöli meg, máris kiszűrte a tartalom 97%-át). Ha párosítja az API-t néhány későbbi mechanizmussal, például egy emberi munkaerővel, amely felülvizsgálja a megjelölt tartalmat, akkor könnyen elérheti céljait (például 0.5%-os megjelölt tartalom). Jegyezze meg, hogy ez a párosítás lényegesen olcsóbb, mintha a tartalom 100%-át emberi felülvizsgálatnak kellene elvégeznie.

Ha eldöntötte a későbbi mechanizmusokat, javasoljuk, hogy értékelje a támogatható átviteli sebességet. Például, ha olyan munkaerővel rendelkezik, amely a napi tartalmainak csak 2%-át tudja ellenőrizni, akkor a tartalommoderálási API-nkból a 2%-os megjelölési arány (FPR+TPR) a célcélja.

Végül, ha az alapigazság-annotációk beszerzése túl nehéz vagy túl drága (például túl nagy az adatmennyiség), javasoljuk, hogy jegyezze fel az API által megjelölt kis számú képet. Bár ez nem teszi lehetővé az FNR kiértékelését (mivel az adatok nem tartalmaznak hamis negatívumot), továbbra is mérheti a TPR-t és az FPR-t.

A következő részben a képmoderálás értékelésére nyújtunk megoldást. Hasonló megközelítést alkalmazhat a videó moderálásának értékeléséhez.

Megoldás áttekintése

A következő diagram bemutatja a különböző AWS-szolgáltatásokat, amelyek segítségével értékelheti az Amazon Rekognition tartalommoderálásának teljesítményét a tesztadatkészleten.

A tartalom moderálásának értékelése a következő lépésekből áll:

Töltse fel értékelési adatkészletét ide Amazon egyszerű tárolási szolgáltatás (Amazon S3).
Használja a Ground Truth funkciót az alapigazság moderálási címkéinek hozzárendeléséhez.
Az Amazon Rekognition előre betanított moderációs API segítségével néhány küszöbérték használatával állítsa elő az előre jelzett moderációs címkéket. (Például 70%, 75% és 80%).
Értékelje az egyes küszöbértékek teljesítményét a valódi pozitív, az igaz negatív, a hamis pozitív és a hamis negatív értékek kiszámításával. Határozza meg az optimális küszöbértéket az Ön használati esetéhez.
Opcionálisan igaz és hamis pozitívumok és felhasználás alapján személyre szabhatja a munkaerő méretét Amazon kiterjesztett AI (Amazon A2I), hogy automatikusan elküldje az összes megjelölt tartalmat a kijelölt munkaerőnek kézi ellenőrzésre.

A következő szakaszok kódrészleteket tartalmaznak az 1., 2. és 3. lépéshez. A teljes, végpontok közötti forráskódért tekintse meg a mellékelt Jupyter jegyzetfüzet.

Előfeltételek

Mielőtt elkezdené, hajtsa végre a következő lépéseket a Jupyter notebook beállításához:

Hozzon létre egy jegyzetfüzet-példányt in Amazon SageMaker.
Ha a notebook aktív, válassza a lehetőséget Nyissa meg a Jupytert.
A Jupyter irányítópulton válassza ki a lehetőséget Új, és válasszon terminál.

A terminálba írja be a következő kódot:

cd SageMaker
git clone https://github.com/aws-samples/amazon-rekognition-code-samples.git

Nyissa meg a jegyzetfüzetet ehhez a bejegyzéshez: content-moderation-evaluation/Evaluating-Amazon-Rekognition-Content-Moderation-Service.ipynb.
Töltse fel értékelési adatkészletét ide Amazon egyszerű tárolási szolgáltatás (Amazon S3).

Most végigmegyünk a Jupyter notebook 2–4. lépésein.

A Ground Truth segítségével moderálási címkéket rendelhet hozzá

A Ground Truth címkék hozzárendeléséhez hajtsa végre a következő lépéseket:

Hozzon létre egy jegyzékbemeneti fájlt a Ground Truth munkájához, és töltse fel az Amazon S3-ra.

Hozza létre a címkézési konfigurációt, amely tartalmazza az összes moderálási címkét, amely a Ground Truth címkézési feladathoz szükséges. A használható címkekategóriák számának korlátozásához tekintse meg a következőt: Címkekategória kvóták. A következő kódrészletben öt címkét használunk (lásd a az Amazon Rekognitionban használt hierarchikus taxonómia további részletekért) plusz egy címke (Safe_Content), amely biztonságosként jelöli meg a tartalmat:

# customize CLASS_LIST to include all labels that can be used to classify sameple data, it's up to 10 labels
# In order to easily match image label with content moderation service supported taxonomy, 

CLASS_LIST = ["", "", "", "", "", "Safe_Content"]
print("Label space is {}".format(CLASS_LIST))

json_body = {"labels": [{"label": label} for label in CLASS_LIST]}
with open("class_labels.json", "w") as f:
    json.dump(json_body, f)

s3.upload_file("class_labels.json", BUCKET, EXP_NAME + "/class_labels.json")

Hozzon létre egy egyéni dolgozói feladatsablont, amely a Ground Truth munkaerőt címkézési utasításokkal látja el, és töltse fel az Amazon S3-ra.
A Ground Truth címkefeladat képosztályozási (többcímkés) feladatként van definiálva. Az utasítássablon testreszabásához lásd a forráskódot.
Döntse el, melyik munkaerőt szeretné használni a Ground Truth feladat elvégzéséhez. Két lehetősége van (a részletekért lásd a forráskódot):
1. Használat magán munkaerő saját szervezetében, hogy felcímkézze az értékelési adatkészletet.
2. Használat közmunka az értékelési adatkészlet címkézéséhez.

Hozzon létre és küldjön be egy Ground Truth címkézési feladatot. A következő kódot is módosíthatja a munkaparaméterek címkézése hogy megfeleljen az Ön konkrét üzleti követelményeinek. A Ground Truth feladat létrehozásával és konfigurálásával kapcsolatos teljes útmutatásért tekintse meg a forráskódot.

human_task_config = {
    "AnnotationConsolidationConfig": {
        "AnnotationConsolidationLambdaArn": acs_arn,
    },
    "PreHumanTaskLambdaArn": prehuman_arn,
    "MaxConcurrentTaskCount": 200,  # 200 images will be sent at a time to the workteam.
    "NumberOfHumanWorkersPerDataObject": 3,  # 3 separate workers will be required to label each image.
    "TaskAvailabilityLifetimeInSeconds": 21600,  # Your workteam has 6 hours to complete all pending tasks.
    "TaskDescription": task_description,
    "TaskKeywords": task_keywords,
    "TaskTimeLimitInSeconds": 180,  # Each image must be labeled within 3 minutes.
    "TaskTitle": task_title,
    "UiConfig": {
        "UiTemplateS3Uri": "s3://{}/{}/instructions.template".format(BUCKET, EXP_NAME),
    },
}

A feladat elküldése után a következőhöz hasonló kimenetet kell látnia:

Labeling job name is: ground-truth-cm-1662738403

Várja meg, amíg a címkézési feladat sikeresen befejeződik az értékelési adatkészleten, majd folytassa a következő lépéssel.

Használja az Amazon Rekognition moderációs API-t az előre jelzett moderációs címkék létrehozásához.

A következő kódrészlet az Amazon Rekognition használatát mutatja be moderációs API moderációs címkék létrehozásához:

client=boto3.client('rekognition')
def moderate_image(photo, bucket):
    response = client.detect_moderation_labels(Image={'S3Object':{'Bucket':bucket,'Name':photo}})
    return len(response['ModerationLabels'])

Értékelje a teljesítményt

Először lekérte az alapigazság-moderálási címkéket a Ground Truth címkézési feladat eredményeiből az értékelési adatkészlethez, majd lefuttatta az Amazon Rekognition moderációs API-t, hogy ugyanazon adatkészlethez előrejelzett moderációs címkéket kapjon. Mivel ez egy bináris besorolási probléma (biztonságos vs. nem biztonságos tartalom), a következő mutatókat számítjuk ki (feltéve, hogy a nem biztonságos tartalom pozitív):

Kiszámoljuk a megfelelő értékelési mutatókat is:

A következő kódrészlet bemutatja, hogyan kell kiszámítani ezeket a mutatókat:

FPR = FP / (FP + TN)
FNR = FN / (FN + TP)
Recall = TP / (TP + FN)
Precision = TP / (TP + FP)

Következtetés

Ez a bejegyzés azokat a kulcsfontosságú elemeket tárgyalja, amelyekre szükség van a tartalommoderálási szolgáltatás teljesítményének értékeléséhez a különböző pontossági mutatók tekintetében. A pontosság azonban csak egy a sok dimenzió közül, amelyeket értékelnie kell egy adott tartalommoderálási szolgáltatás kiválasztásakor. Nagyon fontos, hogy más paramétereket is megadjon, például a szolgáltatás teljes szolgáltatáskészletét, a könnyű használhatóságot, a meglévő integrációkat, az adatvédelmet és a biztonságot, a testreszabási lehetőségeket, a méretezhetőségi vonatkozásokat, az ügyfélszolgálatot és az árakat. Ha többet szeretne megtudni az Amazon Rekognition tartalommoderálásáról, látogasson el ide Amazon Rekognition tartalommoderálás.

A szerzőkről

Amit Gupta az AWS vezető mesterséges intelligencia-szolgáltatási építésze. Szenvedélyesen törekszik arra, hogy ügyfelei széleskörű, jól megtervezett gépi tanulási megoldásokat biztosítsanak.

Davide Modolo az AWS AI Labs alkalmazott tudományos menedzsere. Az Edinburghi Egyetemen (Egyesült Királyság) szerzett PhD fokozatot számítógépes látásból, és szenvedélyesen foglalkozik új tudományos megoldások kifejlesztésével a valós ügyfelek problémáira. A munkán kívül szívesen utazik és bármilyen sportot űz, különösen a focit.

Jian Wu az AWS vezető vállalati megoldások építésze. 6 éve dolgozik az AWS-nél, és bármilyen méretű vásárlóval dolgozik. Szenvedélyesen törekszik arra, hogy segítse ügyfeleit a gyorsabb innovációban a felhő és az AI/ML bevezetésével. Mielőtt csatlakozott az AWS-hez, Jian több mint 10 évet töltött szoftverfejlesztéssel, rendszer-implementációval és infrastruktúra-menedzsmenttel. A munka mellett szeret aktív lenni és a családjával tölt időt.

Időbélyeg: Október 5, 2022Október 6, 2022

Időbélyeg: 1. február 2023.

Mérőszámok az Amazon Rekognition és más tartalommoderálási szolgáltatások tartalommoderálásának értékeléséhez

Újra kiadta Platón

Mit kell értékelni

Az Amazon Rekognition segítségével előrejelzéseket kaphat tesztadatkészletéről

Mérje meg a modell pontosságát a képeken

Mérje meg a modell pontosságát a videókon

Mérje meg a teljesítményt a gólokhoz képest

Megoldás áttekintése

Előfeltételek

A Ground Truth segítségével moderálási címkéket rendelhet hozzá

Használja az Amazon Rekognition moderációs API-t az előre jelzett moderációs címkék létrehozásához.

Értékelje a teljesítményt

Következtetés

A szerzőkről

Még több AWS gépi tanulás

Építsen agronómiai adatplatformot az Amazon SageMaker térinformatikai képességeivel

Hatékonyan finomhangolja az ESM-2 fehérje nyelvi modelljét az Amazon SageMaker | segítségével Amazon webszolgáltatások

Fordítsa le a dokumentumokat valós időben az Amazon Translate | segítségével Amazon webszolgáltatások

Hibrid ML-munkafolyamatok engedélyezése az Amazon EKS-en és az Amazon SageMaker-en a Kubeflow egy kattintással az AWS-telepítésen

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók