Mittarit henkilöllisyyden todentamisratkaisun arviointiin

Julkaissut Platon

seuraajia: 0

Maailmanlaajuisesti siirtyminen kohti kitkatonta digitaalista käyttökokemusta on nopeutunut. Olipa kyseessä rekisteröityminen verkkosivustolle, asiointi verkossa tai yksinkertaisesti kirjautuminen pankkitilillesi, organisaatiot yrittävät aktiivisesti vähentää asiakkaidensa kokemaa kitkaa ja samalla parantaa turvallisuutta, vaatimustenmukaisuutta ja petostentorjuntatoimenpiteitä. Siirtyminen kohti kitkatonta käyttökokemusta on synnyttänyt kasvopohjaisia biometrisiä henkilöllisyyden todentamisratkaisuja, joiden tavoitteena on vastata kysymykseen "Kuinka todennetaan henkilö digitaalisessa maailmassa?"

Kasvojen biometriikassa on kaksi keskeistä etua tunnistamiseen ja todentamiseen liittyvissä kysymyksissä. Ensinnäkin se on kätevä tekniikka käyttäjille: sinun ei tarvitse muistaa salasanaa, käsitellä monivaiheisia haasteita, klikata vahvistuslinkkejä tai ratkaista CAPTCHA-pulmia. Toiseksi saavutetaan korkea turvallisuustaso: tunnistaminen ja todennus kasvojen biometrian perusteella on turvallista ja vähemmän altis petoksille ja hyökkäyksille.

Tässä viestissä sukeltaamme henkilöllisyyden vahvistamisen kahteen ensisijaiseen käyttötapaukseen: käyttöönottoon ja todentamiseen. Sitten sukeltaamme kahteen keskeiseen mittariin, joita käytetään arvioimaan biometrisen järjestelmän tarkkuutta: väärän osuvuuden prosenttiosuuteen (tunnetaan myös nimellä väärän hyväksymisprosentti) ja vääriin ei-vastaavuusprosenttiin (tunnetaan myös nimellä väärän hylkäysprosentti). Organisaatiot käyttävät laajasti näitä kahta mittaa arvioidakseen biometristen järjestelmien tarkkuutta ja virhetasoa. Lopuksi keskustelemme viitekehyksestä ja parhaista käytännöistä henkilöllisyyden vahvistuspalvelun arvioinnin suorittamiseksi.

Katso mukana Jupyter-muistikirja joka käy läpi kaikki tässä viestissä mainitut vaiheet.

Käyttötapaukset: Onboarding ja Authentication

Biometrisille ratkaisuille on kaksi ensisijaista käyttötapaa: käyttäjän käyttöönotto (kutsutaan usein varmennukseksi) ja todennus (kutsutaan usein tunnistamiseksi). Käyttöönotto edellyttää kasvojen täsmäämistä kahden kuvan välillä, esimerkiksi selfien vertaamista luotettavaan henkilöllisyysasiakirjaan, kuten ajokorttiin tai passiin. Todennus puolestaan sisältää kasvojen etsimisen yhdestä moneen verrattuna tallennettuun kasvokokoelmaan, esimerkiksi etsimällä työntekijän kasvojen kokoelmasta, onko työntekijällä oikeus päästä rakennuksen tiettyyn kerrokseen.

Onboarding- ja todennuskäyttötapausten tarkkuussuorituskykyä mitataan väärillä positiivisilla ja väärillä negatiivisilla virheillä, joita biometrinen ratkaisu voi tehdä. Samankaltaisuuspisteitä (vaihtelee 0 %:sta ei vastaa 100 %:iin, mikä tarkoittaa täydellistä vastaavuutta) käytetään määritettäessä vastaavuus tai ei-vastaava päätös. Väärä positiivinen tulos syntyy, kun ratkaisu pitää kahden eri henkilön kuvia samana henkilönä. Väärä negatiivi puolestaan tarkoittaa, että ratkaisu katsoi kaksi kuvaa samasta henkilöstä erilaisina.

Käyttöönotto: Henkilökohtainen vahvistus

Biometrisiin tietoihin perustuvat käyttöönottoprosessit sekä yksinkertaistavat että turvaavat prosessia. Mikä tärkeintä, se valmistaa organisaation ja asiakkaan lähes kitkattomaan käyttöönottokokemukseen. Tätä varten käyttäjien on yksinkertaisesti esitettävä kuva jostakin luotettavasta henkilöllisyystodistuksesta, joka sisältää käyttäjän kasvot (kuten ajokortti tai passi), sekä otettava selfie-kuva käyttöönottoprosessin aikana. Kun järjestelmällä on nämä kaksi kuvaa, se yksinkertaisesti vertaa kasvoja kahden kuvan sisällä. Kun samankaltaisuus on suurempi kuin määritetty kynnys, sinulla on vastaavuus. muuten sinulla ei ole ottelua. Seuraava kaavio kuvaa prosessia.

Harkitse esimerkkiä Juliesta, uudesta käyttäjästä, joka avaa digitaalisen pankkitilin. Ratkaisu kehottaa häntä ottamaan kuvan ajokortistaan (vaihe 2) ja ottamaan selfien (vaihe 3). Kun järjestelmä on tarkistanut kuvien laadun (vaihe 4), se vertaa selfien kasvoja ajokortissa oleviin kasvoihin (yksi yhteensovitus) ja tuottaa samankaltaisuuspisteet (vaihe 5). Jos samankaltaisuuspisteet ovat pienempiä kuin vaadittu samankaltaisuuskynnys, Julien aloitusyritys hylätään. Tätä kutsumme vääräksi yhteensopimattomuudeksi tai vääräksi hylkäämiseksi: ratkaisu katsoi, että kaksi kuvaa samasta henkilöstä ovat erilaisia. Toisaalta, jos samankaltaisuuspistemäärä oli suurempi kuin vaadittu samankaltaisuus, niin ratkaisu pitää kahta kuvaa samana henkilönä tai vastaavana.

Todennus: Yksi-moneen tunnistaminen

Tämän tyyppisestä nollasta vähäkitkaiseen kasvojentunnistuksen avulla tapahtuvasta todennustyypistä on tullut yleistä monille organisaatioille aina rakennukseen saapumisesta, kioskissa sisäänkirjautumisesta ja käyttäjän kehotuksesta selfien vahvistamiseen. Sen sijaan, että suoritettaisiin kuvien välinen täsmäys, tämä todennuskäyttötapaus ottaa yhden kuvan ja vertaa sitä haettavissa olevaan kuvakokoelmaan mahdollisen vastaavuuden löytämiseksi. Tyypillisessä todennuskäyttötapauksessa käyttäjää kehotetaan ottamaan selfie, jota sitten verrataan kokoelmaan tallennettuihin kasvoihin. Haun tulos tuottaa nolla, yhden tai useamman mahdollisen vastaavuuden vastaavilla samankaltaisuuspisteillä ja ulkoisilla tunnisteilla. Jos vastaavuutta ei palauteta, käyttäjää ei todeta; Olettaen kuitenkin, että haku palauttaa yhden tai useamman osuman, järjestelmä tekee todennuspäätöksen samankaltaisuuspisteiden ja ulkoisten tunnisteiden perusteella. Jos samankaltaisuuspisteet ylittävät vaaditun samankaltaisuuskynnyksen ja ulkoinen tunniste vastaa odotettua tunnistetta, käyttäjä todennetaan (sovitetaan). Seuraavassa kaaviossa on esimerkki kasvopohjaisesta biometrisesta todennusprosessista.

todennusprosessi

Ajatellaanpa esimerkkiä Josesta, keikkatalouden kuljettajasta. Jakelupalvelu tunnistaa kuljettajat kehottamalla kuljettajaa ottamaan selfien ennen toimituksen aloittamista yrityksen mobiilisovelluksella. Yksi keikkatalouspalvelujen tarjoajien kohtaama ongelma on työnjako; pohjimmiltaan kaksi tai useampi käyttäjä jakaa saman tilin voidakseen pelata järjestelmää. Tämän torjumiseksi monet jakelupalvelut käyttävät auton sisäistä kameraa ottamaan kuvia (vaihe 2) kuljettajasta satunnaisina aikoina toimituksen aikana (varmistaakseen, että toimituksen kuljettaja on valtuutettu kuljettaja). Tässä tapauksessa Jose ei vain ota selfietä synnytyksensä alussa, vaan autossa oleva kamera ottaa kuvia hänestä toimituksen aikana. Järjestelmä suorittaa laaduntarkistuksia (vaihe 3) ja etsii (vaihe 4) rekisteröityjen kuljettajien kokoelmasta kuljettajan henkilöllisyyden varmistamiseksi. Jos eri kuljettaja havaitaan, keikkatalouden jakelupalvelu voi tutkia asiaa tarkemmin.

Väärä vastaavuus (väärä positiivinen) tapahtuu, kun ratkaisu katsoi kahden tai useamman kuvan eri ihmisistä olevan sama henkilö. Oletetaan meidän käyttötapauksessamme, että valtuutetun kuljettajan sijasta Jose antaa veljensä Miguelin viedä yhden toimituksistaan. Jos ratkaisu sovittaa Miguelin selfien väärin Josen kuviin, tapahtuu väärä vastaavuus (väärä positiivinen).

Väärien osumien estämiseksi suosittelemme, että kokoelmissa on useita kuvia kustakin aiheesta. On yleinen käytäntö indeksoida luotettavat henkilöllisyysasiakirjat, jotka sisältävät kasvot, selfien käyttöönottovaiheessa ja selfieitä viimeisistä tunnistustarkistuksista. Useiden kohteiden kuvien indeksointi antaa mahdollisuuden yhdistää samankaltaisuuspisteet palautettujen kasvojen välillä, mikä parantaa tunnistamisen tarkkuutta. Lisäksi ulkoisia tunnisteita käytetään rajoittamaan väärän hyväksynnän riskiä. Esimerkki liiketoimintasääntö voi näyttää tältä:

JOS samankaltaisuuspisteet >= vaadittu samankaltaisuuskynnys JA ulkoinen tunniste == odotettu tunniste NIIN todenna

Tärkeimmät biometriset tarkkuusmittarit

Biometrisessä järjestelmässä olemme kiinnostuneita väärästä vastaavuussuhteesta (FMR) ja väärästä ei-vastaavuussuhteesta (FNMR), joka perustuu kasvojen vertailujen ja hakujen samankaltaisuuspisteisiin. Olipa kyseessä käyttöönotto- tai todennuskäyttötapaus, biometriset järjestelmät päättävät hyväksyä tai hylätä käyttäjän kasvojen vastaavuudet kahden tai useamman kuvan samankaltaisuuspisteiden perusteella. Kuten kaikki päätöksentekojärjestelmät, tulee virheitä, joissa järjestelmä hyväksyy tai hylkää virheellisesti liittymis- tai todennusyrityksen. Osana henkilöllisyyden vahvistusratkaisusi arviointia sinun on arvioitava järjestelmä erilaisilla samankaltaisuuskynnyksillä minimoimaan väärien vastaavuuksien ja väärien ei-vastaavuussuhteiden määrä sekä verrata näitä virheitä virheellisten hylkäämisten ja hyväksymisten kustannuksiin. Käytämme FMR:tä ja FNMR:ää kahtena keskeisenä mittarina kasvojen biometristen järjestelmien arvioinnissa.

Väärä yhteensopimattomuusprosentti

Kun henkilöllisyyden vahvistusjärjestelmä ei pysty tunnistamaan tai valtuuttamaan todellista käyttäjää oikein, tapahtuu virheellinen yhteensopimattomuus, joka tunnetaan myös vääränä negatiivisena. Väärä yhteensopimattomuusaste (FNMR) on mitta siitä, kuinka altis järjestelmä on tunnistamaan tai valtuuttamaan virheellisesti todellista käyttäjää.

FNMR ilmaistaan prosenttiosuutena tapauksista, joissa sisäänpääsy- tai todennusyritys tehdään, jolloin käyttäjän kasvot hylätään väärin (väärä negatiivinen), koska samankaltaisuuspisteet alittavat määrätyn kynnyksen.

Todellinen positiivinen (TP) on, kun ratkaisu pitää kahta tai useampaa samasta henkilöstä olevaa kuvaa samana. Eli vertailun tai haun samankaltaisuus on vaaditun samankaltaisuuskynnyksen yläpuolella.

Väärä negatiivinen (FN) on, kun ratkaisu pitää kahta tai useampaa samaa henkilöä kuvaavana erilaisena. Eli vertailun tai haun samankaltaisuus on vaaditun samankaltaisuuskynnyksen alapuolella.

FNMR:n kaava on:

FNMR = väärä negatiivinen määrä / (tosi positiivinen luku + väärä negatiivinen luku)

Oletetaan esimerkiksi, että meillä on 10,000 100 aitoa todennusyritystä, mutta 9,900 evätään, koska niiden samankaltaisuus viitekuvaan tai kokoelmaan alittaa määritetyn samankaltaisuusrajan. Tässä meillä on 100 1.0 todellista positiivista ja XNUMX väärää negatiivista, joten FNMR-arvomme on XNUMX %

FNMR = 100 / (9900 + 100) tai 1.0 %

Väärä vastaavuusprosentti

Kun henkilöllisyyden vahvistusjärjestelmä tunnistaa tai valtuuttaa luvattoman käyttäjän virheellisesti aidoksi, tapahtuu väärä vastaavuus, joka tunnetaan myös vääränä positiivisena tuloksena. False match rate (FMR) mittaa, kuinka alttiita järjestelmä on tunnistamaan tai valtuuttamaan väärin luvaton käyttäjä. Se mitataan väärien positiivisten tunnistusten tai todennusten määrällä jaettuna tunnistusyritysten kokonaismäärällä.

Väärä positiivinen tulos syntyy, kun ratkaisu pitää kahta tai useampaa kuvaa eri ihmisistä samana henkilönä. Eli vertailun tai haun samankaltaisuuspisteet ovat vaaditun samankaltaisuuskynnyksen yläpuolella. Pohjimmiltaan järjestelmä tunnistaa tai valtuuttaa käyttäjän väärin, kun sen olisi pitänyt hylätä hänen tunnistus- tai todennusyritys.

FMR:n kaava on:

FMR = väärä positiivinen määrä / (yritysten kokonaismäärä)

Oletetaan esimerkiksi, että meillä on 100,000 100 todennusyritystä, mutta 100 väärää käyttäjää on valtuutettu väärin, koska heidän samankaltaisuutensa viitekuvaan tai -kokoelmaan ylittää määritetyn samankaltaisuusrajan. Tässä meillä on 0.01 väärää positiivista, joten FMR on XNUMX %

FMR = 100 / (100,000 0.01) tai XNUMX %

Väärä vastaavuusprosentti vs. väärä ei-osumaprosentti

Väärä vastaavuusprosentti ja väärä vastaavuusprosentti ovat ristiriidassa keskenään. Kun samankaltaisuuskynnys kasvaa, väärän vastaavuuden mahdollisuus pienenee, kun taas väärän yhteensopimattomuuden mahdollisuus kasvaa. Toinen tapa ajatella tätä kompromissia on se, että kun samankaltaisuuskynnys kasvaa, ratkaisusta tulee rajoittavampi, mikä tekee vähemmän samankaltaisia osumia. On esimerkiksi yleistä, että yleiseen turvallisuuteen liittyvissä käyttötapauksissa vastaavuuden samankaltaisuuskynnys asetetaan melko korkealle (99 ja enemmän). Vaihtoehtoisesti organisaatio voi valita vähemmän rajoittavan samankaltaisuuskynnyksen (90 ja enemmän), jossa kitkan vaikutus käyttäjään on tärkeämpi. Seuraava kaavio havainnollistaa näitä kompromisseja. Organisaatioiden haasteena on löytää kynnys, joka minimoi sekä FMR:n että FNMR:n organisaatiosi ja sovellusvaatimustesi perusteella.

FMR vs FNMR kompromissi

Samankaltaisuuskynnyksen valitseminen riippuu yrityssovelluksesta. Oletetaan esimerkiksi, että haluat rajoittaa asiakkaiden kitkaa käyttöönoton aikana (vähemmän rajoittava samankaltaisuuskynnys, kuten seuraavassa kuvassa vasemmalla). Tässä sinulla saattaa olla alhaisempi vaadittu samankaltaisuuskynnys ja olet valmis hyväksymään riskin, että käyttäjät otetaan käyttöön, jos luottamus selfien ja ajokortin yhteensopivuuteen on alhaisempi. Oletetaan sitä vastoin, että haluat varmistaa, että vain valtuutetut käyttäjät pääsevät sovellukseen. Tässä saatat toimia melko rajoittavalla samankaltaisuuskynnyksellä (kuten oikealla olevasta kuvasta näkyy).

Väärän vastaavuuden ja ei-vastaavuuden laskemisen vaiheet

On olemassa useita tapoja laskea nämä kaksi mittaria. Seuraavassa on suhteellisen yksinkertainen tapa jakaa vaiheet oikeiden kuvaparien keräämiseen, huijarin pariliitoksen luomiseen (kuvat, joiden ei pitäisi täsmää) ja lopuksi käyttää luotainta odotetun yhteensopivuuden ja yhteensopimattomien kuvaparien ylitse, sieppaamalla tuloksena oleva samankaltaisuus. Vaiheet ovat seuraavat:

Kerää aito näytekuvasarja. Suosittelemme, että aloitat kuvapareista ja määrität ulkoisen tunnisteen, jota käytetään virallisen vastaavuuden määrittämiseen. Pari koostuu seuraavista kuvista:
1. Lähdekuva – Luotettu lähdekuvasi, esimerkiksi ajokortti.
2. Kohdekuva – Selfie tai kuva, johon aiot verrata.
Kerää kuvasarja huijareista. Nämä ovat kuvapareja, joiden lähde ja kohde eivät täsmää. Tätä käytetään arvioimaan FMR (todennäköisyys, että järjestelmä vastaa väärin kahden eri käyttäjän kasvot). Voit luoda huijauskuvajoukon käyttämällä kuvapareja luomalla kuvista karteesisen tuotteen ja suodattamalla ja ottamalla näytteitä tuloksesta.
Tutki aidon ja huijarin yhteensopivuusjoukkoa kiertämällä kuvapareja, vertaamalla lähdettä ja huijarikohdetta ja vangitsemalla tuloksena olevan samankaltaisuuden.
Laske FMR ja FNMR laskemalla väärät positiiviset ja väärät negatiiviset eri samankaltaisuuskynnyksillä.

Voit arvioida FMR:n ja FNMR:n kustannukset eri samankaltaisuuskynnyksillä suhteessa sovelluksesi tarpeeseen.

Vaihe 1: Kerää aidot kuvaparinäytteet

Edustavan otoksen valitseminen arvioitavista kuvapareista on kriittistä henkilöllisyyden vahvistuspalvelua arvioitaessa. Ensimmäinen askel on tunnistaa aito kuvaparien joukko. Nämä ovat tunnettuja käyttäjän lähde- ja kohdekuvia. Aitoa kuvaparia käytetään arvioimaan FNMR, lähinnä todennäköisyyttä, että järjestelmä ei vastaa saman henkilön kahta kasvoja. Yksi ensimmäisistä usein kysytyistä kysymyksistä on "Kuinka monta kuvaparia tarvitaan?" Vastaus on, että se riippuu käyttötapauksestasi, mutta yleiset ohjeet ovat seuraavat:

100–1,000 XNUMX kuvaparia on toteutettavuuden mitta
Jopa 10,000 XNUMX kuvaparia riittää mittaamaan kuvien välistä vaihtelua
Yli 10,000 XNUMX kuvaparia mittaavat toiminnan laatua ja yleistettävyyttä

Enemmän tietoa on aina parempi; Käytä kuitenkin lähtökohtana vähintään 1,000 10,000 kuvaparia. Ei ole kuitenkaan harvinaista käyttää yli XNUMX XNUMX kuvaparia hyväksyttävään FNMR- tai FMR-arvoon nollatakseen tietyn liiketoimintaongelman.

Seuraava on esimerkkikuvaparien kartoitustiedosto. Käytämme kuvaparien kartoitustiedostoa ohjaamaan arviointiprosessin loppua.

EXTERNAL_ID	SOURCE	KOHDE	TESTI
9055	9055_M0.jpeg	9055_M1.jpeg	Aito
19066	19066_M0.jpeg	19066_M1.jpeg	Aito
11396	11396_M0.jpeg	11396_M1.jpeg	Aito
12657	12657_M0.jpeg	12657_M1.jpeg	Aito
...	.	.	.

Vaihe 2: Luo huijarikuvapari setti

Nyt kun sinulla on tiedosto aidoista kuvapareista, voit luoda karteesisen tuotteen kohde- ja lähdekuvista, joissa ulkoiset tunnisteet eivät täsmää. Tämä tuottaa lähteen ja kohteen välisiä pareja, joiden ei pitäisi täsmää. Tätä pariliitosta käytetään FMR:n arvioimiseen, lähinnä sen todennäköisyyden arvioimiseen, että järjestelmä vastaa yhden käyttäjän kasvot eri käyttäjän kasvoihin.

ulkoinen_tunnus	SOURCE	KOHDE	TESTI
114192	114192_4M49.jpeg	307107_00M17.jpeg	huijarin
105300	105300_04F42.jpeg	035557_00M53.jpeg	huijarin
110771	110771_3M44.jpeg	120381_1M33.jpeg	huijarin
281333	281333_04F35.jpeg	314769_01M17.jpeg	huijarin
40081	040081_2F52.jpeg	326169_00F32.jpeg	huijarin
...	.	.	.

Vaihe 3: Tarkista aito ja huijarikuvaparisarja

Käytämme ajuriohjelmaa Amazonin tunnistus CompareFaces API kuvaparien päälle ja vangitse samankaltaisuus. Voit myös tallentaa lisätietoja, kuten asentoa, laatua ja muita vertailun tuloksia. Samankaltaisuuspisteitä käytetään väärän vastaavuuden ja ei-vastaavuuden määrittämiseen seuraavassa vaiheessa.

Seuraavassa koodinpätkässä käytämme CompareFaces API:ta kaikkiin kuvapareihin ja täytämme kaikki samankaltaisuuspisteet taulukkoon:

obj = s3.get_object(Bucket= bucket_name , Key = csv_file)
 df = pd.read_csv(io.BytesIO(obj['Body'].read()), encoding='utf8')
def compare_faces(source_file, target_file, threshold = 0):
    response=rekognition.compare_faces(SimilarityThreshold=threshold,
                                        SourceImage={'S3Object': {
                                                    'Bucket': bucket_name,
                                                    'Name':source_file}},
                                        TargetImage={'S3Object': {
                                                    'Bucket': bucket_name,
                                                    'Name':target_file}}) df_similarity = df.copy() df_similarity["SIMILARITY"] = None
for index, row in df.iterrows():
    source_file = dataset_folder + row["SOURCE"]
    target_file = dataset_folder + row["TARGET"]
    response_score = compare_faces(source_file, target_file)
    df_similarity._set_value(index,"SIMILARITY", response_score)
    df_similarity.head()

Koodinpätkä antaa seuraavan tulosteen.

EXTERNAL_ID	SOURCE	KOHDE	TESTI	SAMANKALTAISUUS
9055	9055_M0.jpeg	9055_M1.jpeg	Aito	98.3
19066	19066_M0.jpeg	19066_M1.jpeg	Aito	94.3
11396	11396_M0.jpeg	11396_M1.jpeg	Aito	96.1
...	.	.	.	.
114192	114192_4M49.jpeg	307107_00M17.jpeg	huijarin	0.0
105300	105300_04F42.jpeg	035557_00M53.jpeg	huijarin	0.0
110771	110771_3M44.jpeg	120381_1M33.jpeg	huijarin	0.0

Samankaltaisuuspisteiden jakautumisanalyysi testeillä on lähtökohta samankaltaisuuspisteiden ymmärtämiselle kuvaparien mukaan. Seuraava koodinpätkä ja tuloskaavio näyttää yksinkertaisen esimerkin samankaltaisuuspisteiden jakautumisesta testijoukoittain sekä tuloksena olevista kuvaavista tilastoista:

sns.boxplot(data=df_similarity,
            x=df_similarity["SIMILARITY"],
            y=df_similarity["TEST"]).set(xlabel='Similarity Score',
            ylabel=None,
            title = "Similarity Score Distribution")
plt.show()

samankaltaisuuspisteiden jakautuminen

df_descriptive_stats = pd.DataFrame(columns=['test','count', 'min' , 'max', 'mean', 'median', 'std'])

tests = ["Genuine", "Imposter"]

for test in tests:
    count = df_similarity['SIMILARITY'].loc[df_similarity['TEST'] == test].count()
    mean = df_similarity['SIMILARITY'].loc[df_similarity['TEST'] == test].mean()
    max_ = df_similarity['SIMILARITY'].loc[df_similarity['TEST'] == test].max()
    min_ = df_similarity['SIMILARITY'].loc[df_similarity['TEST'] == test].min()
    median = df_similarity['SIMILARITY'].loc[df_similarity['TEST'] == test].median()
    std = df_similarity['SIMILARITY'].loc[df_similarity['TEST'] == test].std()

    new_row = {'test': test,
                'count': count,
                'min': min_,
                'max': max_,
                'mean': mean,
                'median':median,
                'std': std}
    df_descriptive_stats = df_descriptive_stats.append(new_row,
    ignore_index=True)

df_descriptive_stats

testi	laskea	minuuttia	max	tarkoittaa	mediaani	std
aito	204	0.2778	99.9957	91.7357	99.0961	19.9097
huijarin	1020	0.0075	87.3893	2.8111	0.8330	7.3496

Tässä esimerkissä voimme nähdä, että aitojen kasvoparien keskimääräinen ja mediaani samankaltaisuus olivat 91.7 ja 99.1, kun taas huijausparien vastaavasti 2.8 ja 0.8. Kuten odotettiin, tämä osoittaa korkeat samankaltaisuuspisteet aidoilla kuvaparilla ja alhaiset samankaltaisuuspisteet huijauskuvaparilla.

Vaihe 4: Laske FMR ja FNMR eri samankaltaisuuskynnystasoilla

Tässä vaiheessa laskemme väärän vastaavuuden ja yhteensopimattomuuden prosentit eri samankaltaisuuden kynnyksillä. Teemme tämän yksinkertaisesti kiertämällä samankaltaisuuskynnysten läpi (esimerkiksi 90–100). Jokaisella valitulla samankaltaisuuskynnyksellä laskemme hämmennysmatriisimme, joka sisältää tosi positiiviset, tosi negatiiviset, väärät positiiviset ja väärät negatiiviset lukemat, joita käytetään FMR:n ja FNMR:n laskemiseen kullakin valitulla samankaltaisuudella.

		Todellinen
ennusti
	.	ottelu	Ei osumia
	>= valittu samankaltaisuus	TP	FP
	< valittu samankaltaisuus	FN	TN

Tätä varten luomme funktion, joka palauttaa väärät positiiviset ja negatiiviset lukemat ja käy läpi samankaltaisuuspisteitä (90–100):

similarity_thresholds = [80,85,90,95,96,97,98,99]

# create output df
df_cols = ['Similarity Threshold', 'TN' , 'FN', 'TP', 'FP', 'FNMR (%)', 'FMR (%)']
comparison_df = pd.DataFrame(columns=df_cols)

# create columns for y_actual and y_pred
df_analysis = df_similarity.copy()
df_analysis["y_actual"] = None
df_analysis["y_pred"] = None

for threshold in similarity_thresholds:
    # Create y_pred and y_actual columns, 1 == match, 0 == no match
    for index, row in df_similarity.iterrows():
        # set y_pred
        if row["SIMILARITY"] >= threshold:
            df_analysis._set_value(index,"y_pred", 1)
        else:
            df_analysis._set_value(index,"y_pred", 0)

        # set y_actual
        if row["TEST"] == "Genuine":
            df_analysis._set_value(index,"y_actual", 1)
        else:
            df_analysis._set_value(index,"y_actual", 0)

    tn, fp, fn, tp = confusion_matrix(df_analysis['y_actual'].tolist(),
                                      df_analysis['y_pred'].tolist()).ravel()
    FNMR = fn / (tp + fn)
    FMR = fp / (tn+fp+fn+tp)

    new_row = {'Similarity Threshold': threshold,
                'TN': tn,
                'FN': fn,
                'TP': tp,
                'FP': fp,
                'FNMR (%)':FNMR,
                'FMR (%)': FMR}
    comparison_df = comparison_df.append(new_row,ignore_index=True)

comparison_df

Seuraavassa taulukossa on esitetty laskennan tulokset kullakin samankaltaisuuskynnyksellä.

Samankaltaisuuden kynnys	TN	FN	TP	FP	FNMR	FMR
80	1019	22	182	1	0.1%	0.1%
85	1019	23	181	1	0.11%	0.1%
90	1020	35	169	0	0.12%	0.0%
95	1020	51	153	0	0.2%	0.0%
96	1020	53	151	0	0.25%	0.0%
97	1020	60	144	0	0.3%	0.0%
98	1020	75	129	0	0.4%	0.0%
99	1020	99	105	0	0.5%	0.0%

Miten samankaltaisuuskynnys vaikuttaa virheelliseen yhteensopimattomuuteen?

Oletetaan, että meillä on 1,000 10 aitoa käyttäjien liittymisyritystä, ja hylkäämme 95 näistä yrityksistä vaaditun 10 %:n vähimmäissamankaltaisuuden perusteella. Tässä hylkäämme 1.0 aitoa käyttöönottoyritystä (vääriä negatiivisia), koska niiden samankaltaisuus alittaa määritellyn vähimmäisvaatimuksen samankaltaisuusrajan. Tässä tapauksessa FNMR-arvomme on XNUMX %.

		Todellinen
ennusti
	.	ottelu	Ei osumia
	>= 95 % samankaltaisuus	990	0
	< 95 % samankaltaisuus	10	0
.	koko	1,000	.

FNMR = väärä negatiivinen määrä / (tosi positiivinen luku + väärä negatiivinen luku)

FNMR = 10 / (990 + 10) tai 1.0 %

Sitä vastoin oletetaan, että sen sijaan, että meillä olisi 1,000 990 aitoa käyttäjää, meillä on 10 aitoa käyttäjää ja 95 huijarikäyttäjää (väärä positiivinen). Oletetaan, että hyväksymme kaikki 1,000 1 käyttäjää aidoiksi, jos samankaltaisuus on vähintään XNUMX %. Tässä meillä olisi XNUMX % FMR.

		Todellinen
ennusti
	.	ottelu	Ei osumia	koko
	>= 95 % samankaltaisuus	990	10	1,000
	< 95 % samankaltaisuus	0	0	.

FMR = väärä positiivinen määrä / (yritysten kokonaismäärä)

FMR = 10 / (1,000 1.0) tai XNUMX %

FMR:n ja FNMR:n kustannusten arviointi alukselle pääsyn yhteydessä

Käyttöönottotapauksessa väärän vastaamattomuuden (hylkäämisen) kustannukset liittyvät yleensä ylimääräiseen käyttäjän kitkaan tai rekisteröinnin menettämiseen. Oletetaan esimerkiksi, että meidän pankkikäytössämme Julie esittää kaksi kuvaa itsestään, mutta hänet hylätään virheellisesti käyttöönoton yhteydessä, koska näiden kahden kuvan välinen samankaltaisuus on alle valitun samankaltaisuuden (väärä yhteensopimattomuus). Rahoituslaitos saattaa olla vaarassa menettää Julien potentiaalisena asiakkaana tai se voi aiheuttaa Julielle ylimääräistä kitkaa vaatimalla häntä suorittamaan toimenpiteitä henkilöllisyytensä todistamiseksi.

Kääntäen oletetaan, että kaksi Julien kuvaa on eri ihmisistä ja Julien pääsy olisi pitänyt hylätä. Jos Julie hyväksytään väärin (väärä vastaavuus), rahoituslaitokselle aiheutuvat kustannukset ja riskit ovat aivan erilaiset. Rahoitustoimiin voi liittyä sääntelyongelmia, petosriskiä ja muita riskejä.

Vastuullinen käyttö

Koneoppimisen (ML) kautta sovellettu tekoäly (AI) tulee olemaan yksi sukupolvemme muutosteknologioista, joka ratkaisee joitakin ihmiskunnan haastavimmista ongelmista, lisää ihmisen suorituskykyä ja maksimoi tuottavuuden. Näiden teknologioiden vastuullinen käyttö on avainasemassa jatkuvan innovaation edistämisessä. AWS on sitoutunut kehittämään oikeudenmukaisia ja tarkkoja tekoäly- ja ML-palveluita ja tarjoamaan sinulle työkaluja ja ohjeita, joita tarvitaan tekoäly- ja ML-sovellusten vastuulliseen rakentamiseen.

Kun otat käyttöön ja lisäät tekoälyn ja ML:n käyttöä, AWS tarjoaa useita kokemukseemme perustuvia resursseja, jotka auttavat sinua tekoälyn ja ML:n vastuullisessa kehittämisessä ja käytössä:

Parhaat käytännöt ja yleiset virheet vältettävät

Tässä osiossa käsittelemme seuraavia parhaita käytäntöjä:

Käytä riittävän suurta näytekuvaa
Vältä avoimen lähdekoodin ja synteettisiä kasvotietojoukkoja
Vältä manuaalista ja synteettistä kuvankäsittelyä
Tarkista kuvan laatu arvioinnin yhteydessä ja ajan mittaan
Tarkkaile FMR:ää ja FNMR:ää ajan myötä
Käytä ihmistä silmukassa
Pysy ajan tasalla Amazon Rekognitionin avulla

Käytä riittävän suurta näytekuvaa

Käytä riittävän suurta mutta järkevää otosta kuvista. Mikä on kohtuullinen otoskoko? Riippuu yritysongelmasta. Jos olet työnantaja ja sinulla on 10,000 10,000 työntekijää, jotka haluat todentaa, kaikkien 5,000 20,000 kuvan käyttäminen on luultavasti järkevää. Oletetaan kuitenkin, että olet organisaatio, jolla on miljoonia asiakkaita, jotka haluat ottaa mukaan. Tässä tapauksessa todennäköisesti riittää edustavan otoksen ottaminen asiakkaista, kuten XNUMX XNUMX–XNUMX XNUMX. Tässä on ohjeita näytteen koosta:

Otoskoko 100 – 1,000 kuvaparia todistaa toteutettavuuden
Otoskoko 1,000 – 10,000 XNUMX kuvaparia on hyödyllistä mitata kuvien välistä vaihtelua
Otoskoko 10,000 – Miljoona kuvaparia mittaa toiminnan laatua ja yleistettävyyttä

Otantakuvaparien avain on varmistaa, että näyte tarjoaa riittävästi vaihtelua sovelluksesi kasvojen populaatiossa. Voit laajentaa näytteenottoa ja testausta edelleen demografisiin tietoihin, kuten ihon sävyyn, sukupuoleen ja ikään.

Vältä avoimen lähdekoodin ja synteettisiä kasvotietojoukkoja

On olemassa kymmeniä kuratoituja avoimen lähdekoodin kasvokuvatietoja sekä hämmästyttävän realistisia synteettisiä kasvosarjoja, joita käytetään usein tutkimuksessa ja toteutettavuuden selvittämisessä. Haasteena on, että nämä tietojoukot eivät yleensä ole hyödyllisiä 99 prosentissa todellisista käyttötapauksista, koska ne eivät edusta kameroita, kasvoja ja kuvien laatua, joita sovelluksesi todennäköisesti kohtaa luonnossa. Vaikka ne ovat hyödyllisiä sovelluskehityksessä, näiden kuvasarjojen tarkkuusmitat eivät yleistä sitä, mitä kohtaat omassa sovelluksessasi. Sen sijaan suosittelemme, että aloitat edustavalla otoksella ratkaisusi todellisia kuvia, vaikka näytekuvaparit olisivat pieniä (alle 1,000 XNUMX).

Vältä manuaalista ja synteettistä kuvankäsittelyä

Usein on olemassa reunatapauksia, joita ihmiset ovat kiinnostuneita ymmärtämään. Sellaiset asiat, kuten kuvankaappauksen laatu tai tiettyjen kasvojen piirteiden hämärtäminen, kiinnostavat aina. Meiltä esimerkiksi kysytään usein iän ja kuvanlaadun vaikutuksesta kasvojentunnistukseen. Voit yksinkertaisesti vanhentaa kasvoja synteettisesti tai manipuloida kuvaa saadaksesi kohteen näyttämään vanhemmalta tai manipuloida kuvan laatua, mutta tämä ei käänny hyvin kuvien ikääntymiseen todellisessa maailmassa. Sen sijaan suosittelemme keräämään edustavan otoksen tosielämän reunatapauksista, joita olet kiinnostunut testaamaan.

Tarkista kuvan laatu arvioinnin yhteydessä ja ajan mittaan

Kamera- ja sovellustekniikka muuttuvat melko nopeasti ajan myötä. Parhaana käytäntönä suosittelemme kuvanlaadun seuraamista ajan mittaan. Kuvattujen kasvojen koosta (käyttämällä rajausruutuja) kuvan kirkkauteen ja terävyyteen, kasvojen asentoon sekä mahdollisiin hämäriin (hatut, aurinkolasit, parta ja niin edelleen), kaikki nämä kuvat ja kasvojen piirteet muuttuvat ajan myötä.

Tarkkaile FNMR:ää ja FMR:ää ajan myötä

Muutoksia tapahtuu, olivatpa kyseessä sitten kuvat, sovellus tai sovelluksessa käytetyt samankaltaisuuskynnykset. On tärkeää seurata ajoittain vääriä osumia ja ei-osuvuuksia ajan mittaan. Muutokset hinnoissa (jopa hienovaraiset muutokset) voivat usein viitata sovelluksen alkupään haasteisiin tai sovelluksen käyttöön. Muutokset samankaltaisuuskynnyksiin ja liiketoimintasääntöihin, joita käytetään hyväksymis- tai hylkäämispäätösten tekemiseen, voivat vaikuttaa merkittävästi perehdyttämis- ja todennuskäyttökokemuksiin.

Käytä ihmistä silmukassa

Henkilöllisyydenvarmistusjärjestelmät tekevät automaattisia päätöksiä vastaavuudesta ja vastaamattomuudesta samankaltaisuuskynnysten ja liiketoimintasääntöjen perusteella. Sääntelyn ja sisäisten vaatimustenmukaisuusvaatimusten lisäksi tärkeä prosessi kaikissa automatisoiduissa päätöksentekojärjestelmissä on ihmisten arvioijien hyödyntäminen osana jatkuvaa päätösprosessin seurantaa. Näiden automatisoitujen päätöksentekojärjestelmien inhimillinen valvonta tarjoaa validoinnin ja jatkuvan parantamisen sekä läpinäkyvyyden automatisoituun päätöksentekoprosessiin.

Pysy ajan tasalla Amazon Rekognitionin avulla

Amazon Recognition faces -mallia päivitetään säännöllisesti (yleensä vuosittain), ja se on tällä hetkellä versiossa 6. Tämä päivitetty versio teki merkittäviä parannuksia tarkkuuteen ja indeksointiin. On tärkeää pysyä ajan tasalla uusista malliversioista ja ymmärtää, kuinka näitä uusia versioita käytetään henkilöllisyyden vahvistussovelluksessasi. Kun Amazon Rekognition -kasvomallin uudet versiot julkaistaan, on hyvä käytäntö suorittaa henkilöllisyyden vahvistuksen arviointiprosessi uudelleen ja määrittää mahdolliset vaikutukset (positiiviset ja negatiiviset) vääriin vastaavuus- ja ei-vastaavuusprosenttiisi.

Yhteenveto

Tässä viestissä käsitellään keskeisiä elementtejä, joita tarvitaan henkilöllisyyden vahvistusratkaisusi tehokkuuden arvioimiseen erilaisten tarkkuusmittareiden perusteella. Tarkkuus on kuitenkin vain yksi monista ulottuvuuksista, jotka sinun on arvioitava valitessasi tiettyä sisällönvalvontapalvelua. On tärkeää, että sisällytät muita parametreja, kuten palvelun koko ominaisuusjoukon, helppokäyttöisyyden, olemassa olevat integraatiot, yksityisyyden ja suojauksen, mukautusvaihtoehdot, skaalautuvuuden vaikutukset, asiakaspalvelun ja hinnoittelun.

Lisätietoja henkilöllisyyden vahvistamisesta Amazon Rekognitionissa on osoitteessa Henkilöllisyyden vahvistaminen Amazon Rekognitionin avulla.

Tietoja Tekijät

Mike Ames on datatieteilijä, josta tuli henkilöllisyyden todentamisratkaisujen asiantuntija, jolla on laaja kokemus koneoppimis- ja tekoälyratkaisujen kehittämisestä organisaatioiden suojaamiseksi petoksilta, tuhlaukselta ja väärinkäytöltä. Vapaa-ajallaan voit tavata hänet vaeltamassa, maastopyöräilemässä tai leikkimässä freebeetä koiransa Maxin kanssa.

Amit Gupta on AWS:n vanhempi AI-palveluratkaisuarkkitehti. Hän haluaa tarjota asiakkailleen hyvin suunniteltuja koneoppimisratkaisuja laajassa mittakaavassa.

Zuhayr Raghib on AI Services Solutions -arkkitehti AWS:ssä. Hän on erikoistunut soveltavaan tekoälyyn/ML:ään ja haluaa antaa asiakkaille mahdollisuuden innovoida nopeammin ja muuttaa liiketoimintaansa pilven avulla.

Marcel Pividal on Sr. AI Services Solutions -arkkitehti World-Wide Specialist Organizationissa. Marcelilla on yli 20 vuoden kokemus yritysten ongelmien ratkaisemisesta teknologian avulla fintechille, maksuntarjoajille, lääkkeille ja valtion virastoille. Hänen tämän hetken painopistealueensa ovat riskienhallinta, petostentorjunta ja henkilöllisyyden todentaminen.

Aikaleima: Joulukuu 5, 2022Joulukuu 5, 2022

Aikaleima: Mar 15, 2022