Métricas para avaliar uma solução de verificação de identidade

Republicado por Platão

seguidores: 0

Globalmente, houve uma mudança acelerada em direção a experiências de usuário digitais sem atrito. Seja registrando-se em um site, realizando transações on-line ou simplesmente acessando sua conta bancária, as organizações estão tentando ativamente reduzir o atrito que seus clientes experimentam e, ao mesmo tempo, aprimorar suas medidas de segurança, conformidade e prevenção de fraudes. A mudança para experiências de usuário sem atrito deu origem a soluções de verificação de identidade biométrica baseadas em face destinadas a responder à pergunta “Como você verifica uma pessoa no mundo digital?”

Existem duas vantagens principais da biometria facial quando se trata de questões de identificação e autenticação. Primeiro, é uma tecnologia conveniente para os usuários: não há necessidade de lembrar uma senha, lidar com desafios multifatoriais, clicar em links de verificação ou resolver quebra-cabeças CAPTCHA. Em segundo lugar, é alcançado um alto nível de segurança: a identificação e autenticação com base na biometria facial é segura e menos suscetível a fraudes e ataques.

Nesta postagem, nos aprofundamos nos dois principais casos de uso da verificação de identidade: integração e autenticação. Em seguida, mergulhamos nas duas principais métricas usadas para avaliar a precisão de um sistema biométrico: a taxa de correspondência falsa (também conhecida como taxa de aceitação falsa) e a taxa de não correspondência falsa (também conhecida como taxa de rejeição falsa). Essas duas medidas são amplamente utilizadas pelas organizações para avaliar a precisão e a taxa de erro dos sistemas biométricos. Por fim, discutimos uma estrutura e as melhores práticas para realizar uma avaliação de um serviço de verificação de identidade.

Consulte o que acompanha Caderno Jupyter que percorre todas as etapas mencionadas neste post.

Casos de uso: integração e autenticação

Existem dois casos de uso principais para soluções biométricas: integração do usuário (geralmente chamada de verificação) e autenticação (geralmente chamada de identificação). A integração envolve a correspondência individual de rostos entre duas imagens, por exemplo, comparando uma selfie com um documento de identificação confiável, como uma carteira de motorista ou passaporte. A autenticação, por outro lado, envolve a pesquisa um-para-muitos de um rosto em uma coleção armazenada de rostos, por exemplo, pesquisando uma coleção de rostos de funcionários para ver se um funcionário tem acesso autorizado a um determinado andar de um edifício.

O desempenho de precisão dos casos de uso de integração e autenticação é medido pelos erros falsos positivos e falsos negativos que a solução biométrica pode cometer. Uma pontuação de similaridade (variando de 0% significando nenhuma correspondência a 100% significando uma correspondência perfeita) é usada para determinar uma correspondência ou uma decisão de não correspondência. Um falso positivo ocorre quando a solução considera imagens de dois indivíduos diferentes como sendo a mesma pessoa. Um falso negativo, por outro lado, significa que a solução considerou duas imagens da mesma pessoa diferentes.

Integração: verificação individual

Os processos de integração baseados em biometria simplificam e protegem o processo. Mais importante ainda, ele prepara a organização e o cliente para uma experiência de integração quase sem atrito. Para fazer isso, os usuários são simplesmente obrigados a apresentar uma imagem de algum tipo de documento de identificação confiável contendo o rosto do usuário (como carteira de motorista ou passaporte), bem como tirar uma selfie durante o processo de integração. Após o sistema ter essas duas imagens, ele simplesmente compara os rostos dentro das duas imagens. Quando a similaridade for maior que um limite especificado, você terá uma correspondência; caso contrário, você tem uma não correspondência. O diagrama a seguir descreve o processo.

Considere o exemplo de Julie, uma nova usuária abrindo uma conta em um banco digital. A solução solicita que ela tire uma foto de sua carteira de motorista (etapa 2) e tire uma selfie (etapa 3). Depois que o sistema verifica a qualidade das imagens (etapa 4), ele compara o rosto na selfie com o rosto na carteira de motorista (correspondência de um para um) e uma pontuação de similaridade (etapa 5) é produzida. Se a pontuação de similaridade for menor que o limite de similaridade exigido, a tentativa de integração de Julie será rejeitada. É o que chamamos de falsa não correspondência ou falsa rejeição: a solução considerou duas imagens da mesma pessoa como diferentes. Por outro lado, se a pontuação de similaridade for maior que a similaridade necessária, a solução considera as duas imagens como sendo a mesma pessoa ou uma correspondência.

Autenticação: Identificação um-para-muitos

Desde a entrada em um prédio até o check-in em um quiosque, até a solicitação de uma selfie do usuário para verificar sua identidade, esse tipo de autenticação de zero a baixo atrito por meio de reconhecimento facial tornou-se comum para muitas organizações. Em vez de realizar correspondência de imagem a imagem, esse caso de uso de autenticação pega uma única imagem e a compara a uma coleção pesquisável de imagens para uma possível correspondência. Em um caso de uso típico de autenticação, o usuário é solicitado a tirar uma selfie, que é então comparada com os rostos armazenados na coleção. O resultado da pesquisa produz zero, uma ou mais correspondências potenciais com pontuações de similaridade correspondentes e identificadores externos. Se nenhuma correspondência for retornada, o usuário não será autenticado; no entanto, supondo que a pesquisa retorne uma ou mais correspondências, o sistema toma a decisão de autenticação com base nas pontuações de similaridade e nos identificadores externos. Se a pontuação de similaridade exceder o limite de similaridade necessário e o identificador externo corresponder ao identificador esperado, o usuário será autenticado (correspondido). O diagrama a seguir descreve um exemplo de processo de autenticação biométrica baseada em face.

processo de autenticação

Considere o exemplo de Jose, um motorista de entrega de economia de gig. O serviço de entrega autentica os motoristas de entrega solicitando que o motorista tire uma selfie antes de iniciar a entrega usando o aplicativo móvel da empresa. Um problema enfrentado pelos provedores de serviços de gig-economy é o compartilhamento de empregos; essencialmente dois ou mais usuários compartilham a mesma conta para jogar no sistema. Para combater isso, muitos serviços de entrega usam uma câmera no carro para capturar imagens (etapa 2) do motorista em momentos aleatórios durante a entrega (para garantir que o motorista da entrega seja o motorista autorizado). Nesse caso, Jose não apenas tira uma selfie no início de sua entrega, mas uma câmera no carro tira fotos dele durante a entrega. O sistema executa verificações de qualidade (etapa 3) e pesquisa (etapa 4) a coleção de motoristas cadastrados para verificar a identidade do motorista. Se um driver diferente for detectado, o serviço de entrega gig-economy poderá investigar mais a fundo.

Uma falsa correspondência (falso positivo) ocorre quando a solução considera duas ou mais imagens de pessoas diferentes como sendo a mesma pessoa. Em nosso caso de uso, suponha que, em vez do motorista autorizado, José deixe seu irmão Miguel levar uma de suas entregas para ele. Se a solução corresponder incorretamente à selfie de Miguel com as imagens de José, ocorrerá uma falsa correspondência (falso positivo).

Para combater o potencial de correspondências falsas, recomendamos que as coleções contenham várias imagens de cada assunto. É prática comum indexar documentos de identificação confiáveis contendo um rosto, uma selfie no momento da integração e selfies das últimas verificações de identificação. A indexação de várias imagens de um assunto fornece a capacidade de agregar as pontuações de similaridade entre os rostos retornados, melhorando assim a precisão da identificação. Além disso, identificadores externos são usados para limitar o risco de uma falsa aceitação. Um exemplo de regra de negócios pode ser algo como isto:

SE pontuação de similaridade agregada >= limite de similaridade requerido E identificador externo == identificador esperado ENTÃO autenticar

Principais medidas de precisão biométrica

Em um sistema biométrico, estamos interessados na taxa de correspondência falsa (FMR) e na taxa de não correspondência falsa (FNMR) com base nas pontuações de similaridade de comparações e pesquisas faciais. Seja um caso de uso de integração ou autenticação, os sistemas biométricos decidem aceitar ou rejeitar correspondências do rosto de um usuário com base na pontuação de similaridade de duas ou mais imagens. Como qualquer sistema de decisão, haverá erros quando o sistema aceitar ou rejeitar incorretamente uma tentativa de integração ou autenticação. Como parte da avaliação de sua solução de verificação de identidade, você precisa avaliar o sistema em vários limites de similaridade para minimizar as taxas de falsa correspondência e falsa não correspondência, bem como comparar esses erros com o custo de fazer rejeições e aceitações incorretas. Usamos FMR e FNMR como nossas duas principais métricas para avaliar sistemas biométricos faciais.

Taxa de não correspondência falsa

Quando o sistema de verificação de identidade falha em identificar ou autorizar corretamente um usuário genuíno, ocorre uma falsa não correspondência, também conhecida como falso negativo. A taxa de não correspondência falsa (FNMR) é uma medida de quão propenso o sistema está a identificar ou autorizar incorretamente um usuário genuíno.

O FNMR é expresso como uma porcentagem de casos em que uma tentativa de integração ou autenticação é feita, onde o rosto do usuário é rejeitado incorretamente (um falso negativo) porque a pontuação de similaridade está abaixo do limite prescrito.

Um verdadeiro positivo (TP) é quando a solução considera duas ou mais imagens da mesma pessoa iguais. Ou seja, a similaridade da comparação ou procura está acima do limite de similaridade requerido.

Um falso negativo (FN) é quando a solução considera duas ou mais imagens da mesma pessoa diferentes. Ou seja, a similaridade da comparação ou procura está abaixo do limite de similaridade requerido.

A fórmula para o FNMR é:

FNMR = Contagem de Falso Negativo / (Contagem de Verdadeiro Positivo + Contagem de Falso Negativo)

Por exemplo, suponha que temos 10,000 tentativas de autenticação genuínas, mas 100 são negadas porque sua semelhança com a imagem ou coleção de referência está abaixo do limite de semelhança especificado. Aqui temos 9,900 verdadeiros positivos e 100 falsos negativos, portanto nosso FNMR é de 1.0%

FNMR = 100 / (9900 + 100) ou 1.0%

Taxa de correspondência falsa

Quando um sistema de verificação de identidade identifica ou autoriza incorretamente um usuário não autorizado como genuíno, ocorre uma correspondência falsa, também conhecida como falso positivo. A taxa de correspondência falsa (FMR) é uma medida de quão propenso o sistema está a identificar ou autorizar incorretamente um usuário não autorizado. É medido pelo número de reconhecimentos ou autenticações falsos positivos dividido pelo número total de tentativas de identificação.

Um falso positivo ocorre quando a solução considera duas ou mais imagens de pessoas diferentes como sendo a mesma pessoa. Ou seja, a pontuação de similaridade da comparação ou procura está acima do limite de similaridade necessário. Essencialmente, o sistema identifica ou autoriza incorretamente um usuário quando deveria ter rejeitado sua identificação ou tentativa de autenticação.

A fórmula para o FMR é:

FMR = Contagem de Falsos Positivos / (Total de Tentativas)

Por exemplo, suponha que temos 100,000 tentativas de autenticação, mas 100 usuários falsos foram autorizados incorretamente porque sua semelhança com a imagem ou coleção de referência está acima do limite de semelhança especificado. Aqui temos 100 falsos positivos, portanto nosso FMR é 0.01%

FMR = 100 / (100,000) ou 0.01%

Taxa de correspondência falsa x taxa de não correspondência falsa

A taxa de correspondência falsa e a taxa de não correspondência falsa estão em conflito uma com a outra. À medida que o limite de similaridade aumenta, o potencial para uma falsa correspondência diminui, enquanto o potencial para uma falsa não correspondência aumenta. Outra maneira de pensar sobre essa compensação é que, à medida que o limite de similaridade aumenta, a solução se torna mais restritiva, fazendo menos correspondências de baixa similaridade. Por exemplo, é comum que casos de uso que envolvam segurança pública definam um limite de similaridade de correspondência bastante alto (99 e acima). Alternativamente, uma organização pode escolher um limite de similaridade menos restritivo (90 e acima), onde o impacto do atrito para o usuário é mais importante. O diagrama a seguir ilustra essas compensações. O desafio para as organizações é encontrar um limite que minimize o FMR e o FNMR com base em seus requisitos organizacionais e de aplicativos.

Compensação FMR x FNMR

A seleção de um limite de similaridade depende do aplicativo de negócios. Por exemplo, suponha que você queira limitar o atrito com o cliente durante a integração (um limite de similaridade menos restritivo, conforme mostrado na figura a seguir à esquerda). Aqui você pode ter um limite de similaridade obrigatório mais baixo e está disposto a aceitar o risco de integrar usuários onde a confiança na correspondência entre a selfie e a carteira de motorista é menor. Por outro lado, suponha que você queira garantir que apenas usuários autorizados entrem em um aplicativo. Aqui você pode operar em um limite de similaridade bastante restritivo (como mostrado na figura à direita).

Etapas para calcular taxas de correspondência falsa e não correspondência

Existem várias maneiras de calcular essas duas métricas. A seguir, uma abordagem relativamente simples de dividir as etapas em reunir pares de imagens genuínas, criar um emparelhamento impostor (imagens que não devem corresponder) e, finalmente, usar uma sonda para repetir os pares de imagens correspondentes e não correspondentes esperados, capturando o similaridade resultante. As etapas são as seguintes:

Reúna um conjunto de imagens de amostra genuíno. Recomendamos começar com um conjunto de pares de imagens e atribuir um identificador externo, que é usado para fazer uma determinação de correspondência oficial. O par é composto pelas seguintes imagens:
1. Imagem de origem – Sua imagem de origem confiável, por exemplo, uma carteira de motorista.
2. Imagem de destino – Sua selfie ou imagem com a qual você vai comparar.
Reúna um conjunto de imagens de fósforos impostores. Estes são pares de imagens em que a origem e o destino não correspondem. Isso é usado para avaliar o FMR (a probabilidade de que o sistema corresponda incorretamente aos rostos de dois usuários diferentes). Você pode criar um conjunto de imagens impostoras usando os pares de imagens criando um produto cartesiano das imagens e, em seguida, filtrando e amostrando o resultado.
Teste os conjuntos de correspondência genuínos e impostores fazendo um loop sobre os pares de imagens, comparando a origem e o destino do impostor e capturando a similaridade resultante.
Calcule FMR e FNMR calculando os falsos positivos e falsos negativos em diferentes limiares mínimos de similaridade.

Você pode avaliar o custo de FMR e FNMR em diferentes limites de similaridade em relação à necessidade de seu aplicativo.

Etapa 1: coletar amostras genuínas de pares de imagens

Escolher uma amostra representativa de pares de imagens para avaliar é fundamental ao avaliar um serviço de verificação de identidade. O primeiro passo é identificar um conjunto genuíno de pares de imagens. Essas são imagens conhecidas de origem e destino de um usuário. O emparelhamento de imagem genuíno é usado para avaliar o FNMR, essencialmente a probabilidade de que o sistema não corresponda a dois rostos da mesma pessoa. Uma das primeiras perguntas frequentes é “Quantos pares de imagens são necessários?” A resposta é que depende do seu caso de uso, mas a orientação geral é a seguinte:

Entre 100 a 1,000 pares de imagens fornecem uma medida de viabilidade
Até 10,000 pares de imagens é grande o suficiente para medir a variabilidade entre as imagens
Mais de 10,000 pares de imagens fornecem uma medida de qualidade operacional e generalização

Mais dados é sempre melhor; no entanto, como ponto de partida, use pelo menos 1,000 pares de imagens. No entanto, não é incomum usar mais de 10,000 pares de imagens para zerar um FNMR ou FMR aceitável para um determinado problema de negócios.

Veja a seguir um exemplo de arquivo de mapeamento de pares de imagens. Usamos o arquivo de mapeamento de pares de imagens para orientar o restante do processo de avaliação.

EXTERNAL_ID	FONTE	TARGET	TESTE
9055	9055_M0.jpeg	9055_M1.jpeg	genuíno
19066	19066_M0.jpeg	19066_M1.jpeg	genuíno
11396	11396_M0.jpeg	11396_M1.jpeg	genuíno
12657	12657_M0.jpeg	12657_M1.jpeg	genuíno
...	.	.	.

Etapa 2: gerar um par de imagens impostoras conjunto

Agora que você tem um arquivo de pares de imagens genuínos, pode criar um produto cartesiano de imagens de destino e de origem em que os identificadores externos não coincidam. Isso produz pares de origem para destino que não deveriam corresponder. Esse emparelhamento é usado para avaliar o FMR, essencialmente a probabilidade de o sistema combinar o rosto de um usuário com o rosto de um usuário diferente.

id_externo	FONTE	TARGET	TESTE
114192	114192_4M49.jpeg	307107_00M17.jpeg	Imposter
105300	105300_04F42.jpeg	035557_00M53.jpeg	Imposter
110771	110771_3M44.jpeg	120381_1M33.jpeg	Imposter
281333	281333_04F35.jpeg	314769_01M17.jpeg	Imposter
40081	040081_2F52.jpeg	326169_00F32.jpeg	Imposter
...	.	.	.

Etapa 3: sondar os conjuntos de pares de imagens genuínas e falsas

Usando um programa de driver, aplicamos o Reconhecimento da Amazônia API CompareFaces sobre os pares de imagens e capture a similaridade. Você também pode capturar informações adicionais como pose, qualidade e outros resultados da comparação. As pontuações de similaridade são usadas para calcular as taxas de correspondência falsa e não correspondência na etapa seguinte.

No trecho de código a seguir, aplicamos a API CompareFaces a todos os pares de imagens e preenchemos todas as pontuações de similaridade em uma tabela:

obj = s3.get_object(Bucket= bucket_name , Key = csv_file)
 df = pd.read_csv(io.BytesIO(obj['Body'].read()), encoding='utf8')
def compare_faces(source_file, target_file, threshold = 0):
    response=rekognition.compare_faces(SimilarityThreshold=threshold,
                                        SourceImage={'S3Object': {
                                                    'Bucket': bucket_name,
                                                    'Name':source_file}},
                                        TargetImage={'S3Object': {
                                                    'Bucket': bucket_name,
                                                    'Name':target_file}}) df_similarity = df.copy() df_similarity["SIMILARITY"] = None
for index, row in df.iterrows():
    source_file = dataset_folder + row["SOURCE"]
    target_file = dataset_folder + row["TARGET"]
    response_score = compare_faces(source_file, target_file)
    df_similarity._set_value(index,"SIMILARITY", response_score)
    df_similarity.head()

O trecho de código fornece a seguinte saída.

EXTERNAL_ID	FONTE	TARGET	TESTE	SEMELHANÇA
9055	9055_M0.jpeg	9055_M1.jpeg	genuíno	98.3
19066	19066_M0.jpeg	19066_M1.jpeg	genuíno	94.3
11396	11396_M0.jpeg	11396_M1.jpeg	genuíno	96.1
...	.	.	.	.
114192	114192_4M49.jpeg	307107_00M17.jpeg	Imposter	0.0
105300	105300_04F42.jpeg	035557_00M53.jpeg	Imposter	0.0
110771	110771_3M44.jpeg	120381_1M33.jpeg	Imposter	0.0

A análise da distribuição de pontuações de similaridade por testes é um ponto de partida para entender a pontuação de similaridade por pares de imagens. O trecho de código e o gráfico de saída a seguir mostram um exemplo simples da distribuição da pontuação de similaridade por conjunto de teste, bem como as estatísticas descritivas resultantes:

sns.boxplot(data=df_similarity,
            x=df_similarity["SIMILARITY"],
            y=df_similarity["TEST"]).set(xlabel='Similarity Score',
            ylabel=None,
            title = "Similarity Score Distribution")
plt.show()

distribuição de pontuação de similaridade

df_descriptive_stats = pd.DataFrame(columns=['test','count', 'min' , 'max', 'mean', 'median', 'std'])

tests = ["Genuine", "Imposter"]

for test in tests:
    count = df_similarity['SIMILARITY'].loc[df_similarity['TEST'] == test].count()
    mean = df_similarity['SIMILARITY'].loc[df_similarity['TEST'] == test].mean()
    max_ = df_similarity['SIMILARITY'].loc[df_similarity['TEST'] == test].max()
    min_ = df_similarity['SIMILARITY'].loc[df_similarity['TEST'] == test].min()
    median = df_similarity['SIMILARITY'].loc[df_similarity['TEST'] == test].median()
    std = df_similarity['SIMILARITY'].loc[df_similarity['TEST'] == test].std()

    new_row = {'test': test,
                'count': count,
                'min': min_,
                'max': max_,
                'mean': mean,
                'median':median,
                'std': std}
    df_descriptive_stats = df_descriptive_stats.append(new_row,
    ignore_index=True)

df_descriptive_stats

teste	contar	minutos	max	significar	mediana	std
genuíno	204	0.2778	99.9957	91.7357	99.0961	19.9097
impostor	1020	0.0075	87.3893	2.8111	0.8330	7.3496

Neste exemplo, podemos ver que a similaridade média e mediana para pares de rostos genuínos foi de 91.7 e 99.1, enquanto para os pares impostores foi de 2.8 e 0.8, respectivamente. Como esperado, isso mostra as altas pontuações de similaridade para pares de imagens genuínas e as baixas pontuações de similaridade para pares de imagens impostoras.

Etapa 4: Calcular FMR e FNMR em diferentes níveis de limiar de similaridade

Nesta etapa, calculamos as taxas de falsa correspondência e não correspondência em diferentes limites de similaridade. Para fazer isso, simplesmente percorremos os limites de similaridade (por exemplo, 90–100). Em cada limite de similaridade selecionado, calculamos nossa matriz de confusão contendo contagens de verdadeiro positivo, verdadeiro negativo, falso positivo e falso negativo, que são usadas para calcular o FMR e o FNMR em cada similaridade selecionada.

		Real
Prevista
	.	Match	Sem correspondência
	>= similaridade selecionada	TP	FP
	< similaridade selecionada	FN	TN

Para fazer isso, criamos uma função que retorna as contagens de falsos positivos e negativos e percorre um intervalo de pontuações de similaridade (90–100):

similarity_thresholds = [80,85,90,95,96,97,98,99]

# create output df
df_cols = ['Similarity Threshold', 'TN' , 'FN', 'TP', 'FP', 'FNMR (%)', 'FMR (%)']
comparison_df = pd.DataFrame(columns=df_cols)

# create columns for y_actual and y_pred
df_analysis = df_similarity.copy()
df_analysis["y_actual"] = None
df_analysis["y_pred"] = None

for threshold in similarity_thresholds:
    # Create y_pred and y_actual columns, 1 == match, 0 == no match
    for index, row in df_similarity.iterrows():
        # set y_pred
        if row["SIMILARITY"] >= threshold:
            df_analysis._set_value(index,"y_pred", 1)
        else:
            df_analysis._set_value(index,"y_pred", 0)

        # set y_actual
        if row["TEST"] == "Genuine":
            df_analysis._set_value(index,"y_actual", 1)
        else:
            df_analysis._set_value(index,"y_actual", 0)

    tn, fp, fn, tp = confusion_matrix(df_analysis['y_actual'].tolist(),
                                      df_analysis['y_pred'].tolist()).ravel()
    FNMR = fn / (tp + fn)
    FMR = fp / (tn+fp+fn+tp)

    new_row = {'Similarity Threshold': threshold,
                'TN': tn,
                'FN': fn,
                'TP': tp,
                'FP': fp,
                'FNMR (%)':FNMR,
                'FMR (%)': FMR}
    comparison_df = comparison_df.append(new_row,ignore_index=True)

comparison_df

A tabela a seguir mostra os resultados das contagens em cada limite de similaridade.

Limite de semelhança	TN	FN	TP	FP	FNMR	FMR
80	1019	22	182	1	0.1%	0.1%
85	1019	23	181	1	0.11%	0.1%
90	1020	35	169	0	0.12%	0.0%
95	1020	51	153	0	0.2%	0.0%
96	1020	53	151	0	0.25%	0.0%
97	1020	60	144	0	0.3%	0.0%
98	1020	75	129	0	0.4%	0.0%
99	1020	99	105	0	0.5%	0.0%

Como o limite de similaridade afeta a taxa de falsa não correspondência?

Suponha que temos 1,000 tentativas genuínas de integração de usuários e rejeitamos 10 dessas tentativas com base em uma similaridade mínima exigida de 95% para ser considerada uma correspondência. Aqui, rejeitamos 10 tentativas genuínas de integração (falsos negativos) porque sua similaridade está abaixo do limite mínimo de similaridade exigido especificado. Nesse caso, nosso FNMR é de 1.0%.

		Real
Prevista
	.	Match	Sem correspondência
	>= 95% de similaridade	990	0
	< 95% de similaridade	10	0
.	total	1,000	.

FNMR = Contagem de Falso Negativo / (Contagem de Verdadeiro Positivo + Contagem de Falso Negativo)

FNMR = 10 / (990 + 10) ou 1.0%

Por outro lado, suponha que, em vez de ter 1,000 usuários genuínos para integrar, temos 990 usuários genuínos e 10 usuários impostores (falso positivo). Com uma similaridade mínima de 95%, suponha que aceitamos todos os 1,000 usuários como genuínos. Aqui teríamos um FMR de 1%.

		Real
Prevista
	.	Match	Sem correspondência	total
	>= 95% de similaridade	990	10	1,000
	< 95% de similaridade	0	0	.

FMR = Contagem de Falsos Positivos / (Total de Tentativas)

FMR = 10 / (1,000) ou 1.0%

Avaliação dos custos de FMR e FNMR na integração

Em um caso de uso de integração, o custo de uma falsa não correspondência (uma rejeição) geralmente está associado a atrito adicional do usuário ou perda de um registro. Por exemplo, em nosso caso de uso bancário, suponha que Julie apresente duas imagens de si mesma, mas seja rejeitada incorretamente no momento da integração porque a semelhança entre as duas imagens fica abaixo da semelhança selecionada (uma falsa não correspondência). A instituição financeira pode correr o risco de perder Julie como cliente em potencial ou pode causar atrito adicional a Julie, exigindo que ela execute etapas para provar sua identidade.

Por outro lado, suponha que as duas imagens de Julie sejam de pessoas diferentes e a integração de Julie deveria ter sido rejeitada. No caso de Julie ser aceita incorretamente (uma correspondência falsa), o custo e o risco para a instituição financeira são bem diferentes. Pode haver problemas regulatórios, risco de fraude e outros riscos associados a transações financeiras.

Uso responsável

A inteligência artificial (IA) aplicada por meio do aprendizado de máquina (ML) será uma das tecnologias mais transformadoras de nossa geração, abordando alguns dos problemas mais desafiadores da humanidade, aumentando o desempenho humano e maximizando a produtividade. O uso responsável dessas tecnologias é fundamental para promover a inovação contínua. A AWS tem o compromisso de desenvolver serviços de IA e ML justos e precisos e fornecer a você as ferramentas e orientações necessárias para criar aplicativos de IA e ML com responsabilidade.

À medida que você adota e aumenta o uso de IA e ML, a AWS oferece vários recursos com base em nossa experiência para auxiliá-lo no desenvolvimento e uso responsável de IA e ML:

Práticas recomendadas e erros comuns a serem evitados

Nesta seção, discutimos as seguintes práticas recomendadas:

Use uma amostra grande o suficiente de imagens
Evite conjuntos de dados faciais sintéticos e de código aberto
Evite a manipulação manual e sintética de imagens
Verifique a qualidade da imagem no momento da avaliação e ao longo do tempo
Monitore FMR e FNMR ao longo do tempo
Use um ser humano na revisão do loop
Mantenha-se atualizado com o Amazon Rekognition

Use uma amostra grande o suficiente de imagens

Use uma amostra de imagens suficientemente grande, mas razoável. O que é um tamanho de amostra razoável? Depende do problema do negócio. Se você é um empregador e tem 10,000 funcionários que deseja autenticar, usar todas as 10,000 imagens provavelmente é razoável. No entanto, suponha que você seja uma organização com milhões de clientes que deseja integrar. Nesse caso, coletar uma amostra representativa de clientes, como 5,000 a 20,000, provavelmente é suficiente. Aqui estão algumas orientações sobre o tamanho da amostra:

Um tamanho de amostra de 100 – 1,000 pares de imagens comprovam a viabilidade
Um tamanho de amostra de 1,000 – 10,000 pares de imagens são úteis para medir a variabilidade entre as imagens
Um tamanho de amostra de 10,000 – 1 milhão de pares de imagens fornece uma medida de qualidade operacional e generalização

A chave com a amostragem de pares de imagens é garantir que a amostra forneça variabilidade suficiente na população de rostos em seu aplicativo. Você pode estender ainda mais sua amostragem e teste para incluir informações demográficas, como tom de pele, sexo e idade.

Evite conjuntos de dados faciais sintéticos e de código aberto

Existem dezenas de conjuntos de dados de imagens faciais de código aberto com curadoria, bem como conjuntos de rostos sintéticos incrivelmente realistas que são frequentemente usados em pesquisas e para estudar a viabilidade. O desafio é que esses conjuntos de dados geralmente não são úteis para 99% dos casos de uso do mundo real simplesmente porque não são representativos das câmeras, rostos e qualidade das imagens que seu aplicativo provavelmente encontrará na natureza. Embora sejam úteis para o desenvolvimento de aplicativos, as medidas de precisão desses conjuntos de imagens não se generalizam para o que você encontrará em seu próprio aplicativo. Em vez disso, recomendamos começar com uma amostra representativa de imagens reais de sua solução, mesmo que os pares de imagens de amostra sejam pequenos (menos de 1,000).

Evite a manipulação manual e sintética de imagens

Muitas vezes, há casos extremos que as pessoas estão interessadas em entender. Coisas como qualidade de captura de imagem ou ofuscamento de características faciais específicas são sempre interessantes. Por exemplo, muitas vezes nos perguntam sobre o impacto da idade e da qualidade da imagem no reconhecimento facial. Você poderia simplesmente envelhecer sinteticamente um rosto ou manipular a imagem para fazer o sujeito parecer mais velho, ou manipular a qualidade da imagem, mas isso não se traduz bem no envelhecimento real das imagens. Em vez disso, nossa recomendação é reunir uma amostra representativa de casos extremos do mundo real que você está interessado em testar.

Verifique a qualidade da imagem no momento da avaliação e ao longo do tempo

A tecnologia de câmeras e aplicativos muda rapidamente com o tempo. Como prática recomendada, recomendamos monitorar a qualidade da imagem ao longo do tempo. Do tamanho dos rostos capturados (usando caixas delimitadoras), ao brilho e nitidez de uma imagem, à pose de um rosto, bem como ofuscações potenciais (chapéus, óculos de sol, barbas e assim por diante), todas essas imagens e características faciais mudam com o tempo.

Monitore FNMR e FMR ao longo do tempo

As mudanças ocorrem, sejam as imagens, o aplicativo ou os limites de similaridade usados no aplicativo. É importante monitorar periodicamente as taxas de correspondência falsa e não correspondência ao longo do tempo. Mudanças nas taxas (mesmo mudanças sutis) muitas vezes podem apontar para desafios upstream com o aplicativo ou como o aplicativo está sendo usado. As alterações nos limites de similaridade e nas regras de negócios usadas para tomar decisões de aceitação ou rejeição podem ter um grande impacto nas experiências de integração e autenticação do usuário.

Use um ser humano na revisão do loop

Os sistemas de verificação de identidade tomam decisões automatizadas para correspondência e não correspondência com base em limites de similaridade e regras de negócios. Além dos requisitos de conformidade regulatória e interna, um processo importante em qualquer sistema de decisão automatizado é utilizar revisores humanos como parte do monitoramento contínuo do processo de decisão. A supervisão humana desses sistemas automatizados de tomada de decisão fornece validação e melhoria contínua, bem como transparência no processo automatizado de tomada de decisão.

Mantenha-se atualizado com o Amazon Rekognition

O modelo de rostos do Amazon Recognition é atualizado periodicamente (geralmente anualmente) e está atualmente na versão 6. Essa versão atualizada trouxe melhorias importantes para precisão e indexação. É importante manter-se atualizado com as novas versões do modelo e entender como usar essas novas versões em seu aplicativo de verificação de identidade. Quando novas versões do modelo facial do Amazon Rekognition são lançadas, é recomendável executar novamente o processo de avaliação de verificação de identidade e determinar possíveis impactos (positivos e negativos) em suas taxas de correspondência falsa e não correspondência.

Conclusão

Esta postagem discute os principais elementos necessários para avaliar o aspecto de desempenho de sua solução de verificação de identidade em termos de várias métricas de precisão. No entanto, a precisão é apenas uma das muitas dimensões que você precisa avaliar ao escolher um determinado serviço de moderação de conteúdo. É fundamental incluir outros parâmetros, como o conjunto total de recursos do serviço, facilidade de uso, integrações existentes, privacidade e segurança, opções de personalização, implicações de escalabilidade, atendimento ao cliente e preços.

Para saber mais sobre a verificação de identidade no Amazon Rekognition, visite Verificação de identidade usando o Amazon Rekognition.

Sobre os autores

Mike Ames é um cientista de dados que se tornou especialista em soluções de verificação de identidade, com ampla experiência no desenvolvimento de soluções de aprendizado de máquina e IA para proteger as organizações contra fraude, desperdício e abuso. Em seu tempo livre, você pode encontrá-lo caminhando, praticando mountain bike ou jogando freebee com seu cachorro Max.

Amit Gupta é arquiteto sênior de soluções de serviços de IA na AWS. Ele é apaixonado por capacitar os clientes com soluções de aprendizado de máquina bem arquitetadas em escala.

Zuhayr Raghib é arquiteto de soluções de serviços de IA da AWS. Especializado em AI/ML aplicada, ele é apaixonado por permitir que os clientes usem a nuvem para inovar mais rapidamente e transformar seus negócios.

Marcel Pividal é Arquiteto Sênior de Soluções de Serviços de IA na World-Wide Specialist Organization. Marcel tem mais de 20 anos de experiência resolvendo problemas de negócios por meio de tecnologia para fintechs, provedores de pagamento, farmacêutica e agências governamentais. Suas áreas de foco atuais são gerenciamento de riscos, prevenção de fraudes e verificação de identidade.

Carimbo de hora: 5 de dezembro de 20225 de dezembro de 2022

Carimbo de hora: 9 de maio de 2024