Como redigir dados PII em transcrições de conversas

Republicado por Platão

seguidores: 0

As interações de atendimento ao cliente geralmente contêm informações de identificação pessoal (PII), como nomes, números de telefone e datas de nascimento. À medida que as organizações incorporam aprendizado de máquina (ML) e análise em seus aplicativos, o uso desses dados pode fornecer insights sobre como criar experiências de cliente mais integradas. No entanto, a presença de informações PII geralmente restringe o uso desses dados. Nesta postagem do blog, analisaremos uma solução para redigir automaticamente dados PII de uma transcrição de conversa de atendimento ao cliente.

Vamos dar um exemplo de conversa entre um cliente e um agente de call center.

Agente: Oi, obrigado por nos ligar hoje. Com quem tenho o prazer de falar hoje?

Chamador: Olá, meu nome é John Stiles.

Agente: Oi John, em que posso ajudar?

Chamador: Ainda não recebi meu extrato W2 e gostaria de verificar seu status.

Agente: Claro, posso te ajudar com isso. Você pode, por favor, confirmar os últimos quatro dígitos do seu número de Seguro Social?

Chamador: Sim, é 1111.

Agente: Ok. Estou puxando o status agora. Vejo que foi enviado ontem e a previsão de chegada é no início da próxima semana. Você gostaria que eu ativasse alertas automatizados para que você possa ser notificado sobre quaisquer atrasos?

Chamador: Sim, por favor.

Agente: O número que temos registrado para você é 555-456-7890. Isso ainda está correto?

Chamador: Sim, é.

Agente: Ótimo. Ativei as notificações automáticas. Há algo mais em que posso ajudá-lo com John?

Chamador: Não, isso é tudo. Obrigada.

Agente: Obrigado, John. Tenha um ótimo dia.

Nesta breve interação, existem vários dados que geralmente seriam considerados PII, incluindo o nome do chamador, os últimos quatro dígitos do número do Seguro Social e o número do telefone. Vamos analisar como podemos redigir esses dados PII na transcrição.

Visão geral da solução

vamos criar um Funções de etapa da AWS máquina de estado, que orquestra uma Amazon Comprehend Trabalho de redação de PII. O Amazon Comprehend é um serviço de processamento de linguagem natural (NLP) que usa aprendizado de máquina para descobrir informações e conexões valiosas em texto, incluindo a capacidade de detectar e redigir dados PII.

Você fornecerá as transcrições na entrada Amazon S3 balde. As transcrições estão no formato usado por Lente de contato para Amazon Connect. Você também especificará um bucket S3 de saída, que armazena a saída da redação, bem como os dados intermediários. Os dados intermediários são versões em microlotes dos dados de entrada. Por exemplo, se houver 10,000 conversas a serem redigidas, o fluxo de trabalho as dividirá em 10 lotes de 1000 conversas cada. Cada lote é armazenado usando um prefixo exclusivo, que é usado como fonte de entrada para o Comprehend. O estado do mapa Step Functions é usado para executar esses trabalhos de redação em paralelo, chamando o IniciarPIIEntitiesDetectionJob API. Essa abordagem permite executar várias tarefas em paralelo, em vez de tarefas individuais em sequência. Como o trabalho é implementado como uma máquina de estado do Step Functions, ele pode ser acionado para ser executado manualmente ou automaticamente como parte de um processo diário.

Você pode aprender mais sobre como Comprehend detecta e edita dados PII em este blog.

Implante a solução de amostra

Primeiro, faça login no Console de gerenciamento da AWS em sua conta da AWS.

Você precisará de um depósito S3 com alguns dados de transcrição de amostra para redigir e outro depósito para saída. Se você não tiver dados de transcrição de amostra existentes, siga estas etapas:

Navegue até o console do Amazon S3.
Escolha Criar balde.
Insira um nome de intervalo, como text-redaction-data-.
Aceite os padrões e escolha Criar balde.
Abra o bucket que você criou e escolha Criar pasta.
Digite um nome de pasta, como “sample-data” e escolha Criar pasta.
Clique no nome da nova pasta para abri-la.
Faça o download do Dados de amostra.zip arquivo.
Abra o arquivo .zip em seu computador local e arraste a pasta para o bucket do S3 que você criou.
Escolha Escolher arquivo.

Agora clique no link a seguir para implantar a solução de exemplo no Leste dos EUA (N. Virgínia):

Isso criará um novo Formação da Nuvem AWS pilha.

Como redigir dados PII em transcrições de conversas PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Introduzir o Nome da pilha (por exemplo, pii-redaction-workflow), o nome do depósito de entrada do S3 que contém os dados da transcrição de entrada e o nome do depósito de saída do S3. Escolher Próximo e adicione quaisquer tags que você deseja para sua pilha (opcional). Escolher Próximo novamente e revise os detalhes da pilha. Marque a caixa de seleção para reconhecer que AWS Identity and Access Management (IAM) recursos serão criados e, em seguida, escolha Criar pilha.

A pilha do CloudFormation criará uma função IAM com a capacidade de listar e ler os objetos do bucket. Você pode personalizar ainda mais a função de acordo com seus requisitos. Ele também criará uma máquina de estado Step Functions, vários AWS Lambda funções usadas pela máquina de estado e um balde S3 para armazenar as versões de saída editadas das transcrições.

Após alguns minutos, sua pilha estará completa e você poderá examinar a máquina de estado do Step Functions que foi criada como parte do modelo CloudFormation.

Executar um trabalho de redação

Para executar um trabalho, navegue até Step Functions no console AWS, selecione a máquina de estado e escolha Comece a execução.

Como redigir dados PII em transcrições de conversas PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Em seguida, forneça os argumentos de entrada para executar o trabalho. Para a entrada do trabalho, você deseja fornecer o nome de seu bucket S3 de entrada como o S3InputDataBucket valor, o nome da pasta como o S3InputDataPrefix value, o nome do seu bucket S3 de saída como o S3OutputDataBucket valor e a pasta para armazenar os resultados como S3OutputDataPrefix valor, em seguida, clique Comece a execução.

{
  "S3InputDataBucket": "",
  "S3InputDataPrefix": "",
  "S3OutputDataBucket": "", 
  "S3OutputDataPrefix": "" }

Como redigir dados PII em transcrições de conversas PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

À medida que o trabalho é executado, você pode monitorar seu status no Step Functions visualização de gráfico. Levará alguns minutos para executar o trabalho. Quando o trabalho estiver concluído, você verá a saída para cada um dos trabalhos no Entrada e saída de execução seção do console. Você pode usar o URI de saída para recuperar a saída de um trabalho. Se vários trabalhos foram executados, você pode copiar os resultados de todos os trabalhos para um depósito de destino para análise posterior.

aws s3 cp s3:////-output/ s3://// --recursive --exclude "*/*" --include "*.out"

Vamos dar uma olhada na versão editada da conversa com a qual começamos.

Agente: Oi, obrigado por nos ligar hoje. Com quem tenho o prazer de falar hoje?

Chamador: Olá, meu nome é [NOME].

Agente: Olá [NOME], em que posso ajudar?

Chamador: Ainda não recebi meu extrato W2 e gostaria de verificar seu status.

Agente: Claro, posso te ajudar com isso. Você pode, por favor, confirmar os últimos quatro dígitos do seu número de Seguro Social?

Chamador: Sim, é [SSN].

Chamador: Sim, por favor.

Agente: O número que temos registrado para você é [TELEFONE]. Isso ainda está correto?

Chamador: Sim, é.

Agente: Ótimo. Ativei as notificações automáticas. Posso ajudá-lo em mais alguma coisa, [NOME]?

Chamador: Não, isso é tudo. Obrigada.

Agente: Obrigado, [NOME]. Tenha um ótimo dia.

limpar

Você pode querer limpar os recursos criados como parte do modelo do CloudFormation após a conclusão para evitar cobranças contínuas. Para fazer isso, exclua a pilha do CloudFormation implantada e exclua o bucket do S3 com os dados de transcrição de amostra, se um tiver sido criado.

Conclusão

Com os clientes exigindo experiências perfeitas em todos os canais e também esperando que a segurança seja incorporada em todos os pontos, o uso do Step Functions e do Amazon Comprehend para redigir dados PII em transcrições de conversas de texto é uma ferramenta poderosa à sua disposição. As organizações podem acelerar o tempo de valorização usando as transcrições redigidas para analisar as interações de atendimento ao cliente e obter insights para melhorar a experiência do cliente.

Tente usar este fluxo de trabalho para redigir seus dados e deixe-nos um comentário!

Sobre o autor

Como redigir dados PII em transcrições de conversas PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai. Alex Emilcar é Arquiteto de Soluções Sênior no Laboratório de Soluções de Machine Learning da Amazon, onde ajuda os clientes a criar experiências digitais com tecnologias de IA da AWS. Alex tem mais de 10 anos de experiência em tecnologia, trabalhando em diferentes funções como desenvolvedor, engenheiro de infraestrutura e arquitetura de soluções. Em seu tempo livre, Alex gosta de passar o tempo lendo e cuidando do jardim.