Identifique texto parafraseado com rosto de abraço no Amazon SageMaker

Republicado por Platão

seguidores: 0

A identificação de texto parafraseado tem valor comercial em muitos casos de uso. Por exemplo, ao identificar paráfrases de frases, um sistema de resumo de texto pode remover informações redundantes. Outra aplicação é identificar documentos plagiados. Neste post, ajustamos um Abraçando o rosto transformador ligado Amazon Sage Maker para identificar pares de frases parafraseadas em poucos passos.

Um modelo verdadeiramente robusto pode identificar texto parafraseado quando o idioma usado pode ser completamente diferente e também identificar diferenças quando o idioma usado tem alta sobreposição lexical. Neste post, nos concentramos no último aspecto. Especificamente, verificamos se podemos treinar um modelo que possa identificar a diferença entre duas sentenças com alta sobreposição lexical e significados muito diferentes ou opostos. Por exemplo, as seguintes frases têm exatamente as mesmas palavras, mas significados opostos:

Peguei um voo de Nova York para Paris
Peguei um voo de Paris para Nova York

Visão geral da solução

Orientamos você pelas seguintes etapas de alto nível:

Configure o ambiente.
Prepare os dados.
Tokenize o conjunto de dados.
Ajuste o modelo.
Implante o modelo e execute a inferência.
Avalie o desempenho do modelo.

Se quiser pular a configuração do ambiente, você pode usar o seguinte bloco de anotações em GitHub e execute o código no SageMaker.

A Hugging Face e a AWS anunciaram uma parceria no início de 2022 que torna ainda mais fácil treinar modelos de Hugging Face no SageMaker. Esta funcionalidade está disponível através do desenvolvimento do Hugging Face Contêineres de aprendizado profundo da AWS (DLCs). Esses contêineres incluem Hugging Face Transformers, Tokenizers e a biblioteca Datasets, que nos permite usar esses recursos para trabalhos de treinamento e inferência. Para obter uma lista das imagens DLC disponíveis, consulte Imagens de recipientes de aprendizagem profunda disponíveis. Eles são mantidos e atualizados regularmente com patches de segurança. Você pode encontrar muitos exemplos de como treinar modelos Hugging Face com esses DLCs e o Abraçando Face SDK Python na sequência GitHub repo.

O conjunto de dados PAWS

Percebendo a falta de conjuntos de dados de pares de frases eficientes que exibem alta sobreposição lexical sem serem paráfrases, o original PAWS O conjunto de dados lançado em 2019 teve como objetivo fornecer à comunidade de processamento de linguagem natural (NLP) um novo recurso para treinar e avaliar modelos de detecção de paráfrase. Os pares de frases PAWS são gerados em duas etapas usando Wikipedia e os votos de Pares de perguntas do Quora (QQP) conjunto de dados. Um modelo de linguagem primeiro troca palavras em um par de sentenças com o mesmo Bag of Words (BOW) para gerar um par de sentenças. Uma etapa de retrotradução gera paráfrases com alta sobreposição de BOW, mas usando uma ordem de palavras diferente. O conjunto de dados PAWS final contém um total de 108,000 pares rotulados por humanos e 656,000 pares rotulados ruidosamente.

Nesta postagem, usamos o Rotulado PAWS-Wiki (Final) conjunto de dados de Hugging Face. Hugging Face já realizou a divisão de dados para nós, o que resulta em 49,000 pares de sentenças no conjunto de dados de treinamento e 8,000 pares de sentenças cada para os conjuntos de dados de validação e teste. Dois exemplos de pares de sentenças do conjunto de dados de treinamento são mostrados no exemplo a seguir. Um rótulo de 1 indica que as duas sentenças são paráfrases uma da outra.

Frase 1	Frase 2	O rótulo
Embora intercambiáveis, as peças da carroceria dos 2 carros não são semelhantes.	Embora semelhantes, as partes da carroceria não são intercambiáveis nos 2 carros.	0
Katz nasceu na Suécia em 1947 e mudou-se para Nova York com 1 ano de idade.	Katz nasceu em 1947 na Suécia e se mudou para Nova York com um ano de idade.	1

Pré-requisitos

Você precisa preencher os seguintes pré-requisitos:

Inscreva-se para uma conta da AWS se você não tiver uma. Para mais informações, veja Configurar os pré-requisitos do Amazon SageMaker.
Comece a usar Instâncias de notebook SageMaker.
configurar o direito Gerenciamento de acesso e identidade da AWS (IAM) permissões. Para mais informações, veja Funções do SageMaker.

Configure o ambiente

Antes de começarmos a examinar e preparar nossos dados para o ajuste fino do modelo, precisamos configurar nosso ambiente. Vamos começar girando uma instância de bloco de anotações do SageMaker. Escolha uma região da AWS em sua conta da AWS e siga as instruções para criar uma instância de notebook SageMaker. A instância do bloco de anotações pode levar alguns minutos para ser ativada.

Quando a instância do notebook estiver em execução, escolha conda_pytorch_p38 como seu tipo de kernel. Para usar o conjunto de dados Hugging Face, primeiro precisamos instalar e importar a biblioteca Hugging Face:

!pip --quiet install "sagemaker" "transformers==4.17.0" "datasets==1.18.4" --upgrade
!pip --quiet install sentence-transformers import sagemaker.huggingface
import sagemaker
from datasets import load_dataset

Em seguida, vamos estabelecer uma sessão do SageMaker. Usamos o padrão Serviço de armazenamento simples da Amazon (Amazon S3) bucket associado à sessão do SageMaker para armazenar o conjunto de dados PAWS e os artefatos de modelo:

sess = sagemaker.Session()
role = sagemaker.get_execution_role()
bucket = sess.default_bucket()

Prepare os dados

Podemos carregar a versão Hugging Face do conjunto de dados PAWS com seu load_dataset() comando. Essa chamada baixa e importa o script de processamento PAWS Python do repositório Hugging Face GitHub, que baixa o conjunto de dados PAWS do URL original armazenado no script e armazena os dados em cache como uma tabela Arrow na unidade. Veja o seguinte código:

dataset_train, dataset_val, dataset_test = load_dataset("paws", "labeled_final", split=['train', 'validation', 'test'])

Antes de começarmos a ajustar nosso modelo BERT pré-treinado, vejamos nossa distribuição de classe de destino. Para nosso caso de uso, o conjunto de dados PAWS possui rótulos binários (0 indica que o par de frases não é uma paráfrase e 1 indica que é). Vamos criar um gráfico de colunas para visualizar a distribuição de classes, conforme mostrado no código a seguir. Vemos que há um pequeno problema de desequilíbrio de classe em nosso conjunto de treinamento (56% de amostras negativas vs. 44% de amostras positivas). No entanto, o desequilíbrio é pequeno o suficiente para evitar o emprego de técnicas de mitigação de desequilíbrio de classe.

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns df = dataset_train.to_pandas() ax = sns.countplot(x="label", data=df)
ax.set_title('Label Count for PAWS Dataset', fontsize=15)
for p in ax.patches: ax.annotate(f'n{p.get_height()}', (p.get_x()+0.4, p.get_height()), ha='center', va='top', color='white', size=13)

Tokenizar o conjunto de dados

Antes de começarmos o ajuste fino, precisamos tokenizar nosso conjunto de dados. Como ponto de partida, digamos que queremos ajustar e avaliar o roberta-base transformador. nós selecionamos roberta-base porque é um transformador de propósito geral que foi pré-treinado em um grande corpus de dados em inglês e freqüentemente mostrou alto desempenho em uma variedade de tarefas de NLP. O modelo foi originalmente introduzido no jornal RoBERTa: uma abordagem de pré-treinamento de BERT altamente otimizada.

Realizamos tokenização nas sentenças com um roberta-base tokenizer do Hugging Face, que usa codificação de par de bytes em nível de byte para dividir o documento em tokens. Para obter mais detalhes sobre o tokenizador RoBERTa, consulte RobertaTokenizer. Como nossas entradas são pares de sentenças, precisamos tokenizar ambas as sentenças simultaneamente. Como a maioria dos modelos BERT exige que a entrada tenha um comprimento fixo de entrada tokenizada, definimos os seguintes parâmetros: max_len=128 e truncation=True. Veja o seguinte código:

from transformers import AutoTokenizer
tokenizer_and_model_name = 'roberta-base' # Download tokenizer
tokenizer = AutoTokenizer.from_pretrained(tokenizer_and_model_name) # Tokenizer helper function
def tokenize(batch, max_len=128): return tokenizer(batch['sentence1'], batch['sentence2'], max_length=max_len, truncation=True) dataset_train_tokenized = dataset_train.map(tokenize, batched=True, batch_size=len(dataset_train))
dataset_val_tokenized = dataset_val.map(tokenize, batched=True, batch_size=len(dataset_val))

A última etapa de pré-processamento para ajustar nosso modelo BERT é converter o trem tokenizado e os conjuntos de dados de validação em tensores PyTorch e carregá-los em nosso bucket S3:

import botocore
from datasets.filesystems import S3FileSystem s3 = S3FileSystem()
s3_prefix = 'sts-sbert-paws/sts-paws-datasets' # convert and save train_dataset to s3
training_input_path = f's3://{sess.default_bucket()}/{s3_prefix}/train'
dataset_train_tokenized = dataset_train_tokenized.rename_column("label", "labels")
dataset_train_tokenized.set_format('torch', columns=['input_ids', 'attention_mask', 'labels'])
dataset_train_tokenized.save_to_disk(training_input_path,fs=s3) # convert and save val_dataset to s3
val_input_path = f's3://{sess.default_bucket()}/{s3_prefix}/val'
dataset_val_tokenized = dataset_val_tokenized.rename_column("label", "labels")
dataset_val_tokenized.set_format('torch', columns=['input_ids', 'attention_mask', 'labels'])
dataset_val_tokenized.save_to_disk(val_input_path,fs=s3)

Afinar o modelo

Agora que terminamos a preparação de dados, estamos prontos para ajustar nosso pré-treinado roberta-base modelo na tarefa de identificação de paráfrase. Podemos usar a classe SageMaker Hugging Face Estimator para iniciar o processo de ajuste fino em duas etapas. A primeira etapa é especificar os hiperparâmetros de treinamento e as definições de métrica. A variável de definições de métrica informa ao Hugging Face Estimator quais tipos de métricas extrair dos logs de treinamento do modelo. Aqui, estamos interessados principalmente em extrair as métricas do conjunto de validação em cada época de treinamento.

# Step 1: specify training hyperparameters and metric definitions
hyperparameters = {'epochs': 4, 'train_batch_size': 16, 'model_name': tokenizer_and_model_name} metric_definitions=[ {'Name': 'loss', 'Regex': "'loss': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_loss', 'Regex': "'eval_loss': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_accuracy', 'Regex': "'eval_accuracy': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_f1', 'Regex': "'eval_f1': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_precision', 'Regex': "'eval_precision': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_recall', 'Regex': "'eval_recall': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'epoch', 'Regex': "'epoch': ([0-9]+(.|e-)[0-9]+),?"}
]

A segunda etapa é instanciar o Hugging Face Estimator e iniciar o processo de ajuste fino com o .fit() método:

# Step 2: instantiate estimator and begin fine-tuning
from sagemaker.huggingface import HuggingFace huggingface_estimator = HuggingFace( entry_point='train.py', source_dir='./scripts', output_path=f's3://{sess.default_bucket()}', base_job_name='huggingface-sdk-extension', instance_type='ml.p3.8xlarge', instance_count=1, volume_size=100, transformers_version='4.17.0', pytorch_version='1.10.2', py_version='py38', role=role, hyperparameters=hyperparameters, metric_definitions=metric_definitions ) huggingface_estimator.fit({'train': training_input_path, 'test': val_input_path}, wait=True, job_name='sm-sts-blog-{}'.format(int(time.time())))

O processo de ajuste fino leva aproximadamente 30 minutos usando os hiperparâmetros especificados.

Implantar o modelo e realizar a inferência

O SageMaker oferece várias opções de implantação, dependendo do seu caso de uso. Para endpoints persistentes em tempo real que fazem uma previsão por vez, recomendamos usar Serviços de hospedagem em tempo real do SageMaker. Se você tiver cargas de trabalho com períodos ociosos entre surtos de tráfego e puder tolerar partidas a frio, recomendamos usar Inferência sem servidor. Os endpoints sem servidor iniciam automaticamente os recursos de computação e os expandem dependendo do tráfego, eliminando a necessidade de escolher tipos de instância ou gerenciar políticas de dimensionamento. Demonstramos como implantar nosso modelo Hugging Face ajustado para um ponto de extremidade de inferência em tempo real e um ponto de extremidade de inferência sem servidor.

Implante em um endpoint de inferência em tempo real

Você pode implantar um objeto de treinamento na hospedagem de inferência em tempo real no SageMaker usando o .deploy() método. Para obter uma lista completa dos parâmetros aceitos, consulte Modelo de rosto abraçado. Para começar, vamos implantar o modelo em uma instância, passando os seguintes parâmetros: initial_instance_count, instance_type e endpoint_name. Veja o seguinte código:

rt_predictor = huggingface_estimator.deploy(initial_instance_count=1,
instance_type="ml.g4dn.xlarge",
endpoint_name="sts-sbert-paws")

O modelo leva alguns minutos para ser implantado. Após a implantação do modelo, podemos enviar registros de amostra do conjunto de dados de teste não visto para o endpoint para inferência.

Implantar em um endpoint de inferência sem servidor

Para implantar nosso objeto de treinamento em um endpoint sem servidor, precisamos primeiro especificar um arquivo de configuração sem servidor com memory_size_in_mb e max_concurrency argumentos:

from sagemaker.serverless.serverless_inference_config import ServerlessInferenceConfig serverless_config = ServerlessInferenceConfig( memory_size_in_mb=6144, max_concurrency=1,
)

memory_size_in_mb define o tamanho total da RAM do endpoint sem servidor; o tamanho mínimo da RAM é de 1024 MB (1 GB) e pode ser dimensionado para até 6144 MB (6 GB). Geralmente, você deve escolher um tamanho de memória que seja pelo menos tão grande quanto o tamanho do seu modelo. max_concurrency define a cota para quantas invocações simultâneas podem ser processadas ao mesmo tempo (até 50 invocações simultâneas) para um único terminal.

Também precisamos fornecer o URI da imagem de inferência Hugging Face, que você pode recuperar usando o seguinte código:

image_uri = sagemaker.image_uris.retrieve( framework="huggingface", base_framework_version="pytorch1.10", region=sess.boto_region_name, version="4.17", py_version="py38", instance_type="ml.m5.large", image_scope="inference",
)

Agora que temos o arquivo de configuração sem servidor, podemos criar um endpoint sem servidor da mesma forma que nosso endpoint de inferência em tempo real, usando o .deploy() método:

sl_predictor = huggingface_estimator.deploy( serverless_inference_config=serverless_config, image_uri=image_uri
)

O endpoint deve ser criado em alguns minutos.

Executar inferência de modelo

Para fazer previsões, precisamos criar o par de sentenças adicionando o [CLS] e [SEP] tokens especiais e subseqüentemente enviar a entrada para os endpoints do modelo. A sintaxe para inferência em tempo real e inferência sem servidor é a mesma:

import random rand = random.randrange(0, 8000) true_label = dataset_test[rand]['label']
sent_1 = dataset_test[rand]['sentence1']
sent_2 = dataset_test[rand]['sentence2'] sentence_pair = {"inputs": ['[CLS] ' + sent_1 + ' [SEP] ' + sent_2 + ' [SEP]']} # real-time inference print('Sentence 1:', sent_1) print('Sentence 2:', sent_2)
print()
print('Inference Endpoint:', rt_predictor.endpoint_name)
print('True Label:', true_label)
print('Predicted Label:', rt_predictor.predict({"inputs": sentence_pair})[0]['label'])
print('Prediction Confidence:', rt_predictor.predict({"inputs": sentence_pair})[0]['score']) # serverless inference
print('Sentence 1:', sent_1) print('Sentence 2:', sent_2)
print()
print('Inference Endpoint:', sl_predictor.endpoint_name)
print('True Label:', true_label)
print('Predicted Label:', sl_predictor.predict({"inputs": sentence_pair})[0]['label'])
print('Prediction Confidence:', sl_predictor.predict({"inputs": sentence_pair})[0]['score'])

Nos exemplos a seguir, podemos ver que o modelo é capaz de classificar corretamente se o par de sentenças de entrada contém sentenças parafraseadas.

O seguinte é um exemplo de inferência em tempo real.

Veja a seguir um exemplo de inferência sem servidor.

Avalie o desempenho do modelo

Para avaliar o modelo, vamos expandir o código anterior e enviar todos os 8,000 registros de teste não vistos para o terminal em tempo real:

from tqdm import tqdm preds = []
labels = [] # Inference takes ~5 minutes for all test records using a fine-tuned roberta-base and ml.g4dn.xlarge instance for i in tqdm(range(len(dataset_test))): true_label = dataset_test[i]['label'] sent_1 = dataset_test[i]['sentence1'] sent_2 = dataset_test[i]['sentence2'] sentence_pair = {"inputs": ['[CLS] ' + sent_1 + ' [SEP] ' + sent_2 + ' [SEP]']} pred = rt_predictor.predict(sentence_pair) labels.append(true_label) preds.append(int(pred[0]['label'].split('_')[1]))

Em seguida, podemos criar um relatório de classificação usando as previsões extraídas:

from sklearn.metrics import classification_report print('Endpoint Name:', rt_predictor.endpoint_name)
class_names = ['paraphase', 'not paraphrase']
print(classification_report(labels, preds, target_names=class_names))

Obtemos as seguintes pontuações de teste.

Podemos observar que roberta-base tem uma pontuação F1 macro-média combinada de 92% e um desempenho ligeiramente melhor na detecção de sentenças que são paráfrases. o roberta-base modelo tem um bom desempenho, mas é uma boa prática calcular o desempenho do modelo usando pelo menos um outro modelo.

A tabela a seguir compara roberta-base resultados de desempenho no mesmo conjunto de teste em relação a outro transformador de ajuste fino chamado paraphrase-mpnet-base-v2, um transformador de sentença pré-treinado especificamente para a tarefa de identificação de paráfrase. Ambos os modelos foram treinados em uma instância ml.p3.8xlarge.

Os resultados mostram que roberta-base tem uma pontuação F1 1% maior com treinamento e tempos de inferência muito semelhantes usando hospedagem de inferência em tempo real no SageMaker. A diferença de desempenho entre os modelos é relativamente pequena, no entanto, roberta-base é, em última análise, o vencedor, pois tem métricas de desempenho marginalmente melhores e tempos de treinamento e inferência quase idênticos.

Precisão

Recordar

Pontuação F1

Tempo de treinamento (faturável)

Tempo de inferência (conjunto de teste completo)

Roberta-base

0.92

0.93

0.92

18 minutos

2 minutos

parafraseando-mpnet-

base-v2

0.92

0.91

17 minutos

2 minutos

limpar

Quando terminar de usar os endpoints do modelo, você poderá excluí-los para evitar cobranças futuras:

rt_predictor.delete_endpoint()
sl_predictor.delete_endpoint()

Conclusão

Nesta postagem, discutimos como criar rapidamente um modelo de identificação de paráfrase usando transformadores Hugging Face no SageMaker. Ajustamos dois transformadores pré-treinados, roberta-base e paraphrase-mpnet-base-v2, usando o conjunto de dados PAWS (que contém pares de sentenças com alta sobreposição lexical). Demonstramos e discutimos os benefícios da inferência em tempo real versus implantação de inferência sem servidor, sendo esta última um novo recurso que visa cargas de trabalho intensas e elimina a necessidade de gerenciar políticas de dimensionamento. Em um conjunto de teste inédito com 8,000 registros, demonstramos que ambos os modelos alcançaram uma pontuação F1 superior a 90%.

Para expandir esta solução, considere o seguinte:

Tente ajustar com seu próprio conjunto de dados personalizado. Se você não tiver rótulos de treinamento suficientes, poderá avaliar o desempenho de um modelo ajustado como o demonstrado nesta postagem em um conjunto de dados de teste personalizado.
Integre esse modelo ajustado em um aplicativo downstream que requer informações sobre se duas sentenças (ou blocos de texto) são paráfrases uma da outra.

Feliz edifício!

Sobre os autores

Bala Krishnamoorthy é Cientista de Dados da AWS Professional Services, onde gosta de aplicar aprendizado de máquina para resolver problemas de negócios de clientes. Ele é especialista em casos de uso de processamento de linguagem natural e trabalhou com clientes em setores como software, finanças e saúde. Em seu tempo livre, ele gosta de experimentar novas comidas, assistir a comédias e documentários, malhar no Orange Theory e estar na água (remo, snorkeling e, esperançosamente, mergulho em breve).

Ivan Cui é cientista de dados da AWS Professional Services, onde ajuda os clientes a criar e implantar soluções usando aprendizado de máquina na AWS. Ele trabalhou com clientes em diversos setores, incluindo software, finanças, farmacêutico e saúde. Em seu tempo livre, ele gosta de ler, passar o tempo com sua família e maximizar seu portfólio de ações.