Визначте перефразований текст із обличчям, що обіймається, на Amazon SageMaker

Перевидано Платоном

читають: 0

Ідентифікація перефразованого тексту має ділову цінність у багатьох випадках використання. Наприклад, визначивши перефрази речень, система узагальнення тексту могла б видалити зайву інформацію. Інша програма – ідентифікація документів, які були піддані плагіату. У цій публікації ми детально налаштуємо a Обіймати обличчя трансформатор увімкнений Amazon SageMaker визначити пари перефразованих речень за кілька кроків.

По-справжньому надійна модель може ідентифікувати перефразований текст, коли мова, яка використовується, може бути абсолютно різною, а також визначити відмінності, якщо мова, що використовується, має високе лексичне перекриття. У цій публікації ми зосередимося на останньому аспекті. Зокрема, ми дивимося, чи можемо ми навчити модель, яка зможе визначити різницю між двома реченнями, які мають високе лексичне перекриття та дуже різні або протилежні значення. Наприклад, наступні речення мають однакові слова, але протилежне значення:

Я летів з Нью-Йорка до Парижа
Я летів з Парижа до Нью-Йорка

Огляд рішення

Ми проведемо вас через такі кроки високого рівня:

Налаштуйте середовище.
Підготуйте дані.
Токенізуйте набір даних.
Тонко налаштуйте модель.
Розгорніть модель і зробіть висновки.
Оцініть продуктивність моделі.

Якщо ви хочете пропустити налаштування середовища, ви можете використовувати наведений нижче блокнот GitHub і запустіть код у SageMaker.

Раніше в 2022 році Hugging Face і AWS оголосили про партнерство, яке спрощує навчання моделей Hugging Face на SageMaker. Ця функція доступна завдяки розробці Hugging Face Контейнери глибокого навчання AWS (DLC). Ці контейнери включають Hugging Face Transformers, Tokenizer і бібліотеку Datasets, що дозволяє нам використовувати ці ресурси для навчання та роботи з висновками. Список доступних зображень DLC див Доступні зображення контейнерів глибокого навчання. Вони підтримуються та регулярно оновлюються виправленнями безпеки. Ви можете знайти багато прикладів того, як тренувати моделі Hugging Face за допомогою цих DLC і SDK для Python Hugging Face у наступному GitHub репо.

Набір даних PAWS

Усвідомлюючи відсутність ефективних наборів даних пар речень, які демонструють високе лексичне перекриття без перефразування, оригінал Плесна Набір даних, випущений у 2019 році, мав на меті надати спільноті з обробки природних мов (NLP) новий ресурс для навчання та оцінки моделей виявлення парафраз. Пари речень PAWS генеруються в два кроки за допомогою Вікіпедія і Пари запитань Quora (QQP) набір даних. Мовна модель спочатку міняє слова в парі речень з тим самим пакетом слів (BOW), щоб створити пару речень. Крок зворотного перекладу потім генерує парафрази з великим перекриттям BOW, але з використанням іншого порядку слів. Остаточний набір даних PAWS містить загалом 108,000 656,000 позначених людиною пар і XNUMX XNUMX пар із шумами.

У цій публікації ми використовуємо PAWS-Wiki з міткою (останнє) набір даних із Hugging Face. Hugging Face вже здійснив для нас розділення даних, що призводить до 49,000 8,000 пар речень у наборі навчальних даних і 1 XNUMX пар речень кожна для наборів даних перевірки та тестування. У наступному прикладі показано два приклади пар речень із навчального набору даних. Мітка XNUMX означає, що ці два речення є перефразами одне одного.

Вирок 1	Вирок 2	етикетка
Хоча є взаємозамінними, кузовні частини на 2 автомобілях не схожі.	Незважаючи на схожість, частини кузова не є взаємозамінними на 2 автомобілях.	0
Кац народився в Швеції в 1947 році і переїхав до Нью-Йорка у віці 1 року.	Кац народився в 1947 році в Швеції і переїхав до Нью-Йорка у віці одного року.	1

Передумови

Вам потрібно виконати наступні передумови:

Зареєструйте обліковий запис AWS, якщо у вас його немає. Додаткову інформацію див Налаштуйте передумови Amazon SageMaker.
Почніть користуватися Примірники блокнота SageMaker.
Налаштуйте правий Управління ідентифікацією та доступом AWS (IAM). Додаткову інформацію див Ролі SageMaker.

Налаштуйте середовище

Перш ніж ми почнемо вивчати та готувати наші дані для точного налаштування моделі, нам потрібно налаштувати наше середовище. Давайте почнемо з розгортання екземпляра блокнота SageMaker. Виберіть регіон AWS у своєму обліковому записі AWS та дотримуйтесь інструкцій створити екземпляр блокнота SageMaker. Розгортання екземпляра ноутбука може зайняти кілька хвилин.

Коли екземпляр ноутбука запущено, виберіть conda_pytorch_p38 як ваш тип ядра. Щоб використовувати набір даних Hugging Face, нам спочатку потрібно встановити та імпортувати бібліотеку Hugging Face:

!pip --quiet install "sagemaker" "transformers==4.17.0" "datasets==1.18.4" --upgrade
!pip --quiet install sentence-transformers import sagemaker.huggingface
import sagemaker
from datasets import load_dataset

Далі давайте встановимо сеанс SageMaker. Ми використовуємо за замовчуванням Служба простого зберігання Amazon (Amazon S3), пов’язаний із сеансом SageMaker для зберігання набору даних PAWS та артефактів моделі:

sess = sagemaker.Session()
role = sagemaker.get_execution_role()
bucket = sess.default_bucket()

Підготуйте дані

Ми можемо завантажити версію Hugging Face набору даних PAWS з його load_dataset() команда. Цей виклик завантажує та імпортує сценарій обробки PAWS Python із репозиторію Hugging Face GitHub, який потім завантажує набір даних PAWS з оригінальної URL-адреси, збереженої в сценарії, і кешує дані у вигляді таблиці зі стрілками на диску. Дивіться наступний код:

dataset_train, dataset_val, dataset_test = load_dataset("paws", "labeled_final", split=['train', 'validation', 'test'])

Перш ніж ми почнемо налаштовувати нашу попередньо навчену модель BERT, давайте подивимося на розподіл цільового класу. Для нашого випадку використання набір даних PAWS має двійкові мітки (0 вказує, що пара речень не є перефразою, а 1 — це). Давайте створимо стовпчасту діаграму, щоб переглянути розподіл класів, як показано в наступному коді. Ми бачимо, що в нашому навчальному наборі є невелика проблема з дисбалансом класів (56% негативних вибірок проти 44% позитивних). Однак дисбаланс досить малий, щоб уникнути застосування методів пом’якшення дисбалансу класів.

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns df = dataset_train.to_pandas() ax = sns.countplot(x="label", data=df)
ax.set_title('Label Count for PAWS Dataset', fontsize=15)
for p in ax.patches: ax.annotate(f'n{p.get_height()}', (p.get_x()+0.4, p.get_height()), ha='center', va='top', color='white', size=13)

Токенізуйте набір даних

Перш ніж ми зможемо розпочати точне налаштування, нам потрібно токенізувати наш набір даних. Для початку припустимо, що ми хочемо точно налаштувати й оцінити roberta-base трансформатор. Ми вибрали roberta-base тому що це універсальний трансформатор, який був попередньо навчений на великому корпусі англійських даних і часто показував високу продуктивність у різноманітних завданнях НЛП. Модель спочатку була представлена в статті RoBERTa: надійно оптимізований підхід до переробки BERT.

Виконуємо лексемизацію речень з a roberta-base tokenizer від Hugging Face, який використовує кодування пар байтів на рівні байтів, щоб розділити документ на маркери. Додаткову інформацію про токенізатор RoBERTa див RobertaTokenizer. Оскільки наші вхідні дані є парами речень, нам потрібно токенізувати обидва речення одночасно. Оскільки більшість моделей BERT вимагає, щоб вхід мав фіксовану токенізовану довжину введення, ми встановлюємо такі параметри: max_len=128 та truncation=True. Дивіться наступний код:

from transformers import AutoTokenizer
tokenizer_and_model_name = 'roberta-base' # Download tokenizer
tokenizer = AutoTokenizer.from_pretrained(tokenizer_and_model_name) # Tokenizer helper function
def tokenize(batch, max_len=128): return tokenizer(batch['sentence1'], batch['sentence2'], max_length=max_len, truncation=True) dataset_train_tokenized = dataset_train.map(tokenize, batched=True, batch_size=len(dataset_train))
dataset_val_tokenized = dataset_val.map(tokenize, batched=True, batch_size=len(dataset_val))

Останній крок попередньої обробки для точного налаштування нашої моделі BERT полягає в перетворенні токенізованих наборів поїздів і даних перевірки в тензори PyTorch і завантаження їх у наше відро S3:

import botocore
from datasets.filesystems import S3FileSystem s3 = S3FileSystem()
s3_prefix = 'sts-sbert-paws/sts-paws-datasets' # convert and save train_dataset to s3
training_input_path = f's3://{sess.default_bucket()}/{s3_prefix}/train'
dataset_train_tokenized = dataset_train_tokenized.rename_column("label", "labels")
dataset_train_tokenized.set_format('torch', columns=['input_ids', 'attention_mask', 'labels'])
dataset_train_tokenized.save_to_disk(training_input_path,fs=s3) # convert and save val_dataset to s3
val_input_path = f's3://{sess.default_bucket()}/{s3_prefix}/val'
dataset_val_tokenized = dataset_val_tokenized.rename_column("label", "labels")
dataset_val_tokenized.set_format('torch', columns=['input_ids', 'attention_mask', 'labels'])
dataset_val_tokenized.save_to_disk(val_input_path,fs=s3)

Точна настройка моделі

Тепер, коли ми закінчили з підготовкою даних, ми готові до тонкого налаштування наших попередньо навчених roberta-base модель за завданням ідентифікації перефразування. Ми можемо використовувати клас SageMaker Hugging Face Estimator, щоб розпочати процес тонкого налаштування в два кроки. Перший крок — це вказати навчальні гіперпараметри та визначення метрики. Змінна визначення метрики повідомляє інструменту Hugging Face Estimator, які типи показників витягувати з журналів навчання моделі. Тут ми в першу чергу зацікавлені в отриманні метрик набору перевірки в кожну епоху навчання.

# Step 1: specify training hyperparameters and metric definitions
hyperparameters = {'epochs': 4, 'train_batch_size': 16, 'model_name': tokenizer_and_model_name} metric_definitions=[ {'Name': 'loss', 'Regex': "'loss': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_loss', 'Regex': "'eval_loss': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_accuracy', 'Regex': "'eval_accuracy': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_f1', 'Regex': "'eval_f1': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_precision', 'Regex': "'eval_precision': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_recall', 'Regex': "'eval_recall': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'epoch', 'Regex': "'epoch': ([0-9]+(.|e-)[0-9]+),?"}
]

Другим кроком є створення екземпляра Hugging Face Estimator і початок процесу тонкого налаштування за допомогою .fit() метод:

# Step 2: instantiate estimator and begin fine-tuning
from sagemaker.huggingface import HuggingFace huggingface_estimator = HuggingFace( entry_point='train.py', source_dir='./scripts', output_path=f's3://{sess.default_bucket()}', base_job_name='huggingface-sdk-extension', instance_type='ml.p3.8xlarge', instance_count=1, volume_size=100, transformers_version='4.17.0', pytorch_version='1.10.2', py_version='py38', role=role, hyperparameters=hyperparameters, metric_definitions=metric_definitions ) huggingface_estimator.fit({'train': training_input_path, 'test': val_input_path}, wait=True, job_name='sm-sts-blog-{}'.format(int(time.time())))

Процес точного налаштування займає приблизно 30 хвилин із використанням вказаних гіперпараметрів.

Розгорніть модель і зробіть висновки

SageMaker пропонує кілька варіантів розгортання залежно від вашого випадку використання. Для постійних кінцевих точок у реальному часі, які роблять по одному прогнозу, ми рекомендуємо використовувати Послуги хостингу в режимі реального часу SageMaker. Якщо у вас є робочі навантаження, які мають періоди простою між стрибками руху та можуть витримувати холодні запуски, ми рекомендуємо використовувати Безсерверний висновок. Безсерверні кінцеві точки автоматично запускають обчислювальні ресурси та масштабують їх залежно від трафіку, усуваючи потребу вибирати типи екземплярів або керувати політиками масштабування. Ми демонструємо, як розгорнути нашу налаштовану модель Hugging Face як для кінцевої точки висновку в реальному часі, так і для кінцевої точки висновку без сервера.

Розгорнути на кінцевій точці висновку в реальному часі

Ви можете розгорнути навчальний об’єкт на хостингі для висновків у реальному часі в SageMaker за допомогою .deploy() метод. Повний список прийнятних параметрів див Обіймає модель обличчя. Для початку давайте розгорнемо модель на одному екземплярі, передавши такі параметри: initial_instance_count, instance_type та endpoint_name. Дивіться наступний код:

rt_predictor = huggingface_estimator.deploy(initial_instance_count=1,
instance_type="ml.g4dn.xlarge",
endpoint_name="sts-sbert-paws")

Розгортання моделі займає кілька хвилин. Після розгортання моделі ми можемо надіслати зразки записів із невидимого тестового набору даних до кінцевої точки для висновку.

Розгорнути на кінцевій точці безсерверного висновку

Щоб розгорнути наш навчальний об’єкт на безсерверній кінцевій точці, нам потрібно спочатку вказати файл конфігурації без сервера з memory_size_in_mb та max_concurrency аргументи:

from sagemaker.serverless.serverless_inference_config import ServerlessInferenceConfig serverless_config = ServerlessInferenceConfig( memory_size_in_mb=6144, max_concurrency=1,
)

memory_size_in_mb визначає загальний розмір RAM безсерверної кінцевої точки; мінімальний розмір оперативної пам’яті становить 1024 МБ (1 ГБ), а його можна масштабувати до 6144 МБ (6 ГБ). Як правило, ви повинні прагнути вибрати розмір пам’яті, який принаймні такий же великий, як розмір вашої моделі. max_concurrency визначає квоту на те, скільки одночасних викликів може бути оброблено одночасно (до 50 одночасних викликів) для однієї кінцевої точки.

Нам також потрібно надати URI зображення висновку Hugging Face, який ви можете отримати за допомогою такого коду:

image_uri = sagemaker.image_uris.retrieve( framework="huggingface", base_framework_version="pytorch1.10", region=sess.boto_region_name, version="4.17", py_version="py38", instance_type="ml.m5.large", image_scope="inference",
)

Тепер, коли у нас є файл конфігурації без сервера, ми можемо створити безсерверну кінцеву точку так само, як і нашу кінцеву точку висновку в реальному часі, використовуючи .deploy() метод:

sl_predictor = huggingface_estimator.deploy( serverless_inference_config=serverless_config, image_uri=image_uri
)

Кінцева точка має бути створена за кілька хвилин.

Виконайте модельний висновок

Щоб зробити передбачення, нам потрібно створити пару речень, додавши [CLS] та [SEP] спеціальні токени і згодом подати вхідні дані кінцевим точкам моделі. Синтаксис для висновку в реальному часі та безсерверного висновку однаковий:

import random rand = random.randrange(0, 8000) true_label = dataset_test[rand]['label']
sent_1 = dataset_test[rand]['sentence1']
sent_2 = dataset_test[rand]['sentence2'] sentence_pair = {"inputs": ['[CLS] ' + sent_1 + ' [SEP] ' + sent_2 + ' [SEP]']} # real-time inference print('Sentence 1:', sent_1) print('Sentence 2:', sent_2)
print()
print('Inference Endpoint:', rt_predictor.endpoint_name)
print('True Label:', true_label)
print('Predicted Label:', rt_predictor.predict({"inputs": sentence_pair})[0]['label'])
print('Prediction Confidence:', rt_predictor.predict({"inputs": sentence_pair})[0]['score']) # serverless inference
print('Sentence 1:', sent_1) print('Sentence 2:', sent_2)
print()
print('Inference Endpoint:', sl_predictor.endpoint_name)
print('True Label:', true_label)
print('Predicted Label:', sl_predictor.predict({"inputs": sentence_pair})[0]['label'])
print('Prediction Confidence:', sl_predictor.predict({"inputs": sentence_pair})[0]['score'])

У наступних прикладах ми бачимо, що модель здатна правильно класифікувати, чи містить вхідна пара речень перефразовані речення.

Нижче наведено приклад висновку в реальному часі.

Нижче наведено приклад безсерверного висновку.

Оцініть продуктивність моделі

Щоб оцінити модель, давайте розширимо попередній код і надішлемо всі 8,000 невидимих тестових записів на кінцеву точку реального часу:

from tqdm import tqdm preds = []
labels = [] # Inference takes ~5 minutes for all test records using a fine-tuned roberta-base and ml.g4dn.xlarge instance for i in tqdm(range(len(dataset_test))): true_label = dataset_test[i]['label'] sent_1 = dataset_test[i]['sentence1'] sent_2 = dataset_test[i]['sentence2'] sentence_pair = {"inputs": ['[CLS] ' + sent_1 + ' [SEP] ' + sent_2 + ' [SEP]']} pred = rt_predictor.predict(sentence_pair) labels.append(true_label) preds.append(int(pred[0]['label'].split('_')[1]))

Далі ми можемо створити звіт про класифікацію за допомогою витягнутих прогнозів:

from sklearn.metrics import classification_report print('Endpoint Name:', rt_predictor.endpoint_name)
class_names = ['paraphase', 'not paraphrase']
print(classification_report(labels, preds, target_names=class_names))

Ми отримуємо наступні результати тесту.

Ми можемо це спостерігати roberta-base має комбінований макросередній бал F1 92% і трохи краще розпізнає речення, які є перефразами. The roberta-base модель працює добре, але доцільно обчислювати продуктивність моделі, використовуючи принаймні одну іншу модель.

Наступна таблиця порівнює roberta-base результати продуктивності на одному тестовому наборі проти іншого точно налаштованого трансформатора під назвою paraphrase-mpnet-base-v2, трансформатор речень, попередньо підготовлений спеціально для завдання ідентифікації парафраз. Обидві моделі навчалися на екземплярі ml.p3.8xlarge.

Результати це показують roberta-base має на 1% вищий результат F1 із дуже подібним часом навчання та висновку, використовуючи хостинг для висновків у реальному часі на SageMaker. Однак різниця в продуктивності між моделями відносно незначна, roberta-base в кінцевому підсумку є переможцем, оскільки він має трохи кращі показники продуктивності та майже ідентичний час навчання та висновків.

Точність

Згадувати

Оцінка F1

Час навчання (оплачується)

Час висновку (повний тестовий набір)

Роберта-база

0.92

0.93

0.92

18 хвилин

2 хвилин

парафраз-mpnet-

база-v2

0.92

0.91

17 хвилин

2 хвилин

Прибирати

Коли ви закінчите використовувати кінцеві точки моделі, ви можете видалити їх, щоб уникнути стягнення плати в майбутньому:

rt_predictor.delete_endpoint()
sl_predictor.delete_endpoint()

Висновок

У цій публікації ми обговорили, як швидко побудувати модель ідентифікації перефразування за допомогою трансформаторів Hugging Face на SageMaker. Ми налаштували два попередньо навчені трансформатори, roberta-base та paraphrase-mpnet-base-v2, використовуючи набір даних PAWS (який містить пари речень із великим лексичним перекриттям). Ми продемонстрували та обговорили переваги висновку в реальному часі проти розгортання безсерверного висновку, останнє є новою функцією, яка націлена на різкі робочі навантаження та усуває необхідність керувати політиками масштабування. На невидимому тестовому наборі з 8,000 записів ми продемонстрували, що обидві моделі отримали оцінку F1 більше ніж 90%.

Щоб розширити це рішення, зверніть увагу на таке:

Спробуйте налаштувати свій власний набір даних. Якщо у вас недостатньо навчальних міток, ви можете оцінити продуктивність точно налаштованої моделі, як показано в цій публікації, на спеціальному наборі тестових даних.
Інтегруйте цю детально налаштовану модель у програму, що знаходиться нижче по ходу, яка потребує інформації про те, чи є два речення (або блоки тексту) перефразами одне одного.

Щаслива будівля!

Про авторів

Бала Крішнамурті є Data Scientist з AWS Professional Services, де йому подобається застосовувати машинне навчання для вирішення бізнес-проблем клієнтів. Він спеціалізується на обробці природних мов і працював із клієнтами в таких галузях, як програмне забезпечення, фінанси та охорона здоров’я. У вільний час він любить пробувати нову їжу, дивитися комедії та документальні фільми, тренуватися в Orange Theory, а також гуляти на воді (кататися на веслах, снорклінг і, сподіваюся, незабаром дайвінг).

Іван Цуй є дослідником даних з професійними службами AWS, де він допомагає клієнтам створювати та впроваджувати рішення за допомогою машинного навчання на AWS. Він працював з клієнтами в різних галузях промисловості, включаючи програмне забезпечення, фінанси, фармацевтику та охорону здоров'я. У вільний час він із задоволенням читає, проводить час із сім’єю та максимізує портфель акцій.