Amazon SageMaker-এ আলিঙ্গন করা মুখের সাথে প্যারাফ্রেজড টেক্সট সনাক্ত করুন

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

প্যারাফ্রেজড টেক্সট শনাক্ত করার অনেক ক্ষেত্রেই ব্যবসায়িক মূল্য রয়েছে। উদাহরণস্বরূপ, বাক্যের প্যারাফ্রেজ সনাক্ত করে, একটি পাঠ্য সংক্ষিপ্তকরণ সিস্টেম অপ্রয়োজনীয় তথ্য মুছে ফেলতে পারে। আরেকটি অ্যাপ্লিকেশন হল চুরি করা নথি সনাক্ত করা। এই পোস্টে, আমরা ফাইন-টিউন ক আলিঙ্গন মুখ ট্রান্সফরমার চালু আমাজন সেজমেকার কয়েকটি ধাপে প্যারাফ্রেজ করা বাক্য জোড়া সনাক্ত করতে।

একটি সত্যিকারের মজবুত মডেল প্যারাফ্রেজড টেক্সট সনাক্ত করতে পারে যখন ব্যবহৃত ভাষা সম্পূর্ণ ভিন্ন হতে পারে, এবং যখন ব্যবহৃত ভাষার উচ্চ আভিধানিক ওভারল্যাপ থাকে তখন পার্থক্য সনাক্ত করতে পারে। এই পোস্টে, আমরা পরের দিকে ফোকাস. বিশেষভাবে, আমরা দেখি যে আমরা এমন একটি মডেলকে প্রশিক্ষণ দিতে পারি যা উচ্চ আভিধানিক ওভারল্যাপ এবং খুব ভিন্ন বা বিপরীত অর্থ রয়েছে এমন দুটি বাক্যের মধ্যে পার্থক্য সনাক্ত করতে পারে। উদাহরণস্বরূপ, নিম্নলিখিত বাক্যগুলির ঠিক একই শব্দ রয়েছে কিন্তু বিপরীত অর্থ রয়েছে:

আমি নিউ ইয়র্ক থেকে প্যারিস একটি ফ্লাইট নিলাম
আমি প্যারিস থেকে নিউইয়র্কের ফ্লাইট নিয়েছিলাম

সমাধান ওভারভিউ

আমরা আপনাকে নিম্নোক্ত উচ্চ-স্তরের পদক্ষেপের মধ্য দিয়ে চলেছি:

পরিবেশ স্থাপন করুন।
ডেটা প্রস্তুত করুন।
ডেটাসেট টোকেনাইজ করুন।
মডেলটি ফাইন-টিউন করুন।
মডেল স্থাপন এবং অনুমান সঞ্চালন.
মডেল কর্মক্ষমতা মূল্যায়ন.

আপনি যদি পরিবেশ সেট আপ করা এড়িয়ে যেতে চান তবে আপনি নিম্নলিখিত নোটবুকটি ব্যবহার করতে পারেন GitHub এবং SageMaker এ কোড চালান।

Hugging Face এবং AWS 2022 সালের আগে একটি অংশীদারিত্ব ঘোষণা করেছিল যা SageMaker-এ Hugging Face মডেলগুলিকে প্রশিক্ষণ দেওয়া আরও সহজ করে তোলে। এই কার্যকারিতা আলিঙ্গন মুখের বিকাশের মাধ্যমে উপলব্ধ AWS ডিপ লার্নিং কন্টেইনার (DLCs). এই কন্টেইনারগুলির মধ্যে রয়েছে হাগিং ফেস ট্রান্সফরমার, টোকেনাইজার এবং ডেটাসেট লাইব্রেরি, যা আমাদের প্রশিক্ষণ এবং অনুমান কাজের জন্য এই সংস্থানগুলি ব্যবহার করতে দেয়। উপলব্ধ DLC চিত্রগুলির একটি তালিকার জন্য, দেখুন উপলব্ধ ডিপ লার্নিং কনটেইনার ইমেজ. তারা রক্ষণাবেক্ষণ এবং নিয়মিত নিরাপত্তা প্যাচ সঙ্গে আপডেট করা হয়. আপনি এই DLCs এবং এর সাথে হাগিং ফেস মডেলগুলিকে কীভাবে প্রশিক্ষণ দেবেন তার অনেক উদাহরণ খুঁজে পেতে পারেন পাইথন এসডিকে আলিঙ্গন করছে নিম্নলিখিত গিটহুব রেপো.

PAWS ডেটাসেট

দক্ষ বাক্য জোড়া ডেটাসেটের অভাব উপলব্ধি করে যা প্যারাফ্রেজ না হয়ে উচ্চ আভিধানিক ওভারল্যাপ প্রদর্শন করে, মূল paws 2019 সালে প্রকাশিত ডেটাসেটটি ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP) সম্প্রদায়কে প্যারাফ্রেজ সনাক্তকরণ মডেলের প্রশিক্ষণ এবং মূল্যায়নের জন্য একটি নতুন সংস্থান প্রদানের লক্ষ্যে। PAWS বাক্য জোড়া ব্যবহার করে দুটি ধাপে তৈরি করা হয় উইকিপিডিয়া এবং Quora প্রশ্ন জোড়া (QQP) ডেটাসেট। একটি ভাষা মডেল প্রথমে একটি বাক্য জোড়ার শব্দগুলিকে একই ব্যাগ অফ ওয়ার্ডস (BOW) দিয়ে একটি বাক্য জোড়া তৈরি করে। একটি পিছনের অনুবাদের ধাপ তারপর উচ্চ BOW ওভারল্যাপ সহ প্যারাফ্রেজ তৈরি করে কিন্তু একটি ভিন্ন শব্দ ক্রম ব্যবহার করে। চূড়ান্ত PAWS ডেটাসেটে মোট 108,000টি মানব-লেবেলযুক্ত এবং 656,000টি শব্দে লেবেলযুক্ত জোড়া রয়েছে৷

এই পোস্টে, আমরা ব্যবহার PAWS-উইকি লেবেলযুক্ত (চূড়ান্ত) আলিঙ্গন মুখ থেকে ডেটাসেট। Hugging Face ইতিমধ্যেই আমাদের জন্য ডেটা বিভাজন সম্পাদন করেছে, যার ফলে প্রশিক্ষণ ডেটাসেটে 49,000 বাক্য জোড়া এবং বৈধতা ও পরীক্ষার ডেটাসেটের জন্য 8,000 বাক্য জোড়া রয়েছে৷ প্রশিক্ষণ ডেটাসেট থেকে দুটি বাক্য জোড়া উদাহরণ নিম্নলিখিত উদাহরণে দেখানো হয়েছে। 1 এর একটি লেবেল নির্দেশ করে যে দুটি বাক্য একে অপরের প্যারাফ্রেজ।

বাক্য ১	বাক্য ১	লেবেল
যদিও বিনিময়যোগ্য, 2টি গাড়ির শরীরের টুকরো একই রকম নয়৷	যদিও একই রকম, শরীরের অংশগুলি 2টি গাড়িতে বিনিময়যোগ্য নয়।	0
Katz 1947 সালে সুইডেনে জন্মগ্রহণ করেন এবং 1 বছর বয়সে নিউ ইয়র্ক সিটিতে চলে আসেন।	কাটজ 1947 সালে সুইডেনে জন্মগ্রহণ করেন এবং এক বছর বয়সে নিউইয়র্কে চলে আসেন।	1

পূর্বশর্ত

আপনাকে নিম্নলিখিত পূর্বশর্তগুলি পূরণ করতে হবে:

আপনার যদি না থাকে তাহলে একটি AWS অ্যাকাউন্টের জন্য সাইন আপ করুন৷ আরও তথ্যের জন্য, দেখুন Amazon SageMaker পূর্বশর্ত সেট আপ করুন.
ব্যবহার শুরু করুন সেজমেকার নোটবুকের উদাহরণ.
ডান সেট আপ এডাব্লুএস আইডেন্টিটি এবং অ্যাক্সেস ম্যানেজমেন্ট (IAM) অনুমতি। আরও তথ্যের জন্য, দেখুন SageMaker ভূমিকা.

পরিবেশ স্থাপন করুন

আমরা মডেল ফাইন-টিউনিংয়ের জন্য আমাদের ডেটা পরীক্ষা এবং প্রস্তুত করার আগে, আমাদের পরিবেশ সেট আপ করতে হবে। আসুন একটি সেজমেকার নোটবুক উদাহরণ স্পিনিং করে শুরু করা যাক। আপনার AWS অ্যাকাউন্টে একটি AWS অঞ্চল চয়ন করুন এবং নির্দেশাবলী অনুসরণ করুন৷ একটি সেজমেকার নোটবুক উদাহরণ তৈরি করুন. নোটবুকের উদাহরণটি ঘুরতে কয়েক মিনিট সময় নিতে পারে।

যখন নোটবুক ইনস্ট্যান্স চলছে, নির্বাচন করুন conda_pytorch_p38 আপনার কার্নেল টাইপ হিসাবে। হাগিং ফেস ডেটাসেট ব্যবহার করতে, আমাদের প্রথমে হাগিং ফেস লাইব্রেরি ইনস্টল এবং আমদানি করতে হবে:

!pip --quiet install "sagemaker" "transformers==4.17.0" "datasets==1.18.4" --upgrade
!pip --quiet install sentence-transformers import sagemaker.huggingface
import sagemaker
from datasets import load_dataset

এর পরে, আসুন একটি সেজমেকার সেশন প্রতিষ্ঠা করি। আমরা ডিফল্ট ব্যবহার করি আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) PAWS ডেটাসেট এবং মডেল আর্টিফ্যাক্টগুলি সংরক্ষণ করার জন্য SageMaker সেশনের সাথে যুক্ত বালতি:

sess = sagemaker.Session()
role = sagemaker.get_execution_role()
bucket = sess.default_bucket()

ডেটা প্রস্তুত করুন

আমরা এর সাথে PAWS ডেটাসেটের Hugging Face সংস্করণ লোড করতে পারি load_dataset() আদেশ এই কলটি Hugging Face GitHub রিপোজিটরি থেকে PAWS পাইথন প্রসেসিং স্ক্রিপ্ট ডাউনলোড এবং আমদানি করে, যা তারপর স্ক্রিপ্টে সংরক্ষিত মূল URL থেকে PAWS ডেটাসেট ডাউনলোড করে এবং ড্রাইভে একটি তীর টেবিল হিসাবে ডেটা ক্যাশ করে। নিম্নলিখিত কোড দেখুন:

dataset_train, dataset_val, dataset_test = load_dataset("paws", "labeled_final", split=['train', 'validation', 'test'])

আমরা আমাদের প্রাক-প্রশিক্ষিত BERT মডেলের ফাইন-টিউনিং শুরু করার আগে, আসুন আমাদের টার্গেট ক্লাস ডিস্ট্রিবিউশনটি দেখি। আমাদের ব্যবহারের ক্ষেত্রে, PAWS ডেটাসেটে বাইনারি লেবেল রয়েছে (0 নির্দেশ করে বাক্য জোড়াটি একটি প্যারাফ্রেজ নয়, এবং 1 ইঙ্গিত করে যে এটি)। ক্লাস ডিস্ট্রিবিউশন দেখার জন্য একটি কলাম চার্ট তৈরি করা যাক, যেমনটি নিম্নলিখিত কোডে দেখানো হয়েছে। আমরা দেখতে পাই যে আমাদের প্রশিক্ষণ সেটে একটি সামান্য শ্রেণী ভারসাম্যহীনতার সমস্যা রয়েছে (56% নেতিবাচক নমুনা বনাম। 44% ইতিবাচক নমুনা)। যাইহোক, শ্রেণি ভারসাম্যহীনতা প্রশমনের কৌশলগুলিকে কাজে লাগানোর জন্য ভারসাম্যহীনতা যথেষ্ট ছোট।

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns df = dataset_train.to_pandas() ax = sns.countplot(x="label", data=df)
ax.set_title('Label Count for PAWS Dataset', fontsize=15)
for p in ax.patches: ax.annotate(f'n{p.get_height()}', (p.get_x()+0.4, p.get_height()), ha='center', va='top', color='white', size=13)

ডেটাসেট টোকেনাইজ করুন

আমরা ফাইন-টিউনিং শুরু করার আগে, আমাদের ডেটাসেটকে টোকেনাইজ করতে হবে। একটি প্রারম্ভিক বিন্দু হিসাবে, আসুন আমরা সূক্ষ্ম টিউন এবং মূল্যায়ন করতে চাই roberta-base ট্রান্সফরমার আমরা নির্বাচন করেছি roberta-base কারণ এটি একটি সাধারণ-উদ্দেশ্য ট্রান্সফরমার যা ইংরেজি ডেটার একটি বৃহৎ কর্পাসের উপর প্রাক-প্রশিক্ষিত ছিল এবং প্রায়শই বিভিন্ন এনএলপি কাজগুলিতে উচ্চ কার্যকারিতা দেখিয়েছে। মডেলটি মূলত কাগজে চালু করা হয়েছিল RoBERta: একটি দৃঢ়ভাবে অপ্টিমাইজ করা BERT প্রাক-প্রশিক্ষণ পদ্ধতি.

আমরা a দিয়ে বাক্যে টোকেনাইজেশন করি roberta-base আলিঙ্গন মুখ থেকে টোকেনাইজার, যা ডকুমেন্টকে টোকেনে বিভক্ত করতে বাইট-লেভেল বাইট পেয়ার এনকোডিং ব্যবহার করে। RoBERta টোকেনাইজার সম্পর্কে আরও বিশদ বিবরণের জন্য, পড়ুন রবার্টা টোকেনিজার. যেহেতু আমাদের ইনপুটগুলি বাক্য জোড়া, আমাদের একই সাথে উভয় বাক্যকে টোকেনাইজ করতে হবে। যেহেতু বেশিরভাগ BERT মডেলের একটি নির্দিষ্ট টোকেনাইজড ইনপুট দৈর্ঘ্য থাকা ইনপুট প্রয়োজন, আমরা নিম্নলিখিত পরামিতিগুলি সেট করি: max_len=128 এবং truncation=True। নিম্নলিখিত কোডটি দেখুন:

from transformers import AutoTokenizer
tokenizer_and_model_name = 'roberta-base' # Download tokenizer
tokenizer = AutoTokenizer.from_pretrained(tokenizer_and_model_name) # Tokenizer helper function
def tokenize(batch, max_len=128): return tokenizer(batch['sentence1'], batch['sentence2'], max_length=max_len, truncation=True) dataset_train_tokenized = dataset_train.map(tokenize, batched=True, batch_size=len(dataset_train))
dataset_val_tokenized = dataset_val.map(tokenize, batched=True, batch_size=len(dataset_val))

আমাদের BERT মডেলকে ফাইন-টিউন করার জন্য শেষ প্রিপ্রসেসিং ধাপ হল টোকেনাইজড ট্রেন এবং ভ্যালিডেশন ডেটাসেটগুলিকে PyTorch টেনসরে রূপান্তর করা এবং সেগুলিকে আমাদের S3 বাকেটে আপলোড করা:

import botocore
from datasets.filesystems import S3FileSystem s3 = S3FileSystem()
s3_prefix = 'sts-sbert-paws/sts-paws-datasets' # convert and save train_dataset to s3
training_input_path = f's3://{sess.default_bucket()}/{s3_prefix}/train'
dataset_train_tokenized = dataset_train_tokenized.rename_column("label", "labels")
dataset_train_tokenized.set_format('torch', columns=['input_ids', 'attention_mask', 'labels'])
dataset_train_tokenized.save_to_disk(training_input_path,fs=s3) # convert and save val_dataset to s3
val_input_path = f's3://{sess.default_bucket()}/{s3_prefix}/val'
dataset_val_tokenized = dataset_val_tokenized.rename_column("label", "labels")
dataset_val_tokenized.set_format('torch', columns=['input_ids', 'attention_mask', 'labels'])
dataset_val_tokenized.save_to_disk(val_input_path,fs=s3)

মডেলটি ফাইন-টিউন করুন

এখন যেহেতু আমরা ডেটা প্রস্তুতি সম্পন্ন করেছি, আমরা আমাদের প্রাক-প্রশিক্ষিতদের সূক্ষ্ম সুর করতে প্রস্তুত roberta-base প্যারাফ্রেজ সনাক্তকরণ টাস্কের মডেল। আমরা দুটি ধাপে ফাইন-টিউনিং প্রক্রিয়া শুরু করতে সেজমেকার হাগিং ফেস এস্টিমেটর ক্লাস ব্যবহার করতে পারি। প্রথম ধাপ হল প্রশিক্ষণের হাইপারপ্যারামিটার এবং মেট্রিক সংজ্ঞা নির্দিষ্ট করা। মেট্রিক সংজ্ঞা ভেরিয়েবল হাগিং ফেস এস্টিমেটরকে বলে যে মডেলের প্রশিক্ষণ লগগুলি থেকে কী ধরনের মেট্রিক্স বের করতে হবে। এখানে, আমরা প্রাথমিকভাবে প্রতিটি প্রশিক্ষণ যুগে বৈধতা সেট মেট্রিক্স বের করতে আগ্রহী।

# Step 1: specify training hyperparameters and metric definitions
hyperparameters = {'epochs': 4, 'train_batch_size': 16, 'model_name': tokenizer_and_model_name} metric_definitions=[ {'Name': 'loss', 'Regex': "'loss': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_loss', 'Regex': "'eval_loss': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_accuracy', 'Regex': "'eval_accuracy': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_f1', 'Regex': "'eval_f1': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_precision', 'Regex': "'eval_precision': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_recall', 'Regex': "'eval_recall': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'epoch', 'Regex': "'epoch': ([0-9]+(.|e-)[0-9]+),?"}
]

দ্বিতীয় ধাপ হল আলিঙ্গন মুখ অনুমানকারীকে ইনস্ট্যান্ট করা এবং এর সাথে ফাইন-টিউনিং প্রক্রিয়া শুরু করা। .fit() পদ্ধতি:

# Step 2: instantiate estimator and begin fine-tuning
from sagemaker.huggingface import HuggingFace huggingface_estimator = HuggingFace( entry_point='train.py', source_dir='./scripts', output_path=f's3://{sess.default_bucket()}', base_job_name='huggingface-sdk-extension', instance_type='ml.p3.8xlarge', instance_count=1, volume_size=100, transformers_version='4.17.0', pytorch_version='1.10.2', py_version='py38', role=role, hyperparameters=hyperparameters, metric_definitions=metric_definitions ) huggingface_estimator.fit({'train': training_input_path, 'test': val_input_path}, wait=True, job_name='sm-sts-blog-{}'.format(int(time.time())))

নির্দিষ্ট হাইপারপ্যারামিটার ব্যবহার করে ফাইন-টিউনিং প্রক্রিয়াটি প্রায় 30 মিনিট সময় নেয়।

মডেল স্থাপন এবং অনুমান সঞ্চালন

সেজমেকার আপনার ব্যবহারের ক্ষেত্রে নির্ভর করে একাধিক স্থাপনার বিকল্প অফার করে। ক্রমাগত, রিয়েল-টাইম এন্ডপয়েন্টের জন্য যা একবারে একটি ভবিষ্যদ্বাণী করে, আমরা ব্যবহার করার পরামর্শ দিই সেজমেকার রিয়েল-টাইম হোস্টিং পরিষেবা. আপনার যদি কাজের চাপ থাকে যা ট্র্যাফিকের গতির মধ্যে অলস সময় থাকে এবং ঠান্ডা শুরু সহ্য করতে পারে, আমরা ব্যবহার করার পরামর্শ দিই সার্ভারহীন অনুমান. সার্ভারলেস এন্ডপয়েন্টগুলি স্বয়ংক্রিয়ভাবে গণনা সংস্থানগুলি চালু করে এবং ট্র্যাফিকের উপর নির্ভর করে সেগুলিকে ভিতরে এবং বাইরে স্কেল করে, উদাহরণের প্রকারগুলি বেছে নেওয়া বা স্কেলিং নীতিগুলি পরিচালনা করার প্রয়োজনীয়তা দূর করে৷ রিয়েল-টাইম ইনফারেন্স এন্ডপয়েন্ট এবং সার্ভারলেস ইনফরেন্স এন্ডপয়েন্ট উভয় ক্ষেত্রেই আমরা আমাদের ফাইন-টিউনড হাগিং ফেস মডেলকে কীভাবে স্থাপন করতে হয় তা প্রদর্শন করি।

একটি রিয়েল-টাইম ইনফারেন্স এন্ডপয়েন্টে স্থাপন করুন

আপনি SageMaker ব্যবহার করে রিয়েল-টাইম ইনফারেন্স হোস্টিং-এ একটি প্রশিক্ষণ বস্তু স্থাপন করতে পারেন .deploy() পদ্ধতি গৃহীত পরামিতিগুলির সম্পূর্ণ তালিকার জন্য, পড়ুন আলিঙ্গন মুখ মডেল. শুরু করতে, আসুন নিম্নলিখিত পরামিতিগুলি পাস করে মডেলটিকে একটি উদাহরণে স্থাপন করি: initial_instance_count, instance_type, এবং endpoint_name। নিম্নলিখিত কোডটি দেখুন:

rt_predictor = huggingface_estimator.deploy(initial_instance_count=1,
instance_type="ml.g4dn.xlarge",
endpoint_name="sts-sbert-paws")

মডেলটি স্থাপন করতে কয়েক মিনিট সময় নেয়। মডেলটি স্থাপন করার পরে, আমরা অনুমান করার জন্য অদেখা পরীক্ষার ডেটাসেট থেকে নমুনা রেকর্ড জমা দিতে পারি।

একটি সার্ভারহীন ইনফারেন্স এন্ডপয়েন্টে স্থাপন করুন

একটি সার্ভারহীন এন্ডপয়েন্টে আমাদের প্রশিক্ষণ বস্তু স্থাপন করতে, আমাদের প্রথমে একটি সার্ভারহীন কনফিগারেশন ফাইল উল্লেখ করতে হবে memory_size_in_mb এবং max_concurrency যুক্তি:

from sagemaker.serverless.serverless_inference_config import ServerlessInferenceConfig serverless_config = ServerlessInferenceConfig( memory_size_in_mb=6144, max_concurrency=1,
)

memory_size_in_mb আপনার সার্ভারহীন এন্ডপয়েন্টের মোট RAM আকার নির্ধারণ করে; ন্যূনতম RAM এর আকার হল 1024 MB (1 GB) এবং এটি 6144 MB (6 GB) পর্যন্ত স্কেল করতে পারে। সাধারণত, আপনার লক্ষ্য করা উচিত একটি মেমরির আকার বেছে নেওয়া যা আপনার মডেলের আকারের মতো অন্তত বড়। max_concurrency একটি একক এন্ডপয়েন্টের জন্য একই সময়ে (50টি সমবর্তী আমন্ত্রণ পর্যন্ত) কতগুলি সমবর্তী আহ্বান প্রক্রিয়া করা যেতে পারে তার জন্য কোটা সংজ্ঞায়িত করে৷

আমাদের আলিঙ্গন মুখের অনুমান চিত্র URI সরবরাহ করতে হবে, যা আপনি নিম্নলিখিত কোড ব্যবহার করে পুনরুদ্ধার করতে পারেন:

image_uri = sagemaker.image_uris.retrieve( framework="huggingface", base_framework_version="pytorch1.10", region=sess.boto_region_name, version="4.17", py_version="py38", instance_type="ml.m5.large", image_scope="inference",
)

এখন যেহেতু আমাদের সার্ভারহীন কনফিগারেশন ফাইল আছে, আমরা আমাদের রিয়েল-টাইম ইনফারেন্স এন্ডপয়েন্টের মতোই একটি সার্ভারহীন এন্ডপয়েন্ট তৈরি করতে পারি, .deploy() পদ্ধতি:

sl_predictor = huggingface_estimator.deploy( serverless_inference_config=serverless_config, image_uri=image_uri
)

শেষ পয়েন্ট কয়েক মিনিটের মধ্যে তৈরি করা উচিত।

মডেল অনুমান সঞ্চালন

ভবিষ্যদ্বাণী করতে, আমাদের যোগ করে বাক্য জোড়া তৈরি করতে হবে [CLS] এবং [SEP] বিশেষ টোকেন এবং পরবর্তীতে মডেল এন্ডপয়েন্টে ইনপুট জমা দিন। রিয়েল-টাইম ইনফারেন্স এবং সার্ভারহীন অনুমানের জন্য সিনট্যাক্স একই:

import random rand = random.randrange(0, 8000) true_label = dataset_test[rand]['label']
sent_1 = dataset_test[rand]['sentence1']
sent_2 = dataset_test[rand]['sentence2'] sentence_pair = {"inputs": ['[CLS] ' + sent_1 + ' [SEP] ' + sent_2 + ' [SEP]']} # real-time inference print('Sentence 1:', sent_1) print('Sentence 2:', sent_2)
print()
print('Inference Endpoint:', rt_predictor.endpoint_name)
print('True Label:', true_label)
print('Predicted Label:', rt_predictor.predict({"inputs": sentence_pair})[0]['label'])
print('Prediction Confidence:', rt_predictor.predict({"inputs": sentence_pair})[0]['score']) # serverless inference
print('Sentence 1:', sent_1) print('Sentence 2:', sent_2)
print()
print('Inference Endpoint:', sl_predictor.endpoint_name)
print('True Label:', true_label)
print('Predicted Label:', sl_predictor.predict({"inputs": sentence_pair})[0]['label'])
print('Prediction Confidence:', sl_predictor.predict({"inputs": sentence_pair})[0]['score'])

নিম্নলিখিত উদাহরণগুলিতে, আমরা দেখতে পাচ্ছি মডেলটি সঠিকভাবে শ্রেণীবদ্ধ করতে সক্ষম যে ইনপুট বাক্য জোড়াতে প্যারাফ্রেজ করা বাক্য রয়েছে কিনা।

নিম্নলিখিত একটি বাস্তব সময়ের অনুমান উদাহরণ.

নিম্নলিখিত একটি সার্ভারহীন অনুমান উদাহরণ.

মডেল কর্মক্ষমতা মূল্যায়ন

মডেলটি মূল্যায়ন করতে, আসুন পূর্ববর্তী কোডটি প্রসারিত করি এবং সমস্ত 8,000টি অদেখা পরীক্ষার রেকর্ড রিয়েল-টাইম এন্ডপয়েন্টে জমা দিই:

from tqdm import tqdm preds = []
labels = [] # Inference takes ~5 minutes for all test records using a fine-tuned roberta-base and ml.g4dn.xlarge instance for i in tqdm(range(len(dataset_test))): true_label = dataset_test[i]['label'] sent_1 = dataset_test[i]['sentence1'] sent_2 = dataset_test[i]['sentence2'] sentence_pair = {"inputs": ['[CLS] ' + sent_1 + ' [SEP] ' + sent_2 + ' [SEP]']} pred = rt_predictor.predict(sentence_pair) labels.append(true_label) preds.append(int(pred[0]['label'].split('_')[1]))

পরবর্তী, আমরা নিষ্কাশিত পূর্বাভাস ব্যবহার করে একটি শ্রেণীবিভাগ প্রতিবেদন তৈরি করতে পারি:

from sklearn.metrics import classification_report print('Endpoint Name:', rt_predictor.endpoint_name)
class_names = ['paraphase', 'not paraphrase']
print(classification_report(labels, preds, target_names=class_names))

আমরা নিম্নলিখিত পরীক্ষার স্কোর পেতে.

আমরা তা পর্যবেক্ষণ করতে পারি roberta-base একটি সম্মিলিত ম্যাক্রো-গড় F1 স্কোর 92% এবং বাক্যাংশগুলি সনাক্ত করতে কিছুটা ভাল পারফর্ম করে যা প্যারাফ্রেজ। দ্য roberta-base মডেল ভাল পারফরম্যান্স করে, তবে অন্তত একটি অন্য মডেল ব্যবহার করে মডেলের কার্যক্ষমতা গণনা করা ভাল অভ্যাস।

নিম্নলিখিত টেবিল তুলনা roberta-base একই পরীক্ষায় পারফরম্যান্সের ফলাফল অন্য একটি সূক্ষ্ম-সুরক্ষিত ট্রান্সফরমারের বিরুদ্ধে সেট করা হয়েছে paraphrase-mpnet-base-v2, একটি বাক্য ট্রান্সফরমার বিশেষভাবে প্যারাফ্রেজ সনাক্তকরণ কাজের জন্য প্রাক-প্রশিক্ষিত। উভয় মডেল একটি ml.p3.8x বড় উদাহরণে প্রশিক্ষিত ছিল।

ফলাফল তা দেখায় roberta-base সেজমেকার-এ রিয়েল-টাইম ইনফারেন্স হোস্টিং ব্যবহার করে খুব অনুরূপ প্রশিক্ষণ এবং অনুমান সময়ের সাথে 1% বেশি F1 স্কোর রয়েছে। মডেলগুলির মধ্যে পারফরম্যান্সের পার্থক্য তুলনামূলকভাবে ছোট, তবে, roberta-base শেষ পর্যন্ত বিজয়ী কারণ এটির পারফরম্যান্স মেট্রিক্স এবং প্রায় অভিন্ন প্রশিক্ষণ এবং অনুমান সময় রয়েছে।

স্পষ্টতা

প্রত্যাহার

F1-স্কোর

প্রশিক্ষণের সময় (বিলযোগ্য)

অনুমান সময় (সম্পূর্ণ পরীক্ষার সেট)

roberta-বেস

0.92

0.93

0.92

18 মিনিট

2 মিনিট

প্যারাফ্রেজ-mpnet-

base-v2

0.92

0.91

17 মিনিট

2 মিনিট

পরিষ্কার কর

মডেল এন্ডপয়েন্ট ব্যবহার করা হয়ে গেলে, ভবিষ্যতের চার্জ এড়াতে আপনি সেগুলি মুছে ফেলতে পারেন:

rt_predictor.delete_endpoint()
sl_predictor.delete_endpoint()

উপসংহার

এই পোস্টে, আমরা সেজমেকারে হাগিং ফেস ট্রান্সফরমার ব্যবহার করে কীভাবে দ্রুত একটি প্যারাফ্রেজ শনাক্তকরণ মডেল তৈরি করা যায় তা নিয়ে আলোচনা করেছি। আমরা দুটি প্রাক-প্রশিক্ষিত ট্রান্সফরমারকে সূক্ষ্ম-টিউন করেছি, roberta-base এবং paraphrase-mpnet-base-v2, PAWS ডেটাসেট ব্যবহার করে (যা উচ্চ আভিধানিক ওভারল্যাপ সহ বাক্য জোড়া রয়েছে)। আমরা রিয়েল-টাইম ইনফারেন্স বনাম সার্ভারলেস ইনফারেন্স ডিপ্লয়মেন্টের সুবিধাগুলি প্রদর্শন এবং আলোচনা করেছি, পরবর্তীটি একটি নতুন বৈশিষ্ট্য যা স্পাইকি ওয়ার্কলোডকে লক্ষ্য করে এবং স্কেলিং নীতিগুলি পরিচালনা করার প্রয়োজনীয়তা দূর করে। 8,000 রেকর্ড সহ একটি অদেখা পরীক্ষায়, আমরা দেখিয়েছি যে উভয় মডেলই 1% এর বেশি F90 স্কোর অর্জন করেছে।

এই সমাধানটি প্রসারিত করতে, নিম্নলিখিতগুলি বিবেচনা করুন:

আপনার নিজস্ব কাস্টম ডেটাসেটের সাথে ফাইন-টিউনিং করার চেষ্টা করুন। আপনার কাছে পর্যাপ্ত প্রশিক্ষণের লেবেল না থাকলে, আপনি একটি কাস্টম টেস্ট ডেটাসেটে এই পোস্টে প্রদর্শিত মডেলের মতো একটি সূক্ষ্ম-টিউনড মডেলের কার্যকারিতা মূল্যায়ন করতে পারেন।
এই সূক্ষ্ম-টিউনড মডেলটিকে একটি ডাউনস্ট্রিম অ্যাপ্লিকেশনে একীভূত করুন যাতে দুটি বাক্য (বা পাঠ্যের ব্লক) একে অপরের প্যারাফ্রেজ কিনা সে সম্পর্কে তথ্য প্রয়োজন।

সুখের বিল্ডিং!

লেখক সম্পর্কে

বালা কৃষ্ণমূর্তি AWS প্রফেশনাল সার্ভিসের একজন ডেটা সায়েন্টিস্ট, যেখানে তিনি গ্রাহকের ব্যবসায়িক সমস্যা সমাধানের জন্য মেশিন লার্নিং প্রয়োগ করতে উপভোগ করেন। তিনি প্রাকৃতিক ভাষা প্রক্রিয়াকরণ ব্যবহারের ক্ষেত্রে বিশেষজ্ঞ এবং সফ্টওয়্যার, অর্থ এবং স্বাস্থ্যসেবার মতো শিল্পে গ্রাহকদের সাথে কাজ করেছেন। তার অবসর সময়ে, তিনি নতুন খাবার চেষ্টা করা, কমেডি এবং ডকুমেন্টারি দেখা, অরেঞ্জ থিওরিতে কাজ করা এবং জলের উপরে থাকা (প্যাডেল-বোর্ডিং, স্নরকেলিং এবং আশা করি শীঘ্রই ডাইভিং) উপভোগ করেন।

ইভান কুই AWS প্রফেশনাল সার্ভিসের একজন ডেটা সায়েন্টিস্ট, যেখানে তিনি AWS-এ মেশিন লার্নিং ব্যবহার করে গ্রাহকদের সমাধান তৈরি ও স্থাপনে সহায়তা করেন। তিনি সফ্টওয়্যার, ফিনান্স, ফার্মাসিউটিক্যাল এবং স্বাস্থ্যসেবা সহ বিভিন্ন শিল্পে গ্রাহকদের সাথে কাজ করেছেন। তার অবসর সময়ে, তিনি পড়তে, তার পরিবারের সাথে সময় কাটাতে এবং তার স্টক পোর্টফোলিওকে সর্বাধিক করতে উপভোগ করেন।