AWS-এ মেশিন লার্নিং সহ অনলাইন কথোপকথনের জন্য পাঠ্য শ্রেণিবিন্যাস

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

অনলাইন কথোপকথন আধুনিক জীবনে সর্বব্যাপী, ভিডিও গেম থেকে টেলিকমিউনিকেশন পর্যন্ত শিল্প বিস্তৃত। এটি অনলাইন কথোপকথনের ডেটার পরিমাণে একটি সূচকীয় বৃদ্ধির দিকে পরিচালিত করেছে, যা চ্যাটবট এবং ন্যাচারাল ল্যাঙ্গুয়েজ জেনারেশন (NLG) মডেলের মতো অত্যাধুনিক প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) সিস্টেমগুলির বিকাশে সাহায্য করেছে৷ সময়ের সাথে সাথে, পাঠ্য বিশ্লেষণের জন্য বিভিন্ন NLP কৌশলও বিকশিত হয়েছে। এটি একটি সম্পূর্ণরূপে পরিচালিত পরিষেবার প্রয়োজনীয়তার প্রয়োজন যা ব্যাপক মেশিন লার্নিং (এমএল) দক্ষতার প্রয়োজন ছাড়াই API কল ব্যবহার করে অ্যাপ্লিকেশনগুলিতে একীভূত করা যেতে পারে। AWS প্রাক-প্রশিক্ষিত AWS AI পরিষেবার মতো অফার করে অ্যামাজন সমঝোতা, যা টেক্সট থেকে অন্তর্দৃষ্টি সংগ্রহের জন্য শ্রেণীবিভাগ, পাঠ্য সংক্ষিপ্তকরণ, সত্তা স্বীকৃতি এবং আরও অনেক কিছু জড়িত NLP ব্যবহারের ক্ষেত্রে কার্যকরভাবে পরিচালনা করতে পারে।

উপরন্তু, অনলাইন কথোপকথন ভাষার অ-প্রথাগত ব্যবহারের একটি বিস্তৃত প্রপঞ্চের দিকে পরিচালিত করেছে। বিভিন্ন প্ল্যাটফর্মের মধ্যে বিদ্যমান ক্রমাগত বিকশিত এবং ডোমেন-নির্দিষ্ট শব্দভাণ্ডার এবং সেইসাথে সঠিক ইংরেজি থেকে শব্দের উল্লেখযোগ্য আভিধানিক বিচ্যুতি, দুর্ঘটনাক্রমে বা ইচ্ছাকৃতভাবে প্রতিপক্ষ আক্রমণের একটি ফর্ম হিসাবে প্রচলিত NLP কৌশলগুলি প্রায়শই এই পাঠ্য ডেটাতে খারাপভাবে কাজ করে। .

এই পোস্টে, আমরা AWS-এ উপলব্ধ সরঞ্জাম এবং পরিষেবাগুলির সাথে অনলাইন কথোপকথনের পাঠ্য শ্রেণিবিন্যাসের জন্য একাধিক ML পদ্ধতির বর্ণনা করি।

পূর্বশর্ত

এই ব্যবহারের ক্ষেত্রে গভীরভাবে ডুব দেওয়ার আগে, অনুগ্রহ করে নিম্নলিখিত পূর্বশর্তগুলি সম্পূর্ণ করুন:

সেট আপ একটি এডাব্লুএস অ্যাকাউন্ট এবং একটি IAM ব্যবহারকারী তৈরি করুন.
সেট আপ করুন এডাব্লুএস সি এল আই এবং এডাব্লু এসডি.
(ঐচ্ছিক) সেট আপ আপনার Cloud9 IDE পরিবেশ.

ডেটা সেটটি

এই পোস্টের জন্য, আমরা বিষাক্ততা শ্রেণীবিভাগের ডেটাসেটে জিগস অনিচ্ছাকৃত পক্ষপাত, অনলাইন কথোপকথনে বিষাক্ততার শ্রেণীবিভাগের নির্দিষ্ট সমস্যার জন্য একটি বেঞ্চমার্ক। ডেটাসেটটি বিষাক্ততার লেবেল এবং সেইসাথে অশ্লীল, পরিচয় আক্রমণ, অপমান, হুমকি এবং যৌন সুস্পষ্টের মতো বেশ কয়েকটি উপগোষ্ঠী বৈশিষ্ট্য সরবরাহ করে। লেবেলগুলি ভগ্নাংশের মান হিসাবে সরবরাহ করা হয়, যা মানব টীকাকারদের অনুপাতকে প্রতিনিধিত্ব করে যারা বিশ্বাস করেছিল যে প্রদত্ত পাঠ্যের অংশে বৈশিষ্ট্যটি প্রয়োগ করা হয়েছে, যা খুব কমই সর্বসম্মত। বাইনারি লেবেল তৈরি করতে (উদাহরণস্বরূপ, বিষাক্ত বা অ-বিষাক্ত), ভগ্নাংশের মানগুলিতে 0.5 এর একটি থ্রেশহোল্ড প্রয়োগ করা হয় এবং থ্রেশহোল্ডের চেয়ে বেশি মানের মন্তব্যগুলিকে সেই লেবেলের জন্য ইতিবাচক শ্রেণী হিসাবে গণ্য করা হয়।

সাবওয়ার্ড এম্বেডিং এবং RNN

আমাদের প্রথম মডেলিং পদ্ধতির জন্য, আমরা পাঠ্য শ্রেণিবিন্যাসের মডেলগুলিকে প্রশিক্ষণের জন্য সাবওয়ার্ড এম্বেডিং এবং পুনরাবৃত্ত নিউরাল নেটওয়ার্ক (RNN) এর সংমিশ্রণ ব্যবহার করি। সাবওয়ার্ড এম্বেডিং চালু করা হয়েছিল বোজানোস্কি এট আল। 2017 সালে পূর্ববর্তী শব্দ-স্তরের এম্বেডিং পদ্ধতির উন্নতি হিসাবে। প্রথাগত Word2Vec স্কিপ-গ্রাম মডেলগুলিকে একটি টার্গেট শব্দের একটি স্ট্যাটিক ভেক্টর উপস্থাপনা শিখতে প্রশিক্ষিত করা হয় যা সেই শব্দের প্রসঙ্গটি সর্বোত্তমভাবে ভবিষ্যদ্বাণী করে। অন্যদিকে সাবওয়ার্ড মডেলগুলি, প্রতিটি টার্গেট শব্দকে n-গ্রাম অক্ষরের একটি ব্যাগ হিসাবে উপস্থাপন করে যা শব্দটি তৈরি করে, যেখানে একটি n-গ্রাম n ধারাবাহিক অক্ষরগুলির একটি সেট দ্বারা গঠিত। এই পদ্ধতিটি এমবেডিং মডেলটিকে কর্পাসে সম্পর্কিত শব্দের অন্তর্নিহিত রূপবিদ্যার পাশাপাশি উপন্যাস, শব্দের বাইরের (OOV) শব্দগুলির জন্য এমবেডিংয়ের গণনাকে আরও ভালভাবে উপস্থাপন করার অনুমতি দেয়। এটি অনলাইন কথোপকথনের প্রেক্ষাপটে বিশেষভাবে গুরুত্বপূর্ণ, একটি সমস্যা স্থান যেখানে ব্যবহারকারীরা প্রায়শই শব্দের বানান ভুল করে (কখনও কখনও ইচ্ছাকৃতভাবে সনাক্তকরণ এড়াতে) এবং একটি অনন্য, ক্রমাগত বিকশিত শব্দভাণ্ডারও ব্যবহার করে যা সাধারণ প্রশিক্ষণ সংস্থা দ্বারা ক্যাপচার করা নাও হতে পারে।

আমাজন সেজমেকার বিল্ট-ইন সহ ডোমেন-নির্দিষ্ট পাঠ্য ডেটার আপনার নিজস্ব কর্পাসে একটি তত্ত্বাবধানহীন সাবওয়ার্ড এমবেডিং মডেলকে প্রশিক্ষণ দেওয়া এবং অপ্টিমাইজ করা সহজ করে তোলে ব্লেজিং টেক্সট অ্যালগরিদম. আমরা অনলাইন পাঠ্যের বড় ডেটাসেটে প্রশিক্ষিত বিদ্যমান সাধারণ-উদ্দেশ্য মডেলগুলিও ডাউনলোড করতে পারি, যেমন নিম্নলিখিতগুলি৷ ইংরেজি ভাষার মডেল সরাসরি fastText থেকে উপলব্ধ. আপনার সেজমেকার নোটবুক উদাহরণ থেকে, একটি পূর্বপ্রশিক্ষিত দ্রুত পাঠ্য মডেল ডাউনলোড করতে নিম্নলিখিতটি চালান:

!wget -O vectors.zip https://dl.fbaipublicfiles.com/fasttext/vectors-english/crawl-300d-2M-subword.zip

আপনি BlazingText-এর সাথে আপনার নিজের এম্বেডিংগুলিকে প্রশিক্ষিত করেছেন বা একটি পূর্বপ্রশিক্ষিত মডেল ডাউনলোড করেছেন কিনা, ফলাফল হল একটি জিপড মডেল বাইনারি যা আপনি জেনসিম লাইব্রেরির সাথে একটি প্রদত্ত লক্ষ্য শব্দকে এর উপাদান সাবওয়ার্ডগুলির উপর ভিত্তি করে ভেক্টর হিসাবে এম্বেড করতে ব্যবহার করতে পারেন:

# Imports
import os
from zipfile import ZipFile
from gensim.models.fasttext import load_facebook_vectors # Unzip the model binary into 'dir_path'
with ZipFile('vectors.zip', 'r') as zipObj: zipObj.extractall(path=<dir_path_name>) # Load embedding model into memory
embed_model = load_facebook_vectors(os.path.join(<dir_path_name>, 'vectors.bin')) # Compute embedding vector for 'word'
word_embedding = embed_model[word]

আমরা পাঠ্যের একটি প্রদত্ত সেগমেন্ট প্রিপ্রসেস করার পরে, আমরা প্রতিটি উপাদান শব্দের জন্য একটি ভেক্টর উপস্থাপনা তৈরি করতে এই পদ্ধতিটি ব্যবহার করতে পারি (স্পেস দ্বারা পৃথক করা হয়েছে)। তারপরে আমরা সেজমেকার এবং একটি গভীর শিক্ষার কাঠামো ব্যবহার করি যেমন PyTorch একটি কাস্টমাইজড RNN কে বাইনারি বা মাল্টিলেবেল শ্রেণীবিভাগের উদ্দেশ্য সহ প্রশিক্ষিত করার জন্য পাঠ্যটি বিষাক্ত কিনা এবং লেবেলযুক্ত প্রশিক্ষণ উদাহরণগুলির উপর ভিত্তি করে বিষাক্ততার নির্দিষ্ট উপ-প্রকার ভবিষ্যদ্বাণী করতে।

আপনার প্রি-প্রসেসড টেক্সট আপলোড করতে আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3), নিম্নলিখিত কোড ব্যবহার করুন:

import boto3
s3 = boto3.client('s3') bucket = <bucket_name>
prefix = <prefix_name> s3.upload_file('train.pkl', bucket, os.path.join(prefix, 'train/train.pkl'))
s3.upload_file('valid.pkl', bucket, os.path.join(prefix, 'valid/valid.pkl'))
s3.upload_file('test.pkl', bucket, os.path.join(prefix, 'test/test.pkl'))

SageMaker এর সাথে স্কেলযোগ্য, মাল্টি-GPU মডেল প্রশিক্ষণ শুরু করতে, নিম্নলিখিত কোডটি লিখুন:

import sagemaker
sess = sagemaker.Session()
role = iam.get_role(RoleName= ‘AmazonSageMakerFullAccess’)['Role']['Arn'] from sagemaker.pytorch import PyTorch # hyperparameters, which are passed into the training job
hyperparameters = { 'epochs': 20, # Maximum number of epochs to train model 'train-batch-size': 128, # Training batch size (No. sentences) 'eval-batch-size': 1024, # Evaluation batch size (No. sentences) 'embed-size': 300, # Vector dimension of word embeddings (Must match embedding model) 'lstm-hidden-size': 200, # Number of neurons in LSTM hidden layer 'lstm-num-layers': 2, # Number of stacked LSTM layers 'proj-size': 100, # Number of neurons in intermediate projection layer 'num-targets': len(<list_of_label_names>), # Number of targets for classification 'class-weight': ' '.join([str(c) for c in <list_of_weights_per_class>]), # Weight to apply to each target during training 'total-length':<max_number_of_words_per_sentence>, 'metric-for-best-model': 'ap_score_weighted', # Metric on which to select the best model
} # create the Estimator
pytorch_estimator = PyTorch( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, volume_size=200, instance_count=1, role=role, framework_version='1.6.0’, py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) pytorch_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test' }
)

মধ্যে , আমরা একটি PyTorch ডেটাসেট সংজ্ঞায়িত করি যা দ্বারা ব্যবহৃত হয় train.py মডেলের প্রশিক্ষণ এবং মূল্যায়নের জন্য পাঠ্য ডেটা প্রস্তুত করতে:

def pad_matrix(m: torch.Tensor, max_len: int =100)-> tuple[int, torch.Tensor] : """Pads an embedding matrix to a specified maximum length.""" if m.ndim == 1: m = m.reshape(1, -1) mask = np.ones_like(m) if m.shape[0] > max_len: m = m[:max_len, :] mask = mask[:max_len, :] else: m = np.pad(m, ((0, max_len - m.shape[0]), (0,0))) mask = np.pad(mask, ((0, max_len - mask.shape[0]), (0,0))) return m, mask class EmbeddingDataset(Dataset: torch.utils.data.Dataset): """PyTorch dataset representing pretrained sentence embeddings, masks, and labels.""" def __init__(self, text: str, labels: int, max_len: int=100): self.text = text self.labels = labels self.max_len = max_len def __len__(self) -> int: return len(self.labels) def __getitem__(self, idx: int) -> dict: e = embed_line(self.text[idx]) length = e.shape[0] m, mask = pad_matrix(e, max_len=self.max_len) item = {} item['embeddings'] = torch.from_numpy(m) item['mask'] = torch.from_numpy(mask) item['labels'] = torch.tensor(self.labels[idx]) if length > self.max_len: item['lengths'] = torch.tensor(self.max_len) else: item['lengths'] = torch.tensor(length) return item

নোট করুন যে এই কোডটি অনুমান করে যে vectors.zip আপনার fastText বা BlazingText এম্বেডিং ধারণকারী ফাইল সংরক্ষণ করা হবে .

উপরন্তু, প্রাসঙ্গিক শব্দ-স্তরের কাজগুলিতে ব্যবহারের জন্য উড়ে এম্বেডিং ভেক্টর গণনা করার জন্য আপনি সহজেই সেজমেকার এন্ডপয়েন্ট লাইভ করার জন্য প্রাক-প্রশিক্ষিত ফাস্ট টেক্সট মডেলগুলিকে তাদের নিজস্বভাবে স্থাপন করতে পারেন। নিম্নলিখিত দেখুন GitHub উদাহরণ আরো বিস্তারিত জানার জন্য.

আলিঙ্গন মুখ সঙ্গে ট্রান্সফরমার

আমাদের দ্বিতীয় মডেলিং পদ্ধতির জন্য, আমরা ট্রান্সফরমার ব্যবহারে রূপান্তর করি, যা কাগজে প্রবর্তিত হয়েছে মনোযোগ আপনার প্রয়োজন সব. ট্রান্সফরমারগুলি গভীর শিক্ষার মডেল যা ইচ্ছাকৃতভাবে ইনপুট এবং আউটপুটের মধ্যে বিশ্বব্যাপী নির্ভরতা আঁকতে একটি স্ব-মনোযোগ ব্যবস্থার উপর নির্ভর করে RNN-এর ত্রুটিগুলি এড়াতে ডিজাইন করা হয়েছে। ট্রান্সফরমার মডেল আর্কিটেকচার উল্লেখযোগ্যভাবে ভালো সমান্তরালকরণের অনুমতি দেয় এবং তুলনামূলকভাবে অল্প প্রশিক্ষণের সময়ে উচ্চ কর্মক্ষমতা অর্জন করতে পারে।

ট্রান্সফরমারের সাফল্যের উপর নির্মিত, বিইআরটি, কাগজে প্রবর্তিত BERT: ভাষা বোঝার জন্য ডিপ বিডেরেশিয়াল ট্রান্সফর্মারগুলির প্রাক প্রশিক্ষণ, ভাষা উপস্থাপনার জন্য দ্বিমুখী প্রাক-প্রশিক্ষণ যোগ করা হয়েছে। ক্লোজ টাস্ক দ্বারা অনুপ্রাণিত হয়ে, BERT-কে মাস্কড ল্যাঙ্গুয়েজ মডেলিং (MLM) এর সাথে প্রাক-প্রশিক্ষিত করা হয়েছে, যেখানে মডেল এলোমেলোভাবে মুখোশযুক্ত টোকেনগুলির জন্য আসল শব্দগুলি পুনরুদ্ধার করতে শেখে। BERT মডেলটি পরবর্তী বাক্য ভবিষ্যদ্বাণী (NSP) টাস্কের জন্যও পূর্বপ্রশিক্ষিত হয় যাতে ভবিষ্যদ্বাণী করা যায় যে দুটি বাক্য সঠিক পাঠের ক্রমে আছে কিনা। 2018 সালে এর আবির্ভাবের পর থেকে, BERT এবং এর বৈচিত্রগুলি পাঠ্য শ্রেণিবিন্যাসের কাজে ব্যাপকভাবে ব্যবহৃত হয়েছে।

আমাদের সমাধানটি BERT এর একটি রূপ ব্যবহার করে যা RoBERTa নামে পরিচিত, যা কাগজে চালু করা হয়েছিল RoBERta: একটি দৃঢ়ভাবে অপ্টিমাইজ করা BERT প্রাক-প্রশিক্ষণ পদ্ধতি. RoBERTa অপ্টিমাইজ করা মডেল প্রশিক্ষণের মাধ্যমে BERT কর্মক্ষমতাকে আরও উন্নত করে, যার মধ্যে 10 গুণ বড় বড় কর্পাসের প্রশিক্ষণ মডেলগুলি, অপ্টিমাইজড হাইপারপ্যারামিটার ব্যবহার করে, ডাইনামিক র্যান্ডম মাস্কিং, NSP টাস্ক অপসারণ এবং আরও অনেক কিছু।

আমাদের RoBERta-ভিত্তিক মডেলগুলি ব্যবহার করে আলিঙ্গন মুখ ট্রান্সফরমার লাইব্রেরি, যা একটি জনপ্রিয় ওপেন-সোর্স পাইথন ফ্রেমওয়ার্ক যা বিভিন্ন ধরনের NLP কাজের জন্য সব ধরনের অত্যাধুনিক ট্রান্সফরমার মডেলের উচ্চ-মানের বাস্তবায়ন প্রদান করে। Hugging Face AWS-এর সাথে অংশীদারিত্ব করেছে সেজমেকারে ট্রান্সফরমার মডেলগুলিকে সহজে প্রশিক্ষণ এবং স্থাপন করতে আপনাকে সক্ষম করতে। এই কার্যকারিতা মাধ্যমে উপলব্ধ আলিঙ্গন মুখ AWS ডিপ লার্নিং কন্টেইনার ছবি, যার মধ্যে রয়েছে ট্রান্সফরমার, টোকেনাইজার এবং ডেটাসেট লাইব্রেরি এবং মডেল প্রশিক্ষণ এবং অনুমানের জন্য সেজমেকারের সাথে অপ্টিমাইজ করা ইন্টিগ্রেশন।

আমাদের বাস্তবায়নে, আমরা হাগিং ফেস ট্রান্সফরমার ফ্রেমওয়ার্ক থেকে RoBERTa আর্কিটেকচার ব্যাকবোন উত্তরাধিকার সূত্রে পাই এবং আমাদের নিজস্ব টেক্সট ক্লাসিফিকেশন মডেলকে প্রশিক্ষণ ও স্থাপন করতে সেজমেকার ব্যবহার করি, যাকে আমরা RoBERTox বলি। RoBERTox বাইট পেয়ার এনকোডিং (BPE) ব্যবহার করে, যা চালু হয়েছে সাবওয়ার্ড ইউনিট সহ বিরল শব্দের নিউরাল মেশিন অনুবাদ, সাবওয়ার্ড উপস্থাপনায় ইনপুট পাঠ্যকে টোকেনাইজ করতে। তারপরে আমরা আমাদের মডেল এবং টোকেনাইজারকে জিগস ডেটা বা কোনো বড় ডোমেন-নির্দিষ্ট কর্পাস (যেমন একটি নির্দিষ্ট গেমের চ্যাট লগ) প্রশিক্ষণ দিতে পারি এবং কাস্টমাইজড পাঠ্য শ্রেণিবিন্যাসের জন্য সেগুলি ব্যবহার করতে পারি। আমরা নিম্নলিখিত কোডে আমাদের কাস্টম শ্রেণীবিভাগ মডেল ক্লাস সংজ্ঞায়িত করি:

class RoBERToxForSequenceClassification(CustomLossMixIn, RobertaPreTrainedModel): _keys_to_ignore_on_load_missing = [r"position_ids"] def __init__(self, config: PretrainedConfig, *inputs, **kwargs): """Initialize the RoBERToxForSequenceClassification instance Parameters ---------- config : PretrainedConfig num_labels : Optional[int] if not None, overwrite the default classification head in pretrained model. mode : Optional[str] 'MULTI_CLASS', 'MULTI_LABEL' or "REGRESSION". Used to determine loss class_weight : Optional[List[float]] If not None, add class weight to BCEWithLogitsLoss or CrossEntropyLoss """ super().__init__(config, *inputs, **kwargs) # Define model architecture self.roberta = RobertaModel(self.config, add_pooling_layer=False) self.classifier = RobertaClassificationHead(self.config) self.init_weights() @modeling_roberta.add_start_docstrings_to_model_forward( modeling_roberta.ROBERTA_INPUTS_DOCSTRING.format("batch_size, sequence_length") ) @modeling_roberta.add_code_sample_docstrings( tokenizer_class=modeling_roberta._TOKENIZER_FOR_DOC, checkpoint=modeling_roberta._CHECKPOINT_FOR_DOC, output_type=SequenceClassifierOutput, config_class=modeling_roberta._CONFIG_FOR_DOC, ) def forward( self, input_ids: torch.Tensor = None, attention_mask: torch.Tensor = None, token_type_ids: torch.Tensor = None, position_ids: torch.Tensor =None, head_mask: torch.Tensor =None, inputs_embeds: torch.Tensor =None, labels: torch.Tensor =None, output_attentions: torch.Tensor =None, output_hidden_states: torch.Tensor =None, return_dict: bool =None, sample_weights: torch.Tensor =None, ) -> : dict: """Forward pass to return loss, logits, ... Returns -------- output : SequenceClassifierOutput has those keys: loss, logits, hidden states, attentions """ return_dict = return_dict or self.config.use_return_dict outputs = self.roberta( input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids, position_ids=position_ids, head_mask=head_mask, inputs_embeds=inputs_embeds, output_attentions=output_attentions, output_hidden_states=output_hidden_states, return_dict=return_dict, ) sequence_output = outputs[0] # [CLS] embedding logits = self.classifier(sequence_output) loss = self.compute_loss(logits, labels, sample_weights=sample_weights) if not return_dict: output = (logits,) + outputs[2:] return ((loss,) + output) if loss is not None else output return SequenceClassifierOutput( loss=loss, logits=logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions, ) def compute_loss(self, logits: torch.Tensor, labels: torch.Tensor, sample_weights: Optional[torch.Tensor] = None) -> torch.FloatTensor: return super().compute_loss(logits, labels, sample_weights)

প্রশিক্ষণের আগে, আমরা হাগিং ফেসের ডেটাসেট লাইব্রেরি ব্যবহার করে আমাদের পাঠ্য ডেটা এবং লেবেল প্রস্তুত করি এবং ফলাফলটি Amazon S3 এ আপলোড করি:

from datasets import Dataset
import multiprocessing data_train = Dataset.from_pandas(df_train)
… tokenizer = <instantiated_huggingface_tokenizer> def preprocess_function(examples: examples) -> torch.Tensor: result = tokenizer(examples["text"], padding="max_length", max_length=128, truncation=True) return result num_proc = multiprocessing.cpu_count()
print("Number of CPUs =", num_proc) data_train = data_train.map( preprocess_function, batched=True, load_from_cache_file=False, num_proc=num_proc
)
… import botocore
from datasets.filesystems import S3FileSystem s3_session = botocore.session.Session() # create S3FileSystem instance with s3_session
s3 = S3FileSystem(session=s3_session) # saves encoded_dataset to your s3 bucket
data_train.save_to_disk(f's3://<bucket_name>/<prefix_name>/train', fs=s3)
…

আমরা RNN এর অনুরূপ মডেলের প্রশিক্ষণ শুরু করি:

import sagemaker
sess = sagemaker.Session()
role = sagemaker.get_execution_role()
from sagemaker.huggingface import HuggingFace # hyperparameters, which are passed into the training job
hyperparameters = { 'model-name': <huggingface_base_model_name>, 'epochs': 10, 'train-batch-size': 32, 'eval-batch-size': 64, 'num-labels': len(<list_of_label_names>), 'class-weight': ' '.join([str(c) for c in <list_of_class_weights>]), 'metric-for-best-model': 'ap_score_weighted', 'save-total-limit': 1,
} # create the Estimator
huggingface_estimator = HuggingFace( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, instance_count=1, role=role, transformers_version='4.6.1', pytorch_version='1.7.1', py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) huggingface_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test'
)

অবশেষে, নিম্নলিখিত পাইথন কোড স্নিপেট একটি JSON অনুরোধের জন্য রিয়েল-টাইম টেক্সট শ্রেণীবিভাগের জন্য একটি লাইভ সেজমেকার এন্ডপয়েন্টের মাধ্যমে RoBERTox পরিবেশন করার প্রক্রিয়াটি ব্যাখ্যা করে:

from sagemaker.huggingface import HuggingFaceModel
from sagemaker import get_execution_role
from sagemaker.predictor import Predictor
from sagemaker.serializers import JSONSerializer
from sagemaker.deserializers import JSONDeserializer class Classifier(Predictor): def __init__(self, endpoint_name, sagemaker_session): super().__init__(endpoint_name, sagemaker_session, serializer=JSONSerializer(), deserializer=JSONDeserializer()) hf_model = HuggingFaceModel( role=get_execution_role(), model_data=<s3_model_and_tokenizer.tar.gz>, entry_point="inference.py", transformers_version="4.6.1", pytorch_version="1.7.1", py_version="py36", predictor_cls=Classifier
) predictor = hf_model.deploy(instance_type=<deploy_instance_type>, initial_instance_count=1)

মডেল কর্মক্ষমতা মূল্যায়ন: জিগস অনিচ্ছাকৃত পক্ষপাত ডেটাসেট

নিম্নলিখিত সারণীতে বিষাক্ততা সনাক্তকরণ কাগল প্রতিযোগিতায় জিগসঅ অনিচ্ছাকৃত পক্ষপাত থেকে ডেটার উপর প্রশিক্ষিত এবং মূল্যায়ন করা মডেলগুলির কর্মক্ষমতা মেট্রিক্স রয়েছে। আমরা তিনটি ভিন্ন কিন্তু আন্তঃসম্পর্কিত কাজের জন্য মডেলদের প্রশিক্ষণ দিয়েছি:

বাইনারি কেস - মডেলটিকে ভবিষ্যদ্বাণী করার জন্য সম্পূর্ণ প্রশিক্ষণ ডেটাসেটে প্রশিক্ষণ দেওয়া হয়েছিল toxicity শুধুমাত্র লেবেল
সূক্ষ্ম দানাদার কেস - যার জন্য প্রশিক্ষণ ডেটার উপসেট৷ toxicity>=0.5 অন্যান্য বিষাক্ত সাব-টাইপ লেবেলগুলির পূর্বাভাস দিতে ব্যবহৃত হয়েছিল (obscene, threat, insult, identity_attack, sexual_explicit)
মাল্টিটাস্ক কেস - সম্পূর্ণ প্রশিক্ষণ ডেটাসেটটি একসাথে ছয়টি লেবেলের পূর্বাভাস দিতে ব্যবহৃত হয়েছিল

আমরা জিগস-প্রদত্ত ভগ্নাংশ লেবেল ব্যবহার করে এই তিনটি কাজের প্রতিটির জন্য RNN এবং RoBERTa মডেলগুলিকে প্রশিক্ষণ দিয়েছি, যা লেবেলটিকে পাঠ্যের জন্য উপযুক্ত বলে মনে করেছিল এবং সেইসাথে নেটওয়ার্কে ক্লাস ওয়েটের সাথে মিলিত বাইনারি লেবেলের সাথে ভাষ্যকারদের অনুপাতের সাথে সঙ্গতিপূর্ণ। ক্ষতি ফাংশন। বাইনারি লেবেলিং স্কিমে, প্রতিটি উপলব্ধ লেবেলের জন্য অনুপাতগুলি 0.5 এ থ্রেশহোল্ড করা হয়েছিল (1 যদি লেবেল> = 0.5, অন্যথায় 0), এবং প্রশিক্ষণ ডেটাসেটে প্রতিটি বাইনারি লেবেলের আপেক্ষিক অনুপাতের উপর ভিত্তি করে মডেল লস ফাংশনগুলি ওজন করা হয়েছিল। সমস্ত ক্ষেত্রে, আমরা দেখেছি যে ভগ্নাংশের লেবেলগুলি ব্যবহার করে সরাসরি সর্বোত্তম পারফরম্যান্স হয়েছে, যা টীকাকারদের মধ্যে চুক্তির ডিগ্রির অন্তর্নিহিত তথ্যের যোগ মান নির্দেশ করে৷

আমরা দুটি মডেল মেট্রিক্স প্রদর্শন করি: গড় নির্ভুলতা (AP), যা প্রতিটি শ্রেণীবিন্যাস থ্রেশহোল্ডে অর্জিত নির্ভুল মানের ওজনযুক্ত গড় গণনা করে নির্ভুলতা-রিকল বক্ররেখার একটি সারাংশ প্রদান করে এবং রিসিভার অপারেটিং চরিত্রগত বক্ররেখা (AUC) এর অধীনে এলাকা। , যা প্রকৃত ইতিবাচক হার এবং মিথ্যা ইতিবাচক হারের সাথে সাপেক্ষে শ্রেণিবিন্যাসের থ্রেশহোল্ড জুড়ে মডেলের কার্যকারিতা একত্রিত করে। লক্ষ্য করুন যে পরীক্ষার সেটে একটি প্রদত্ত পাঠ্য উদাহরণের জন্য সত্য শ্রেণীটি সত্য অনুপাত 0.5 এর চেয়ে বেশি বা সমান কিনা (1 যদি লেবেল>=0.5, 0 অন্যথায়) এর সাথে মিলে যায়।

.	সাবওয়ার্ড এমবেডিং + RNN	রবারটা
.	ভগ্নাংশ লেবেল	বাইনারি লেবেল + ক্লাস ওয়েটিং	ভগ্নাংশ লেবেল	বাইনারি লেবেল + ক্লাস ওয়েটিং
বাইনারি	AP=0.746, AUC=0.966	AP=0.730, AUC=0.963	AP=0.758, AUC=0.966	AP=0.747, AUC=0.963
সুক্ষু	AP=0.906, AUC=0.909	AP=0.850, AUC=0.851	AP=0.913, AUC=0.913	AP=0.911, AUC=0.912
একাধিক কার্য	AP=0.721, AUC=0.972	AP=0.535, AUC=0.907	AP=0.740, AUC=0.972	AP=0.711, AUC=0.961

উপসংহার

এই পোস্টে, আমরা AWS ML পরিষেবাগুলি ব্যবহার করে অনলাইন কথোপকথনের জন্য দুটি পাঠ্য শ্রেণিবিন্যাস পদ্ধতি উপস্থাপন করেছি। আপনি অনলাইন কমিউনিকেশন প্ল্যাটফর্ম জুড়ে এই সমাধানগুলিকে সাধারণীকরণ করতে পারেন, গেমিং এর মতো শিল্পগুলি বিশেষ করে ক্ষতিকারক সামগ্রী সনাক্ত করার উন্নত ক্ষমতা থেকে উপকৃত হতে পারে৷ ভবিষ্যতের পোস্টগুলিতে, আমরা আপনার AWS অ্যাকাউন্টে মডেলগুলির নির্বিঘ্ন স্থাপনের জন্য একটি এন্ড-টু-এন্ড আর্কিটেকচার নিয়ে আরও আলোচনা করার পরিকল্পনা করছি।

আপনি যদি আপনার পণ্য এবং প্রক্রিয়াগুলিতে আপনার ML-এর ব্যবহারকে ত্বরান্বিত করতে সহায়তা করতে চান তবে অনুগ্রহ করে যোগাযোগ করুন অ্যামাজন এমএল সলিউশন ল্যাব.

লেখক সম্পর্কে

AWS PlatoBlockchain ডেটা ইন্টেলিজেন্সে মেশিন লার্নিংয়ের সাথে অনলাইন কথোপকথনের জন্য পাঠ্য শ্রেণিবিন্যাস। উল্লম্ব অনুসন্ধান. আ. রায়ান ব্র্যান্ড অ্যামাজন মেশিন লার্নিং সলিউশন ল্যাবের একজন ডেটা সায়েন্টিস্ট। স্বাস্থ্যসেবা এবং জীবন বিজ্ঞানের সমস্যাগুলির জন্য মেশিন লার্নিং প্রয়োগ করার ক্ষেত্রে তার নির্দিষ্ট অভিজ্ঞতা রয়েছে এবং তার অবসর সময়ে তিনি ইতিহাস এবং কল্পবিজ্ঞান পড়তে উপভোগ করেন।

সৌরভ ভবেশ অ্যামাজন এমএল সলিউশন ল্যাবের একজন ডেটা সায়েন্টিস্ট। তিনি বিভিন্ন শিল্প জুড়ে AWS গ্রাহকদের জন্য AI/ML সমাধান তৈরি করেন। তার বিশেষত্ব হল ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP) এবং গভীর শিক্ষার প্রতি অনুরাগী। কাজের বাইরে তিনি বই পড়া এবং ভ্রমণ উপভোগ করেন।

লিউতং ঝু অ্যামাজন এমএল সলিউশন ল্যাবের একজন ফলিত বিজ্ঞানী। তিনি বিভিন্ন শিল্প জুড়ে AWS গ্রাহকদের জন্য উপযুক্ত AI/ML সমাধান তৈরি করেন। তিনি ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (এনএলপি) বিশেষজ্ঞ এবং বহু-মডাল গভীর শিক্ষার প্রতি আগ্রহী। তিনি একজন লিরিক টেনার এবং কাজের বাইরে অপেরা গান গাওয়া উপভোগ করেন।

সিয়া গোলামী তিনি আমাজন এমএল সলিউশন ল্যাবের একজন সিনিয়র ডেটা সায়েন্টিস্ট, যেখানে তিনি বিভিন্ন শিল্পে গ্রাহকদের জন্য এআই/এমএল সমাধান তৈরি করেন। তিনি প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) এবং গভীর শিক্ষার বিষয়ে উত্সাহী। কাজের বাইরে, সিয়া প্রকৃতিতে সময় কাটানো এবং টেনিস খেলা উপভোগ করে।

ড্যানিয়েল হরোভিটজ একজন ফলিত এআই সায়েন্স ম্যানেজার। তিনি আমাজন এমএল সলিউশন ল্যাবে বিজ্ঞানীদের একটি দলকে নেতৃত্ব দিচ্ছেন যা গ্রাহকদের সমস্যা সমাধানের জন্য কাজ করে এবং এমএল-এর সাথে ক্লাউড গ্রহণের জন্য কাজ করে।

সময় স্ট্যাম্প: জুন 29, 2022

সময় স্ট্যাম্প: জুন 23, 2022

AWS-এ মেশিন লার্নিংয়ের সাথে অনলাইন কথোপকথনের জন্য পাঠ্য শ্রেণিবিন্যাস

প্লেটো দ্বারা প্রকাশিত

পূর্বশর্ত

ডেটা সেটটি

সাবওয়ার্ড এম্বেডিং এবং RNN

আলিঙ্গন মুখ সঙ্গে ট্রান্সফরমার

মডেল কর্মক্ষমতা মূল্যায়ন: জিগস অনিচ্ছাকৃত পক্ষপাত ডেটাসেট

উপসংহার

লেখক সম্পর্কে

থেকে আরো এডাব্লুএস মেশিন লার্নিং

AWS AI পরিষেবাগুলির সাথে বুদ্ধিমান নথি প্রক্রিয়াকরণ: পার্ট 1

আমাজন সেজমেকার সার্ভারলেস ইনফারেন্স ব্যবহার করে আলিঙ্গন ফেস ট্রান্সফরমার মডেল হোস্ট করুন

আমাজন ইকেএস এবং টর্চ ডিস্ট্রিবিউটেড ইলাস্টিক দিয়ে প্রশিক্ষণ বিতরণ করা হয়েছে

Exafunction AWS Inferentia সমর্থন করে মেশিন লার্নিং ইনফারেন্সের জন্য সেরা দামের পারফরম্যান্স আনলক করতে

Amazon SageMaker বিল্ট-ইন LightGBM এখন Dask ব্যবহার করে বিতরণ করা প্রশিক্ষণ অফার করে

অ্যামাজন কেন্দ্রে নতুন প্রসারিত ডেটা ফর্ম্যাট সমর্থন

Amazon SageMaker স্বয়ংক্রিয় মডেল টিউনিংয়ের সাথে হাইপারপ্যারামিটারগুলি অপ্টিমাইজ করুন

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব