حدد النص الذي تمت إعادة صياغته بوجه متشابك على Amazon SageMaker

أعاد نشره أفلاطون

المتابعون: 0

تحديد النص المعاد صياغته له قيمة تجارية في العديد من حالات الاستخدام. على سبيل المثال ، من خلال تحديد إعادة صياغة الجملة ، يمكن لنظام تلخيص النص إزالة المعلومات الزائدة عن الحاجة. تطبيق آخر هو تحديد الوثائق المسروقة. في هذا المنشور ، نقوم بضبط ملف وجه يعانق محول على الأمازون SageMaker لتحديد أزواج الجمل المعاد صياغتها في بضع خطوات.

يمكن للنموذج القوي حقًا تحديد النص المعاد صياغته عندما تكون اللغة المستخدمة مختلفة تمامًا ، وكذلك تحديد الاختلافات عندما تحتوي اللغة المستخدمة على تداخل معجمي مرتفع. في هذا المنشور ، نركز على الجانب الأخير. على وجه التحديد ، ننظر إلى ما إذا كان بإمكاننا تدريب نموذج يمكنه تحديد الفرق بين جملتين لهما تداخل معجمي عالٍ ومعاني مختلفة جدًا أو معاكسة. على سبيل المثال ، الجمل التالية لها نفس الكلمات بالضبط ولكن معاني متناقضة:

أخذت رحلة من نيويورك إلى باريس
أخذت رحلة من باريس إلى نيويورك

حل نظرة عامة

نوجهك عبر الخطوات عالية المستوى التالية:

هيئ البيئة.
تحضير البيانات.
قم بترميز مجموعة البيانات.
صقل النموذج.
انشر النموذج وقم بإجراء الاستدلال.
تقييم أداء النموذج.

إذا كنت تريد تخطي إعداد البيئة ، يمكنك استخدام الكمبيوتر الدفتري التالي GitHub جيثب: وقم بتشغيل الكود في SageMaker.

أعلنت Hugging Face و AWS عن شراكة في وقت سابق في عام 2022 تجعل من الأسهل تدريب نماذج Hugging Face على SageMaker. هذه الوظيفة متاحة من خلال تطوير Hugging Face حاويات التعلم العميق (DLC) من AWS. تتضمن هذه الحاويات Hugging Face Transformers و Tokenizers ومكتبة Datasets ، والتي تتيح لنا استخدام هذه الموارد في وظائف التدريب والاستدلال. للحصول على قائمة بصور DLC المتاحة ، راجع صور حاويات التعلم العميق المتاحة. يتم صيانتها وتحديثها بانتظام مع تصحيحات الأمان. يمكنك العثور على العديد من الأمثلة حول كيفية تدريب نماذج Hugging Face باستخدام DLCs و تعانق الوجه Python SDK في التالي جيثب ريبو.

مجموعة بيانات PAWS

إدراك عدم وجود مجموعات بيانات أزواج جمل فعالة تظهر تداخلًا معجميًا عاليًا دون إعادة صياغة ، الأصل الكفوف تهدف مجموعة البيانات التي تم إصدارها في عام 2019 إلى تزويد مجتمع معالجة اللغة الطبيعية (NLP) بمورد جديد للتدريب وتقييم نماذج اكتشاف إعادة الصياغة. يتم إنشاء أزواج جمل PAWS في خطوتين باستخدام ويكيبيديا و أزواج أسئلة Quora (QQP) مجموعة البيانات. يقوم النموذج اللغوي أولاً بتبديل الكلمات في زوج جمل مع نفس حقيبة الكلمات (BOW) لتوليد زوج جمل. تقوم خطوة الترجمة الخلفية بعد ذلك بإنشاء إعادة صياغة مع تداخل BOW مرتفع ولكن باستخدام ترتيب كلمات مختلف. تحتوي مجموعة بيانات PAWS النهائية على ما مجموعه 108,000 من المسمى بشريًا و 656,000 زوجًا من الأزواج ذات العلامات الصاخبة.

في هذا المنشور ، نستخدم ملف PAWS-Wiki المسمى (نهائي) مجموعة بيانات من Hugging Face. لقد أجرى Hugging Face بالفعل تقسيم البيانات بالنسبة لنا ، مما أدى إلى 49,000 زوج من الجمل في مجموعة بيانات التدريب ، و 8,000 زوج جملة لكل من مجموعات بيانات التحقق من الصحة والاختبار. يتم عرض مثالين لزوج الجمل من مجموعة بيانات التدريب في المثال التالي. يشير التصنيف 1 إلى أن الجملتين عبارة عن إعادة صياغة لبعضهما البعض.

الجملة 1	الجملة 2	تُشير
على الرغم من أنها قابلة للتبديل ، إلا أن قطع الجسم في السيارتين ليست متشابهة.	على الرغم من تشابه أجزاء الجسم في السيارتين ، إلا أنها غير قابلة للتبديل.	0
ولد كاتس في السويد عام 1947 وانتقل إلى مدينة نيويورك في سن 1.	ولد كاتس عام 1947 في السويد وانتقل إلى نيويورك وهو في سن الواحدة.	1

المتطلبات الأساسية المسبقة

تحتاج إلى إكمال المتطلبات الأساسية التالية:

قم بالتسجيل للحصول على حساب AWS إذا لم يكن لديك حساب. لمزيد من المعلومات، راجع إعداد المتطلبات الأساسية لـ Amazon SageMaker.
ابدأ في استخدام مثيلات دفتر SageMaker.
نصب الحق إدارة الهوية والوصول AWS (IAM) أذونات. لمزيد من المعلومات، راجع أدوار SageMaker.

هيئ البيئة

قبل أن نبدأ في فحص وإعداد بياناتنا من أجل ضبط النموذج ، نحتاج إلى إعداد بيئتنا. لنبدأ بتدوير مثيل دفتر ملاحظات SageMaker. اختر منطقة AWS في حساب AWS الخاص بك واتبع التعليمات إنشاء مثيل دفتر ملاحظات SageMaker. قد يستغرق مثيل الكمبيوتر الدفتري بضع دقائق حتى يتم تدويره.

عند تشغيل مثيل دفتر الملاحظات ، اختر conda_pytorch_p38 كنوع النواة الخاصة بك. لاستخدام مجموعة بيانات Hugging Face ، نحتاج أولاً إلى تثبيت واستيراد مكتبة Hugging Face:

!pip --quiet install "sagemaker" "transformers==4.17.0" "datasets==1.18.4" --upgrade
!pip --quiet install sentence-transformers import sagemaker.huggingface
import sagemaker
from datasets import load_dataset

بعد ذلك ، دعنا ننشئ جلسة SageMaker. نحن نستخدم الافتراضي خدمة تخزين أمازون البسيطة حاوية (Amazon S3) المرتبطة بجلسة SageMaker لتخزين مجموعة بيانات PAWS ونماذج التحف:

sess = sagemaker.Session()
role = sagemaker.get_execution_role()
bucket = sess.default_bucket()

تحضير البيانات

يمكننا تحميل إصدار Hugging Face من مجموعة بيانات PAWS به load_dataset() أمر. تقوم هذه المكالمة بتنزيل واستيراد البرنامج النصي لمعالجة PAWS Python من مستودع Hugging Face GitHub ، والذي يقوم بعد ذلك بتنزيل مجموعة بيانات PAWS من عنوان URL الأصلي المخزن في البرنامج النصي وتخزين البيانات مؤقتًا كجدول سهم على محرك الأقراص. انظر الكود التالي:

dataset_train, dataset_val, dataset_test = load_dataset("paws", "labeled_final", split=['train', 'validation', 'test'])

قبل أن نبدأ في ضبط نموذج BERT المدربين مسبقًا ، دعنا نلقي نظرة على توزيع الفئة المستهدفة. بالنسبة لحالة الاستخدام الخاصة بنا ، تحتوي مجموعة بيانات PAWS على تسميات ثنائية (يشير 0 إلى أن زوج الجملة ليس إعادة صياغة ، ويشير الرقم 1 إلى أنه كذلك). لنقم بإنشاء مخطط عمودي لعرض توزيع الفئة ، كما هو موضح في الكود التالي. نلاحظ وجود مشكلة طفيفة في عدم توازن الفئة في مجموعة التدريب لدينا (56٪ عينات سلبية مقابل 44٪ عينات إيجابية). ومع ذلك ، فإن الخلل صغير بما يكفي لتجنب استخدام تقنيات التخفيف من اختلال التوازن.

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns df = dataset_train.to_pandas() ax = sns.countplot(x="label", data=df)
ax.set_title('Label Count for PAWS Dataset', fontsize=15)
for p in ax.patches: ax.annotate(f'n{p.get_height()}', (p.get_x()+0.4, p.get_height()), ha='center', va='top', color='white', size=13)

قم بترميز مجموعة البيانات

قبل أن نبدأ في الضبط الدقيق ، نحتاج إلى ترميز مجموعة البيانات الخاصة بنا. كنقطة بداية ، لنفترض أننا نريد ضبط وتقييم roberta-base محول. اخترنا roberta-base لأنه محول متعدد الأغراض تم تدريبه مسبقًا على مجموعة كبيرة من بيانات اللغة الإنجليزية وقد أظهر بشكل متكرر أداءً عاليًا في مجموعة متنوعة من مهام البرمجة اللغوية العصبية. تم تقديم النموذج في الأصل في الورقة RoBERTa: نهج BERT مُحسَّن بقوة قبل التدريب المسبق.

نقوم بعملية الترميز على الجمل بامتداد roberta-base tokenizer من Hugging Face ، والذي يستخدم تشفير زوج البايت على مستوى البايت لتقسيم المستند إلى رموز مميزة. لمزيد من التفاصيل حول رمز RoBERTa المميز ، يرجى الرجوع إلى روبرتا توكنيزر. نظرًا لأن مدخلاتنا عبارة عن أزواج من الجمل ، فنحن بحاجة إلى ترميز كلتا الجملتين في وقت واحد. نظرًا لأن معظم طرز BERT تتطلب أن يكون للإدخال طول إدخال رمزي ثابت ، فإننا نضبط المعلمات التالية: max_len=128 و truncation=True. انظر الكود التالي:

from transformers import AutoTokenizer
tokenizer_and_model_name = 'roberta-base' # Download tokenizer
tokenizer = AutoTokenizer.from_pretrained(tokenizer_and_model_name) # Tokenizer helper function
def tokenize(batch, max_len=128): return tokenizer(batch['sentence1'], batch['sentence2'], max_length=max_len, truncation=True) dataset_train_tokenized = dataset_train.map(tokenize, batched=True, batch_size=len(dataset_train))
dataset_val_tokenized = dataset_val.map(tokenize, batched=True, batch_size=len(dataset_val))

تتمثل الخطوة الأخيرة للمعالجة المسبقة لضبط نموذج BERT الخاص بنا في تحويل مجموعات بيانات القطار والتحقق من الصحة إلى موترات PyTorch وتحميلها إلى دلو S3 الخاص بنا:

import botocore
from datasets.filesystems import S3FileSystem s3 = S3FileSystem()
s3_prefix = 'sts-sbert-paws/sts-paws-datasets' # convert and save train_dataset to s3
training_input_path = f's3://{sess.default_bucket()}/{s3_prefix}/train'
dataset_train_tokenized = dataset_train_tokenized.rename_column("label", "labels")
dataset_train_tokenized.set_format('torch', columns=['input_ids', 'attention_mask', 'labels'])
dataset_train_tokenized.save_to_disk(training_input_path,fs=s3) # convert and save val_dataset to s3
val_input_path = f's3://{sess.default_bucket()}/{s3_prefix}/val'
dataset_val_tokenized = dataset_val_tokenized.rename_column("label", "labels")
dataset_val_tokenized.set_format('torch', columns=['input_ids', 'attention_mask', 'labels'])
dataset_val_tokenized.save_to_disk(val_input_path,fs=s3)

صقل النموذج

الآن بعد أن انتهينا من إعداد البيانات ، نحن جاهزون لضبط ما لدينا من تدريب مسبق roberta-base نموذج في مهمة تحديد إعادة الصياغة. يمكننا استخدام فئة SageMaker Hugging Face Estimator لبدء عملية الضبط الدقيق في خطوتين. تتمثل الخطوة الأولى في تحديد معلمات التدريب التشعبية وتعريفات المترية. يخبر متغير تعريفات المقاييس "مُقدِّر الوجه المعانق" بأنواع المقاييس المطلوب استخلاصها من سجلات تدريب النموذج. هنا ، نحن مهتمون بشكل أساسي باستخراج مقاييس مجموعة التحقق في كل فترة تدريب.

# Step 1: specify training hyperparameters and metric definitions
hyperparameters = {'epochs': 4, 'train_batch_size': 16, 'model_name': tokenizer_and_model_name} metric_definitions=[ {'Name': 'loss', 'Regex': "'loss': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_loss', 'Regex': "'eval_loss': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_accuracy', 'Regex': "'eval_accuracy': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_f1', 'Regex': "'eval_f1': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_precision', 'Regex': "'eval_precision': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_recall', 'Regex': "'eval_recall': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'epoch', 'Regex': "'epoch': ([0-9]+(.|e-)[0-9]+),?"}
]

تتمثل الخطوة الثانية في إنشاء مثيل لـ Hugging Face Estimator وبدء عملية الضبط الدقيق باستخدام ملف .fit() الأسلوب:

# Step 2: instantiate estimator and begin fine-tuning
from sagemaker.huggingface import HuggingFace huggingface_estimator = HuggingFace( entry_point='train.py', source_dir='./scripts', output_path=f's3://{sess.default_bucket()}', base_job_name='huggingface-sdk-extension', instance_type='ml.p3.8xlarge', instance_count=1, volume_size=100, transformers_version='4.17.0', pytorch_version='1.10.2', py_version='py38', role=role, hyperparameters=hyperparameters, metric_definitions=metric_definitions ) huggingface_estimator.fit({'train': training_input_path, 'test': val_input_path}, wait=True, job_name='sm-sts-blog-{}'.format(int(time.time())))

تستغرق عملية الضبط حوالي 30 دقيقة باستخدام المعلمات الفائقة المحددة.

انشر النموذج وقم بإجراء الاستدلال

يقدم SageMaker خيارات نشر متعددة بناءً على حالة الاستخدام الخاصة بك. بالنسبة لنقاط النهاية المستمرة في الوقت الفعلي التي تقدم تنبؤًا واحدًا في كل مرة ، نوصي باستخدام خدمات الاستضافة في الوقت الحقيقي من SageMaker. إذا كان لديك أعباء عمل بها فترات خمول بين فترات الازدحام المروري ويمكن أن تتحمل البدايات الباردة ، فإننا نوصي باستخدام الاستدلال بدون خادم. تقوم نقاط النهاية التي لا تحتوي على خادم تلقائيًا بتشغيل موارد الحوسبة وتوسيع نطاقها وفقًا لحركة المرور ، مما يلغي الحاجة إلى اختيار أنواع المثيلات أو إدارة سياسات التوسع. نوضح كيفية نشر نموذج Hugging Face الذي تم ضبطه بدقة على كل من نقطة نهاية الاستدلال في الوقت الفعلي ونقطة نهاية الاستدلال بدون خادم.

انشر إلى نقطة نهاية للاستدلال في الوقت الفعلي

يمكنك نشر كائن تدريب على استضافة الاستدلال في الوقت الفعلي داخل SageMaker باستخدام .deploy() طريقة. للحصول على قائمة كاملة بالمعلمات المقبولة ، يرجى الرجوع إلى نموذج الوجه المعانقة. للبدء ، دعنا ننشر النموذج على مثيل واحد ، عن طريق تمرير المعلمات التالية: initial_instance_count, instance_typeو endpoint_name. انظر الكود التالي:

rt_predictor = huggingface_estimator.deploy(initial_instance_count=1,
instance_type="ml.g4dn.xlarge",
endpoint_name="sts-sbert-paws")

يستغرق النموذج بضع دقائق للنشر. بعد نشر النموذج ، يمكننا إرسال عينة من السجلات من مجموعة بيانات الاختبار غير المرئية إلى نقطة النهاية للاستدلال.

انشر إلى نقطة نهاية للاستدلال بدون خادم

لنشر كائن التدريب الخاص بنا على نقطة نهاية بدون خادم ، نحتاج أولاً إلى تحديد ملف التكوين بدون خادم memory_size_in_mb و max_concurrency الحجج:

from sagemaker.serverless.serverless_inference_config import ServerlessInferenceConfig serverless_config = ServerlessInferenceConfig( memory_size_in_mb=6144, max_concurrency=1,
)

memory_size_in_mb يحدد الحجم الإجمالي لذاكرة الوصول العشوائي لنقطة النهاية التي لا تحتوي على خادم ؛ الحد الأدنى لحجم ذاكرة الوصول العشوائي هو 1024 ميجابايت (1 جيجابايت) ويمكن أن يصل حجمه إلى 6144 ميجابايت (6 جيجابايت). بشكل عام ، يجب أن تهدف إلى اختيار حجم ذاكرة يكون على الأقل بحجم نموذجك. max_concurrency يحدد الحصة النسبية لعدد الاستدعاءات المتزامنة التي يمكن معالجتها في نفس الوقت (حتى 50 طلبًا متزامنًا) لنقطة نهاية واحدة.

نحتاج أيضًا إلى توفير URI لصورة Hugging Face inference ، والتي يمكنك استردادها باستخدام الكود التالي:

image_uri = sagemaker.image_uris.retrieve( framework="huggingface", base_framework_version="pytorch1.10", region=sess.boto_region_name, version="4.17", py_version="py38", instance_type="ml.m5.large", image_scope="inference",
)

الآن بعد أن أصبح لدينا ملف التكوين بدون خادم ، يمكننا إنشاء نقطة نهاية بدون خادم بنفس طريقة نقطة نهاية الاستدلال في الوقت الفعلي ، باستخدام .deploy() الأسلوب:

sl_predictor = huggingface_estimator.deploy( serverless_inference_config=serverless_config, image_uri=image_uri
)

يجب إنشاء نقطة النهاية في غضون بضع دقائق.

نفذ الاستدلال النموذجي

لعمل تنبؤات ، نحتاج إلى إنشاء زوج الجمل عن طريق إضافة [CLS] و [SEP] الرموز المميزة الخاصة ثم إرسال المدخلات لاحقًا إلى نقاط نهاية النموذج. صيغة الاستدلال في الوقت الفعلي والاستدلال بدون خادم هي نفسها:

import random rand = random.randrange(0, 8000) true_label = dataset_test[rand]['label']
sent_1 = dataset_test[rand]['sentence1']
sent_2 = dataset_test[rand]['sentence2'] sentence_pair = {"inputs": ['[CLS] ' + sent_1 + ' [SEP] ' + sent_2 + ' [SEP]']} # real-time inference print('Sentence 1:', sent_1) print('Sentence 2:', sent_2)
print()
print('Inference Endpoint:', rt_predictor.endpoint_name)
print('True Label:', true_label)
print('Predicted Label:', rt_predictor.predict({"inputs": sentence_pair})[0]['label'])
print('Prediction Confidence:', rt_predictor.predict({"inputs": sentence_pair})[0]['score']) # serverless inference
print('Sentence 1:', sent_1) print('Sentence 2:', sent_2)
print()
print('Inference Endpoint:', sl_predictor.endpoint_name)
print('True Label:', true_label)
print('Predicted Label:', sl_predictor.predict({"inputs": sentence_pair})[0]['label'])
print('Prediction Confidence:', sl_predictor.predict({"inputs": sentence_pair})[0]['score'])

في الأمثلة التالية ، يمكننا أن نرى أن النموذج قادر على تصنيف ما إذا كان زوج جملة الإدخال يحتوي على جمل معاد صياغتها.

فيما يلي مثال على الاستدلال في الوقت الفعلي.

ما يلي هو مثال على الاستدلال Serverless.

تقييم أداء النموذج

لتقييم النموذج ، دعنا نوسع الشفرة السابقة ونرسل جميع سجلات الاختبار غير المرئية البالغ عددها 8,000 إلى نقطة النهاية في الوقت الفعلي:

from tqdm import tqdm preds = []
labels = [] # Inference takes ~5 minutes for all test records using a fine-tuned roberta-base and ml.g4dn.xlarge instance for i in tqdm(range(len(dataset_test))): true_label = dataset_test[i]['label'] sent_1 = dataset_test[i]['sentence1'] sent_2 = dataset_test[i]['sentence2'] sentence_pair = {"inputs": ['[CLS] ' + sent_1 + ' [SEP] ' + sent_2 + ' [SEP]']} pred = rt_predictor.predict(sentence_pair) labels.append(true_label) preds.append(int(pred[0]['label'].split('_')[1]))

بعد ذلك ، يمكننا إنشاء تقرير تصنيف باستخدام التنبؤات المستخرجة:

from sklearn.metrics import classification_report print('Endpoint Name:', rt_predictor.endpoint_name)
class_names = ['paraphase', 'not paraphrase']
print(classification_report(labels, preds, target_names=class_names))

نحصل على درجات الاختبار التالية.

يمكننا ملاحظة ذلك roberta-base حصل على مجموع متوسط ماكرو F1 بنسبة 92٪ وأداء أفضل قليلاً في اكتشاف الجمل المعاد صياغتها. ال roberta-base يعمل النموذج جيدًا ، ولكن من الممارسات الجيدة حساب أداء النموذج باستخدام نموذج واحد آخر على الأقل.

يقارن الجدول التالي roberta-base نتائج الأداء في نفس الاختبار مجموعة ضد محول آخر مضبوط بدقة يسمى paraphrase-mpnet-base-v2، محول جمل تم تدريبه مسبقًا خصيصًا لمهمة تحديد إعادة الصياغة. تم تدريب كلا النموذجين على مثيل ml.p3.8xlarge.

تظهر النتائج أن roberta-base حصل على درجة F1 أعلى بنسبة 1٪ مع أوقات تدريب واستدلال متشابهة جدًا باستخدام استضافة الاستدلال في الوقت الفعلي على SageMaker. فرق الأداء بين النماذج طفيف نسبيًا ، ومع ذلك ، roberta-base هو الفائز في النهاية لأنه يحتوي على مقاييس أداء أفضل بشكل هامشي وأوقات تدريب واستدلال متطابقة تقريبًا.

دقة

تذكر

درجة F1

وقت التدريب (مدفوعة)

وقت الاستدلال (مجموعة اختبار كاملة)

روبرتا قاعدة

0.92

0.93

0.92

18 دقيقة

2 دقيقة

إعادة صياغة- mpnet-

القاعدة v2

0.92

0.91

17 دقيقة

2 دقيقة

تنظيف

عند الانتهاء من استخدام نقاط نهاية النموذج ، يمكنك حذفها لتجنب تكبد رسوم مستقبلية:

rt_predictor.delete_endpoint()
sl_predictor.delete_endpoint()

وفي الختام

في هذا المنشور ، ناقشنا كيفية بناء نموذج تعريف معاد الصياغة بسرعة باستخدام محولات Hugging Face على SageMaker. قمنا بضبط محولين مدربين مسبقًا ، roberta-base و paraphrase-mpnet-base-v2، باستخدام مجموعة بيانات PAWS (التي تحتوي على أزواج الجمل ذات التداخل المعجمي العالي). لقد أوضحنا وناقشنا فوائد الاستدلال في الوقت الفعلي مقابل نشر الاستدلال بدون خادم ، وهذه الأخيرة هي ميزة جديدة تستهدف أعباء العمل الشائكة وتلغي الحاجة إلى إدارة سياسات التوسع. في اختبار غير مرئي مع 8,000 سجل ، أظهرنا أن كلا النموذجين قد حققا درجة F1 أكبر من 90٪.

للتوسع في هذا الحل ، ضع في اعتبارك ما يلي:

حاول إجراء الضبط الدقيق باستخدام مجموعة البيانات المخصصة الخاصة بك. إذا لم يكن لديك ملصقات تدريب كافية ، فيمكنك تقييم أداء نموذج مضبوط بدقة مثل النموذج الموضح في هذا المنشور على مجموعة بيانات اختبار مخصصة.
قم بدمج هذا النموذج الدقيق في تطبيق متلقٍ يتطلب معلومات حول ما إذا كانت جملتان (أو كتل نصية) تعيد صياغة بعضهما البعض.

مبنى سعيد!

حول المؤلف

بالا كريشنامورثي هو عالم بيانات مع خدمات AWS الاحترافية ، حيث يستمتع بتطبيق التعلم الآلي لحل مشاكل عمل العملاء. وهو متخصص في حالات استخدام معالجة اللغة الطبيعية وعمل مع العملاء في صناعات مثل البرمجيات والتمويل والرعاية الصحية. في أوقات فراغه ، يستمتع بتجربة طعام جديد ، ومشاهدة الأفلام الكوميدية والأفلام الوثائقية ، والتمرن في Orange Theory ، والخروج على الماء (التجديف ، والغطس ، ونأمل أن نغطس قريبًا).

إيفان كوي هو عالم بيانات مع خدمات AWS الاحترافية ، حيث يساعد العملاء على بناء الحلول ونشرها باستخدام التعلم الآلي على AWS. لقد عمل مع عملاء من مختلف الصناعات ، بما في ذلك البرمجيات والتمويل والأدوية والرعاية الصحية. في أوقات فراغه ، يستمتع بالقراءة وقضاء الوقت مع عائلته وتعظيم محفظته المالية.

الطابع الزمني: 28 نيسان

الطابع الزمني: أكتوبر 17، 2023

أعاد نشره أفلاطون

تمكين التدريب بشكل أسرع باستخدام مكتبة بيانات Amazon SageMaker المتوازية | خدمات الويب الأمازون

تخصيص قواعد العمل لمعالجة المستندات الذكية من خلال المراجعة البشرية وتصور ذكاء الأعمال

إنشاء تطبيقات الذكاء الاصطناعي التوليدية الجاهزة للإنتاج للبحث في المؤسسات باستخدام خطوط أنابيب Haystack و Amazon SageMaker JumpStart مع LLMs | خدمات أمازون ويب

أضف AI للمحادثة إلى أي مركز اتصال مع Amazon Lex و Amazon Chime SDK

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي