همانطور که سازمانهای بیشتری برای ایجاد بینش عمیقتر به سمت یادگیری ماشینی (ML) میروند، دو مانع کلیدی که با آن مواجه میشوند برچسبگذاری و مدیریت چرخه عمر است. برچسبگذاری شناسایی دادهها و افزودن برچسبها برای ارائه زمینه است تا یک مدل ML بتواند از آن بیاموزد. برچسب ها ممکن است عبارتی را در فایل صوتی، خودرویی در عکس یا اندامی را در MRI نشان دهند. برچسبگذاری دادهها برای فعال کردن مدلهای ML برای کار کردن در برابر دادهها ضروری است. مدیریت چرخه حیات مربوط به فرآیند تنظیم یک آزمایش ML و مستندسازی مجموعه داده، کتابخانه، نسخه و مدل مورد استفاده برای به دست آوردن نتایج است. یک تیم ممکن است صدها آزمایش را قبل از تصمیم گیری بر روی یک رویکرد انجام دهد. بازگشت به گذشته و بازآفرینی آن رویکرد میتواند بدون سوابق عناصر آن آزمایش دشوار باشد.
بسیاری از مثالها و آموزشهای ML با مجموعه دادهای شروع میشوند که شامل یک مقدار هدف است. با این حال، داده های دنیای واقعی همیشه چنین مقدار هدفی ندارند. به عنوان مثال، در تجزیه و تحلیل احساسات، یک فرد معمولاً می تواند در مورد مثبت، منفی یا مختلط بودن یک بررسی قضاوت کند. اما بررسیها از مجموعهای از متن تشکیل شدهاند که ارزش قضاوتی به آن تعلق ندارد. به منظور ایجاد یک یادگیری نظارت شده مدل برای حل این مشکل، یک مجموعه داده برچسب دار با کیفیت بالا ضروری است. Amazon SageMaker Ground Truth یک سرویس برچسب گذاری داده کاملاً مدیریت شده است که ساخت مجموعه داده های آموزشی بسیار دقیق برای ML را آسان می کند.
برای سازمان هایی که از Databricks به عنوان پلت فرم داده و تجزیه و تحلیل خود در AWS برای انجام وظایف استخراج، تبدیل و بارگذاری (ETL) استفاده می کنند، هدف نهایی اغلب آموزش یک مدل یادگیری نظارت شده است. در این پست، نحوه ادغام Databricks با Ground Truth و آمازون SageMaker برای برچسب گذاری داده ها و توزیع مدل.
بررسی اجمالی راه حل
Ground Truth یک سرویس برچسب گذاری داده کاملاً مدیریت شده است که ساخت مجموعه داده های آموزشی بسیار دقیق برای ML را آسان می کند. از طریق کنسول Ground Truth، میتوانیم گردشهای کاری برچسبگذاری داده سفارشی یا داخلی را در عرض چند دقیقه ایجاد کنیم. این گردشهای کاری از موارد استفاده متنوعی از جمله ابرهای نقطه سه بعدی، ویدئو، تصاویر و متن پشتیبانی میکنند. علاوه بر این، Ground Truth برچسبگذاری خودکار دادهها را ارائه میدهد که از یک مدل ML برای برچسبگذاری دادههای ما استفاده میکند.
ما مدل خود را بر روی مجموعه داده های عمومی در دسترس نظرات مشتریان آمازون آموزش می دهیم. در سطح بالا، مراحل به شرح زیر است:
- یک مجموعه داده خام را برای برچسب گذاری استخراج کرده و به آن منتقل کنید سرویس ذخیره سازی ساده آمازون (Amazon S3).
- با ایجاد یک کار برچسب زدن در SageMaker، برچسب زدن را انجام دهید.
- ساخت و آموزش مدل یادگیرنده خطی Scikit-learn ساده برای طبقه بندی احساسات متن بررسی در پلت فرم Databricks با استفاده از یک نمونه دفتر یادداشت.
- استفاده کنید MLflow اجزای سازنده برای ایجاد و اجرای MLO و ذخیره مصنوعات مدل.
- استقرار مدل به عنوان نقطه پایانی SageMaker با استفاده از کتابخانه MLflow SageMaker برای استنتاج بلادرنگ
نمودار زیر برچسبگذاری و سفر ML را با استفاده از Ground Truth و MLflow نشان میدهد.
یک کار برچسب زدن در SageMaker ایجاد کنید
از مجموعه داده نظرات مشتریان آمازون، ما فقط بخش های متن را استخراج می کنیم، زیرا در حال ساخت یک مدل تجزیه و تحلیل احساسات هستیم. پس از استخراج، متن را در یک سطل S3 قرار می دهیم و سپس از طریق کنسول SageMaker یک کار برچسب گذاری Ground Truth ایجاد می کنیم.
بر ایجاد شغل برچسب زدن صفحه، تمام فیلدهای الزامی را پر کنید. به عنوان بخشی از مرحله در این صفحه، Ground Truth به شما امکان می دهد فایل مانیفست شغلی را ایجاد کنید. Ground Truth از فایل مانیفست ورودی برای شناسایی تعداد فایلها یا اشیاء در کار برچسبگذاری استفاده میکند تا تعداد مناسبی از وظایف ایجاد شده و برای برچسبگذاران انسانی (یا ماشینی) ارسال شود. فایل به طور خودکار در سطل S3 ذخیره می شود. مرحله بعدی تعیین دسته کار و انتخاب کار است. در این مورد، ما انتخاب می کنیم متن به عنوان دسته کار، و طبقه بندی متن با یک برچسب واحد برای انتخاب کار، به این معنی که یک متن مروری دارای یک احساس واحد است: مثبت، منفی یا خنثی.
در نهایت، دستورالعملهای ساده اما مختصر را برای برچسبگذاران درباره نحوه برچسبگذاری دادههای متنی مینویسیم. دستورالعملها روی ابزار برچسبگذاری نمایش داده میشوند و میتوانید در این زمان بهصورت اختیاری نمای حاشیهنویس را مرور کنید. در نهایت کار را ارسال می کنیم و پیشرفت را روی کنسول نظارت می کنیم.
در حالی که کار برچسبگذاری در حال انجام است، میتوانیم به دادههای برچسبگذاری شده روی آن نیز نگاه کنیم تولید برگه ما میتوانیم هر متن و برچسب بررسی را نظارت کنیم و اینکه آیا کار توسط یک انسان یا ماشین انجام شده است. ما می توانیم 100٪ از کارهای برچسب زدن را برای انجام توسط انسان انتخاب کنیم یا حاشیه نویسی ماشین را انتخاب کنیم که سرعت کار را افزایش می دهد و هزینه های نیروی کار را کاهش می دهد.
وقتی کار کامل شد، خلاصه کار برچسبگذاری حاوی پیوندهایی به مانیفست خروجی و مجموعه داده برچسبگذاری شده است. ما همچنین می توانیم به Amazon S3 برویم و هر دو را از پوشه سطل S3 خود دانلود کنیم.
در مراحل بعدی از یک دفترچه یادداشت Databricks استفاده می کنیم. MLflowو مجموعه داده هایی که توسط Ground Truth برای ساختن برچسب گذاری شده اند Scikit یاد بگیر مدل.
یک مجموعه داده برچسبدار را از Amazon S3 دانلود کنید
ما با دانلود مجموعه داده برچسبگذاری شده از Amazon S3 شروع میکنیم. مانیفست در قالب JSON ذخیره می شود و ما آن را در Spark DataFrame در Databricks بارگذاری می کنیم. برای آموزش مدل تجزیه و تحلیل احساسات، ما فقط به متن مرور و احساسی نیاز داریم که توسط کار برچسبگذاری Ground Truth مشروح شده است. ما از select() برای استخراج این دو ویژگی استفاده می کنیم. سپس مجموعه داده را از PySpark DataFrame به Pandas DataFrame تبدیل می کنیم، زیرا الگوریتم Scikit-learn به فرمت Pandas DataFrame نیاز دارد.
در مرحله بعد از Scikit-learn استفاده می کنیم CountVectorizer
برای تبدیل متن بررسی به یک بردار بیگرام با تنظیم ngram_range
حداکثر مقدار 2. CountVectorizer
متن را به ماتریسی از تعداد نشانه ها تبدیل می کند. سپس استفاده می کنیم TfidfTransformer
برای تبدیل بردار بیگرام به فرمت فرکانس معکوس سند فرکانس (TF-IDF).
ما امتیازات دقت را برای تمرین انجام شده با بردار بیگرام در مقابل بیگرام با TF-IDF مقایسه می کنیم. TF-IDF یک معیار آماری است که میزان ارتباط یک کلمه را با یک سند در مجموعه اسناد ارزیابی می کند. از آنجایی که متن بازبینی نسبتاً کوتاه است، میتوانیم مشاهده کنیم که چگونه TF-IDF بر عملکرد مدل پیشبینی تأثیر میگذارد.
یک آزمایش MLflow را تنظیم کنید
MLflow توسط Databricks توسعه داده شده است و در حال حاضر یک پروژه منبع باز. MLflow چرخه حیات ML را مدیریت می کند، بنابراین می توانید آزمایش ها را به راحتی ردیابی، بازسازی و منتشر کنید.
برای راه اندازی آزمایش های MLflow، ما استفاده می کنیم mlflow.sklearn.autolog()
برای فعال کردن ثبت خودکار ابرپارامترها، متریک ها، و مصنوعات مدل در هر زمان estimator.fit()
, estimator.fit_predict()
, و estimator.fit_transform()
نامیده می شوند. یا می توانید این کار را به صورت دستی با تماس انجام دهید mlflow.log_param()
و mlflow.log_metric()
.
ما مجموعه داده تبدیل شده را به یک طبقهبندی خطی با یادگیری شیب تصادفی (SGD) برازش میدهیم. با SGD، گرادیان تلفات یک نمونه در یک زمان تخمین زده می شود و مدل در طول مسیر با یک برنامه استحکام کاهشی به روز می شود.
آن دو مجموعه داده ای که قبلاً آماده کردیم به آن منتقل می شوند train_and_show_scores()
عملکرد برای آموزش پس از آموزش باید یک مدل ثبت کنیم و مصنوعات آن را ذخیره کنیم. ما استفاده می کنیم mlflow.sklearn.log_model()
برای انجام این کار.
قبل از استقرار، به نتایج آزمایش نگاه می کنیم و دو آزمایش (یکی برای بیگرام و دیگری برای بیگرام با TF-IDF) را برای مقایسه انتخاب می کنیم. در مورد استفاده ما، مدل دوم آموزش دیده با Bigram TF-IDF کمی بهتر عمل کرد، بنابراین ما آن مدل را برای استقرار انتخاب می کنیم. پس از ثبت مدل، مدل را مستقر می کنیم و مرحله مدل را به تولید تغییر می دهیم. ما میتوانیم این کار را در رابط کاربری MLflow یا با استفاده از کد انجام دهیم transition_model_version_stage()
.
مدل را به عنوان نقطه پایانی SageMaker مستقر و آزمایش کنید
قبل از استقرار مدل آموزش دیده، باید یک کانتینر Docker بسازیم تا مدل را در SageMaker میزبانی کند. ما این کار را با اجرای یک دستور MLflow ساده انجام می دهیم که ظرف را می سازد و به آن هل می دهد رجیستری ظروف الاستیک آمازون (Amazon ECR) در حساب AWS ما.
اکنون می توانیم URI تصویر را در کنسول آمازون ECR پیدا کنیم. URI تصویر را به صورت یک ارسال می کنیم image_url
پارامتر و استفاده DEPLOYMENT_MODE_CREATE
برای پارامتر حالت اگر این یک استقرار جدید باشد. اگر نقطه پایانی موجود را با نسخه جدید به روز می کنید، از آن استفاده کنید DEPLOYMENT_MODE_REPLACE
.
برای آزمایش نقطه پایانی SageMaker، تابعی ایجاد می کنیم که نام نقطه پایانی و داده های ورودی را به عنوان پارامترهای آن در نظر می گیرد.
نتیجه
در این پست، نحوه استفاده از Ground Truth برای برچسبگذاری مجموعه داده خام و استفاده از دادههای برچسبگذاری شده برای آموزش یک طبقهبندی خطی ساده با استفاده از Scikit-learn را به شما نشان دادیم. در این مثال، ما از MLflow برای ردیابی هایپرپارامترها و متریک ها، ثبت یک مدل درجه تولید، و استقرار مدل آموزش دیده در SageMaker به عنوان نقطه پایانی استفاده می کنیم. همراه با Databricks برای پردازش داده ها، می توانید کل این مورد استفاده را خودکار کنید، بنابراین با معرفی داده های جدید، می توان آنها را برچسب گذاری کرد و در مدل پردازش کرد. با خودکارسازی این خطوط لوله و مدلها، تیمهای علم داده میتوانند به جای صرف وقت خود برای مدیریت بهروزرسانیهای دادهها به صورت روزانه، بر موارد استفاده جدید تمرکز کرده و بینشهای بیشتری را کشف کنند.
برای شروع، بررسی کنید از Amazon SageMaker Ground Truth برای برچسب گذاری داده ها استفاده کنید و برای a ثبت نام کنید آزمایش 14 روزه رایگان Databricks در AWS. برای کسب اطلاعات بیشتر در مورد نحوه ادغام Databricks با SageMaker و همچنین سایر خدمات AWS مانند چسب AWS و آمازون Redshiftرا ببینید، Databricks در AWS.
علاوه بر این، منابع زیر را که در این پست استفاده شده است، بررسی کنید:
از موارد زیر استفاده کنید دفتر یادداشت برای شروع.
درباره نویسنده
رومی اولسن یک معمار راه حل در برنامه شریک AWS است. او در نقش فعلی خود در راه حل های بدون سرور و یادگیری ماشین تخصص دارد و سابقه ای در فناوری های پردازش زبان طبیعی دارد. او بیشتر اوقات فراغت خود را با دخترش به کاوش در طبیعت شمال غربی اقیانوس آرام می گذراند.
ایگور آلکسیف یک معمار راه حل شریک در AWS در بخش داده و تجزیه و تحلیل است. ایگور با شرکای استراتژیک همکاری می کند و به آنها کمک می کند تا معماری های پیچیده و بهینه شده AWS بسازند. او قبل از پیوستن به AWS، بهعنوان معمار داده/راهحل، پروژههای زیادی را در Big Data اجرا کرد، از جمله چندین دریاچه داده در اکوسیستم Hadoop. به عنوان یک مهندس داده، او در استفاده از AI/ML برای کشف تقلب و اتوماسیون اداری شرکت داشت. پروژه های ایگور در صنایع مختلفی از جمله ارتباطات، مالی، امنیت عمومی، تولید و مراقبت های بهداشتی بود. پیش از این، ایگور به عنوان مهندس فول استک / سرپرست فناوری کار می کرد.
ناصر احمد یک معمار راه حل شریک Sr. در Databricks است که از تجارت AWS خود پشتیبانی می کند. Naseer متخصص در انبارداری داده، هوش تجاری، توسعه برنامه، کانتینر، بدون سرور، معماری یادگیری ماشین در AWS است. او به عنوان SME سال 2021 در Databricks انتخاب شد و از علاقه مندان مشتاق به ارزهای دیجیتال است.
- Coinsmart. بهترین صرافی بیت کوین و کریپتو اروپا.
- پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی رایگان.
- CryptoHawk. رادار آلت کوین امتحان رایگان.
- منبع: https://aws.amazon.com/blogs/machine-learning/build-an-mlops-sentiment-analysis-pipeline-using-amazon-sagemaker-ground-truth-and-databricks-mlflow/
- "
- 100
- 2021
- 3d
- درباره ما
- حساب
- دقیق
- اضافه
- الگوریتم
- معرفی
- آمازون
- تحلیل
- علم تجزیه و تحلیل
- نرم افزار
- توسعه برنامه
- با استفاده از
- روش
- سمعی
- خودکار
- اتوماسیون
- در دسترس
- AWS
- زمینه
- اساس
- بزرگ داده
- ساختن
- بنا
- می سازد
- ساخته شده در
- کسب و کار
- هوش تجاری
- ماشین
- موارد
- دسته بندی
- را انتخاب کنید
- طبقه بندی
- رمز
- مجموعه
- ارتباطات
- پیچیده
- کنسول
- ظرف
- شامل
- هزینه
- ایجاد شده
- ایجاد
- عضو سازمانهای سری ومخفی
- جاری
- سفارشی
- داده ها
- علم اطلاعات
- عمیق تر
- گسترش
- استقرار
- گسترش
- کشف
- توسعه
- پروژه
- مشکل
- توزیع
- کارگر بارانداز
- اسناد و مدارک
- نمی کند
- راندن
- به آسانی
- اکوسیستم
- قادر ساختن
- نقطه پایانی
- مهندس
- ضروری است
- برآورد
- مثال
- تجربه
- امکانات
- زمینه
- سرانجام
- سرمایه گذاری
- مناسب
- تمرکز
- پیروی
- قالب
- تقلب
- رایگان
- کامل
- تابع
- تولید می کنند
- هدف
- رفتن
- بهداشت و درمان
- زیاد
- خیلی
- چگونه
- چگونه
- HTTPS
- انسان
- انسان
- صدها نفر
- شناسایی
- شناسایی
- تصویر
- اجرا
- از جمله
- لوازم
- ورودی
- بینش
- اطلاعات
- گرفتار
- IT
- کار
- شغل ها
- کلید
- برچسب
- برچسب ها
- کار
- زبان
- رهبری
- یاد گرفتن
- یادگیری
- سطح
- کتابخانه
- لینک ها
- بار
- دستگاه
- فراگیری ماشین
- ساخته
- باعث می شود
- اداره می شود
- مدیریت
- مدیریت
- دستی
- تولید
- ماتریس
- اندازه
- متریک
- مخلوط
- ML
- مدل
- مدل
- مانیتور
- بیش
- اکثر
- حرکت
- طبیعی
- طبیعت
- دفتر یادداشت
- عدد
- پیشنهادات
- سفارش
- سازمان های
- دیگر
- ارام
- شریک
- شرکای
- کارایی
- شخص
- سکو
- نقطه
- مثبت
- مشکل
- روند
- تولید
- برنامه
- پروژه ها
- ارائه
- عمومی
- منتشر کردن
- خام
- زمان واقعی
- سوابق
- ثبت نام
- ثبت نام
- مربوط
- ضروری
- منابع
- نتایج
- این فایل نقد می نویسید:
- بررسی
- دویدن
- در حال اجرا
- ایمنی
- علم
- احساس
- بدون سرور
- سرویس
- خدمات
- تنظیم
- محیط
- کوتاه
- ساده
- So
- راه حل
- مزایا
- حل
- تخصص دارد
- هزینه
- پشته
- صحنه
- شروع
- آغاز شده
- آماری
- ذخیره سازی
- استراتژیک
- پشتیبانی
- حمایت از
- هدف
- وظایف
- تیم
- فن آوری
- آزمون
- از طریق
- زمان
- رمز
- ابزار
- مسیر
- آموزش
- دگرگون کردن
- محاکمه
- آموزش
- ui
- نهایی
- برملا کردن
- به روز رسانی
- استفاده کنید
- معمولا
- ارزش
- تنوع
- تصویری
- چشم انداز
- چه
- بدون
- مهاجرت کاری
- مشغول به کار
- با این نسخهها کار
- سال