با استفاده از Amazon SageMaker Ground Truth And Databricks MLflow یک خط لوله تحلیل احساسات MLOps بسازید

بازنشر افلاطون

دنبال: 0

همانطور که سازمان‌های بیشتری برای ایجاد بینش عمیق‌تر به سمت یادگیری ماشینی (ML) می‌روند، دو مانع کلیدی که با آن مواجه می‌شوند برچسب‌گذاری و مدیریت چرخه عمر است. برچسب‌گذاری شناسایی داده‌ها و افزودن برچسب‌ها برای ارائه زمینه است تا یک مدل ML بتواند از آن بیاموزد. برچسب ها ممکن است عبارتی را در فایل صوتی، خودرویی در عکس یا اندامی را در MRI نشان دهند. برچسب‌گذاری داده‌ها برای فعال کردن مدل‌های ML برای کار کردن در برابر داده‌ها ضروری است. مدیریت چرخه حیات مربوط به فرآیند تنظیم یک آزمایش ML و مستندسازی مجموعه داده، کتابخانه، نسخه و مدل مورد استفاده برای به دست آوردن نتایج است. یک تیم ممکن است صدها آزمایش را قبل از تصمیم گیری بر روی یک رویکرد انجام دهد. بازگشت به گذشته و بازآفرینی آن رویکرد می‌تواند بدون سوابق عناصر آن آزمایش دشوار باشد.

بسیاری از مثال‌ها و آموزش‌های ML با مجموعه داده‌ای شروع می‌شوند که شامل یک مقدار هدف است. با این حال، داده های دنیای واقعی همیشه چنین مقدار هدفی ندارند. به عنوان مثال، در تجزیه و تحلیل احساسات، یک فرد معمولاً می تواند در مورد مثبت، منفی یا مختلط بودن یک بررسی قضاوت کند. اما بررسی‌ها از مجموعه‌ای از متن تشکیل شده‌اند که ارزش قضاوتی به آن تعلق ندارد. به منظور ایجاد یک یادگیری نظارت شده مدل برای حل این مشکل، یک مجموعه داده برچسب دار با کیفیت بالا ضروری است. Amazon SageMaker Ground Truth یک سرویس برچسب گذاری داده کاملاً مدیریت شده است که ساخت مجموعه داده های آموزشی بسیار دقیق برای ML را آسان می کند.

برای سازمان هایی که از Databricks به عنوان پلت فرم داده و تجزیه و تحلیل خود در AWS برای انجام وظایف استخراج، تبدیل و بارگذاری (ETL) استفاده می کنند، هدف نهایی اغلب آموزش یک مدل یادگیری نظارت شده است. در این پست، نحوه ادغام Databricks با Ground Truth و آمازون SageMaker برای برچسب گذاری داده ها و توزیع مدل.

بررسی اجمالی راه حل

Ground Truth یک سرویس برچسب گذاری داده کاملاً مدیریت شده است که ساخت مجموعه داده های آموزشی بسیار دقیق برای ML را آسان می کند. از طریق کنسول Ground Truth، می‌توانیم گردش‌های کاری برچسب‌گذاری داده سفارشی یا داخلی را در عرض چند دقیقه ایجاد کنیم. این گردش‌های کاری از موارد استفاده متنوعی از جمله ابرهای نقطه سه بعدی، ویدئو، تصاویر و متن پشتیبانی می‌کنند. علاوه بر این، Ground Truth برچسب‌گذاری خودکار داده‌ها را ارائه می‌دهد که از یک مدل ML برای برچسب‌گذاری داده‌های ما استفاده می‌کند.

ما مدل خود را بر روی مجموعه داده های عمومی در دسترس نظرات مشتریان آمازون آموزش می دهیم. در سطح بالا، مراحل به شرح زیر است:

یک مجموعه داده خام را برای برچسب گذاری استخراج کرده و به آن منتقل کنید سرویس ذخیره سازی ساده آمازون (Amazon S3).
با ایجاد یک کار برچسب زدن در SageMaker، برچسب زدن را انجام دهید.
ساخت و آموزش مدل یادگیرنده خطی Scikit-learn ساده برای طبقه بندی احساسات متن بررسی در پلت فرم Databricks با استفاده از یک نمونه دفتر یادداشت.
استفاده کنید MLflow اجزای سازنده برای ایجاد و اجرای MLO و ذخیره مصنوعات مدل.
استقرار مدل به عنوان نقطه پایانی SageMaker با استفاده از کتابخانه MLflow SageMaker برای استنتاج بلادرنگ

نمودار زیر برچسب‌گذاری و سفر ML را با استفاده از Ground Truth و MLflow نشان می‌دهد.

یک کار برچسب زدن در SageMaker ایجاد کنید

از مجموعه داده نظرات مشتریان آمازون، ما فقط بخش های متن را استخراج می کنیم، زیرا در حال ساخت یک مدل تجزیه و تحلیل احساسات هستیم. پس از استخراج، متن را در یک سطل S3 قرار می دهیم و سپس از طریق کنسول SageMaker یک کار برچسب گذاری Ground Truth ایجاد می کنیم.

بر ایجاد شغل برچسب زدن صفحه، تمام فیلدهای الزامی را پر کنید. به عنوان بخشی از مرحله در این صفحه، Ground Truth به شما امکان می دهد فایل مانیفست شغلی را ایجاد کنید. Ground Truth از فایل مانیفست ورودی برای شناسایی تعداد فایل‌ها یا اشیاء در کار برچسب‌گذاری استفاده می‌کند تا تعداد مناسبی از وظایف ایجاد شده و برای برچسب‌گذاران انسانی (یا ماشینی) ارسال شود. فایل به طور خودکار در سطل S3 ذخیره می شود. مرحله بعدی تعیین دسته کار و انتخاب کار است. در این مورد، ما انتخاب می کنیم متن به عنوان دسته کار، و طبقه بندی متن با یک برچسب واحد برای انتخاب کار، به این معنی که یک متن مروری دارای یک احساس واحد است: مثبت، منفی یا خنثی.

در نهایت، دستورالعمل‌های ساده اما مختصر را برای برچسب‌گذاران درباره نحوه برچسب‌گذاری داده‌های متنی می‌نویسیم. دستورالعمل‌ها روی ابزار برچسب‌گذاری نمایش داده می‌شوند و می‌توانید در این زمان به‌صورت اختیاری نمای حاشیه‌نویس را مرور کنید. در نهایت کار را ارسال می کنیم و پیشرفت را روی کنسول نظارت می کنیم.

در حالی که کار برچسب‌گذاری در حال انجام است، می‌توانیم به داده‌های برچسب‌گذاری شده روی آن نیز نگاه کنیم تولید برگه ما می‌توانیم هر متن و برچسب بررسی را نظارت کنیم و اینکه آیا کار توسط یک انسان یا ماشین انجام شده است. ما می توانیم 100٪ از کارهای برچسب زدن را برای انجام توسط انسان انتخاب کنیم یا حاشیه نویسی ماشین را انتخاب کنیم که سرعت کار را افزایش می دهد و هزینه های نیروی کار را کاهش می دهد.

وقتی کار کامل شد، خلاصه کار برچسب‌گذاری حاوی پیوندهایی به مانیفست خروجی و مجموعه داده برچسب‌گذاری شده است. ما همچنین می توانیم به Amazon S3 برویم و هر دو را از پوشه سطل S3 خود دانلود کنیم.

یک خط لوله تجزیه و تحلیل احساسات MLOps با استفاده از Amazon SageMaker Ground Truth و Databricks MLflow PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.

در مراحل بعدی از یک دفترچه یادداشت Databricks استفاده می کنیم. MLflowو مجموعه داده هایی که توسط Ground Truth برای ساختن برچسب گذاری شده اند Scikit یاد بگیر مدل.

یک مجموعه داده برچسب‌دار را از Amazon S3 دانلود کنید

ما با دانلود مجموعه داده برچسب‌گذاری شده از Amazon S3 شروع می‌کنیم. مانیفست در قالب JSON ذخیره می شود و ما آن را در Spark DataFrame در Databricks بارگذاری می کنیم. برای آموزش مدل تجزیه و تحلیل احساسات، ما فقط به متن مرور و احساسی نیاز داریم که توسط کار برچسب‌گذاری Ground Truth مشروح شده است. ما از select() برای استخراج این دو ویژگی استفاده می کنیم. سپس مجموعه داده را از PySpark DataFrame به Pandas DataFrame تبدیل می کنیم، زیرا الگوریتم Scikit-learn به فرمت Pandas DataFrame نیاز دارد.

در مرحله بعد از Scikit-learn استفاده می کنیم CountVectorizer برای تبدیل متن بررسی به یک بردار بیگرام با تنظیم ngram_range حداکثر مقدار 2. CountVectorizer متن را به ماتریسی از تعداد نشانه ها تبدیل می کند. سپس استفاده می کنیم TfidfTransformer برای تبدیل بردار بیگرام به فرمت فرکانس معکوس سند فرکانس (TF-IDF).

ما امتیازات دقت را برای تمرین انجام شده با بردار بیگرام در مقابل بیگرام با TF-IDF مقایسه می کنیم. TF-IDF یک معیار آماری است که میزان ارتباط یک کلمه را با یک سند در مجموعه اسناد ارزیابی می کند. از آنجایی که متن بازبینی نسبتاً کوتاه است، می‌توانیم مشاهده کنیم که چگونه TF-IDF بر عملکرد مدل پیش‌بینی تأثیر می‌گذارد.

یک آزمایش MLflow را تنظیم کنید

MLflow توسط Databricks توسعه داده شده است و در حال حاضر یک پروژه منبع باز. MLflow چرخه حیات ML را مدیریت می کند، بنابراین می توانید آزمایش ها را به راحتی ردیابی، بازسازی و منتشر کنید.

برای راه اندازی آزمایش های MLflow، ما استفاده می کنیم mlflow.sklearn.autolog() برای فعال کردن ثبت خودکار ابرپارامترها، متریک ها، و مصنوعات مدل در هر زمان estimator.fit(), estimator.fit_predict(), و estimator.fit_transform() نامیده می شوند. یا می توانید این کار را به صورت دستی با تماس انجام دهید mlflow.log_param() و mlflow.log_metric().

ما مجموعه داده تبدیل شده را به یک طبقه‌بندی خطی با یادگیری شیب تصادفی (SGD) برازش می‌دهیم. با SGD، گرادیان تلفات یک نمونه در یک زمان تخمین زده می شود و مدل در طول مسیر با یک برنامه استحکام کاهشی به روز می شود.

آن دو مجموعه داده ای که قبلاً آماده کردیم به آن منتقل می شوند train_and_show_scores() عملکرد برای آموزش پس از آموزش باید یک مدل ثبت کنیم و مصنوعات آن را ذخیره کنیم. ما استفاده می کنیم mlflow.sklearn.log_model() برای انجام این کار.

قبل از استقرار، به نتایج آزمایش نگاه می کنیم و دو آزمایش (یکی برای بیگرام و دیگری برای بیگرام با TF-IDF) را برای مقایسه انتخاب می کنیم. در مورد استفاده ما، مدل دوم آموزش دیده با Bigram TF-IDF کمی بهتر عمل کرد، بنابراین ما آن مدل را برای استقرار انتخاب می کنیم. پس از ثبت مدل، مدل را مستقر می کنیم و مرحله مدل را به تولید تغییر می دهیم. ما می‌توانیم این کار را در رابط کاربری MLflow یا با استفاده از کد انجام دهیم transition_model_version_stage().

مدل را به عنوان نقطه پایانی SageMaker مستقر و آزمایش کنید

قبل از استقرار مدل آموزش دیده، باید یک کانتینر Docker بسازیم تا مدل را در SageMaker میزبانی کند. ما این کار را با اجرای یک دستور MLflow ساده انجام می دهیم که ظرف را می سازد و به آن هل می دهد رجیستری ظروف الاستیک آمازون (Amazon ECR) در حساب AWS ما.

اکنون می توانیم URI تصویر را در کنسول آمازون ECR پیدا کنیم. URI تصویر را به صورت یک ارسال می کنیم image_url پارامتر و استفاده DEPLOYMENT_MODE_CREATE برای پارامتر حالت اگر این یک استقرار جدید باشد. اگر نقطه پایانی موجود را با نسخه جدید به روز می کنید، از آن استفاده کنید DEPLOYMENT_MODE_REPLACE.

برای آزمایش نقطه پایانی SageMaker، تابعی ایجاد می کنیم که نام نقطه پایانی و داده های ورودی را به عنوان پارامترهای آن در نظر می گیرد.

نتیجه

در این پست، نحوه استفاده از Ground Truth برای برچسب‌گذاری مجموعه داده خام و استفاده از داده‌های برچسب‌گذاری شده برای آموزش یک طبقه‌بندی خطی ساده با استفاده از Scikit-learn را به شما نشان دادیم. در این مثال، ما از MLflow برای ردیابی هایپرپارامترها و متریک ها، ثبت یک مدل درجه تولید، و استقرار مدل آموزش دیده در SageMaker به عنوان نقطه پایانی استفاده می کنیم. همراه با Databricks برای پردازش داده ها، می توانید کل این مورد استفاده را خودکار کنید، بنابراین با معرفی داده های جدید، می توان آنها را برچسب گذاری کرد و در مدل پردازش کرد. با خودکارسازی این خطوط لوله و مدل‌ها، تیم‌های علم داده می‌توانند به جای صرف وقت خود برای مدیریت به‌روزرسانی‌های داده‌ها به صورت روزانه، بر موارد استفاده جدید تمرکز کرده و بینش‌های بیشتری را کشف کنند.

برای شروع، بررسی کنید از Amazon SageMaker Ground Truth برای برچسب گذاری داده ها استفاده کنید و برای a ثبت نام کنید آزمایش 14 روزه رایگان Databricks در AWS. برای کسب اطلاعات بیشتر در مورد نحوه ادغام Databricks با SageMaker و همچنین سایر خدمات AWS مانند چسب AWS و آمازون Redshiftرا ببینید، Databricks در AWS.

علاوه بر این، منابع زیر را که در این پست استفاده شده است، بررسی کنید:

از موارد زیر استفاده کنید دفتر یادداشت برای شروع.

درباره نویسنده

یک خط لوله تجزیه و تحلیل احساسات MLOps با استفاده از Amazon SageMaker Ground Truth و Databricks MLflow PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai. رومی اولسن یک معمار راه حل در برنامه شریک AWS است. او در نقش فعلی خود در راه حل های بدون سرور و یادگیری ماشین تخصص دارد و سابقه ای در فناوری های پردازش زبان طبیعی دارد. او بیشتر اوقات فراغت خود را با دخترش به کاوش در طبیعت شمال غربی اقیانوس آرام می گذراند.

ایگور آلکسیف یک معمار راه حل شریک در AWS در بخش داده و تجزیه و تحلیل است. ایگور با شرکای استراتژیک همکاری می کند و به آنها کمک می کند تا معماری های پیچیده و بهینه شده AWS بسازند. او قبل از پیوستن به AWS، به‌عنوان معمار داده/راه‌حل، پروژه‌های زیادی را در Big Data اجرا کرد، از جمله چندین دریاچه داده در اکوسیستم Hadoop. به عنوان یک مهندس داده، او در استفاده از AI/ML برای کشف تقلب و اتوماسیون اداری شرکت داشت. پروژه های ایگور در صنایع مختلفی از جمله ارتباطات، مالی، امنیت عمومی، تولید و مراقبت های بهداشتی بود. پیش از این، ایگور به عنوان مهندس فول استک / سرپرست فناوری کار می کرد.

ناصر احمد یک معمار راه حل شریک Sr. در Databricks است که از تجارت AWS خود پشتیبانی می کند. Naseer متخصص در انبارداری داده، هوش تجاری، توسعه برنامه، کانتینر، بدون سرور، معماری یادگیری ماشین در AWS است. او به عنوان SME سال 2021 در Databricks انتخاب شد و از علاقه مندان مشتاق به ارزهای دیجیتال است.

تمبر زمان: آوریل 4، 2022

ریزش مشتری را با یادگیری ماشینی بدون کد با استفاده از آمازون SageMaker Canvas پیش بینی کنید

خوشه منبع:

آموزش ماشین AWS

گره منبع: 1293818

تمبر زمان: ممکن است 5، 2022

با استفاده از Amazon SageMaker Ground Truth و Databricks MLflow یک خط لوله تجزیه و تحلیل احساسات MLOps بسازید.

بازنشر افلاطون

بررسی اجمالی راه حل

یک کار برچسب زدن در SageMaker ایجاد کنید

یک مجموعه داده برچسب‌دار را از Amazon S3 دانلود کنید

یک آزمایش MLflow را تنظیم کنید

مدل را به عنوان نقطه پایانی SageMaker مستقر و آزمایش کنید

نتیجه

درباره نویسنده

بیشتر از آموزش ماشین AWS

Amazon SageMaker Autopilot با حالت جدید آموزش گروهی که توسط AutoGluon طراحی شده است تا هشت برابر سریعتر است.

با Amazon SageMaker Role Manager از طریق AWS CDK | مجوزهای سفارشی شده را در چند دقیقه تعریف کنید خدمات وب آمازون

آموزش سریعتر را با کتابخانه موازی داده Amazon SageMaker فعال کنید | خدمات وب آمازون

AWS 5 سال نوآوری را با آمازون SageMaker جشن گرفت

اسلات‌های DTMF را پیکربندی کنید و درخواست‌های امتحان مجدد را با آمازون Lex سفارش دهید

معیارهایی برای ارزیابی راه حل تأیید هویت

چگونه AWS Prototyping ICL-Group را قادر ساخت تا مدل های بینایی کامپیوتری را در Amazon SageMaker بسازد | خدمات وب آمازون

چگونه Amazon Search پروژه های یادگیری ماشینی در مقیاس بزرگ و انعطاف پذیر را با Amazon SageMaker اجرا می کند

برای تشخیص ناهنجاری ها، به طور یکپارچه آمازون آتنا را به Amazon Lookout for Metrics متصل کنید

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب