با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

با استفاده از Amazon SageMaker Data Wrangler، پارامترهای آموزش دیده را روی مجموعه داده های بزرگ تنظیم کنید

Amazon SageMaker Data Rangler به شما کمک می کند تا داده ها را برای یادگیری ماشین (ML) از یک رابط بصری درک کنید، جمع آوری کنید، تبدیل کنید و آماده کنید. این شامل بیش از 300 تبدیل داده داخلی است، بنابراین شما می توانید بدون نیاز به نوشتن کد، ویژگی ها را به سرعت عادی سازی، تبدیل و ترکیب کنید.

متخصصان علم داده برای حل مشکلات تجاری در جایی که نیاز به تغییر و استخراج ویژگی ها از مجموعه داده ها دارند، داده ها را تولید، مشاهده و پردازش می کنند. تبدیل‌هایی مانند رمزگذاری ترتیبی یا رمزگذاری یک‌طرفه، کدگذاری‌های موجود در مجموعه داده شما را یاد می‌گیرند. این خروجی های کدگذاری شده به عنوان پارامترهای آموزش دیده نامیده می شوند. از آنجایی که مجموعه داده‌ها در طول زمان تغییر می‌کنند، ممکن است لازم باشد که رمزگذاری‌ها را روی داده‌هایی که قبلاً دیده نشده بود، دوباره تنظیم کنید تا جریان تبدیل مرتبط با داده‌های شما باشد.

ما هیجان زده هستیم که ویژگی پارامتر refit trained را اعلام کنیم که به شما امکان می دهد از پارامترهای آموزش دیده قبلی استفاده کنید و آنها را به دلخواه مجدداً تنظیم کنید. در این پست نحوه استفاده از این ویژگی را نشان می دهیم.

بررسی اجمالی ویژگی Data Wrangler refit

قبل از اینکه به جزئیات ویژگی پارامتر آموزش‌دیده refit بپردازیم، نحوه کار این ویژگی را با مثال زیر نشان می‌دهیم.

فرض کنید مجموعه داده مشتری شما دارای یک ویژگی طبقه بندی است country به صورت رشته هایی مانند نمایش داده می شود Australia و Singapore. الگوریتم های ML به ورودی های عددی نیاز دارند. بنابراین، این مقادیر مقوله ای باید به مقادیر عددی کدگذاری شوند. رمزگذاری داده های طبقه بندی، فرآیند ایجاد یک نمایش عددی برای دسته ها است. به عنوان مثال، اگر کشور دسته شما دارای مقادیر است Australia و Singapore، می توانید این اطلاعات را در دو بردار رمزگذاری کنید: [1, 0] برای نشان دادن Australia و [0، 1] برای نشان دادن Singapore. تبدیل مورد استفاده در اینجا یک رمزگذاری یک داغ است و خروجی کدگذاری شده جدید پارامترهای آموزش دیده را منعکس می کند.

پس از آموزش مدل، با گذشت زمان ممکن است مشتریان شما افزایش یابند و ارزش های متمایز تری در لیست کشورها داشته باشید. مجموعه داده جدید می تواند شامل دسته دیگری باشد، India، که بخشی از مجموعه داده اصلی نبود، که می تواند بر دقت مدل تأثیر بگذارد. بنابراین، لازم است مدل خود را با داده های جدیدی که در طول زمان جمع آوری شده است، دوباره آموزش دهید.

برای غلبه بر این مشکل، باید کدگذاری را به‌روزرسانی کنید تا دسته‌بندی جدید را شامل شود و نمایش برداری را مطابق آخرین مجموعه داده‌تان به‌روزرسانی کنید. در مثال ما، رمزگذاری باید دسته بندی جدید را منعکس کند countryاست که India. ما معمولاً به این فرآیند تازه سازی یک رمزگذاری به عنوان عملیات refit اشاره می کنیم. پس از انجام عملیات refit، کدگذاری جدید را دریافت می کنید: Australia: [1، 0، 0]، Singapore: [0، 1، 0] و India: [0، 0، 1]. نصب مجدد رمزگذاری یک‌بار و سپس آموزش مجدد مدل بر روی مجموعه داده جدید منجر به پیش‌بینی‌های با کیفیت بهتر می‌شود.

ویژگی پارامتر تعلیم داده شده Refit Data Wrangler در موارد زیر مفید است:

  • داده های جدید به مجموعه داده اضافه می شود - آموزش مجدد مدل ML زمانی ضروری است که مجموعه داده با داده های جدید غنی شود. برای دستیابی به نتایج بهینه، باید پارامترهای آموزش دیده را در مجموعه داده جدید دوباره تنظیم کنیم.
  • آموزش یک مجموعه داده کامل پس از انجام مهندسی ویژگی بر روی داده های نمونه - برای یک مجموعه داده بزرگ، نمونه ای از مجموعه داده برای یادگیری پارامترهای آموزش دیده در نظر گرفته می شود، که ممکن است کل مجموعه داده شما را نشان ندهد. ما باید پارامترهای آموزش دیده را در مجموعه داده کامل دوباره یاد بگیریم.

در زیر برخی از متداول‌ترین تبدیل‌های Data Wrangler انجام شده بر روی مجموعه داده‌ها هستند که از گزینه refit trained parameter بهره می‌برند:

برای اطلاعات بیشتر در مورد تبدیل ها در Data Wrangler، مراجعه کنید تبدیل داده ها.

در این پست، نحوه پردازش این پارامترهای آموزش دیده روی مجموعه داده ها را با استفاده از Data Wrangler نشان می دهیم. می‌توانید از جریان‌های Data Wrangler در کارهای تولیدی برای پردازش مجدد داده‌های خود در حین رشد و تغییر استفاده کنید.

بررسی اجمالی راه حل

برای این پست، نحوه استفاده از ویژگی پارامتر آموزش‌دهی مجدد Data Wrangler را با مجموعه داده‌های عمومی در دسترس نشان می‌دهیم. کجگل: داده های مسکن ایالات متحده از Zillow، املاک برای فروش در ایالات متحده. قیمت‌های فروش خانه را در توزیع‌های جغرافیایی مختلف خانه‌ها دارد.

نمودار زیر معماری سطح بالای Data Wrangler را با استفاده از ویژگی پارامتر آموزش‌دیده refit نشان می‌دهد. ما همچنین تأثیر را بر روی کیفیت داده ها بدون پارامتر آموزش مجدد نشان می دهیم و نتایج را در پایان مقایسه می کنیم.

گردش کار شامل مراحل زیر است:

  1. تجزیه و تحلیل داده های اکتشافی را انجام دهید - برای شروع تجزیه و تحلیل داده های اکتشافی (EDA) یک جریان جدید در Data Wrangler ایجاد کنید. داده های کسب و کار را برای درک، تمیز کردن، تجمیع، تبدیل و آماده سازی داده های خود برای آموزش وارد کنید. رجوع شود به با مجموعه داده‌های نمونه، قابلیت‌های Amazon SageMaker Data Wrangler را کاوش کنید برای جزئیات بیشتر در مورد انجام EDA با Data Wrangler.
  2. یک کار پردازش داده ایجاد کنید – این مرحله تمام تغییراتی را که در مجموعه داده انجام داده اید به عنوان یک فایل جریان ذخیره شده در پیکربندی شده صادر می کند. سرویس ذخیره سازی ساده آمازون مکان (Amazon S3). کار پردازش داده با فایل جریان تولید شده توسط Data Wrangler، تبدیل ها و پارامترهای آموزش دیده را در مجموعه داده شما اعمال می کند. هنگامی که کار پردازش داده ها کامل شد، فایل های خروجی در محل آمازون S3 پیکربندی شده در گره مقصد آپلود می شوند. توجه داشته باشید که گزینه refit به طور پیش فرض خاموش است. به عنوان جایگزینی برای اجرای آنی کار پردازش، شما همچنین می توانید یک کار پردازشی را برنامه ریزی کنید با چند کلیک با استفاده از Data Wrangler - ایجاد کار برای اجرا در زمان های خاص.
  3. یک کار پردازش داده با ویژگی پارامتر refit trained ایجاد کنید – در حین ایجاد شغل برای تقویت یادگیری مجدد پارامترهای آموزش دیده خود در مجموعه داده کامل یا تقویت شده خود، ویژگی جدید refit trained parameter را انتخاب کنید. طبق پیکربندی مکان آمازون S3 برای ذخیره فایل جریان، کار پردازش داده فایل جریان جدید را ایجاد یا به روز می کند. اگر همان مکان Amazon S3 را مانند مرحله 2 پیکربندی کنید، کار پردازش داده فایل جریان تولید شده در مرحله 2 را به روز می کند، که می تواند برای حفظ جریان شما با داده های شما مرتبط باشد. پس از اتمام کار پردازش، فایل های خروجی در سطل S3 پیکربندی شده گره مقصد آپلود می شوند. می توانید از جریان به روز شده در کل مجموعه داده خود برای یک گردش کار تولید استفاده کنید.

پیش نیازها

قبل از شروع، مجموعه داده را در یک سطل S3 آپلود کنید، سپس آن را به Data Wrangler وارد کنید. برای دستورالعمل، مراجعه کنید وارد کردن داده ها از آمازون S3.

حال بیایید مراحل ذکر شده در نمودار معماری را طی کنیم.

EDA را در Data Wrangler انجام دهید

برای امتحان کردن ویژگی پارامتر آموزش‌دیده، تحلیل و تبدیل زیر را در Data Wrangler تنظیم کنید. در پایان راه اندازی EDA، Data Wrangler یک فایل جریانی ایجاد می کند که با پارامترهای آموزش دیده از مجموعه داده گرفته شده است.

  1. یک جریان جدید در Amazon SageMaker Data Wrangler برای تجزیه و تحلیل داده های اکتشافی ایجاد کنید.
  2. داده‌های تجاری را که آپلود کرده‌اید به آمازون S3 وارد کنید.
  3. می توانید پیش نمایش داده ها و گزینه های انتخاب نوع فایل، جداکننده، نمونه برداری و غیره را مشاهده کنید. برای این مثال از اول ک گزینه نمونه برداری ارائه شده توسط Data Wrangler برای وارد کردن 50,000 رکورد اول از مجموعه داده.
  4. را انتخاب کنید وارد كردن.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

  1. پس از بررسی تطابق نوع داده اعمال شده توسط Data Wrangler، یک تجزیه و تحلیل جدید اضافه کنید.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

  1. برای نوع تحلیل، انتخاب کنید گزارش کیفیت داده و بینش.
  2. را انتخاب کنید ساختن.

با گزارش کیفیت داده و اطلاعات بینش، خلاصه‌ای از مجموعه داده با اطلاعات کلی مانند مقادیر گمشده، مقادیر نامعتبر، انواع ویژگی‌ها، تعداد پرت و غیره دریافت می‌کنید. شما می توانید ویژگی ها را انتخاب کنید property_type و city برای اعمال تبدیل‌ها بر روی مجموعه داده برای درک ویژگی پارامتر آموزش‌دیده refit.

بیایید روی ویژگی تمرکز کنیم property_type از مجموعه داده در گزارش جزئیات ویژگی بخش، شما می توانید ببینید property_type، که یک ویژگی طبقه بندی شده و شش مقدار منحصر به فرد است که از 50,000 مجموعه داده نمونه برداری شده توسط Data Wrangler به دست آمده است. مجموعه داده کامل ممکن است دارای دسته های بیشتری برای ویژگی باشد property_type. برای یک ویژگی با مقادیر منحصر به فرد زیاد، ممکن است رمزگذاری ترتیبی را ترجیح دهید. اگر این ویژگی دارای چند مقدار منحصر به فرد باشد، می توان از یک رویکرد رمزگذاری تک داغ استفاده کرد. برای این مثال، ما کدگذاری یک‌طرفه را انتخاب می‌کنیم property_type.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

به طور مشابه، برای city ویژگی، که یک نوع داده متنی با تعداد زیادی مقادیر منحصر به فرد است، اجازه دهید کدگذاری ترتیبی را برای این ویژگی اعمال کنیم.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

  1. به جریان Data Wrangler بروید، علامت مثبت را انتخاب کنید و انتخاب کنید تبدیل را اضافه کنید.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

  1. انتخاب کدگذاری طبقه بندی شده گزینه ای برای تبدیل ویژگی های طبقه بندی شده

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

از گزارش کیفیت داده و بینش، ویژگی property_type شش دسته منحصر به فرد را نشان می دهد: CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILYو TOWNHOUSE.

  1. برای دگرگون کردن، انتخاب کنید یک کدگذاری داغ.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

پس از اعمال رمزگذاری یکباره روی ویژگی property_type، می توانید پیش نمایش هر شش دسته را به عنوان ویژگی های جداگانه اضافه شده به عنوان ستون های جدید مشاهده کنید. توجه داشته باشید که 50,000 رکورد از مجموعه داده های شما برای ایجاد این پیش نمایش نمونه برداری شده است. در حین اجرای یک کار پردازش Data Wrangler با این جریان، این تغییرات در کل مجموعه داده شما اعمال می شود.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

  1. یک تبدیل جدید اضافه کنید و انتخاب کنید کدگذاری دسته بندی برای اعمال تبدیل بر روی ویژگی city، که دارای تعداد بیشتری از مقادیر متن دسته بندی منحصر به فرد است.
  2. برای رمزگذاری این ویژگی در یک نمایش عددی، را انتخاب کنید کد ترتیبی برای دگرگون کردن.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

  1. پیش نمایش را در این تبدیل انتخاب کنید.

شما می توانید ببینید که ویژگی طبقه بندی city به مقادیر ترتیبی در ستون خروجی نگاشت می شود e_city.

  1. با انتخاب این مرحله را اضافه کنید بروزرسانی.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

  1. می‌توانید مقصد را روی Amazon S3 تنظیم کنید تا تبدیل‌های اعمال شده روی مجموعه داده ذخیره شود تا خروجی به‌عنوان فایل CSV تولید شود.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

Data Wrangler گردش کاری را که در رابط کاربری تعریف کرده اید به عنوان یک فایل جریان ذخیره می کند و در محل آمازون S3 کار پردازش داده پیکربندی شده آپلود می کند. این فایل جریان زمانی استفاده می‌شود که کارهای پردازش Data Wrangler را برای اعمال تبدیل‌ها در مجموعه داده‌های بزرگ‌تر یا تبدیل داده‌های تقویت‌کننده جدید برای آموزش مجدد مدل ایجاد می‌کنید.

یک کار پردازش داده Data Wrangler را بدون فعال کردن مجدد تنظیم کنید

اکنون می توانید ببینید که چگونه گزینه refit از پارامترهای آموزش دیده در مجموعه داده های جدید استفاده می کند. برای این نمایش، ما دو کار پردازش Data Wrangler را تعریف می کنیم که بر روی یک داده کار می کنند. اولین کار پردازشی، جابجایی مجدد را فعال نمی کند. برای کار پردازش دوم، از refit استفاده می کنیم. در پایان اثرات را با هم مقایسه می کنیم.

  1. را انتخاب کنید ایجاد شغل برای شروع یک کار پردازش داده با Data Wrangler.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

  1. برای اسم شغل، یک نام وارد کنید.
  2. تحت پارامترهای آموزش دیده، انتخاب نکنید تعمیر مجدد.
  3. را انتخاب کنید کار را پیکربندی کنید.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

  1. پارامترهای کار مانند انواع نمونه، اندازه حجم و مکان Amazon S3 را برای ذخیره فایل جریان خروجی پیکربندی کنید.
  2. Data Wrangler یک فایل جریان در محل فایل جریان S3 ایجاد می کند. جریان از تبدیل ها برای آموزش پارامترها استفاده می کند و ما بعداً از گزینه refit برای آموزش مجدد این پارامترها استفاده می کنیم.
  3. را انتخاب کنید ساختن.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

منتظر بمانید تا کار پردازش داده تکمیل شود تا داده های تبدیل شده در سطل S3 پیکربندی شده در گره مقصد را ببینید.

یک کار پردازش داده Data Wrangler را با تنظیم مجدد فعال کنید

بیایید یک کار پردازشی دیگر ایجاد کنیم که با فعال بودن ویژگی پارامتر refit trained فعال است. این گزینه پارامترهای آموزش دیده را که مجدداً در کل مجموعه داده یاد می گیرند، اعمال می کند. هنگامی که این کار پردازش داده کامل شد، یک فایل جریان ایجاد می شود یا به مکان پیکربندی شده Amazon S3 به روز می شود.

  1. را انتخاب کنید ایجاد شغل.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

  1. برای اسم شغل، یک نام وارد کنید.
  2. برای پارامترهای آموزش دیده، انتخاب کنید تعمیر مجدد.
  3. اگر شما را انتخاب کنید مشاهده همه، می توانید تمام پارامترهای آموزش دیده را بررسی کنید.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

  1. را انتخاب کنید کار را پیکربندی کنید.
  2. محل فایل جریان آمازون S3 را وارد کنید.
  3. را انتخاب کنید ساختن.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

منتظر بمانید تا کار پردازش داده تکمیل شود.

به سطل S3 پیکربندی شده در گره مقصد مراجعه کنید تا داده های تولید شده توسط کار پردازش داده ها را در حال اجرا تبدیل های تعریف شده مشاهده کنید.

برای اجرای کارهای پردازش Data Wrangler به کد پایتون صادر کنید

به عنوان جایگزینی برای شروع کارهای پردازشی با استفاده از گزینه Create job در Data Wrangler، می توانید کارهای پردازش داده را با صادر کردن جریان Data Wrangler به یک نوت بوک Jupyter فعال کنید. Data Wrangler یک نوت بوک Jupyter با ورودی ها، خروجی ها، پردازش تنظیمات کار و کد برای بررسی وضعیت شغل تولید می کند. شما می توانید پارامترها را مطابق با الزامات تبدیل داده خود تغییر دهید یا به روز کنید.

  1. علامت مثبت کنار فینال را انتخاب کنید دگرگون کردن گره
  2. را انتخاب کنید صادرات به و Amazon S3 (از طریق نوت بوک Jupyter).

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

می‌توانید یک نوت بوک Jupyter را ببینید که با ورودی‌ها، خروجی‌ها، پردازش تنظیمات کار و کد برای بررسی وضعیت شغل باز شده است.

  1. برای اعمال گزینه refit trained parameters از طریق کد، تنظیم کنید refit پارامتر به True.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.نتایج کار پردازش داده را مقایسه کنید

پس از اتمام کارهای پردازش Data Wrangler، باید دو جریان داده Wrangler جدید با خروجی تولید شده توسط کارهای پردازش داده ذخیره شده در مقصد پیکربندی شده Amazon S3 ایجاد کنید.

برای بررسی خروجی های کارهای پردازش داده می توانید به مکان پیکربندی شده در پوشه مقصد Amazon S3 مراجعه کنید.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

برای بررسی نتایج کار پردازشی، دو جریان جدید Data Wrangler را با استفاده از گزارش کیفیت داده و Insights ایجاد کنید تا نتایج تبدیل را مقایسه کنید.

  1. یک جریان جدید در Amazon SageMaker Data Wrangler ایجاد کنید.
  2. کار پردازش داده را بدون تنظیم مجدد فایل خروجی فعال از آمازون S3 وارد کنید.
  3. یک تحلیل جدید اضافه کنید.
  4. برای نوع تحلیل، انتخاب کنید گزارش کیفیت داده و بینش.
  5. را انتخاب کنید ساختن.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.
با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

مراحل بالا را تکرار کنید و جریان مخاصمه داده جدیدی را برای تجزیه و تحلیل خروجی کار پردازش داده با فعال کردن refit ایجاد کنید.

حال اجازه دهید به خروجی‌های کارهای پردازشی این ویژگی نگاه کنیم property_type با استفاده از گزارش‌های کیفیت داده و بینش. به جزئیات ویژگی در فهرست داده‌ها و گزارش‌های بینش بروید feature_type.

کار پردازش پارامتر آموزش‌دیده مجدد، پارامترهای آموزش‌دیده شده را در کل مجموعه داده‌ها دوباره برازش داده و مقدار جدید را رمزگذاری کرده است. APARTMENT با هفت مقدار متمایز در مجموعه داده کامل.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

کار پردازش معمولی پارامترهای آموزش داده شده از مجموعه داده نمونه را اعمال کرد که تنها شش مقدار متمایز برای آن دارند property_type ویژگی. برای داده با feature_type APARTMENTاز استراتژی مدیریت نامعتبر Skip اعمال می شود و کار پردازش داده این دسته جدید را نمی آموزد. رمزگذاری تک داغ این دسته بندی جدید موجود در داده های جدید را نادیده گرفته است، و رمزگذاری از دسته بندی رد می شود APARTMENT.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

بیایید اکنون روی ویژگی دیگری تمرکز کنیم، city. کار پردازش پارامتر آموزش‌دیده دوباره همه مقادیر موجود برای آن را دوباره یاد گرفته است city ویژگی، با توجه به داده های جدید.

همانطور که در خلاصه ویژگی بخش گزارش، ستون ویژگی کدگذاری شده جدید e_city دارای 100% پارامترهای معتبر با استفاده از ویژگی refit trained parameter.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

در مقابل، کار پردازش معمولی دارای 82.4 درصد مقادیر گمشده در ستون ویژگی کدگذاری شده جدید است. e_city. این پدیده به این دلیل است که تنها مجموعه نمونه از پارامترهای آموزش دیده بر روی مجموعه داده کامل اعمال می شود و هیچ تغییری در کار پردازش داده اعمال نمی شود.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

هیستوگرام های زیر ویژگی کدگذاری ترتیبی را نشان می دهند e_city. اولین هیستوگرام مربوط به ویژگی است که با گزینه refit تبدیل شده است.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

هیستوگرام بعدی مربوط به ویژگی است که بدون گزینه refit تبدیل شده است. ستون نارنجی مقادیر گمشده (NaN) را در گزارش کیفیت داده و بینش نشان می دهد. مقادیر جدیدی که از مجموعه داده نمونه یاد نگرفته‌اند، همانطور که در رابط کاربری Data Wrangler پیکربندی شده است، به‌عنوان No Number (NaN) جایگزین می‌شوند. استراتژی مدیریت نامعتبر.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

کار پردازش داده با پارامتر refit trained دوباره یاد گرفت property_type و city ویژگی هایی با در نظر گرفتن مقادیر جدید از کل مجموعه داده. بدون پارامتر refit trained، کار پردازش داده فقط از پارامترهای آموزش دیده از پیش آموخته شده مجموعه داده نمونه استفاده می کند. سپس آنها را روی داده های جدید اعمال می کند، اما مقادیر جدید برای رمزگذاری در نظر گرفته نمی شوند. این امر بر دقت مدل تأثیر خواهد داشت.

پاک کردن

وقتی از Data Wrangler استفاده نمی‌کنید، مهم است که نمونه‌ای را که در آن اجرا می‌شود خاموش کنید تا از پرداخت هزینه‌های اضافی جلوگیری کنید.

برای جلوگیری از از دست دادن کار، قبل از خاموش کردن Data Wrangler، جریان داده خود را ذخیره کنید.

  1. برای ذخیره جریان داده خود در Amazon SageMaker Studio، انتخاب کنید پرونده، پس از آن را انتخاب کنید ذخیره داده Wrangler Flow. Data Wrangler به طور خودکار جریان داده های شما را هر 60 ثانیه ذخیره می کند.
  2. برای خاموش کردن نمونه Data Wrangler، در Studio، را انتخاب کنید در حال اجرا نمونه ها و هسته ها.
  3. تحت برنامه های در حال اجرا، نماد خاموش شدن را در کنار برنامه sagemaker-data-wrangler-1.0 انتخاب کنید.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

  1. را انتخاب کنید همه را خاموش کنید برای تایید.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.

Data Wrangler روی نمونه ml.m5.4xlarge اجرا می‌شود. این نمونه از بین می رود در حال اجرا نمونه هنگامی که برنامه Data Wrangler را خاموش می کنید.

پس از اینکه برنامه Data Wrangler را خاموش کردید، دفعه بعد که یک فایل جریان داده Wrangler را باز می کنید، باید دوباره راه اندازی شود. این ممکن است چند دقیقه طول بکشد.

نتیجه

در این پست، مروری بر ویژگی پارامترهای آموزش‌دهی مجدد در Data Wrangler ارائه کردیم. با این ویژگی جدید، می توانید پارامترهای آموزش دیده را در جریان داده رانگلر ذخیره کنید، و کارهای پردازش داده از پارامترهای آموزش دیده برای اعمال تبدیل های آموخته شده در مجموعه داده های بزرگ یا مجموعه داده های تقویتی استفاده می کنند. می‌توانید این گزینه را برای بردار کردن ویژگی‌های متن، داده‌های عددی، و مدیریت موارد پرت اعمال کنید.

حفظ پارامترهای آموزش‌دیده در طول پردازش داده‌های چرخه حیات ML، مراحل پردازش داده‌ها را ساده و کاهش می‌دهد، از مهندسی ویژگی‌های قوی پشتیبانی می‌کند و از آموزش مدل و تقویت آموزش روی داده‌های جدید پشتیبانی می‌کند.

ما شما را تشویق می کنیم که این ویژگی جدید را برای نیازهای پردازش داده خود امتحان کنید.


درباره نویسندگان

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai. هریهاران سورش یک معمار ارشد راه حل در AWS است. او علاقه زیادی به پایگاه داده ها، یادگیری ماشینی و طراحی راه حل های نوآورانه دارد. قبل از پیوستن به AWS، Hariharan یک معمار محصول، متخصص پیاده سازی بانکداری اصلی و توسعه دهنده بود و بیش از 11 سال با سازمان های BFSI کار کرد. او خارج از تکنولوژی، از پاراگلایدر و دوچرخه سواری لذت می برد.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.سانتوش کولکارنی یک معمار راه حل های سازمانی در خدمات وب آمازون است که با مشتریان ورزشی در استرالیا کار می کند. او مشتاق ساخت برنامه های کاربردی توزیع شده در مقیاس بزرگ برای حل مشکلات تجاری با استفاده از دانش خود در AI/ML، داده های بزرگ و توسعه نرم افزار است.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.ویشال کاپور یک دانشمند ارشد کاربردی با هوش مصنوعی AWS است. او مشتاق کمک به مشتریان در درک داده هایشان در Data Wrangler است. او در اوقات فراغت خود دوچرخه سواری کوهستان، اسنوبرد می کند و با خانواده اش وقت می گذراند.

با استفاده از Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence، پارامترهای آموزش‌دیده‌شده را روی مجموعه‌های داده بزرگ تنظیم کنید. جستجوی عمودی Ai.آنیکث مانجونات مهندس توسعه نرم افزار در Amazon SageMaker است. او به پشتیبانی Amazon SageMaker Data Wrangler کمک می کند و علاقه زیادی به سیستم های یادگیری ماشینی توزیع شده دارد. خارج از محل کار، او از پیاده روی، تماشای فیلم و بازی کریکت لذت می برد.

تمبر زمان:

بیشتر از آموزش ماشین AWS