شناسایی و اجتناب از مشکلات رایج داده هنگام ساخت مدل‌های ML بدون کد با بوم آمازون SageMaker

بازنشر افلاطون

دنبال: 0

تحلیلگران کسب‌وکار با داده‌ها کار می‌کنند و دوست دارند داده‌ها را تجزیه و تحلیل، کاوش و درک کنند تا به نتایج مؤثر تجاری برسند. برای رسیدگی به مشکلات تجاری، آنها اغلب به متخصصان یادگیری ماشین (ML) مانند دانشمندان داده تکیه می کنند تا به تکنیک هایی مانند استفاده از ML برای ساخت مدل هایی با استفاده از داده های موجود و تولید پیش بینی کمک کنند. با این حال، همیشه ممکن نیست، زیرا دانشمندان داده معمولاً با وظایف خود گره خورده اند و پهنای باند لازم برای کمک به تحلیلگران را ندارند.

برای مستقل بودن و دستیابی به اهداف خود به عنوان یک تحلیلگر تجاری، کار با ابزارهای ساده، بصری و بصری که از ML بدون نیاز به دانستن جزئیات و استفاده از کد استفاده می کنند، ایده آل خواهد بود. استفاده از این ابزارها به شما کمک می کند تا مشکلات کسب و کار خود را حل کرده و به نتایج مطلوب برسید.

با هدف کمک به شما و سازمانتان برای موثرتر شدن و استفاده از ML بدون نوشتن کد، ما آمازون SageMaker Canvas را معرفی کرد. این یک راه‌حل ML بدون کد است که به شما کمک می‌کند مدل‌های ML دقیقی بسازید بدون اینکه نیازی به یادگیری جزئیات فنی، مانند الگوریتم‌های ML و معیارهای ارزیابی داشته باشید. SageMaker Canvas یک رابط بصری و بصری ارائه می دهد که به شما امکان می دهد داده ها را وارد کنید، مدل های ML را آموزش دهید، تجزیه و تحلیل مدل را انجام دهید و پیش بینی های ML را تولید کنید، همه اینها بدون نوشتن یک خط کد.

هنگام استفاده از SageMaker Canvas برای آزمایش، ممکن است با مشکلات کیفیت داده مانند مقادیر از دست رفته یا داشتن نوع مشکل اشتباه مواجه شوید. این مسائل ممکن است تا اواخر فرآیند پس از آموزش یک مدل ML کشف نشوند. برای کاهش این چالش، SageMaker Canvas اکنون از اعتبارسنجی داده ها پشتیبانی می کند. این ویژگی به طور فعال مشکلات موجود در داده‌های شما را بررسی می‌کند و راهنمایی‌هایی در مورد حل‌ها ارائه می‌دهد.

در این پست، ما نشان خواهیم داد که چگونه می‌توانید از قابلیت اعتبارسنجی داده‌ها در SageMaker Canvas قبل از ساخت مدل استفاده کنید. همانطور که از نام آن پیداست، این ویژگی مجموعه داده های شما را تایید می کند، مشکلات را گزارش می دهد و اشاره گرهای مفیدی برای رفع آنها ارائه می دهد. با استفاده از داده‌های با کیفیت بهتر، مدل ML عملکرد بهتری خواهید داشت.

اعتبارسنجی داده ها در SageMaker Canvas

Data Validation یک ویژگی جدید در SageMaker Canvas برای بررسی فعالانه مشکلات بالقوه کیفیت داده است. پس از وارد کردن داده‌ها و انتخاب یک ستون هدف، به شما این امکان داده می‌شود که داده‌های خود را همانطور که در اینجا نشان داده شده است تأیید کنید:

اگر می خواهید داده های خود را تأیید کنید، Canvas داده های شما را برای شرایط متعددی از جمله:

تعداد زیادی برچسب منحصر به فرد در ستون هدف شما - برای نوع مدل پیش بینی دسته
تعداد زیادی برچسب منحصر به فرد در ستون هدف شما برای تعداد ردیف های داده های شما - برای نوع مدل پیش بینی دسته
نوع مدل اشتباه برای داده های شما - نوع مدل با داده هایی که در ستون هدف پیش بینی می کنید مطابقت ندارد
تعداد ردیف های نامعتبر بسیار زیاد است - مقادیر از دست رفته در ستون هدف شما
تمام ستون های ویژگی، ستون های متنی هستند - آنها برای ساخت های استاندارد حذف خواهند شد
ستون های خیلی کم - تعداد ستون ها در داده های شما بسیار کم است
بدون ردیف کامل - تمام ردیف‌های داده‌های شما حاوی مقادیر گمشده هستند
یک یا چند نام ستون حاوی زیرخط دوتایی است - SageMaker نمی تواند (__) را در سربرگ ستون مدیریت کند

جزئیات هر معیار اعتبار سنجی در بخش های بعدی این پست ارائه خواهد شد.

اگر همه بررسی‌ها تأیید شوند، تأیید زیر را دریافت خواهید کرد: "هیچ مشکلی در مجموعه داده شما یافت نشد".

اگر مشکلی پیدا شد، اعلانی برای مشاهده و درک دریافت خواهید کرد. این موضوع مشکلات کیفیت داده ها را زودتر آشکار می کند و به شما امکان می دهد قبل از اتلاف وقت و منابع بیشتر در این فرآیند، بلافاصله به آنها رسیدگی کنید.

می‌توانید تنظیمات خود را انجام دهید و اعتبار مجموعه داده‌های خود را تا زمانی که تمام مشکلات برطرف شود ادامه دهید.

اعتبارسنجی انواع ستون و مدل هدف

هنگامی که در حال ساخت یک مدل ML در SageMaker Canvas هستید، چندین مشکل کیفیت داده مربوط به آن است ستون هدف ممکن است باعث خرابی ساخت مدل شما شود. SageMaker Canvas انواع مختلفی از مشکلات را که ممکن است بر شما تأثیر بگذارد بررسی می کند ستون هدف

برای ستون هدف خود، علامت را بررسی کنید نوع مدل اشتباه برای داده های شما. برای مثال، اگر یک مدل پیش‌بینی 2 دسته‌ای انتخاب شده باشد اما ستون هدف شما بیش از 2 برچسب منحصربه‌فرد داشته باشد، SageMaker Canvas اخطار اعتبارسنجی زیر را ارائه می‌کند.
اگر نوع مدل پیش‌بینی دسته ۲ یا ۳+ است، باید اعتبارسنجی کنید برچسب های منحصر به فرد بیش از حد برای ستون هدف شما. حداکثر تعداد کلاس‌های منحصربه‌فرد 2000 است. اگر ستونی با بیش از 2000 مقدار منحصر به فرد را در ستون هدف خود انتخاب کنید، Canvas اخطار اعتبارسنجی زیر را ارائه می‌کند.
علاوه بر بسیاری از برچسب های هدف منحصر به فرد، باید مراقب آنها نیز باشید بسیاری از برچسب های هدف منحصر به فرد برای تعداد ردیف های داده های شما. SageMaker Canvas نسبت برچسب هدف به تعداد کل ردیف‌ها را کمتر از 10% اعمال می‌کند. این اطمینان حاصل می کند که شما برای هر دسته برای یک مدل با کیفیت بالا نماینده کافی دارید و پتانسیل بیش از حد برازش را کاهش می دهد. مدل شما زمانی بیش از حد برازش در نظر گرفته می‌شود که روی داده‌های آموزشی به خوبی پیش‌بینی کند، اما روی داده‌های جدیدی که قبلاً ندیده است، پیش‌بینی نمی‌کند. مراجعه کنید اینجا کلیک نمایید برای کسب اطلاعات بیشتر.
در نهایت، آخرین بررسی برای ستون هدف است ردیف های نامعتبر زیاد. اگر ستون هدف شما بیش از 10 درصد از داده‌های مفقود یا نامعتبر داشته باشد، بر عملکرد مدل شما تأثیر می‌گذارد و در برخی موارد باعث می‌شود ساخت مدل شما با شکست مواجه شود. مثال زیر مقادیر زیادی از دست رفته (90% از دست رفته) در ستون هدف دارد و شما اخطار اعتبارسنجی زیر را دریافت می کنید.

اگر هر یک از اخطارهای بالا را برای ستون هدف خود دریافت کردید، از مراحل زیر برای کاهش مشکلات استفاده کنید:

آیا از ستون هدف درست استفاده می کنید؟
آیا نوع مدل را درست انتخاب کردید؟
آیا می‌توانید تعداد ردیف‌های مجموعه داده خود را در هر برچسب هدف افزایش دهید؟
آیا می توانید برچسب های مشابه را با هم ادغام یا گروه بندی کنید؟
آیا می توانید مقادیر از دست رفته/نامعتبر را پر کنید؟
آیا داده های کافی دارید که بتوانید مقادیر گمشده/نامعتبر را حذف کنید؟
اگر همه گزینه‌های بالا هشدار را پاک نمی‌کنند، باید از مجموعه داده دیگری استفاده کنید.

به اسناد تبدیل داده SageMaker Canvas برای انجام مراحل انتساب ذکر شده در بالا.

اعتبارسنجی تمام ستون ها

به غیر از ستون هدف، ممکن است با سایر ستون های داده (ستون های ویژگی) نیز با مشکلات کیفیت داده مواجه شوید. ستون های ویژگی ها داده های ورودی هستند که برای پیش بینی ML استفاده می شوند.

هر مجموعه داده باید حداقل 1 ستون ویژگی و 1 ستون هدف (در مجموع 2 ستون) داشته باشد. در غیر این صورت، SageMaker Canvas به شما یک تعداد ستون ها در داده های شما بسیار کم است هشدار قبل از اینکه بتوانید به ساخت مدل ادامه دهید، باید این شرط را برآورده کنید.
پس از آن، باید مطمئن شوید که داده های شما حداقل 1 ستون عددی دارند. اگر نه، پس شما آن را دریافت خواهید کرد تمام ستون های ویژگی ستون های متنی هستند هشدار این به این دلیل است که ستون‌های متنی معمولاً در طول ساخت‌های استاندارد حذف می‌شوند و در نتیجه مدل بدون ویژگی برای آموزش باقی می‌ماند. بنابراین، این امر باعث از کار افتادن ساختمان مدل شما می شود. می‌توانید از SageMaker Canvas برای کدگذاری برخی از ستون‌های متن به اعداد استفاده کنید یا از ساخت سریع به جای ساخت استاندارد استفاده کنید.
سومین نوع هشداری که ممکن است برای ستون های ویژگی دریافت کنید، این است بدون ردیف کامل. این اعتبار سنجی بررسی می کند که آیا حداقل یک ردیف بدون مقادیر از دست رفته دارید یا خیر. SageMaker Canvas به حداقل یک ردیف کامل نیاز دارد، در غیر این صورت شما ساخت سریع شکست خواهد خورد. سعی کنید قبل از ساخت مدل، مقادیر از دست رفته را پر کنید.
آخرین نوع اعتبارسنجی است یک یا چند نام ستون حاوی زیرخط دوتایی است. این یک نیاز خاص SageMaker Canvas است. اگر زیرخط دوتایی (__) در سرصفحه های ستون خود دارید، این امر باعث شما می شود ساخت سریع شکست خوردن نام ستون ها را تغییر دهید تا زیرخط های دوتایی حذف شوند و سپس دوباره امتحان کنید.

پاک کردن

برای جلوگیری از متحمل شدن در آینده هزینه های جلسه، از SageMaker Canvas خارج شوید.

نتیجه

SageMaker Canvas یک راه حل ML بدون کد است که به تحلیلگران کسب و کار اجازه می دهد تا مدل های ML دقیقی ایجاد کنند و پیش بینی هایی را از طریق یک رابط بصری، نقطه و کلیک ایجاد کنند. ما به شما نشان دادیم که چگونه SageMaker Canvas به شما کمک می‌کند تا از کیفیت داده‌ها مطمئن شوید و مشکلات داده‌ها را با اعتبارسنجی فعال مجموعه داده کاهش دهید. با شناسایی زودهنگام مشکلات، SageMaker Canvas به شما کمک می کند تا مدل های ML با کیفیت بسازید و تکرارهای ساخت را بدون تخصص در علم داده و برنامه نویسی کاهش دهید. برای آشنایی بیشتر با این ویژگی جدید، به ادامه مطلب مراجعه کنید مستندات SageMaker Canvas.

برای شروع و کسب اطلاعات بیشتر در مورد SageMaker Canvas، به منابع زیر مراجعه کنید:

درباره نویسندگان

هریهاران سورش یک معمار ارشد راه حل در AWS است. او علاقه زیادی به پایگاه داده ها، یادگیری ماشینی و طراحی راه حل های نوآورانه دارد. قبل از پیوستن به AWS، Hariharan یک معمار محصول، متخصص پیاده سازی بانکداری اصلی و توسعه دهنده بود و بیش از 11 سال با سازمان های BFSI کار کرد. او خارج از تکنولوژی، از پاراگلایدر و دوچرخه سواری لذت می برد.

سایناث میریالا یک مدیر ارشد حساب فنی در AWS است که برای مشتریان خودرو در ایالات متحده کار می کند. Sainath علاقه زیادی به طراحی و ساخت برنامه های کاربردی توزیع شده در مقیاس بزرگ با استفاده از AI/ML دارد. Sainath در اوقات فراغت خود با خانواده و دوستان خود وقت می گذراند.

جیمز وو یک معمار ارشد راه حل متخصص AI/ML در AWS است. کمک به مشتریان در طراحی و ساخت راه حل های AI/ML. کار جیمز طیف گسترده‌ای از موارد استفاده از ML را پوشش می‌دهد، با علاقه اولیه به بینایی رایانه، یادگیری عمیق، و مقیاس‌بندی ML در سراسر سازمان. قبل از پیوستن به AWS، جیمز بیش از 10 سال معمار، توسعه‌دهنده و رهبر فناوری بود، از جمله 6 سال در مهندسی و 4 سال در صنایع بازاریابی و تبلیغات.

تمبر زمان: نوامبر 10، 2022نوامبر 11، 2022

تمبر زمان: ممکن است 12، 2022

شناسایی و اجتناب از مشکلات رایج داده در حین ساخت مدل‌های ML بدون کد با آمازون SageMaker Canvas

بازنشر افلاطون

اعتبارسنجی داده ها در SageMaker Canvas

اعتبارسنجی انواع ستون و مدل هدف

اعتبارسنجی تمام ستون ها

پاک کردن

نتیجه

درباره نویسندگان

بیشتر از آموزش ماشین AWS

Amazon SageMaker JumpStart اکنون نوت بوک های Amazon Comprehend را برای طبقه بندی سفارشی و تشخیص موجودیت سفارشی ارائه می دهد.

چندین مدل را با Amazon SageMaker و Triton Inference Server ارائه دهید

با Hugging Face و آمازون SageMaker نقاط پایانی استنتاج ناهمزمان تحقیقات با ارزش را بهبود بخشید

یک گردش کار یادگیری ماشین مدیریت ریسک در Amazon SageMaker بدون کد بسازید

دانشگاه سانفرانسیسکو کنفرانس علوم داده 2023 Datathon با مشارکت AWS و Amazon SageMaker Studio Lab | خدمات وب آمازون

یادگیری مداوم مدل های سفارشی Amazon Comprehend را با استفاده از چرخ لنگر Comprehend ساده کنید

تنظیم خودکار مدل را با Amazon SageMaker JumpStart اجرا کنید

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب