داده ها هر زمینه و هر کسب و کاری را متحول می کنند. با این حال، با رشد سریعتر دادهها از آنچه اکثر شرکتها میتوانند آن را پیگیری کنند، جمعآوری دادهها و به دست آوردن ارزش از آن دادهها کاری چالش برانگیز است. آ استراتژی داده مدرن می تواند به شما کمک کند تا نتایج کسب و کار بهتری را با داده ها ایجاد کنید. AWS کاملترین مجموعه خدمات را برای سفر داده سرتاسر برای کمک به شما مقدار را از داده های خود باز کنید و آن را به بینش تبدیل کنید.
دانشمندان داده می توانند تا 80 درصد از زمان خود را صرف تهیه داده ها برای پروژه های یادگیری ماشینی (ML) کنند. این فرآیند آماده سازی تا حد زیادی کار تمایز نیافته و خسته کننده است و می تواند شامل چندین API برنامه نویسی و کتابخانه های سفارشی باشد. Amazon SageMaker Data Rangler به دانشمندان داده و مهندسان داده کمک می کند تا آماده سازی داده های جدولی و سری زمانی و مهندسی ویژگی را از طریق یک رابط بصری ساده و تسریع کنند. می توانید داده ها را از چندین منبع داده وارد کنید، مانند سرویس ذخیره سازی ساده آمازون (Amazon S3) آمازون آتنا, آمازون Redshift، یا حتی راه حل های شخص ثالث مانند دانه برف or DataBricksو داده های خود را با بیش از 300 تبدیل داده داخلی و کتابخانه ای از تکه های کد پردازش کنید، بنابراین می توانید به سرعت بدون نوشتن کد، ویژگی ها را عادی سازی، تبدیل و ترکیب کنید. شما همچنین می توانید تبدیل های سفارشی خود را در PySpark، SQL یا Pandas بیاورید.
این پست نشان می دهد که چگونه می توانید کارهای آماده سازی داده خود را برای اجرای خودکار برنامه ریزی کنید. ما همچنین قابلیت Data Wrangler جدید مجموعه دادههای پارامتری را بررسی میکنیم، که به شما امکان میدهد فایلهایی را که در یک جریان داده قرار میگیرند با استفاده از URIهای پارامتری شده مشخص کنید.
بررسی اجمالی راه حل
Data Wrangler اکنون از وارد کردن داده ها با استفاده از یک URI پارامتری پشتیبانی می کند. این امکان انعطاف بیشتر را فراهم می کند زیرا اکنون می توانید تمام مجموعه داده های مطابق با پارامترهای مشخص شده را که می توانند از نوع String، Number، Datetime و Pattern باشند، در URI وارد کنید. علاوه بر این، اکنون می توانید کارهای تبدیل Data Wrangler خود را بر اساس یک زمان بندی فعال کنید.
در این پست، یک جریان نمونه با مجموعه داده تایتانیک ایجاد میکنیم تا نشان دهیم چگونه میتوانید این دو ویژگی جدید Data Wrangler را آزمایش کنید. برای دانلود مجموعه داده به ادامه مطلب مراجعه کنید تایتانیک - یادگیری ماشینی از فاجعه.
پیش نیازها
برای دریافت تمام ویژگی های توضیح داده شده در این پست، باید آخرین نسخه هسته Data Wrangler را اجرا کنید. برای اطلاعات بیشتر مراجعه کنید Data Wrangler را به روز کنید. علاوه بر این، شما باید در حال اجرا باشید Amazon SageMaker Studio JupyterLab 3. برای مشاهده نسخه فعلی و به روز رسانی آن به نسخه JupyterLab.
ساختار پرونده
برای این نمایش، ما از یک ساختار فایل ساده پیروی می کنیم که باید آن را تکرار کنید تا مراحل ذکر شده در این پست را تکرار کنید.
- در استودیو، یک نوت بوک جدید بسازید.
- قطعه کد زیر را برای ایجاد ساختار پوشه ای که استفاده می کنیم اجرا کنید (مطمئن شوید که در پوشه مورد نظر در درخت فایل خود هستید):
- کپی
train.csv
وtest.csv
فایل ها از مجموعه داده اصلی تایتانیک به پوشه هاtitanic_dataset/train
وtitanic_dataset/test
بود. - قطعه کد زیر را اجرا کنید تا پوشه ها با فایل های لازم پر شوند:
ما را تقسیم کردیم train.csv
فایل مجموعه داده تایتانیک در نه فایل مختلف به نام part_x
، که در آن x تعداد قطعه است. قسمت 0 دارای 100 رکورد اول، قسمت 1 100 رکورد بعدی و به همین ترتیب تا قسمت 8 است. train
و test
پوشه هایی که حاوی train.csv
و test.csv
.
مجموعه داده های پارامتری شده
کاربران Data Wrangler اکنون می توانند پارامترهایی را برای مجموعه داده های وارد شده از Amazon S3 مشخص کنند. پارامترهای مجموعه داده در URI منابع مشخص میشوند، و مقدار آن را میتوان به صورت پویا تغییر داد و به انعطافپذیری بیشتری برای انتخاب فایلهایی که میخواهیم وارد کنیم، اجازه میدهد. پارامترها می توانند از چهار نوع داده باشند:
- شماره - می تواند مقدار هر عدد صحیح را بگیرد
- رشته - می تواند مقدار هر رشته متنی را بگیرد
- الگو - می تواند ارزش هر عبارت منظم را بگیرد
- Datetime - می تواند ارزش هر یک از قالب های تاریخ/زمان پشتیبانی شده را بگیرد
در این بخش به بررسی این ویژگی جدید می پردازیم. این فقط پس از وارد کردن مجموعه داده خود به جریان فعلی و فقط برای مجموعه داده های وارد شده از Amazon S3 در دسترس است.
- از جریان داده خود، علامت مثبت (+) را در کنار مرحله واردات انتخاب کنید و انتخاب کنید ویرایش مجموعه داده.
- روش ترجیحی (و سادهترین) برای ایجاد پارامترهای جدید، برجسته کردن بخشی از URI شما و انتخاب است. ایجاد پارامتر سفارشی در منوی کشویی برای هر پارامتری که می خواهید ایجاد کنید، باید چهار چیز را مشخص کنید:
- نام
- نوع
- مقدار پیش فرض
- توضیحات:
در اینجا یک پارامتر String type به نام ایجاد کرده ایمfilename_param
با مقدار پیش فرضtrain.csv
. اکنون می توانید نام پارامتر را که در دو براکت محصور شده است، جایگزین بخشی از URI که قبلاً برجسته کرده بودیم، مشاهده کنید. زیرا مقدار تعریف شده برای این پارامتر بودtrain.csv
، اکنون فایل را می بینیمtrain.csv
در جدول واردات ذکر شده است. - هنگامی که ما سعی می کنیم یک شغل تحول ایجاد کنیم، در کار را پیکربندی کنید مرحله، ما اکنون می بینیم پارامترهای بخش، جایی که می توانیم لیستی از تمام پارامترهای تعریف شده خود را مشاهده کنیم.
- انتخاب پارامتر به ما این امکان را می دهد که مقدار پارامتر را تغییر دهیم، در این حالت، مجموعه داده ورودی را تغییر دهیم تا مطابق جریان تعریف شده تبدیل شود.
با فرض تغییر مقدارfilename_param
از جانبtrain.csv
بهpart_0.csv
، کار تبدیل اکنون طول می کشدpart_0.csv
(به شرطی که یک فایل با نامpart_0.csv
تحت همان پوشه) به عنوان داده ورودی جدید آن وجود دارد. - علاوه بر این، اگر بخواهید جریان خود را به مقصد آمازون S3 صادر کنید (از طریق یک نوت بوک Jupyter)، اکنون یک سلول جدید حاوی پارامترهایی که شما تعریف کرده اید می بینید.
توجه داشته باشید که پارامتر مقدار پیشفرض خود را میگیرد، اما میتوانید با جایگزین کردن مقدار آن در آن، آن را تغییر دهیدparameter_overrides
فرهنگ لغت (در حالی که کلیدهای فرهنگ لغت را بدون تغییر باقی می گذاریم).
علاوه بر این، می توانید پارامترهای جدیدی را از آن ایجاد کنید پارامترهای UI - با انتخاب نماد پارامترها آن را باز کنید ({{}}) واقع در کنار Go گزینه؛ هر دوی آنها در کنار مقدار مسیر URI قرار دارند.
یک جدول با تمام پارامترهایی که در حال حاضر در فایل جریان شما وجود دارد باز می شود (filename_param
در این مرحله). - با انتخاب می توانید پارامترهای جدیدی برای جریان خود ایجاد کنید ایجاد پارامتر.
یک پنجره پاپ آپ باز می شود که به شما امکان می دهد یک پارامتر سفارشی جدید ایجاد کنید. - در اینجا، ما یک جدید ایجاد کرده ایم
example_parameter
به عنوان نوع شماره با مقدار پیش فرض 0. این پارامتر جدید ایجاد شده اکنون در فهرست فهرست شده است پارامترهای جدول. با نگه داشتن ماوس روی پارامتر گزینه ها نمایش داده می شود ویرایش, حذفو قرار دادن. - از درون پارامترهای UI، می توانید با انتخاب پارامتر مورد نظر و انتخاب یکی از پارامترهای خود را به URI وارد کنید قرار دادن.
این پارامتر را به انتهای URI شما اضافه می کند. شما باید آن را به بخش مورد نظر در URI خود منتقل کنید. - مقدار پیش فرض پارامتر را تغییر دهید، تغییر را اعمال کنید (از حالت مدال)، انتخاب کنید Goو نماد تازه سازی را برای به روز رسانی لیست پیش نمایش با استفاده از مجموعه داده انتخابی بر اساس مقدار پارامتر تازه تعریف شده انتخاب کنید.اکنون انواع پارامترهای دیگر را بررسی می کنیم. فرض کنید اکنون یک مجموعه داده داریم که به چند قسمت تقسیم شده است، جایی که هر فایل دارای یک شماره قطعه است.
- اگر بخواهیم به صورت پویا شماره فایل را تغییر دهیم، میتوانیم پارامتر Number را همانطور که در تصویر زیر نشان داده شده است تعریف کنیم.توجه داشته باشید که فایل انتخاب شده همان فایلی است که با عدد مشخص شده در پارامتر مطابقت دارد.
حالا بیایید نحوه استفاده از پارامتر Pattern را نشان دهیم. فرض کنید می خواهیم همه را وارد کنیمpart_1.csv
فایل ها در تمام پوشه های زیرtitanic-dataset/
پوشه پارامترهای الگو می توانند هر عبارت منظم معتبری را دریافت کنند. برخی از الگوهای regex به عنوان نمونه نشان داده شده است. - یک پارامتر Pattern به نام ایجاد کنید
any_pattern
برای مطابقت با هر پوشه یا فایل زیرtitanic-dataset/
پوشه با مقدار پیش فرض.*
توجه داشته باشید که علامت علامت یک * (ستاره) نیست بلکه دارای یک نقطه نیز می باشد. - برجسته
titanic-dataset/
بخشی از مسیر و ایجاد یک پارامتر سفارشی. این بار ما انتخاب می کنیم الگو تایپ کنیداین الگو تمام فایل های فراخوانی شده را انتخاب می کندpart-1.csv
از هر یک از پوشه های زیرtitanic-dataset/
.
یک پارامتر را می توان بیش از یک بار در یک مسیر استفاده کرد. در مثال زیر، از پارامتر جدید ایجاد شده خود استفاده می کنیمany_pattern
دو بار در URI ما برای مطابقت با هر یک از فایل های قسمت در هر یک از پوشه های زیرtitanic-dataset/
.
در نهایت، اجازه دهید یک پارامتر Datetime ایجاد کنیم. پارامترهای Datetime زمانی مفید هستند که با مسیرهایی سروکار داریم که بر اساس تاریخ و زمان تقسیم بندی شده اند، مانند مسیرهایی که توسط Amazon Kinesis Data Firehose (نگاه کنید به پارتیشن بندی دینامیک در فایرهوز داده کینزیس). برای این نمایش، از داده های زیر پوشه datetime-data استفاده می کنیم. - بخشی از مسیر خود را که تاریخ/زمان است انتخاب کنید و یک پارامتر سفارشی ایجاد کنید. انتخاب Datetime نوع پارامتر
هنگام انتخاب نوع داده Datetime، باید جزئیات بیشتری را پر کنید. - اول از همه، شما باید یک فرمت تاریخ ارائه دهید. می توانید هر یک از قالب های تاریخ/زمان از پیش تعریف شده را انتخاب کنید یا یک قالب سفارشی ایجاد کنید.
برای قالب های از پیش تعریف شده تاریخ/زمان، افسانه نمونه ای از تاریخ مطابق با قالب انتخابی را ارائه می دهد. برای این نمایش، قالب را انتخاب می کنیم yyyy/MM/dd. - بعد، یک منطقه زمانی برای مقادیر تاریخ/زمان مشخص کنید.
برای مثال، تاریخ فعلی ممکن است ۱ ژانویه ۲۰۲۲ در یک منطقه زمانی باشد، اما ممکن است ۲ ژانویه ۲۰۲۲ در منطقه زمانی دیگر باشد. - در نهایت، میتوانید محدوده زمانی را انتخاب کنید، که به شما امکان میدهد محدوده فایلهایی را که میخواهید در جریان دادههای خود قرار دهید، انتخاب کنید.
می توانید محدوده زمانی خود را بر حسب ساعت، روز، هفته، ماه یا سال مشخص کنید. برای این مثال می خواهیم تمام فایل های سال گذشته را دریافت کنیم. - توضیحی از پارامتر ارائه دهید و انتخاب کنید ساختن.
اگر از چندین مجموعه داده با مناطق زمانی مختلف استفاده می کنید، زمان به طور خودکار تبدیل نمی شود. شما باید هر فایل یا منبع را از قبل پردازش کنید تا آن را به یک منطقه زمانی تبدیل کنید.فایل های انتخاب شده همه فایل های زیر پوشه های مربوط به داده های سال گذشته هستند. - حال اگر یک کار تبدیل داده ایجاد کنیم، میتوانیم لیستی از تمام پارامترهای تعریفشده خود را ببینیم و میتوانیم مقادیر پیشفرض آنها را لغو کنیم تا کارهای تبدیل ما فایلهای مشخصشده را انتخاب کنند.
کارهای پردازش را برنامه ریزی کنید
اکنون می توانید کارهای پردازش را برای اجرای خودکار کارهای تبدیل داده و صادرات داده های تبدیل شده خود به Amazon S3 یا فروشگاه ویژگی آمازون SageMaker. می توانید کارها را با زمان و تناوب متناسب با نیازتان برنامه ریزی کنید.
استفاده از کارهای پردازش برنامه ریزی شده پل رویداد آمازون قوانین برای برنامه ریزی اجرای کار بنابراین، به عنوان یک پیش نیاز، باید مطمئن شوید که هویت AWS و مدیریت دسترسی نقش (IAM) که توسط Data Wrangler استفاده می شود آمازون SageMaker نقش اجرایی از نمونه Studio، دارای مجوز برای ایجاد قوانین EventBridge است.
IAM را پیکربندی کنید
بهروزرسانیهای زیر را در نقش اجرای IAM SageMaker مطابق با نمونه Studio که در آن جریان Data Wrangler در حال اجرا است، ادامه دهید:
- پیوست کردن AmazonEventBridgeFullAccess سیاست مدیریت شده
- یک خط مشی برای اعطای مجوز برای ایجاد یک کار پردازشی پیوست کنید:
- با افزودن خط مشی اعتماد زیر، به EventBridge اجازه دهید تا این نقش را به عهده بگیرد:
از طرف دیگر، اگر از نقش دیگری برای اجرای کار پردازشی استفاده میکنید، خطمشیهای ذکر شده در مراحل 2 و 3 را برای آن نقش اعمال کنید. برای جزئیات بیشتر در مورد پیکربندی IAM، مراجعه کنید یک برنامه زمانبندی برای پردازش خودکار داده های جدید ایجاد کنید.
یک برنامه زمانی ایجاد کنید
برای ایجاد یک برنامه، جریان خود را در ویرایشگر جریان داده Wrangler باز کنید.
- بر گردش داده ها برگه ، انتخاب کنید ایجاد شغل.
- فیلدهای مورد نیاز را پیکربندی کرده و انتخاب کنید بعد، 2. کار را پیکربندی کنید.
- گسترش برنامه های کاردانی.
- را انتخاب کنید برنامه ریزی جدید ایجاد کنید.
La برنامه ریزی جدید ایجاد کنید گفتگو باز می شود، جایی که شما جزئیات برنامه زمانبندی کار پردازش را تعریف می کنید.
گفتگو انعطاف پذیری زیادی را برای کمک به شما در تعریف برنامه ارائه می دهد. برای مثال میتوانید کار پردازش را در یک زمان خاص یا هر ساعت X در روزهای خاصی از هفته اجرا کنید.
تناوب می تواند تا سطح چند دقیقه دانه بندی شود. - نام برنامه و تناوب را تعریف کنید، سپس انتخاب کنید ساختن برای ذخیره برنامه
- شما این امکان را دارید که کار پردازش را فوراً همراه با زمانبندی، که به اجرای برنامههای آتی رسیدگی میکند، شروع کنید، یا اینکه کار را تنها طبق زمانبندی اجرا کنید.
- همچنین می توانید یک برنامه زمانی اضافی برای همان کار پردازشی تعریف کنید.
- برای اتمام زمانبندی کار پردازش، انتخاب کنید ساختن.
پیام "کار با موفقیت برنامه ریزی شد" را مشاهده می کنید. بعلاوه، اگر تصمیم بگیرید که کار را تنها طبق برنامه اجرا کنید، پیوندی به قانون EventBridge را میبینید که به تازگی ایجاد کردهاید.
اگر پیوند زمانبندی را انتخاب کنید، یک برگه جدید در مرورگر باز میشود که قانون EventBridge را نشان میدهد. در این صفحه، می توانید تغییرات بیشتری در قانون ایجاد کنید و تاریخچه فراخوانی آن را دنبال کنید. برای جلوگیری از اجرای کار پردازش برنامه ریزی شده خود، قانون رویداد را که حاوی نام برنامه زمانی است حذف کنید.
قانون EventBridge یک خط لوله SageMaker را به عنوان هدف خود نشان می دهد که طبق برنامه زمانبندی تعریف شده راه اندازی می شود و کار پردازش به عنوان بخشی از خط لوله فراخوانی می شود.
برای ردیابی اجرای خط لوله SageMaker، می توانید به استودیو برگردید و گزینه را انتخاب کنید منابع SageMaker نماد را انتخاب کنید خطوط لولهو نام خط لوله ای را که می خواهید ردیابی کنید انتخاب کنید. اکنون می توانید جدولی را با تمام اجراهای فعلی و گذشته و وضعیت آن خط لوله مشاهده کنید.
با دوبار کلیک کردن روی یک ورودی خاص می توانید جزئیات بیشتری را مشاهده کنید.
پاک کردن
وقتی از Data Wrangler استفاده نمیکنید، توصیه میشود نمونهای را که روی آن اجرا میشود خاموش کنید تا از پرداخت هزینههای اضافی جلوگیری کنید.
برای جلوگیری از از دست دادن کار، قبل از خاموش کردن Data Wrangler، جریان داده خود را ذخیره کنید.
- برای ذخیره جریان داده خود در Studio، را انتخاب کنید پرونده، پس از آن را انتخاب کنید ذخیره داده Wrangler Flow. Data Wrangler به طور خودکار جریان داده های شما را هر 60 ثانیه ذخیره می کند.
- برای خاموش کردن نمونه Data Wrangler، در Studio، را انتخاب کنید در حال اجرا نمونه ها و هسته ها.
- تحت برنامه های در حال اجرا، نماد خاموش شدن را در کنار
sagemaker-data-wrangler-1.0
نرم افزار. - را انتخاب کنید همه را خاموش کنید برای تایید.
Data Wrangler روی نمونه ml.m5.4xlarge اجرا میشود. این نمونه از بین می رود در حال اجرا نمونه هنگامی که برنامه Data Wrangler را خاموش می کنید.
پس از اینکه برنامه Data Wrangler را خاموش کردید، دفعه بعد که یک فایل جریان داده Wrangler را باز می کنید، باید دوباره راه اندازی شود. این ممکن است چند دقیقه طول بکشد.
نتیجه
در این پست، نشان دادیم که چگونه میتوانید از پارامترها برای وارد کردن مجموعه دادههای خود با استفاده از جریانهای Data Wrangler و ایجاد مشاغل تبدیل داده بر روی آنها استفاده کنید. مجموعه داده های پارامتری به انعطاف پذیری بیشتری در مجموعه داده هایی که استفاده می کنید اجازه می دهد و به شما امکان استفاده مجدد از جریان های خود را می دهد. همچنین نشان دادیم که چگونه میتوانید کارهای برنامهریزیشده را برای خودکارسازی تبدیل دادهها و صادرات خود به Amazon S3 یا Feature Store، در زمان و دورهای که متناسب با نیاز شما باشد، مستقیماً از داخل رابط کاربری Data Wrangler تنظیم کنید.
برای کسب اطلاعات بیشتر در مورد استفاده از جریان های داده با Data Wrangler، مراجعه کنید ایجاد و استفاده از Data Wrangler Flow و قیمت گذاری آمازون SageMaker. برای شروع کار با Data Wrangler، نگاه کنید داده های ML را با Amazon SageMaker Data Wrangler آماده کنید.
درباره نویسندگان
دیوید لاردو یک معمار نمونه سازی برای تیم نمونه سازی و مهندسی ابر در خدمات وب آمازون است که در آن به توسعه نمونه های اولیه یادگیری ماشینی متعدد برای مشتریان AWS کمک کرده است. او در 6 سال گذشته در یادگیری ماشین کار کرده است، مدلهای ML را آموزش و تنظیم کرده و خطوط لوله سرتاسری را برای تولید آن مدلها پیادهسازی کرده است. زمینه های مورد علاقه او NLP، برنامه های کاربردی ML و ML end-to-end است.
جیوانیلدو آلوز یک معمار نمونه اولیه با تیم مهندسی اولیه و ابری در خدمات وب آمازون است که به مشتریان کمک می کند تا با نشان دادن هنر ممکن در AWS، نوآوری و سرعت بخشیدن به آنها را انجام دهند، که قبلاً چندین نمونه اولیه را در مورد هوش مصنوعی پیاده سازی کرده است. او سابقه طولانی در مهندسی نرم افزار دارد و قبلاً به عنوان مهندس توسعه نرم افزار در Amazon.com.br کار می کرد.
آدریان فوئنتس مدیر برنامه با تیم مهندسی نمونه اولیه و ابر در خدمات وب آمازون است که برای مشتریان در یادگیری ماشین، اینترنت اشیا و بلاک چین نوآوری می کند. او بیش از 15 سال تجربه مدیریت و اجرای پروژه ها و 1 سال تصدی در AWS دارد.
- AI
- آی هنر
- مولد هنر ai
- ربات ai
- آموزش ماشین آمازون
- Amazon SageMaker Data Rangler
- اطلاعیه ها
- هوش مصنوعی
- گواهی هوش مصنوعی
- هوش مصنوعی در بانکداری
- ربات هوش مصنوعی
- ربات های هوش مصنوعی
- نرم افزار هوش مصنوعی
- آموزش ماشین AWS
- بلاکچین
- کنفرانس بلاک چین ai
- coingenius
- هوش مصنوعی محاوره ای
- کنفرانس کریپتو ai
- دل-ه
- پردازش داده ها
- یادگیری عمیق
- گوگل ai
- متوسط (200)
- فراگیری ماشین
- مجموعه داده های پارامتری شده
- افلاطون
- افلاطون آی
- هوش داده افلاطون
- بازی افلاطون
- PlatoData
- بازی پلاتو
- مقیاس Ai
- کارهای برنامه ریزی شده
- نحو
- نحوه فنی
- زفیرنت