با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.

با مجموعه داده های پارامتری و کارهای برنامه ریزی شده، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید.

داده ها هر زمینه و هر کسب و کاری را متحول می کنند. با این حال، با رشد سریع‌تر داده‌ها از آنچه اکثر شرکت‌ها می‌توانند آن را پیگیری کنند، جمع‌آوری داده‌ها و به دست آوردن ارزش از آن داده‌ها کاری چالش برانگیز است. آ استراتژی داده مدرن می تواند به شما کمک کند تا نتایج کسب و کار بهتری را با داده ها ایجاد کنید. AWS کاملترین مجموعه خدمات را برای سفر داده سرتاسر برای کمک به شما مقدار را از داده های خود باز کنید و آن را به بینش تبدیل کنید.

دانشمندان داده می توانند تا 80 درصد از زمان خود را صرف تهیه داده ها برای پروژه های یادگیری ماشینی (ML) کنند. این فرآیند آماده سازی تا حد زیادی کار تمایز نیافته و خسته کننده است و می تواند شامل چندین API برنامه نویسی و کتابخانه های سفارشی باشد. Amazon SageMaker Data Rangler به دانشمندان داده و مهندسان داده کمک می کند تا آماده سازی داده های جدولی و سری زمانی و مهندسی ویژگی را از طریق یک رابط بصری ساده و تسریع کنند. می توانید داده ها را از چندین منبع داده وارد کنید، مانند سرویس ذخیره سازی ساده آمازون (Amazon S3) آمازون آتنا, آمازون Redshift، یا حتی راه حل های شخص ثالث مانند دانه برف or DataBricksو داده های خود را با بیش از 300 تبدیل داده داخلی و کتابخانه ای از تکه های کد پردازش کنید، بنابراین می توانید به سرعت بدون نوشتن کد، ویژگی ها را عادی سازی، تبدیل و ترکیب کنید. شما همچنین می توانید تبدیل های سفارشی خود را در PySpark، SQL یا Pandas بیاورید.

این پست نشان می دهد که چگونه می توانید کارهای آماده سازی داده خود را برای اجرای خودکار برنامه ریزی کنید. ما همچنین قابلیت Data Wrangler جدید مجموعه داده‌های پارامتری را بررسی می‌کنیم، که به شما امکان می‌دهد فایل‌هایی را که در یک جریان داده قرار می‌گیرند با استفاده از URI‌های پارامتری شده مشخص کنید.

بررسی اجمالی راه حل

Data Wrangler اکنون از وارد کردن داده ها با استفاده از یک URI پارامتری پشتیبانی می کند. این امکان انعطاف بیشتر را فراهم می کند زیرا اکنون می توانید تمام مجموعه داده های مطابق با پارامترهای مشخص شده را که می توانند از نوع String، Number، Datetime و Pattern باشند، در URI وارد کنید. علاوه بر این، اکنون می توانید کارهای تبدیل Data Wrangler خود را بر اساس یک زمان بندی فعال کنید.

در این پست، یک جریان نمونه با مجموعه داده تایتانیک ایجاد می‌کنیم تا نشان دهیم چگونه می‌توانید این دو ویژگی جدید Data Wrangler را آزمایش کنید. برای دانلود مجموعه داده به ادامه مطلب مراجعه کنید تایتانیک - یادگیری ماشینی از فاجعه.

پیش نیازها

برای دریافت تمام ویژگی های توضیح داده شده در این پست، باید آخرین نسخه هسته Data Wrangler را اجرا کنید. برای اطلاعات بیشتر مراجعه کنید Data Wrangler را به روز کنید. علاوه بر این، شما باید در حال اجرا باشید Amazon SageMaker Studio JupyterLab 3. برای مشاهده نسخه فعلی و به روز رسانی آن به نسخه JupyterLab.

ساختار پرونده

برای این نمایش، ما از یک ساختار فایل ساده پیروی می کنیم که باید آن را تکرار کنید تا مراحل ذکر شده در این پست را تکرار کنید.

  1. در استودیو، یک نوت بوک جدید بسازید.
  2. قطعه کد زیر را برای ایجاد ساختار پوشه ای که استفاده می کنیم اجرا کنید (مطمئن شوید که در پوشه مورد نظر در درخت فایل خود هستید):
    !mkdir titanic_dataset
    !mkdir titanic_dataset/datetime_data
    !mkdir titanic_dataset/datetime_data/2021
    !mkdir titanic_dataset/datetime_data/2022
    
    !mkdir titanic_dataset/datetime_data/2021/01 titanic_dataset/datetime_data/2021/02 titanic_dataset/datetime_data/2021/03 
    !mkdir titanic_dataset/datetime_data/2021/04 titanic_dataset/datetime_data/2021/05 titanic_dataset/datetime_data/2021/06
    !mkdir titanic_dataset/datetime_data/2022/01 titanic_dataset/datetime_data/2022/02 titanic_dataset/datetime_data/2022/03 
    !mkdir titanic_dataset/datetime_data/2022/04 titanic_dataset/datetime_data/2022/05 titanic_dataset/datetime_data/2022/06
    
    !mkdir titanic_dataset/datetime_data/2021/01/01 titanic_dataset/datetime_data/2021/02/01 titanic_dataset/datetime_data/2021/03/01 
    !mkdir titanic_dataset/datetime_data/2021/04/01 titanic_dataset/datetime_data/2021/05/01 titanic_dataset/datetime_data/2021/06/01
    !mkdir titanic_dataset/datetime_data/2022/01/01 titanic_dataset/datetime_data/2022/02/01 titanic_dataset/datetime_data/2022/03/01 
    !mkdir titanic_dataset/datetime_data/2022/04/01 titanic_dataset/datetime_data/2022/05/01 titanic_dataset/datetime_data/2022/06/01
    
    !mkdir titanic_dataset/train_1 titanic_dataset/train_2 titanic_dataset/train_3 titanic_dataset/train_4 titanic_dataset/train_5
    !mkdir titanic_dataset/train titanic_dataset/test

  3. کپی train.csv و test.csv فایل ها از مجموعه داده اصلی تایتانیک به پوشه ها titanic_dataset/train و titanic_dataset/testبود.
  4. قطعه کد زیر را اجرا کنید تا پوشه ها با فایل های لازم پر شوند:
    import os
    import math
    import pandas as pd
    batch_size = 100
    
    #Get a list of all the leaf nodes in the folder structure
    leaf_nodes = []
    
    for root, dirs, files in os.walk('titanic_dataset'):
        if not dirs:
            if root != "titanic_dataset/test" and root != "titanic_dataset/train":
                leaf_nodes.append(root)
                
    titanic_df = pd.read_csv('titanic_dataset/train/train.csv')
    
    #Create the mini batch files
    for i in range(math.ceil(titanic_df.shape[0]/batch_size)):
        batch_df = titanic_df[i*batch_size:(i+1)*batch_size]
        
        #Place a copy of each mini batch in each one of the leaf folders
        for node in leaf_nodes:
            batch_df.to_csv(node+'/part_{}.csv'.format(i), index=False)

ما را تقسیم کردیم train.csv فایل مجموعه داده تایتانیک در نه فایل مختلف به نام part_x، که در آن x تعداد قطعه است. قسمت 0 دارای 100 رکورد اول، قسمت 1 100 رکورد بعدی و به همین ترتیب تا قسمت 8 است. train و test پوشه هایی که حاوی train.csv و test.csv.

مجموعه داده های پارامتری شده

کاربران Data Wrangler اکنون می توانند پارامترهایی را برای مجموعه داده های وارد شده از Amazon S3 مشخص کنند. پارامترهای مجموعه داده در URI منابع مشخص می‌شوند، و مقدار آن را می‌توان به صورت پویا تغییر داد و به انعطاف‌پذیری بیشتری برای انتخاب فایل‌هایی که می‌خواهیم وارد کنیم، اجازه می‌دهد. پارامترها می توانند از چهار نوع داده باشند:

  • شماره - می تواند مقدار هر عدد صحیح را بگیرد
  • رشته - می تواند مقدار هر رشته متنی را بگیرد
  • الگو - می تواند ارزش هر عبارت منظم را بگیرد
  • Datetime - می تواند ارزش هر یک از قالب های تاریخ/زمان پشتیبانی شده را بگیرد

در این بخش به بررسی این ویژگی جدید می پردازیم. این فقط پس از وارد کردن مجموعه داده خود به جریان فعلی و فقط برای مجموعه داده های وارد شده از Amazon S3 در دسترس است.

  1. از جریان داده خود، علامت مثبت (+) را در کنار مرحله واردات انتخاب کنید و انتخاب کنید ویرایش مجموعه داده.
  2. روش ترجیحی (و ساده‌ترین) برای ایجاد پارامترهای جدید، برجسته کردن بخشی از URI شما و انتخاب است. ایجاد پارامتر سفارشی در منوی کشویی برای هر پارامتری که می خواهید ایجاد کنید، باید چهار چیز را مشخص کنید:
    1. نام
    2. نوع
    3. مقدار پیش فرض
    4. توضیحات:

    با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.
    در اینجا یک پارامتر String type به نام ایجاد کرده ایم filename_param با مقدار پیش فرض train.csv. اکنون می توانید نام پارامتر را که در دو براکت محصور شده است، جایگزین بخشی از URI که قبلاً برجسته کرده بودیم، مشاهده کنید. زیرا مقدار تعریف شده برای این پارامتر بود train.csv، اکنون فایل را می بینیم train.csv در جدول واردات ذکر شده است.
    با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.

  3. هنگامی که ما سعی می کنیم یک شغل تحول ایجاد کنیم، در کار را پیکربندی کنید مرحله، ما اکنون می بینیم پارامترهای بخش، جایی که می توانیم لیستی از تمام پارامترهای تعریف شده خود را مشاهده کنیم.
  4. انتخاب پارامتر به ما این امکان را می دهد که مقدار پارامتر را تغییر دهیم، در این حالت، مجموعه داده ورودی را تغییر دهیم تا مطابق جریان تعریف شده تبدیل شود.
    با فرض تغییر مقدار filename_param از جانب train.csv به part_0.csv، کار تبدیل اکنون طول می کشد part_0.csv (به شرطی که یک فایل با نام part_0.csv تحت همان پوشه) به عنوان داده ورودی جدید آن وجود دارد.
    با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.
  5. علاوه بر این، اگر بخواهید جریان خود را به مقصد آمازون S3 صادر کنید (از طریق یک نوت بوک Jupyter)، اکنون یک سلول جدید حاوی پارامترهایی که شما تعریف کرده اید می بینید.
    توجه داشته باشید که پارامتر مقدار پیش‌فرض خود را می‌گیرد، اما می‌توانید با جایگزین کردن مقدار آن در آن، آن را تغییر دهید parameter_overrides فرهنگ لغت (در حالی که کلیدهای فرهنگ لغت را بدون تغییر باقی می گذاریم).
    با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.
    علاوه بر این، می توانید پارامترهای جدیدی را از آن ایجاد کنید پارامترهای UI
  6. با انتخاب نماد پارامترها آن را باز کنید ({{}}) واقع در کنار Go گزینه؛ هر دوی آنها در کنار مقدار مسیر URI قرار دارند.
    با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.یک جدول با تمام پارامترهایی که در حال حاضر در فایل جریان شما وجود دارد باز می شود (filename_param در این مرحله).
  7. با انتخاب می توانید پارامترهای جدیدی برای جریان خود ایجاد کنید ایجاد پارامتر.
    با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.
    یک پنجره پاپ آپ باز می شود که به شما امکان می دهد یک پارامتر سفارشی جدید ایجاد کنید.
  8. در اینجا، ما یک جدید ایجاد کرده ایم example_parameter به عنوان نوع شماره با مقدار پیش فرض 0. این پارامتر جدید ایجاد شده اکنون در فهرست فهرست شده است پارامترهای جدول. با نگه داشتن ماوس روی پارامتر گزینه ها نمایش داده می شود ویرایش, حذفو قرار دادن.با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.
  9. از درون پارامترهای UI، می توانید با انتخاب پارامتر مورد نظر و انتخاب یکی از پارامترهای خود را به URI وارد کنید قرار دادن.
    این پارامتر را به انتهای URI شما اضافه می کند. شما باید آن را به بخش مورد نظر در URI خود منتقل کنید.
    با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.
  10. مقدار پیش فرض پارامتر را تغییر دهید، تغییر را اعمال کنید (از حالت مدال)، انتخاب کنید Goو نماد تازه سازی را برای به روز رسانی لیست پیش نمایش با استفاده از مجموعه داده انتخابی بر اساس مقدار پارامتر تازه تعریف شده انتخاب کنید.با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.اکنون انواع پارامترهای دیگر را بررسی می کنیم. فرض کنید اکنون یک مجموعه داده داریم که به چند قسمت تقسیم شده است، جایی که هر فایل دارای یک شماره قطعه است.
  11. اگر بخواهیم به صورت پویا شماره فایل را تغییر دهیم، می‌توانیم پارامتر Number را همانطور که در تصویر زیر نشان داده شده است تعریف کنیم.با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.توجه داشته باشید که فایل انتخاب شده همان فایلی است که با عدد مشخص شده در پارامتر مطابقت دارد.
    با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.حالا بیایید نحوه استفاده از پارامتر Pattern را نشان دهیم. فرض کنید می خواهیم همه را وارد کنیم part_1.csv فایل ها در تمام پوشه های زیر titanic-dataset/ پوشه پارامترهای الگو می توانند هر عبارت منظم معتبری را دریافت کنند. برخی از الگوهای regex به عنوان نمونه نشان داده شده است.
  12. یک پارامتر Pattern به نام ایجاد کنید any_pattern برای مطابقت با هر پوشه یا فایل زیر titanic-dataset/ پوشه با مقدار پیش فرض .*توجه داشته باشید که علامت علامت یک * (ستاره) نیست بلکه دارای یک نقطه نیز می باشد.
  13. برجسته titanic-dataset/ بخشی از مسیر و ایجاد یک پارامتر سفارشی. این بار ما انتخاب می کنیم الگو تایپ کنیدبا مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.این الگو تمام فایل های فراخوانی شده را انتخاب می کند part-1.csv از هر یک از پوشه های زیر titanic-dataset/.
    با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.یک پارامتر را می توان بیش از یک بار در یک مسیر استفاده کرد. در مثال زیر، از پارامتر جدید ایجاد شده خود استفاده می کنیم any_pattern دو بار در URI ما برای مطابقت با هر یک از فایل های قسمت در هر یک از پوشه های زیر titanic-dataset/.
    با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.در نهایت، اجازه دهید یک پارامتر Datetime ایجاد کنیم. پارامترهای Datetime زمانی مفید هستند که با مسیرهایی سروکار داریم که بر اساس تاریخ و زمان تقسیم بندی شده اند، مانند مسیرهایی که توسط Amazon Kinesis Data Firehose (نگاه کنید به پارتیشن بندی دینامیک در فایرهوز داده کینزیس). برای این نمایش، از داده های زیر پوشه datetime-data استفاده می کنیم.
  14. بخشی از مسیر خود را که تاریخ/زمان است انتخاب کنید و یک پارامتر سفارشی ایجاد کنید. انتخاب Datetime نوع پارامتر
    هنگام انتخاب نوع داده Datetime، باید جزئیات بیشتری را پر کنید.
  15. اول از همه، شما باید یک فرمت تاریخ ارائه دهید. می توانید هر یک از قالب های تاریخ/زمان از پیش تعریف شده را انتخاب کنید یا یک قالب سفارشی ایجاد کنید.
    برای قالب های از پیش تعریف شده تاریخ/زمان، افسانه نمونه ای از تاریخ مطابق با قالب انتخابی را ارائه می دهد. برای این نمایش، قالب را انتخاب می کنیم yyyy/MM/dd.با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.
  16. بعد، یک منطقه زمانی برای مقادیر تاریخ/زمان مشخص کنید.
    برای مثال، تاریخ فعلی ممکن است ۱ ژانویه ۲۰۲۲ در یک منطقه زمانی باشد، اما ممکن است ۲ ژانویه ۲۰۲۲ در منطقه زمانی دیگر باشد.
  17. در نهایت، می‌توانید محدوده زمانی را انتخاب کنید، که به شما امکان می‌دهد محدوده فایل‌هایی را که می‌خواهید در جریان داده‌های خود قرار دهید، انتخاب کنید.
    می توانید محدوده زمانی خود را بر حسب ساعت، روز، هفته، ماه یا سال مشخص کنید. برای این مثال می خواهیم تمام فایل های سال گذشته را دریافت کنیم.
  18. توضیحی از پارامتر ارائه دهید و انتخاب کنید ساختن.
    اگر از چندین مجموعه داده با مناطق زمانی مختلف استفاده می کنید، زمان به طور خودکار تبدیل نمی شود. شما باید هر فایل یا منبع را از قبل پردازش کنید تا آن را به یک منطقه زمانی تبدیل کنید.با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.فایل های انتخاب شده همه فایل های زیر پوشه های مربوط به داده های سال گذشته هستند.با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.
  19. حال اگر یک کار تبدیل داده ایجاد کنیم، می‌توانیم لیستی از تمام پارامترهای تعریف‌شده خود را ببینیم و می‌توانیم مقادیر پیش‌فرض آنها را لغو کنیم تا کارهای تبدیل ما فایل‌های مشخص‌شده را انتخاب کنند.با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.
    با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.

کارهای پردازش را برنامه ریزی کنید

اکنون می توانید کارهای پردازش را برای اجرای خودکار کارهای تبدیل داده و صادرات داده های تبدیل شده خود به Amazon S3 یا فروشگاه ویژگی آمازون SageMaker. می توانید کارها را با زمان و تناوب متناسب با نیازتان برنامه ریزی کنید.

استفاده از کارهای پردازش برنامه ریزی شده پل رویداد آمازون قوانین برای برنامه ریزی اجرای کار بنابراین، به عنوان یک پیش نیاز، باید مطمئن شوید که هویت AWS و مدیریت دسترسی نقش (IAM) که توسط Data Wrangler استفاده می شود آمازون SageMaker نقش اجرایی از نمونه Studio، دارای مجوز برای ایجاد قوانین EventBridge است.

IAM را پیکربندی کنید

به‌روزرسانی‌های زیر را در نقش اجرای IAM SageMaker مطابق با نمونه Studio که در آن جریان Data Wrangler در حال اجرا است، ادامه دهید:

  1. پیوست کردن AmazonEventBridgeFullAccess سیاست مدیریت شده
  2. یک خط مشی برای اعطای مجوز برای ایجاد یک کار پردازشی پیوست کنید:
    {
    	"Version": "2012-10-17",
    	"Statement": [
    		{
    			"Effect": "Allow",
    			"Action": "sagemaker:StartPipelineExecution",
    			"Resource": "arn:aws:sagemaker:Region:AWS-account-id:pipeline/data-wrangler-*"
    		}
    	]
    }

  3. با افزودن خط مشی اعتماد زیر، به EventBridge اجازه دهید تا این نقش را به عهده بگیرد:
    {
    	"Effect": "Allow",
    	"Principal": {
    		"Service": "events.amazonaws.com"
    	},
    	"Action": "sts:AssumeRole"
    }

از طرف دیگر، اگر از نقش دیگری برای اجرای کار پردازشی استفاده می‌کنید، خط‌مشی‌های ذکر شده در مراحل 2 و 3 را برای آن نقش اعمال کنید. برای جزئیات بیشتر در مورد پیکربندی IAM، مراجعه کنید یک برنامه زمانبندی برای پردازش خودکار داده های جدید ایجاد کنید.

یک برنامه زمانی ایجاد کنید

برای ایجاد یک برنامه، جریان خود را در ویرایشگر جریان داده Wrangler باز کنید.

  1. بر گردش داده ها برگه ، انتخاب کنید ایجاد شغل.
  2. فیلدهای مورد نیاز را پیکربندی کرده و انتخاب کنید بعد، 2. کار را پیکربندی کنید.
    با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.
  3. گسترش برنامه های کاردانی.
  4. را انتخاب کنید برنامه ریزی جدید ایجاد کنید.
    با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.
    La برنامه ریزی جدید ایجاد کنید گفتگو باز می شود، جایی که شما جزئیات برنامه زمانبندی کار پردازش را تعریف می کنید.
    گفتگو انعطاف پذیری زیادی را برای کمک به شما در تعریف برنامه ارائه می دهد. برای مثال می‌توانید کار پردازش را در یک زمان خاص یا هر ساعت X در روزهای خاصی از هفته اجرا کنید.با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.
    تناوب می تواند تا سطح چند دقیقه دانه بندی شود.با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.
  5. نام برنامه و تناوب را تعریف کنید، سپس انتخاب کنید ساختن برای ذخیره برنامه
  6. شما این امکان را دارید که کار پردازش را فوراً همراه با زمان‌بندی، که به اجرای برنامه‌های آتی رسیدگی می‌کند، شروع کنید، یا اینکه کار را تنها طبق زمان‌بندی اجرا کنید.
  7. همچنین می توانید یک برنامه زمانی اضافی برای همان کار پردازشی تعریف کنید.
    با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.
  8. برای اتمام زمان‌بندی کار پردازش، انتخاب کنید ساختن.
    پیام "کار با موفقیت برنامه ریزی شد" را مشاهده می کنید. بعلاوه، اگر تصمیم بگیرید که کار را تنها طبق برنامه اجرا کنید، پیوندی به قانون EventBridge را می‌بینید که به تازگی ایجاد کرده‌اید.با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.

اگر پیوند زمان‌بندی را انتخاب کنید، یک برگه جدید در مرورگر باز می‌شود که قانون EventBridge را نشان می‌دهد. در این صفحه، می توانید تغییرات بیشتری در قانون ایجاد کنید و تاریخچه فراخوانی آن را دنبال کنید. برای جلوگیری از اجرای کار پردازش برنامه ریزی شده خود، قانون رویداد را که حاوی نام برنامه زمانی است حذف کنید.

با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.

قانون EventBridge یک خط لوله SageMaker را به عنوان هدف خود نشان می دهد که طبق برنامه زمانبندی تعریف شده راه اندازی می شود و کار پردازش به عنوان بخشی از خط لوله فراخوانی می شود.

با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.

برای ردیابی اجرای خط لوله SageMaker، می توانید به استودیو برگردید و گزینه را انتخاب کنید منابع SageMaker نماد را انتخاب کنید خطوط لولهو نام خط لوله ای را که می خواهید ردیابی کنید انتخاب کنید. اکنون می توانید جدولی را با تمام اجراهای فعلی و گذشته و وضعیت آن خط لوله مشاهده کنید.

با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.

با دوبار کلیک کردن روی یک ورودی خاص می توانید جزئیات بیشتری را مشاهده کنید.

با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.

پاک کردن

وقتی از Data Wrangler استفاده نمی‌کنید، توصیه می‌شود نمونه‌ای را که روی آن اجرا می‌شود خاموش کنید تا از پرداخت هزینه‌های اضافی جلوگیری کنید.

برای جلوگیری از از دست دادن کار، قبل از خاموش کردن Data Wrangler، جریان داده خود را ذخیره کنید.

  1. برای ذخیره جریان داده خود در Studio، را انتخاب کنید پرونده، پس از آن را انتخاب کنید ذخیره داده Wrangler Flow. Data Wrangler به طور خودکار جریان داده های شما را هر 60 ثانیه ذخیره می کند.
  2. برای خاموش کردن نمونه Data Wrangler، در Studio، را انتخاب کنید در حال اجرا نمونه ها و هسته ها.
  3. تحت برنامه های در حال اجرا، نماد خاموش شدن را در کنار sagemaker-data-wrangler-1.0 نرم افزار.با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.
  4. را انتخاب کنید همه را خاموش کنید برای تایید.با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.

Data Wrangler روی نمونه ml.m5.4xlarge اجرا می‌شود. این نمونه از بین می رود در حال اجرا نمونه هنگامی که برنامه Data Wrangler را خاموش می کنید.

پس از اینکه برنامه Data Wrangler را خاموش کردید، دفعه بعد که یک فایل جریان داده Wrangler را باز می کنید، باید دوباره راه اندازی شود. این ممکن است چند دقیقه طول بکشد.

نتیجه

در این پست، نشان دادیم که چگونه می‌توانید از پارامترها برای وارد کردن مجموعه داده‌های خود با استفاده از جریان‌های Data Wrangler و ایجاد مشاغل تبدیل داده بر روی آنها استفاده کنید. مجموعه داده های پارامتری به انعطاف پذیری بیشتری در مجموعه داده هایی که استفاده می کنید اجازه می دهد و به شما امکان استفاده مجدد از جریان های خود را می دهد. همچنین نشان دادیم که چگونه می‌توانید کارهای برنامه‌ریزی‌شده را برای خودکارسازی تبدیل داده‌ها و صادرات خود به Amazon S3 یا Feature Store، در زمان و دوره‌ای که متناسب با نیاز شما باشد، مستقیماً از داخل رابط کاربری Data Wrangler تنظیم کنید.

برای کسب اطلاعات بیشتر در مورد استفاده از جریان های داده با Data Wrangler، مراجعه کنید ایجاد و استفاده از Data Wrangler Flow و قیمت گذاری آمازون SageMaker. برای شروع کار با Data Wrangler، نگاه کنید داده های ML را با Amazon SageMaker Data Wrangler آماده کنید.


درباره نویسندگان

با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.دیوید لاردو یک معمار نمونه سازی برای تیم نمونه سازی و مهندسی ابر در خدمات وب آمازون است که در آن به توسعه نمونه های اولیه یادگیری ماشینی متعدد برای مشتریان AWS کمک کرده است. او در 6 سال گذشته در یادگیری ماشین کار کرده است، مدل‌های ML را آموزش و تنظیم کرده و خطوط لوله سرتاسری را برای تولید آن مدل‌ها پیاده‌سازی کرده است. زمینه های مورد علاقه او NLP، برنامه های کاربردی ML و ML end-to-end است.

با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.جیوانیلدو آلوز یک معمار نمونه اولیه با تیم مهندسی اولیه و ابری در خدمات وب آمازون است که به مشتریان کمک می کند تا با نشان دادن هنر ممکن در AWS، نوآوری و سرعت بخشیدن به آنها را انجام دهند، که قبلاً چندین نمونه اولیه را در مورد هوش مصنوعی پیاده سازی کرده است. او سابقه طولانی در مهندسی نرم افزار دارد و قبلاً به عنوان مهندس توسعه نرم افزار در Amazon.com.br کار می کرد.

با مجموعه داده‌های پارامتری و کارهای برنامه‌ریزی‌شده، اطلاعات PlatoBlockchain Data Intelligence، کنترل بیشتری بر بارهای کاری Amazon SageMaker Data Wrangler خود دریافت کنید. جستجوی عمودی Ai.آدریان فوئنتس مدیر برنامه با تیم مهندسی نمونه اولیه و ابر در خدمات وب آمازون است که برای مشتریان در یادگیری ماشین، اینترنت اشیا و بلاک چین نوآوری می کند. او بیش از 15 سال تجربه مدیریت و اجرای پروژه ها و 1 سال تصدی در AWS دارد.

تمبر زمان:

بیشتر از آموزش ماشین AWS