سازمان هایی که به سمت فرهنگ داده محور حرکت می کنند، استفاده از داده ها و یادگیری ماشین (ML) را در تصمیم گیری می پذیرند. برای تصمیمگیری مبتنی بر ML از دادهها، برای آموزش مدلهای ML به دادههای خود در دسترس، در دسترس، تمیز و در قالب مناسب نیاز دارید. سازمانهایی با معماری چند حسابی میخواهند از موقعیتهایی که در آن باید دادهها را از یک حساب استخراج کرده و برای فعالیتهای آمادهسازی داده در حساب دیگری بارگذاری کنند، اجتناب کنند. ایجاد و نگهداری دستی مشاغل مختلف استخراج، تبدیل، و بارگذاری (ETL) در حسابهای مختلف، پیچیدگی و هزینه را افزایش میدهد و حفظ بهترین شیوههای حاکمیت، انطباق و امنیت برای ایمن نگه داشتن دادههای شما را دشوارتر میکند.
آمازون Redshift یک انبار داده ابری سریع و کاملاً مدیریت شده است. ویژگی اشتراکگذاری داده بین حسابهای Amazon Redshift راهی ساده و ایمن برای اشتراکگذاری دادههای تازه، کامل و ثابت در انبار داده Amazon Redshift شما با هر تعداد ذینفع در حسابهای مختلف AWS فراهم میکند. Amazon SageMaker Data Rangler یک قابلیت است آمازون SageMaker که باعث می شود دانشمندان و مهندسان داده سریعتر داده ها را برای برنامه های کاربردی ML با استفاده از یک رابط بصری آماده کنند. Data Wrangler به شما امکان می دهد با اتصال به اشتراک گذاری داده های Amazon Redshift، داده های ML را کاوش و تبدیل کنید.
در این پست، راهاندازی یکپارچهسازی بین حسابها با استفاده از اشتراکگذاری دادههای Amazon Redshift و آمادهسازی دادهها با استفاده از Data Wrangler را بررسی میکنیم.
بررسی اجمالی راه حل
ما با دو حساب AWS شروع می کنیم: یک حساب تولید کننده با انبار داده Amazon Redshift و یک حساب مصرف کننده برای موارد استفاده SageMaker ML. برای این پست از مجموعه داده بانکی. برای پیگیری، مجموعه داده را در دستگاه محلی خود دانلود کنید. در زیر یک نمای کلی از گردش کار در سطح بالا ارائه شده است:
- یک خوشه Amazon Redshift RA3 را در حساب تولیدکننده نمونهسازی کنید و مجموعه داده را بارگیری کنید.
- در حساب تولیدکننده یک دیتاشیر Amazon Redshift ایجاد کنید و به حساب مصرف کننده اجازه دسترسی به داده ها را بدهید.
- به اشتراک داده Amazon Redshift در حساب مصرف کننده دسترسی داشته باشید.
- داده ها را با Data Wrangler در حساب مصرف کننده تجزیه و تحلیل و پردازش کنید و گردش کار آماده سازی داده های خود را ایجاد کنید.
آگاه باشید ملاحظات برای کار با آمازون Redshift به اشتراک گذاری داده:
- چندین حساب AWS - حداقل به دو حساب AWS نیاز دارید: یک حساب تولید کننده و یک حساب مصرف کننده.
- نوع خوشه - اشتراک گذاری داده در نوع خوشه RA3 پشتیبانی می شود. هنگام نمونه سازی یک خوشه آمازون Redshift، مطمئن شوید که نوع خوشه RA3 را انتخاب کنید.
- رمزگذاری - برای اینکه به اشتراک گذاری داده کار کند، خوشه های تولید کننده و مصرف کننده باید رمزگذاری شده باشند و باید در همان منطقه AWS باشند.
- مناطق - اشتراک گذاری داده های بین حسابی برای همه Amazon Redshift در دسترس است انواع گره RA3 در شرق ایالات متحده (شمال ویرجینیا)، شرق ایالات متحده (اوهایو)، غرب ایالات متحده (شمال کالیفرنیا)، غرب ایالات متحده (اورگان)، آسیا و اقیانوسیه (ممبای)، آسیا و اقیانوسیه (سئول)، آسیا و اقیانوسیه (سنگاپور)، آسیا و اقیانوسیه ( سیدنی)، آسیا و اقیانوسیه (توکیو)، کانادا (مرکزی)، اروپا (فرانکفورت)، اروپا (ایرلند)، اروپا (لندن)، اروپا (پاریس)، اروپا (استکهلم)، و آمریکای جنوبی (سائوپائولو).
- قیمت گذاری - اشتراک گذاری داده های بین حسابی در میان خوشه هایی که در همان منطقه هستند در دسترس است. هیچ هزینه ای برای اشتراک گذاری داده ها وجود ندارد. شما فقط برای خوشه های آمازون Redshift که در اشتراک گذاری شرکت می کنند، پرداخت می کنید.
اشتراک گذاری داده های بین حسابی یک فرآیند دو مرحله ای است. ابتدا، یک مدیر خوشه تولید کننده، اشتراک داده ایجاد می کند، اشیا را اضافه می کند و به حساب مصرف کننده دسترسی می دهد. سپس مدیر حساب تولیدکننده به اشتراک گذاری داده ها برای مصرف کننده مشخص شده اجازه می دهد. می توانید این کار را از کنسول Redshift آمازون انجام دهید.
در حساب تولیدکننده، یک دیتاشیر Amazon Redshift ایجاد کنید
برای ایجاد اشتراک داده، مراحل زیر را انجام دهید:
- در کنسول Redshift آمازون، یک خوشه Amazon Redshift ایجاد کنید.
- مشخص کردن تولید و نوع گره RA3 را انتخاب کنید.
- تحت تنظیمات اضافی، انتخاب را لغو کنید از پیش فرض ها استفاده کنید.
- تحت تنظیمات پایگاه داده، رمزگذاری را برای خوشه خود تنظیم کنید.
- پس از ایجاد خوشه، مجموعه داده بانک بازاریابی مستقیم را وارد کنید. می توانید از آدرس زیر دانلود کنید: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
- بارگذاری
bank-additional-full.csv
به یک سرویس ذخیره سازی ساده آمازون سطل (Amazon S3) خوشه شما به آن دسترسی دارد. - از ویرایشگر پرس و جوی Amazon Redshift استفاده کنید و پرس و جوی SQL زیر را برای کپی کردن داده ها در Amazon Redshift اجرا کنید:
- به صفحه جزئیات خوشه و در اشتراک داده ها برگه ، انتخاب کنید ایجاد اشتراک داده.
- برای نام اشتراک داده، یک نام وارد کنید.
- برای نام پایگاه داده، یک پایگاه داده را انتخاب کنید.
- در اشیاء اشتراک داده را اضافه کنید بخش، اشیایی را از پایگاه داده ای که می خواهید در دیتاشیر قرار دهید انتخاب کنید.
شما کنترل دقیقی بر آنچه که انتخاب می کنید با دیگران به اشتراک بگذارید، دارید. برای سادگی، همه جداول را به اشتراک می گذاریم. در عمل، ممکن است یک یا چند جدول، نما، یا توابع تعریف شده توسط کاربر را انتخاب کنید. - را انتخاب کنید اضافه کردن.
- برای افزودن مصرف کنندگان داده، را انتخاب کنید حساب های AWS را به اشتراک داده اضافه کنید و شناسه حساب AWS ثانویه خود را اضافه کنید.
- را انتخاب کنید ایجاد اشتراک داده.
- برای تأیید مصرف کننده داده ای که به تازگی ایجاد کرده اید، به اشتراک داده ها صفحه را در کنسول Redshift آمازون و دیتاشیر جدید را انتخاب کنید.
- مصرف کننده داده را انتخاب کنید و انتخاب کنید مجاز.
وضعیت مصرف کننده تغییر می کند Pending authorization
به Authorized
.
به اشتراک داده متقابل حساب Redshift Amazon در حساب AWS مصرف کننده دسترسی داشته باشید
اکنون که دیتاش راهاندازی شد، به حساب AWS مصرفکننده خود بروید تا اشتراکگذاری داده را مصرف کنید. مطمئن شوید که حداقل یک خوشه آمازون Redshift در حساب مصرف کننده خود ایجاد کرده اید. خوشه باید رمزگذاری شده و در همان منطقه منبع باشد.
- در کنسول آمازون Redshift، را انتخاب کنید اشتراک داده ها در صفحه ناوبری
- بر از حساب های دیگر برگه، اشتراک داده ای که ایجاد کرده اید را انتخاب کرده و انتخاب کنید وابسته.
- میتوانید اشتراکگذاری داده را با یک یا چند خوشه در این حساب مرتبط کنید یا اشتراکگذاری داده را به کل حساب مرتبط کنید تا خوشههای فعلی و آینده در حساب مصرفکننده به این اشتراک دسترسی پیدا کنند.
- جزئیات اتصال خود را مشخص کرده و انتخاب کنید اتصال.
- را انتخاب کنید ایجاد پایگاه داده از datashare و یک نام برای پایگاه داده جدید خود وارد کنید.
- برای آزمایش اشتراک داده، به ویرایشگر پرس و جو بروید و پرس و جوها را در پایگاه داده جدید اجرا کنید تا مطمئن شوید که تمام اشیاء به عنوان بخشی از اشتراک داده در دسترس هستند.
تجزیه و تحلیل و پردازش داده ها با Data Wrangler
اکنون می توانید از Data Wrangler برای دسترسی به داده های متقابل حساب ایجاد شده به عنوان اشتراک داده در Amazon Redshift استفاده کنید.
- باز کن Amazon SageMaker Studio.
- بر پرونده منو ، انتخاب کنید جدید و جریان متخاصم داده.
- بر وارد كردن برگه ، انتخاب کنید منبع داده را اضافه کنید و آمازون Redshift.
- جزئیات اتصال خوشه Redshift آمازون را که به تازگی در حساب مصرف کننده برای اشتراک داده ایجاد کرده اید، وارد کنید.
- را انتخاب کنید اتصال.
- استفاده از هویت AWS و مدیریت دسترسی نقش (IAM) که برای خوشه آمازون Redshift خود استفاده کردید.
توجه داشته باشید که حتی اگر دیتاشار یک پایگاه داده جدید در خوشه آمازون Redshift است، نمی توانید مستقیماً از Data Wrangler به آن متصل شوید.
راه صحیح این است که ابتدا به پایگاه داده خوشه ای پیش فرض متصل شوید و سپس از SQL برای پرس و جو از پایگاه داده datashare استفاده کنید. اطلاعات مورد نیاز برای اتصال به پایگاه داده کلاستر پیش فرض را ارائه دهید. توجه داشته باشید که یک سرویس مدیریت کلید AWS شناسه کلید (AWS KMS) برای اتصال لازم نیست.
Data Wrangler اکنون به نمونه Redshift Amazon متصل است.
- با استفاده از یک ویرایشگر SQL، دادههای موجود در پایگاه داده Amazon Redshift را جستجو کنید.
- را انتخاب کنید وارد كردن برای وارد کردن مجموعه داده به Data Wrangler.
- یک نام برای مجموعه داده وارد کنید و انتخاب کنید اضافه کردن.
اکنون می توانید جریان را روی آن ببینید گردش داده ها برگه Data Wrangler.
پس از اینکه داده ها را در Data Wrangler بارگذاری کردید، می توانید تجزیه و تحلیل داده های اکتشافی را انجام دهید و داده ها را برای ML آماده کنید.
- علامت مثبت را انتخاب کرده و انتخاب کنید تجزیه و تحلیل را اضافه کنید.
Data Wrangler تجزیه و تحلیل های داخلی را ارائه می دهد. اینها شامل گزارش کیفیت داده و بینش، همبستگی داده ها، گزارش سوگیری قبل از آموزش، خلاصه ای از مجموعه داده های شما، و تجسم ها (مانند هیستوگرام ها و نمودارهای پراکندگی) است. شما همچنین می توانید تجسم سفارشی خود را ایجاد کنید.
میتوانید از گزارش کیفیت داده و اطلاعات بینش برای ایجاد خودکار تجسمها و تجزیه و تحلیلها برای شناسایی مسائل مربوط به کیفیت دادهها استفاده کنید و تغییر مناسب مورد نیاز برای مجموعه داده خود را توصیه کنید.
- را انتخاب کنید گزارش کیفیت داده و بینش، و را انتخاب کنید ستون هدف as y.
- زیرا این یک بیانیه مشکل طبقه بندی است، برای نوع مشکل، انتخاب کنید طبقه بندی.
- را انتخاب کنید ساختن.
Data Wrangler یک گزارش دقیق از مجموعه داده شما ایجاد می کند. همچنین می توانید گزارش را در دستگاه محلی خود دانلود کنید.
- برای آماده سازی داده ها، علامت مثبت را انتخاب کرده و انتخاب کنید تجزیه و تحلیل را اضافه کنید.
- را انتخاب کنید مرحله اضافه کنید برای شروع ساختن تحولات خود
در زمان نگارش این مقاله، Data Wrangler بیش از 300 تبدیل داخلی را ارائه می دهد. شما همچنین می توانید تبدیل های خود را با استفاده از Pandas یا PySpark بنویسید.
اکنون می توانید بر اساس نیازهای کسب و کار خود تغییر و تحلیل خود را ایجاد کنید.
نتیجه
در این پست، اشتراکگذاری دادهها را در میان حسابها با استفاده از اشتراکگذاری دادههای Amazon Redshift بدون نیاز به دانلود و آپلود دستی دادهها بررسی کردیم. نحوه دسترسی به دادههای مشترک با استفاده از Data Wrangler و آمادهسازی دادهها برای موارد استفاده از ML را بررسی کردیم. این قابلیت بدون کد/کد کم دیتاشیرهای Amazon Redshift و Data Wrangler آمادهسازی دادههای آموزشی را تسریع میکند و چابکی مهندسان داده و دانشمندان داده را با آمادهسازی دادههای تکراری سریعتر افزایش میدهد.
برای کسب اطلاعات بیشتر در مورد Amazon Redshift و SageMaker، مراجعه کنید راهنمای توسعه دهنده پایگاه داده Amazon Redshift و مستندات آمازون SageMaker.
درباره نویسنده
میناکشیسوندارام تانداوارایان یک متخصص ارشد AI/ML با AWS است. او به حساب های استراتژیک پیشرفته در سفر هوش مصنوعی و ML کمک می کند. او علاقه زیادی به هوش مصنوعی مبتنی بر داده دارد.
جیمز وو یک معمار ارشد راه حل متخصص AI/ML در AWS است. کمک به مشتریان در طراحی و ساخت راه حل های AI/ML. کار جیمز طیف گستردهای از موارد استفاده از ML را پوشش میدهد، با علاقه اولیه به بینایی رایانه، یادگیری عمیق، و مقیاسبندی ML در سراسر سازمان. قبل از پیوستن به AWS، جیمز بیش از 10 سال معمار، توسعهدهنده و رهبر فناوری بود، از جمله 6 سال در مهندسی و 4 سال در صنایع بازاریابی و تبلیغات.
- Coinsmart. بهترین صرافی بیت کوین و کریپتو اروپا.
- پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی رایگان.
- CryptoHawk. رادار آلت کوین امتحان رایگان.
- منبع: https://aws.amazon.com/blogs/machine-learning/import-data-from-cross-account-amazon-redshift-in-amazon-sagemaker-data-wrangler-for-exploratory-data-analysis- و-آماده سازی داده/
- "
- &
- 10
- 100
- 11
- 7
- a
- درباره ما
- دسترسی
- در دسترس
- حساب
- در میان
- فعالیت ها
- تبلیغات
- در برابر
- AI
- معرفی
- اجازه می دهد تا
- آمازون
- امریکا
- تحلیل
- دیگر
- برنامه های کاربردی
- معماری
- آسیا
- آسیا و اقیانوسیه
- وابسته
- بطور خودکار
- در دسترس
- AWS
- بانک
- بهترین
- بهترین شیوه
- مرز
- ساختن
- بنا
- ساخته شده در
- کسب و کار
- کالیفرنیا
- کمپین بین المللی حقوق بشر
- Canada
- موارد
- مرکزی
- را انتخاب کنید
- طبقه بندی
- ابر
- کامل
- انطباق
- کامپیوتر
- اتصال
- متصل
- اتصال
- ارتباط
- استوار
- کنسول
- مصرف
- مصرف کننده
- مصرف کنندگان
- تماس
- کنترل
- ایجاد
- ایجاد شده
- ایجاد
- مجوزها و اعتبارات
- فرهنگ
- جاری
- سفارشی
- مشتریان
- داده ها
- تحلیل داده ها
- به اشتراک گذاری داده ها
- پایگاه داده
- تصمیم گیری
- عمیق
- طرح
- دقیق
- جزئیات
- توسعه دهنده
- مختلف
- مشکل
- مستقیم
- مستقیما
- دانلود
- سردبیر
- آموزش
- در اغوش گرفتن
- رمزگذاری
- مهندسی
- مورد تأیید
- وارد
- سرمایه گذاری
- اروپا
- اکتشاف
- FAST
- سریعتر
- ویژگی
- نام خانوادگی
- جریان
- به دنبال
- پیروی
- قالب
- تازه
- از جانب
- توابع
- آینده
- تولید می کنند
- حکومت
- داشتن
- کمک
- کمک می کند
- مسکن
- چگونه
- چگونه
- HTTPS
- شناسایی
- هویت
- شامل
- از جمله
- لوازم
- اطلاعات
- بینش
- نمونه
- ادغام
- علاقه
- رابط
- ایرلند
- مسائل
- IT
- کار
- شغل ها
- پیوستن
- سفر
- نگاه داشتن
- کلید
- رهبر
- یاد گرفتن
- یادگیری
- محدود شده
- بار
- محلی
- محل
- لندن
- دستگاه
- فراگیری ماشین
- حفظ
- ساخت
- باعث می شود
- اداره می شود
- مدیریت
- دستی
- بازار یابی (Marketing)
- قدرت
- ML
- مدل
- ماه
- بیش
- متحرک
- بمبئی
- جهت یابی
- عدد
- اوهایو
- سفارش
- اورگان
- سازمان های
- دیگر
- خود
- ارام
- پاریس
- بخش
- شرکت کردن
- احساساتی
- پرداخت
- تمرین
- آماده
- قبلی
- اصلی
- مشکل
- روند
- تهيه كننده
- ارائه
- فراهم می کند
- کیفیت
- محدوده
- توصیه
- منطقه
- گزارش
- ضروری
- نقش
- دویدن
- امن
- همان
- مقیاس گذاری
- دانشمندان
- ثانوی
- امن
- تیم امنیت لاتاری
- سئول
- تنظیم
- محیط
- اشتراک گذاری
- به اشتراک گذاشته شده
- اشتراک
- امضاء
- ساده
- سنگاپور
- So
- جامد
- راه حل
- مزایا
- جنوب
- متخصص
- شروع
- بیانیه
- وضعیت
- ذخیره سازی
- استراتژیک
- پشتیبانی
- گزینه
- سیدنی
- پیشرفته
- آزمون
- La
- منبع
- از طریق
- زمان
- توکیو
- طرف
- آموزش
- دگرگون کردن
- دگرگونی
- تحولات
- us
- استفاده کنید
- ویرجینیا
- دید
- تجسم
- غرب
- چی
- بدون
- مهاجرت کاری
- گردش کار
- کارگر
- نوشته
- سال
- شما