المنظمات التي تتجه نحو ثقافة تعتمد على البيانات تتبنى استخدام البيانات والتعلم الآلي (ML) في صنع القرار. لاتخاذ قرارات تستند إلى ML من البيانات ، تحتاج إلى أن تكون بياناتك متاحة ، ويمكن الوصول إليها ، ونظيفة ، وبالتنسيق الصحيح لتدريب نماذج ML. تريد المؤسسات ذات البنية متعددة الحسابات تجنب المواقف التي يتعين عليها استخراج البيانات من حساب واحد وتحميلها في حساب آخر لأنشطة إعداد البيانات. يؤدي إنشاء وظائف الاستخراج والتحويل والتحميل (ETL) المختلفة وصيانتها يدويًا في حسابات مختلفة إلى زيادة التعقيد والتكلفة ، ويزيد من صعوبة الحفاظ على أفضل ممارسات الحوكمة والامتثال والأمان للحفاظ على أمان بياناتك.
الأمازون الأحمر هو مستودع بيانات سحابي سريع ومُدار بالكامل. توفر ميزة مشاركة البيانات عبر الحسابات في Amazon Redshift طريقة بسيطة وآمنة لمشاركة بيانات جديدة وكاملة ومتسقة في مستودع بيانات Amazon Redshift الخاص بك مع أي عدد من أصحاب المصلحة في حسابات AWS المختلفة. أمازون سيج ميكر داتا رانجلر هي قدرة الأمازون SageMaker التي تجعل الأمر أسرع لعلماء ومهندسي البيانات لإعداد البيانات لتطبيقات ML باستخدام واجهة مرئية. يسمح لك Data Wrangler باستكشاف البيانات وتحويلها لـ ML من خلال الاتصال بمشارك بيانات Amazon Redshift.
في هذا المنشور ، نسير عبر إعداد تكامل عبر الحسابات باستخدام مشاركة بيانات Amazon Redshift وإعداد البيانات باستخدام Data Wrangler.
حل نظرة عامة
نبدأ بحسابين على AWS: حساب منتج مع مستودع بيانات Amazon Redshift ، وحساب المستهلك لحالات استخدام SageMaker ML. في هذا المنشور ، نستخدم ملف مجموعة البيانات المصرفية. للمتابعة ، قم بتنزيل مجموعة البيانات على جهازك المحلي. فيما يلي نظرة عامة عالية المستوى على سير العمل:
- إنشاء مجموعة Amazon Redshift RA3 في حساب المنتج وتحميل مجموعة البيانات.
- أنشئ مشاركة بيانات Amazon Redshift في حساب المنتج واسمح لحساب المستهلك بالوصول إلى البيانات.
- قم بالوصول إلى مشاركة بيانات Amazon Redshift في حساب المستهلك.
- قم بتحليل البيانات ومعالجتها باستخدام Data Wrangler في حساب المستهلك وبناء مهام سير عمل إعداد البيانات.
احذر من الاعتبارات للعمل مع مشاركة بيانات Amazon Redshift:
- حسابات AWS متعددة - أنت بحاجة إلى حسابي AWS على الأقل: حساب منتج وحساب مستهلك.
- نوع الكتلة - يتم دعم مشاركة البيانات في نوع مجموعة RA3. عند إنشاء مجموعة Amazon Redshift ، تأكد من اختيار نوع مجموعة RA3.
- التشفير - لكي تعمل مشاركة البيانات ، يجب تشفير كل من مجموعات المنتج والمستهلكين ويجب أن تكون في نفس منطقة AWS.
- المناطق - مشاركة البيانات عبر الحسابات متاحة لجميع Amazon Redshift أنواع عقدة RA3 في شرق الولايات المتحدة (شمال فيرجينيا) ، شرق الولايات المتحدة (أوهايو) ، غرب الولايات المتحدة (شمال كاليفورنيا) ، غرب الولايات المتحدة (أوريغون) ، آسيا والمحيط الهادئ (مومباي) ، آسيا والمحيط الهادئ (سيول) ، آسيا والمحيط الهادئ (سنغافورة) ، آسيا والمحيط الهادئ ( سيدني) وآسيا والمحيط الهادئ (طوكيو) وكندا (وسط) وأوروبا (فرانكفورت) وأوروبا (أيرلندا) وأوروبا (لندن) وأوروبا (باريس) وأوروبا (ستوكهولم) وأمريكا الجنوبية (ساو باولو).
- التسعير - مشاركة البيانات عبر الحسابات متاحة عبر المجموعات الموجودة في نفس المنطقة. لا توجد تكلفة لمشاركة البيانات. أنت تدفع فقط مقابل مجموعات Amazon Redshift التي تشارك في المشاركة.
تعد مشاركة البيانات عبر الحسابات عملية من خطوتين. أولاً ، يقوم مسؤول مجموعة المنتجين بإنشاء مشاركة بيانات وإضافة كائنات وإتاحة الوصول إلى حساب المستهلك. ثم يصرح مسؤول حساب المنتج بمشاركة البيانات للمستهلك المحدد. يمكنك القيام بذلك من وحدة تحكم Amazon Redshift.
أنشئ مشاركة بيانات Amazon Redshift في حساب المنتج
لإنشاء مشاركة البيانات الخاصة بك ، أكمل الخطوات التالية:
- في وحدة تحكم Amazon Redshift ، قم بإنشاء مجموعة Amazon Redshift.
- تحديد الإنتــاج واختر نوع عقدة RA3.
- تحت تكوينات إضافية، قم بإلغاء التحديد التخلف عن استخدام.
- تحت تكوينات قواعد البيانات، قم بإعداد التشفير للمجموعة الخاصة بك.
- بعد إنشاء الكتلة ، قم باستيراد مجموعة بيانات بنك التسويق المباشر. يمكنك التنزيل من الرابط التالي: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
- تحميل
bank-additional-full.csv
إلى خدمة تخزين أمازون البسيطة (Amazon S3) حاوية يمكن لمجموعتك الوصول إليها. - استخدم محرر استعلام Amazon Redshift وقم بتشغيل استعلام SQL التالي لنسخ البيانات إلى Amazon Redshift:
- انتقل إلى صفحة تفاصيل المجموعة وعلى ملف مشاركة البيانات علامة التبويب، اختر إنشاء مشاركة البيانات.
- في حالة اسم مشاركة البيانات، إدخال اسم.
- في حالة اسم قاعدة البيانات، اختر قاعدة بيانات.
- في مجلة إضافة كائنات datashare ، اختر الكائنات من قاعدة البيانات التي تريد تضمينها في مشاركة البيانات.
لديك تحكم دقيق فيما تختار مشاركته مع الآخرين. من أجل البساطة ، نشارك جميع الجداول. في الممارسة العملية ، يمكنك اختيار واحد أو أكثر من الجداول أو طرق العرض أو الوظائف المعرفة من قبل المستخدم. - اختار أضف.
- لإضافة مستهلكي البيانات ، حدد أضف حسابات AWS إلى مشاركة البيانات وأضف معرف حساب AWS الثانوي الخاص بك.
- اختار إنشاء مشاركة البيانات.
- لتفويض مستهلك البيانات الذي أنشأته للتو ، انتقل إلى مشاركة البيانات صفحة على وحدة تحكم Amazon Redshift واختر مشاركة البيانات الجديدة.
- حدد مستهلك البيانات واختر يأذن.
يتغير وضع المستهلك من Pending authorization
إلى Authorized
.
قم بالوصول إلى مشاركة بيانات Amazon Redshift عبر الحسابات في حساب المستهلك على AWS
الآن بعد أن تم إعداد مشاركة البيانات ، قم بالتبديل إلى حساب المستهلك الخاص بك على AWS لاستهلاك مشاركة البيانات. تأكد من أن لديك مجموعة Amazon Redshift واحدة على الأقل تم إنشاؤها في حساب المستهلك الخاص بك. يجب تشفير الكتلة وفي نفس منطقة المصدر.
- في وحدة تحكم Amazon Redshift ، اختر مشاركة البيانات في جزء التنقل.
- على من حسابات أخرى علامة التبويب ، حدد مشاركة البيانات التي قمت بإنشائها واختر محام.
- يمكنك إقران مشاركة البيانات بواحدة أو أكثر من المجموعات في هذا الحساب أو إقران مشاركة البيانات بالحساب بالكامل حتى تتمكن المجموعات الحالية والمستقبلية في حساب المستهلك من الوصول إلى هذه المشاركة.
- حدد تفاصيل الاتصال الخاصة بك واختر التواصل.
- اختار إنشاء قاعدة بيانات من مشاركة البيانات وأدخل اسمًا لقاعدة البيانات الجديدة.
- لاختبار مشاركة البيانات ، انتقل إلى محرر الاستعلام وقم بتشغيل الاستعلامات على قاعدة البيانات الجديدة للتأكد من توفر جميع الكائنات كجزء من مشاركة البيانات.
تحليل ومعالجة البيانات باستخدام Data Wrangler
يمكنك الآن استخدام Data Wrangler للوصول إلى البيانات عبر الحسابات التي تم إنشاؤها كمشاركة بيانات في Amazon Redshift.
- ساعات العمل أمازون ساجميكر ستوديو.
- على قم بتقديم القائمة، اختر جديد و تدفق رانجلر البيانات.
- على استيراد علامة التبويب، اختر أضف مصدر البيانات و الأمازون الأحمر.
- أدخل تفاصيل الاتصال الخاصة بمجموعة Amazon Redshift التي أنشأتها للتو في حساب المستهلك لمشاركة البيانات.
- اختار التواصل.
- استخدم إدارة الهوية والوصول AWS (IAM) الذي استخدمته لمجموعة Amazon Redshift الخاصة بك.
لاحظ أنه على الرغم من أن مشاركة البيانات هي قاعدة بيانات جديدة في مجموعة Amazon Redshift ، فلا يمكنك الاتصال بها مباشرةً من Data Wrangler.
الطريقة الصحيحة هي الاتصال بقاعدة بيانات الكتلة الافتراضية أولاً ، ثم استخدام SQL للاستعلام عن قاعدة بيانات مشاركة البيانات. قم بتوفير المعلومات المطلوبة للاتصال بقاعدة بيانات الكتلة الافتراضية. لاحظ أن ملف خدمة إدارة مفتاح AWS معرف مفتاح (AWS KMS) غير مطلوب من أجل الاتصال.
تم توصيل Data Wrangler الآن بمثيل Amazon Redshift.
- استعلم عن البيانات في قاعدة بيانات مشاركة البيانات Amazon Redshift باستخدام محرر SQL.
- اختار استيراد لاستيراد مجموعة البيانات إلى Data Wrangler.
- أدخل اسمًا لمجموعة البيانات واختر أضف.
يمكنك الآن رؤية التدفق على ملف تدفق البيانات علامة تبويب البيانات رانجلر.
بعد تحميل البيانات في Data Wrangler ، يمكنك إجراء تحليل استكشافي للبيانات وإعداد البيانات لـ ML.
- اختر علامة الجمع واختر أضف التحليل.
يوفر Data Wrangler تحليلات مدمجة. وتشمل هذه على سبيل المثال لا الحصر تقرير جودة البيانات والرؤى ، وارتباط البيانات ، وتقرير التحيز قبل التدريب ، وملخصًا لمجموعة البيانات ، والتصورات (مثل الرسوم البيانية ومخططات التبعثر). يمكنك أيضًا إنشاء التصور المخصص الخاص بك.
يمكنك استخدام تقرير جودة البيانات والرؤى لإنشاء تصورات وتحليلات تلقائيًا لتحديد مشكلات جودة البيانات ، والتوصية بالتحويل الصحيح المطلوب لمجموعة البيانات الخاصة بك.
- اختار تقرير الرؤى وجودة البيانات، واختر ملف العمود الهدف as y.
- لأن هذا بيان مشكلة تصنيف ، ل نوع المشكلة، حدد تصنيف.
- اختار إنشاء.
يقوم Data Wrangler بإنشاء تقرير مفصل عن مجموعة البيانات الخاصة بك. يمكنك أيضًا تنزيل التقرير على جهازك المحلي.
في وقت كتابة هذا التقرير ، توفر Data Wrangler أكثر من 300 تحويل مدمج. يمكنك أيضًا كتابة التحولات الخاصة بك باستخدام Pandas أو PySpark.
يمكنك الآن البدء في بناء التحولات والتحليلات الخاصة بك بناءً على متطلبات عملك.
وفي الختام
في هذا المنشور ، استكشفنا مشاركة البيانات عبر الحسابات باستخدام مشاركة بيانات Amazon Redshift دون الحاجة إلى تنزيل البيانات وتحميلها يدويًا. استعرضنا كيفية الوصول إلى البيانات المشتركة باستخدام Data Wrangler وإعداد البيانات لحالات استخدام ML الخاصة بك. تعمل إمكانية عدم وجود رمز / رمز منخفض لمشاركة بيانات Amazon Redshift و Data Wrangler على تسريع إعداد بيانات التدريب وزيادة سرعة مهندسي البيانات وعلماء البيانات من خلال إعداد البيانات التكرارية بشكل أسرع.
لمعرفة المزيد حول Amazon Redshift و SageMaker ، ارجع إلى دليل مطور قاعدة بيانات Amazon Redshift و وثائق Amazon SageMaker.
حول المؤلف
ميناكشيسوندارام ثاندافارايان هو متخصص أول في الذكاء الاصطناعي / تعلم الآلة مع AWS. إنه يساعد الحسابات الإستراتيجية عالية التقنية في رحلة الذكاء الاصطناعي والتعلم الآلي. إنه متحمس للغاية بشأن الذكاء الاصطناعي المستند إلى البيانات.
جيمس وو هو مهندس حلول متخصص في الذكاء الاصطناعي / التعلم الآلي في AWS. مساعدة العملاء على تصميم وبناء حلول الذكاء الاصطناعي / التعلم الآلي. يغطي عمل James مجموعة واسعة من حالات استخدام ML ، مع اهتمام أساسي برؤية الكمبيوتر والتعلم العميق وتوسيع ML عبر المؤسسة. قبل انضمامه إلى AWS ، كان جيمس مهندسًا معماريًا ومطورًا وقائدًا في مجال التكنولوجيا لأكثر من 10 سنوات ، بما في ذلك 6 سنوات في الهندسة و 4 سنوات في صناعات التسويق والإعلان.
- كوينسمارت. أفضل بورصة للبيتكوين والعملات المشفرة في أوروبا.
- بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. دخول مجاني.
- كريبتوهوك. الرادار. تجربة مجانية.
- المصدر: https://aws.amazon.com/blogs/machine-learning/import-data-from-cross-account-amazon-redshift-in-amazon-sagemaker-data-wrangler-for-exploratory-data-analysis- وإعداد البيانات /
- "
- &
- 10
- 100
- 11
- 7
- a
- من نحن
- الوصول
- يمكن الوصول
- حسابي
- في
- أنشطة
- دعاية
- ضد
- AI
- الكل
- يسمح
- أمازون
- أمريكا
- تحليل
- آخر
- التطبيقات
- هندسة معمارية
- آسيا
- المحيط الآسيوي
- محام
- تلقائيا
- متاح
- AWS
- مصرف
- أفضل
- أفضل الممارسات
- الحدود
- نساعدك في بناء
- ابني
- مدمج
- الأعمال
- كاليفورنيا
- الحملات
- كندا
- الحالات
- مركزي
- اختار
- تصنيف
- سحابة
- إكمال
- الالتزام
- الكمبيوتر
- التواصل
- متصل
- الرابط
- صلة
- ثابتة
- كنسولات
- تستهلك
- مستهلك
- المستهلكين
- التواصل
- مراقبة
- خلق
- خلق
- يخلق
- أوراق اعتماد
- ثقافة
- حالياًّ
- على
- العملاء
- البيانات
- تحليل البيانات
- تبادل البيانات
- قاعدة البيانات
- القرارات
- عميق
- تصميم
- مفصلة
- تفاصيل
- المطور
- مختلف
- صعبة
- مباشرة
- مباشرة
- بإمكانك تحميله
- رئيس التحرير
- التعليم
- احتضان
- التشفير
- الهندسة
- المهندسين
- أدخل
- مشروع
- أوروبا
- اكتشف
- FAST
- أسرع
- الميزات
- الاسم الأول
- تدفق
- اتباع
- متابعيك
- شكل
- جديد
- تبدأ من
- وظائف
- مستقبل
- توليد
- الحكم
- وجود
- مساعدة
- يساعد
- إسكان
- كيفية
- كيفية
- HTTPS
- تحديد
- هوية
- تتضمن
- بما فيه
- الصناعات
- معلومات
- رؤى
- مثل
- التكامل
- مصلحة
- السطح البيني
- أيرلندا
- مسائل
- IT
- وظيفة
- المشــاريــع
- انضمام
- رحلة
- احتفظ
- القفل
- زعيم
- تعلم
- تعلم
- محدود
- تحميل
- محلي
- موقع
- لندن
- آلة
- آلة التعلم
- المحافظة
- جعل
- يصنع
- تمكن
- إدارة
- يدويا
- التسويق
- ربما
- ML
- عارضات ازياء
- شهر
- الأكثر من ذلك
- يتحرك
- مومباي
- قائمة الإختيارات
- عدد
- أوهايو
- طلب
- ولاية أوريغون
- المنظمات
- أخرى
- الخاصة
- سلمي
- باريس
- جزء
- شارك
- عاطفي
- ممارسة
- إعداد
- سابق
- ابتدائي
- المشكلة
- عملية المعالجة
- منتج
- تزود
- ويوفر
- جودة
- نطاق
- نوصي
- منطقة
- تقرير
- مطلوب
- النوع
- يجري
- خزنة
- نفسه
- التحجيم
- العلماء
- ثانوي
- تأمين
- أمن
- سيول
- طقم
- ضبط
- مشاركة
- شاركت
- مشاركة
- إشارة
- الاشارات
- سنغافورة
- So
- الصلبة
- حل
- الحلول
- جنوب
- متخصص
- بداية
- ملخص الحساب
- الحالة
- تخزين
- إستراتيجي
- مدعومة
- مفاتيح
- سيدني
- تكنولوجيا
- تجربه بالعربي
- •
- المصدر
- عبر
- الوقت
- طوكيو
- نحو
- قادة الإيمان
- تحول
- تحول
- التحولات
- us
- تستخدم
- فرجينيا
- رؤيتنا
- التصور
- West Side
- ابحث عن
- بدون
- للعمل
- سير العمل
- عامل
- جاري الكتابة
- سنوات
- حل متجر العقارات الشامل الخاص بك في جورجيا