قم بإنشاء عينات عشوائية وطبقية من البيانات باستخدام Amazon SageMaker Data Wrangler

أعاد نشره أفلاطون

المتابعون: 0

في هذا المنشور ، نوجهك عبر طريقتين لأخذ العينات في أمازون سيج ميكر داتا رانجلر حتى تتمكن من إنشاء مهام سير عمل معالجة لبياناتك بسرعة. نحن نغطي تقنيات أخذ العينات العشوائية وأخذ العينات الطبقية لمساعدتك على أخذ عينات من بياناتك بناءً على متطلباتك المحددة.

يقلل Data Wrangler الوقت الذي يستغرقه تجميع البيانات وإعدادها للتعلم الآلي (ML) من أسابيع إلى دقائق. يمكنك تبسيط عملية إعداد البيانات وهندسة الميزات ، وإكمال كل خطوة من خطوات سير عمل إعداد البيانات ، بما في ذلك اختيار البيانات ، والتنقية ، والاستكشاف ، والتصور ، من واجهة مرئية واحدة. باستخدام أداة تحديد البيانات الخاصة بـ Data Wrangler ، يمكنك اختيار البيانات التي تريدها من مصادر البيانات المختلفة واستيرادها بنقرة واحدة. يحتوي Data Wrangler على أكثر من 300 تحويل بيانات مدمج بحيث يمكنك تطبيع الميزات وتحويلها ودمجها بسرعة دون الحاجة إلى كتابة أي رمز. باستخدام قوالب التصور الخاصة بـ Data Wrangler ، يمكنك معاينة وفحص ما إذا كانت هذه التحويلات قد اكتملت على النحو الذي تريده من خلال عرضها في أمازون ساجميكر ستوديو، أول بيئة تطوير متكاملة (IDE) لتعلم الآلة. بعد تجهيز بياناتك ، يمكنك إنشاء تدفقات عمل ML مؤتمتة بالكامل باستخدام خطوط أنابيب Amazon SageMaker وحفظها لإعادة استخدامها متجر ميزات Amazon SageMaker.

ما هو أخذ العينات وكيف يمكن أن يساعد

في التحليل الإحصائي ، تُعرف المجموعة الإجمالية للملاحظات باسم سكان. عند العمل مع البيانات ، غالبًا ما يكون قياس كل ملاحظة من السكان غير عملي من الناحية الحسابية. أخذ العينات الإحصائية هو إجراء يسمح لك بفهم بياناتك عن طريق اختيار مجموعات فرعية من السكان.

يقدم أخذ العينات حلاً عمليًا يضحي ببعض الدقة من أجل التطبيق العملي والسهولة. للتأكد من أن عينتك تمثل تمثيلًا جيدًا للسكان بشكل عام ، يمكنك استخدام استراتيجيات أخذ العينات. يدعم Data Wrangler اثنين من أكثر الإستراتيجيات شيوعًا: أخذ العينات عشوائي و اخذ العينات الطبقية.

أخذ العينات عشوائي

إذا كانت لديك مجموعة بيانات كبيرة ، فقد يستغرق إجراء التجارب على مجموعة البيانات هذه وقتًا طويلاً. يوفر Data Wrangler عينات عشوائية حتى تتمكن من معالجة بياناتك وتصورها بكفاءة. على سبيل المثال ، قد ترغب في حساب متوسط عدد عمليات الشراء لعميل خلال إطار زمني ، أو قد ترغب في حساب معدل تناقص المشترك. يمكنك استخدام عينة عشوائية لتصور التقديرات التقريبية لهذه المقاييس.

يتم اختيار عينة عشوائية من مجموعة البيانات الخاصة بك بحيث يكون لكل عنصر احتمالية متساوية في الاختيار. يتم تنفيذ هذه العملية بطريقة فعالة مناسبة لمجموعات البيانات الكبيرة ، وبالتالي فإن حجم العينة المرتجع هو الحجم المطلوب تقريبًا ، وليس بالضرورة مساويًا للحجم المطلوب.

يمكنك استخدام أخذ العينات العشوائي إذا كنت تريد إجراء حسابات تقريبية سريعة لفهم مجموعة البيانات الخاصة بك. مع زيادة حجم العينة ، يمكن للعينة العشوائية تقريب مجموعة البيانات بالكامل بشكل أفضل ، ولكن ما لم تقم بتضمين جميع نقاط البيانات ، فقد لا تتضمن العينة العشوائية جميع القيم المتطرفة وحالات الحافة. إذا كنت ترغب في إعداد مجموعة البيانات بالكامل بشكل تفاعلي ، يمكنك أيضًا التبديل إلى نوع مثيل أكبر.

كقاعدة عامة ، يميل خطأ أخذ العينات في حساب الوسط السكاني باستخدام عينة عشوائية إلى الصفر عندما تكبر العينة. كلما زاد حجم العينة ، يقل الخطأ باعتباره معكوس الجذر التربيعي لحجم العينة. الوجود السريع ، كلما كانت العينة أكبر ، كان التقريب أفضل.

اخذ العينات الطبقية

في بعض الحالات ، يمكن تقسيم السكان إلى طبقات ، أو مجموعات حصرية متبادلة ، مثل الموقع الجغرافي للعناوين ، أو سنة النشر للأغاني ، أو الأقواس الضريبية للدخل. أخذ العينات العشوائية هو الأسلوب الأكثر شيوعًا لأخذ العينات ، ولكن إذا كانت بعض الطبقات غير شائعة في مجتمعك ، فيمكنك استخدام أخذ العينات الطبقية في Data Wrangler لضمان تمثيل كل طبقة بشكل متناسب في عينتك. قد يكون هذا مفيدًا لتقليل أخطاء أخذ العينات وكذلك لضمان التقاط حالات الحافة أثناء تجربتك.

في العالم الحقيقي ، تعتبر معاملات بطاقات الائتمان الاحتيالية أحداثًا نادرة وتشكل عادةً أقل من 1٪ من بياناتك. إذا قمنا بأخذ عينات بشكل عشوائي ، فليس من غير المألوف أن تحتوي العينة على عدد قليل جدًا من المعاملات الاحتيالية أو لا تحتوي على أي معاملات احتيالية. نتيجة لذلك ، عند تدريب نموذج ، سيكون لدينا عدد قليل جدًا من الأمثلة الاحتيالية لتعلم نموذج دقيق. يمكننا استخدام العينات الطبقية للتأكد من أن لدينا تمثيل نسبي للمعاملات الاحتيالية.

في المعاينة الطبقية ، يتناسب حجم كل طبقة في العينة مع حجم الطبقات في المجتمع. يعمل هذا عن طريق تقسيم بياناتك إلى طبقات بناءً على العمود المحدد ، واختيار عينات عشوائية من كل طبقة ذات النسبة الصحيحة ، ودمج هذه العينات في عينة طبقية من السكان.

يُعد أخذ العينات الطبقي أسلوبًا مفيدًا عندما تريد فهم كيفية مقارنة المجموعات المختلفة في بياناتك مع بعضها البعض ، وتريد التأكد من حصولك على التمثيل المناسب من كل مجموعة.

أخذ عينات عشوائي عند الاستيراد من Amazon S3

في هذا القسم ، نستخدم عينات عشوائية مع مجموعة بيانات تتكون من أحداث احتيالية وغير احتيالية من نظام اكتشاف الاحتيال الخاص بنا. تستطيع بإمكانك تحميله مجموعة البيانات المراد متابعتها مع هذا المنشور (CC 4.0 رخصة الإسناد الدولية).

في وقت كتابة هذه السطور ، يمكنك استيراد مجموعات البيانات من خدمة تخزين أمازون البسيطة (Amazon S3) ، أمازون أثينا, الأمازون الأحمرو ندفة الثلج. مجموعة البيانات الخاصة بنا كبيرة جدًا وتحتوي على مليون صف. في هذه الحالة ، نريد أخذ عينات من 1،1,0000 صف عند الاستيراد من Amazon S3 لإجراء بعض التجارب التفاعلية داخل Data Wrangler.

افتح برنامج SageMaker Studio وقم بإنشاء تدفق بيانات رانجلر جديد.
تحت تواريخ الاستيراد، اختر الأمازون S3.
اختر مجموعة البيانات المراد استيرادها.
في مجلة التفاصيل ، أدخل اسم مجموعة البيانات ونوع الملف.
في حالة أخذ العينات، اختر عشوائية.
في حالة حجم العينة، أدخل 10000.
اختار استيراد لتحميل مجموعة البيانات في Data Wrangler.

يمكنك تصور خطوتين مميزتين على صفحة تدفق البيانات في Data Wrangler. تشير الخطوة الأولى إلى تحميل عينة مجموعة البيانات بناءً على إستراتيجية أخذ العينات التي حددتها. بعد تحميل البيانات ، يقوم Data Wrangler بالكشف التلقائي عن أنواع البيانات لكل عمود من الأعمدة في مجموعة البيانات. تتم إضافة هذه الخطوة افتراضيًا لجميع مجموعات البيانات.

يمكنك الآن مراجعة عينات البيانات العشوائية في Data Wrangler عن طريق إضافة تحليل.

اختر علامة الجمع الموجودة بجانب أنواع البيانات واختر تحليل الأداء.
في حالة نوع التحليلأختر مخطط مبعثر.
اختار الفذ_1 و الفذ_2 أما بالنسبة لل محور X و المحور ص، على التوالي.
في حالة لون بواسطة، اختر احتيال.

عندما تكون مرتاحًا لمجموعة البيانات ، تابع إجراء المزيد من عمليات تحويل البيانات وفقًا لمتطلبات عملك لإعداد بياناتك لـ ML.

في لقطة الشاشة التالية ، يمكننا ملاحظة المعاملات الاحتيالية (باللون الأزرق الداكن) وغير الاحتيالية (باللون الأزرق الفاتح) في تحليلنا.

في القسم التالي ، نناقش استخدام العينات الطبقية لضمان اختيار الحالات الاحتيالية بشكل متناسب.

أخذ العينات الطبقية مع تحويل

يسمح لك Data Wrangler بأخذ عينات عند الاستيراد ، وكذلك أخذ العينات عبر التحويل. في هذا القسم ، نناقش استخدام العينات الطبقية عبر تحويل بعد قيامك باستيراد مجموعة البيانات الخاصة بك إلى Data Wrangler.

لبدء أخذ العينات ، على تدفق البيانات علامة التبويب ، اختر علامة الجمع بجوار مجموعة البيانات المستوردة واختر أضف التحويل.

في وقت كتابة هذا التقرير ، كانت Data Wrangler توفر أكثر من 300 تحويل مدمج. بالإضافة إلى التحويلات المضمنة ، يمكنك كتابة تحويلاتك المخصصة في Pandas أو PySpark.

XNUMX. من قائمة أضف التحويل قائمة ، اختر أخذ العينات.

يمكنك الآن استخدام ثلاث استراتيجيات مختلفة لأخذ العينات: التحديد والعشوائية والطبقية.

في حالة طريقة أخذ العينات، اختر الطبقية.
استخدم is_fraud العمود كعمود طبقي.
اختار أرسال لمعاينة التحويل ، ثم اختر أضف لإضافة هذا التحول كخطوة إلى وصفة التحول الخاصة بك.

يعكس تدفق البيانات الآن خطوة أخذ العينات المضافة.

الآن يمكننا مراجعة بيانات العينات العشوائية عن طريق إضافة تحليل.

اختر علامة الجمع واختر تحليل الأداء.
في حالة نوع التحليلأختر الرسم البياني.
اختار احتيال على حد سواء محور X و لون بواسطة.
اختار أرسال.

في لقطة الشاشة التالية ، يمكننا ملاحظة انهيار الحالات الاحتيالية (الأزرق الداكن) وغير الاحتيالية (الأزرق الفاتح) المختارة من خلال أخذ العينات الطبقية بنسب صحيحة 20٪ احتيالية و 80٪ غير احتيالية.

وفي الختام

من الضروري أخذ عينات من البيانات بشكل صحيح عند العمل مع مجموعات بيانات كبيرة للغاية واختيار استراتيجية أخذ العينات المناسبة لتلبية متطلبات عملك. تعتمد فعالية أخذ العينات على عوامل مختلفة ، بما في ذلك نتائج الأعمال ، وتوافر البيانات ، والتوزيع. في هذا المنشور ، غطينا كيفية استخدام Data Wrangler واستراتيجيات أخذ العينات المضمنة بها لإعداد بياناتك.

يمكنك البدء في استخدام هذه الإمكانية اليوم في جميع المناطق التي يتوفر بها SageMaker Studio. لتبدأ ، قم بزيارة قم بإعداد بيانات ML مع Amazon SageMaker Data Wrangler.

شكر وتقدير

يود المؤلفون أن يشكروا جوناثان تشونج (عالم تطبيقي) لمراجعته وتعليقاته القيمة على هذه المقالة.

حول المؤلف

بن هاريس هو مهندس برمجيات لديه خبرة في تصميم ونشر وصيانة خطوط أنابيب البيانات القابلة للتطوير وحلول التعلم الآلي عبر مجموعة متنوعة من المجالات.

فيشال كابور هو عالم تطبيقي أقدم مع AWS AI. إنه متحمس لمساعدة العملاء على فهم بياناتهم في Data Wrangler. في أوقات فراغه ، يقوم بالدراجات الجبلية وألواح التزلج على الجليد ويقضي الوقت مع عائلته.

ميناكشيسوندارام ثاندافارايان هو متخصص أول في الذكاء الاصطناعي / تعلم الآلة مع AWS. إنه يساعد الحسابات الإستراتيجية Hi-Tech في رحلة الذكاء الاصطناعي والتعلم الآلي. إنه متحمس للغاية بشأن الذكاء الاصطناعي المستند إلى البيانات.

أجاي شارما هو مدير المنتج الرئيسي في Amazon SageMaker حيث يركز على Data Wrangler ، وهي أداة لإعداد البيانات المرئية لعلماء البيانات. قبل AWS ، كان Ajai خبيرًا في علوم البيانات في شركة McKinsey and Company ، حيث قاد المشاركات التي تركز على ML لشركات التمويل والتأمين الرائدة في جميع أنحاء العالم. أجاي شغوف بعلوم البيانات ويحب استكشاف أحدث الخوارزميات وتقنيات التعلم الآلي.

الطابع الزمني: 26 نيسان

الطابع الزمني: يناير 31، 2024

أنشئ عينات عشوائية وطبقية من البيانات باستخدام Amazon SageMaker Data Wrangler

أعاد نشره أفلاطون

ما هو أخذ العينات وكيف يمكن أن يساعد

أخذ العينات عشوائي

اخذ العينات الطبقية

أخذ عينات عشوائي عند الاستيراد من Amazon S3

أخذ العينات الطبقية مع تحويل

وفي الختام

شكر وتقدير

حول المؤلف

اكثر من التعلم الآلي من AWS

قم بإنشاء ملخصات للتسجيلات باستخدام الذكاء الاصطناعي التوليدي مع Amazon Bedrock وAmazon Transcribe | خدمات الويب الأمازون

أنشئ تطبيقات محادثة تعتمد على المعرفة باستخدام LlamaIndex وLlama 2-Chat | خدمات الويب الأمازون

استخدم التعلم الآلي لاكتشاف الحالات الشاذة والتنبؤ بوقت التوقف عن العمل باستخدام Amazon Timestream و Amazon Lookout for Equipment

استخدم رؤية الكمبيوتر لقياس العائد الزراعي باستخدام Amazon Rekognition Custom Labels

تدريب موزع مع Amazon EKS و Torch Distributed Elastic

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي