كيف استخدم Amp على Amazon البيانات لزيادة مشاركة العملاء ، الجزء 2: إنشاء نظام أساسي لتوصية العروض الشخصية باستخدام Amazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

كيف استخدم Amp على Amazon البيانات لزيادة مشاركة العملاء ، الجزء 2: إنشاء نظام أساسي لتوصية العروض الشخصية باستخدام Amazon SageMaker

أمبير هو تطبيق راديو مباشر جديد من أمازون. باستخدام Amp ، يمكنك استضافة برنامجك الإذاعي وتشغيل الأغاني من كتالوج Amazon Music ، أو الاستماع إلى العروض التي يستضيفها مستخدمو Amp الآخرون. في بيئة يكون فيها المحتوى وفيرًا ومتنوعًا ، من المهم تخصيص تجربة المستخدم بما يتناسب مع الذوق الفردي لكل مستخدم ، حتى يتمكنوا من العثور بسهولة على العروض التي يحبونها واكتشاف المحتوى الجديد الذي قد يستمتعون به.

يستخدم Amp التعلم الآلي (ML) لتقديم توصيات مخصصة لعروض Amp المباشرة والقادمة على الصفحة الرئيسية للتطبيق. يتم حساب التوصيات باستخدام نموذج Random Forest باستخدام ميزات تمثل شعبية العرض (مثل الاستماع وإحصاء الإعجاب) ، وشعبية منشئ المحتوى (مثل إجمالي عدد مرات تشغيل العروض الأخيرة) ، والصلات الشخصية للمستخدم لموضوع العرض ومنشئه. يتم حساب الارتباطات إما ضمنيًا من البيانات السلوكية للمستخدم أو صراحةً من الموضوعات محل الاهتمام (مثل موسيقى البوب ​​أو البيسبول أو السياسة) كما هو منصوص عليه في ملفات تعريف المستخدمين الخاصة بهم.

هذا هو الجزء الثاني من سلسلة حول استخدام تحليلات البيانات و ML لـ Amp وإنشاء نظام أساسي لقائمة توصيات العروض المخصصة. أظهر النظام الأساسي زيادة بنسبة 2٪ في مقاييس تفاعل العملاء التي تم تتبعها (الإعجاب بالعرض ، واتباع منشئ المحتوى ، وتمكين إشعارات العرض القادمة) منذ إطلاقه في مايو 3.

الرجوع إلى جزء 1 لمعرفة كيفية جمع البيانات السلوكية ومعالجتها باستخدام أنظمة البيانات والتحليلات.

حل نظرة عامة

يحتوي مُقترح العرض المستند إلى ML لـ Amp على خمسة مكونات رئيسية ، كما هو موضح في الرسم التخطيطي للهندسة المعمارية التالي:

  1. تطبيق الهاتف المحمول Amp.
  2. الخدمات الخلفية التي تجمع البيانات السلوكية ، مثل الإعجابات والمتابعات ، بالإضافة إلى بث المعلومات المتعلقة بالعرض مثل تحديثات الحالة عندما يتم بث العروض مباشرة.
  3. استيعاب البيانات السلوكية والعرضية في الوقت الفعلي ، والحوسبة والتخزين في الوقت الفعلي (عبر الإنترنت).
  4. ميزة الدُفعات (غير المتصلة) الحوسبة والتخزين.
  5. نظام المُزكي الذي يتعامل مع الطلبات الواردة من الواجهة الخلفية للتطبيق للحصول على قائمة بالعروض. يتضمن ذلك الاستدلال في الوقت الفعلي لترتيب العروض بناءً على الميزات الشخصية وغير المخصصة.

يركز هذا المنشور على الأجزاء 3 و 4 و 5 في محاولة لتفصيل ما يلي:

يوضح الرسم البياني التالي العمارة عالية المستوى ومكوناتها.

في الأقسام التالية ، نقدم مزيدًا من التفاصيل المتعلقة بحوسبة الميزات في الوقت الفعلي ، وحوسبة الميزات المجمعة ، والاستدلال في الوقت الفعلي ، والصحة التشغيلية ، والنتائج التي لاحظناها.

ميزة الحوسبة في الوقت الحقيقي

تحتاج بعض الميزات ، مثل الإعجاب والاستماع إلى عدد من العروض ، إلى أن يتم دفقها بشكل مستمر واستخدامها كما هي ، في حين أن البعض الآخر ، مثل عدد جلسات الاستماع التي تزيد عن 5 دقائق ، تحتاج أيضًا إلى التحويل في الوقت الفعلي كبيانات أولية للجلسات المتدفقة. تتم الإشارة إلى هذه الأنواع من الميزات حيث يلزم حساب القيم في وقت الاستدلال بالتوقيت (حفرة) الميزات. يجب تحديث بيانات ميزات PIT بسرعة ، ويجب كتابة أحدث إصدار وقراءته بزمن انتقال منخفض (أقل من 20 مللي ثانية لكل مستخدم لكل 1,000 عرض). يجب أن تكون البيانات أيضًا في تخزين دائم لأن البيانات المفقودة أو الجزئية قد تتسبب في تدهور التوصيات وتجربة العميل السيئة. بالإضافة إلى زمن انتقال القراءة / الكتابة ، تتطلب ميزات PIT أيضًا وقت انعكاس منخفض. وقت الانعكاس هو الوقت الذي تستغرقه الميزة حتى تصبح متاحة للقراءة بعد إصدار الأحداث المساهمة ، على سبيل المثال ، الوقت بين المستمع الذي يحب العرض ويتم تحديث ميزة PIT LikeCount.

مصادر البيانات هي خدمات الواجهة الخلفية التي تخدم التطبيق مباشرة. يتم تحويل بعض البيانات إلى مقاييس يتم بثها بعد ذلك عبر خدمة إعلام أمازون البسيطة (Amazon SNS) للمستمعين في المراحل النهائية مثل خط أنابيب تحويل ميزات ML. تعد قاعدة البيانات الموجودة في الذاكرة مثل MemoryDB خدمة مثالية للتخزين الدائم والأداء الفائق السرعة بأحجام كبيرة. مكون الحساب الذي يحول ويكتب الميزات إلى MemoryDB هو Lambda. تتبع حركة مرور التطبيقات أنماطًا يومية وأسبوعية من القمم والانخفاضات حسب الوقت واليوم. يسمح Lambda بالتدرج التلقائي للحجم الوارد للأحداث. كما أن الطبيعة المستقلة لكل تحويل متري فردي تجعل Lambda ، وهي خدمة عديمة الجنسية بمفردها ، مناسبة لهذه المشكلة. وضع خدمة Amazon Simple Queue Service (Amazon SQS) بين Amazon SNS و Lambda لا يمنع فقدان الرسائل فحسب ، بل يعمل أيضًا كمخزن مؤقت للدفقات غير المتوقعة لحركة المرور التي قد لا تكون حدود التزامن Lambda المكوّنة مسبقًا كافية للخدمة.

ميزة الحوسبة الدفعية

تعد الميزات التي تستخدم البيانات السلوكية التاريخية لتمثيل ذوق المستخدم المتطور أكثر تعقيدًا في الحساب ولا يمكن حسابها في الوقت الفعلي. يتم حساب هذه الميزات من خلال عملية مجمعة يتم تشغيلها بشكل متكرر ، على سبيل المثال مرة واحدة يوميًا. يجب أن تدعم بيانات ميزات الدُفعات الاستعلام السريع لتصفية البيانات وتجميعها ، وقد تمتد لفترات طويلة من الوقت ، لذا ستكون أكبر في الحجم. نظرًا لأنه يتم أيضًا استرداد ميزات الدُفعات وإرسالها كمدخلات للاستدلال في الوقت الفعلي ، فلا يزال يتعين قراءتها بزمن انتقال منخفض.

لا يشتمل جمع البيانات الأولية لحوسبة الميزات المجمعة على متطلبات وقت الانعكاس بالدقيقة الفرعية التي تتطلبها ميزات PIT ، مما يجعل من الممكن تخزين الأحداث مؤقتًا لفترة أطول وتحويل المقاييس دفعة واحدة. استخدم هذا الحل Kinesis Data Firehose ، وهي خدمة مُدارة لاستيعاب تدفق البيانات بسرعة إلى العديد من الوجهات ، بما في ذلك خدمة تخزين أمازون البسيطة (Amazon S3) لاستمرار المقاييس في بحيرة بيانات S3 لاستخدامها في العمليات الحسابية غير المتصلة بالإنترنت. يوفر Kinesis Data Firehose مخزنًا مؤقتًا للحدث وتكامل Lambda لتجميع هذه المقاييس وتحويلها بشكل مجمّع واستمرارها بسهولة إلى Amazon S3 لاستخدامها لاحقًا من خلال حوسبة الميزات المجمعة. لا تحتوي حسابات الميزات الدفعية على نفس متطلبات القراءة / الكتابة ذات زمن الوصول المنخفض مثل ميزات PIT ، مما يجعل Amazon S3 الخيار الأفضل لأنه يوفر تخزينًا منخفض التكلفة ودائمًا لتخزين هذه الكميات الكبيرة من مقاييس الأعمال.

يستخدم نموذج ML الأولي لدينا 21 ميزة دفعة يتم حسابها يوميًا باستخدام البيانات التي تم التقاطها في الشهرين الماضيين. تتضمن هذه البيانات كلاً من سجل التشغيل والتفاعل مع التطبيق لكل مستخدم ، وتنمو مع عدد المستخدمين وتكرار استخدام التطبيق. تتطلب هندسة الميزات في هذا النطاق عملية آلية لسحب بيانات الإدخال المطلوبة ومعالجتها بالتوازي وتصدير النتيجة إلى التخزين الدائم. البنية التحتية للمعالجة مطلوبة فقط لمدة الحسابات. معالجة SageMaker يوفر صور Docker مُنشأة مسبقًا تتضمن Apache Spark والاعتماديات الأخرى اللازمة لتشغيل مهام معالجة البيانات الموزعة على نطاق واسع. تتم إدارة البنية التحتية الأساسية لوظيفة المعالجة بالكامل بواسطة SageMaker. يتم توفير موارد المجموعة طوال مدة عملك ، ويتم تنظيمها عند اكتمال المهمة.

كل خطوة في العملية المجمعة - تجميع البيانات ، وهندسة الميزات ، واستمرار الميزة - هي جزء من سير العمل الذي يتطلب معالجة الأخطاء ، وإعادة المحاولة ، وانتقالات الحالة فيما بينها. مع وظائف خطوة AWS، يمكنك إنشاء جهاز حالة وتقسيم سير العمل إلى عدة خطوات للمعالجة المسبقة والمعالجة اللاحقة ، بالإضافة إلى خطوة لاستمرار الميزات في متجر SageMaker Feature Store أو البيانات الأخرى إلى Amazon S3. يمكن تشغيل آلة الحالة في وظائف الخطوة عبر أمازون إيفينت بريدج لأتمتة الحوسبة المجمعة للتشغيل وفقًا لجدول زمني محدد ، مثل مرة واحدة كل يوم في الساعة 10:00 مساءً بالتوقيت العالمي المنسق.

بعد حساب الميزات ، يجب إصدارها وتخزينها لتتم قراءتها أثناء الاستدلال بالإضافة إلى إعادة تدريب النموذج. بدلاً من إنشاء خدمة تخزين وإدارة الميزات الخاصة بك ، يمكنك استخدام SageMaker Feature Store. Feature Store هو مستودع مُدار بالكامل ومصمم لغرض تخزين ومشاركة وإدارة الميزات لنماذج ML. يخزن تاريخ ميزات ML في المتجر غير المتصل (Amazon S3) ويوفر أيضًا واجهات برمجة التطبيقات لمتجر عبر الإنترنت للسماح بقراءات منخفضة زمن الوصول لأحدث الميزات. يمكن أن يقدم المتجر غير المتصل البيانات التاريخية لمزيد من التدريب والتجريب على النموذج ، ويمكن استدعاء المتجر عبر الإنترنت من خلال واجهات برمجة التطبيقات التي تواجه العملاء للحصول على ميزات للاستدلال في الوقت الفعلي. نظرًا لأننا نطور خدماتنا لتقديم محتوى أكثر تخصيصًا ، فإننا نتوقع تدريب نماذج ML إضافية وبمساعدة ميزة متجر الميزات ، ابحث واكتشف وإعادة استخدام الميزات بين هذه النماذج.

الاستدلال في الوقت الحقيقي

يتطلب الاستدلال في الوقت الفعلي عادةً استضافة نماذج ML خلف نقاط النهاية. يمكنك القيام بذلك باستخدام خوادم الويب أو الحاويات ، ولكن هذا يتطلب جهدًا هندسيًا للتعلم الآلي وبنية تحتية لإدارتها وصيانتها. يجعل SageMaker من السهل نشر نماذج ML لنقاط النهاية في الوقت الحقيقي. يتيح لك SageMaker تدريب نماذج ML وتحميلها واستضافتها من خلال إنشاء نقاط نهاية SageMaker وتكوينها. يفي الاستدلال في الوقت الفعلي بمتطلبات زمن الوصول المنخفض لعروض الترتيب أثناء تصفحها على صفحة Amp الرئيسية.

بالإضافة إلى الاستضافة المُدارة ، يوفر SageMaker مقياسًا مُدارًا لنقطة النهاية. يسمح لك استدلال SageMaker بتعريف سياسة القياس التلقائي مع الحد الأدنى والحد الأقصى لعدد المثيلات واستخدام الهدف لبدء القياس. بهذه الطريقة ، يمكنك بسهولة التوسع أو الخروج مع تغير الطلب.

الصحة التشغيلية

يتغير عدد الأحداث التي يعالجها هذا النظام لحوسبة الميزات في الوقت الفعلي وفقًا للنمط الطبيعي لاستخدام التطبيق (حركة مرور أعلى أو أقل بناءً على الوقت من اليوم أو يوم الأسبوع). وبالمثل ، فإن عدد الطلبات التي يتلقاها للاستدلال في الوقت الفعلي يتناسب مع عدد مستخدمي التطبيق المتزامنين. تحصل هذه الخدمات أيضًا على زيادات غير متوقعة في حركة المرور بسبب الترويج الذاتي في وسائل التواصل الاجتماعي من قبل المبدعين المشهورين. على الرغم من أنه من المهم التأكد من أن النظام يمكن أن يتوسع لأعلى ولأسفل لخدمة حركة المرور الواردة بنجاح وبشكل مقتصد ، فمن المهم أيضًا مراقبة المقاييس التشغيلية والتنبيه لأي مشكلات تشغيلية غير متوقعة لمنع فقدان البيانات والخدمة للعملاء. مراقبة صحة هذه الخدمات باستخدام مباشر الأمازون CloudWatch. تتوفر مقاييس صحة الخدمة الحيوية مثل الأخطاء ووقت الاستجابة للعمليات بالإضافة إلى مقاييس الاستخدام مثل الذاكرة والقرص واستخدام وحدة المعالجة المركزية خارج الصندوق باستخدام CloudWatch. يستخدم فريق التطوير لدينا لوحات معلومات المقاييس والمراقبة الآلية لضمان قدرتنا على خدمة عملائنا بتوفر عالٍ (99.8٪) وزمن انتقال منخفض (أقل من 200 مللي ثانية من النهاية إلى النهاية للحصول على العروض الموصى بها لكل مستخدم).

قياس النتيجة

قبل عرض التوصية المستند إلى ML الموصوف في هذا المنشور ، تظهر خوارزمية إرشادية أبسط Amp بناءً على الموضوعات الشخصية التي تهم المستخدم والتي يتم الإبلاغ عنها ذاتيًا في ملفه الشخصي. قمنا بإعداد اختبار A / B لقياس تأثير التحول إلى الموصيين المستندة إلى ML مع بيانات المستخدم من تفاعلات التطبيق السابقة. حددنا التحسينات في المقاييس مثل مدة الاستماع وعدد إجراءات التفاعل (الإعجاب بالعرض ، متابعة منشئ العرض ، تشغيل الإشعارات) كمؤشرات للنجاح. أظهر اختبار A / B مع 50٪ من المستخدمين الذين يتلقون توصيات العرض المصنفة لهم عبر التوصية المعتمدة على ML زيادة بنسبة 3٪ في مقاييس تفاعل العملاء وتحسنًا بنسبة 0.5٪ في مدة التشغيل.

وفي الختام

من خلال الخدمات المصممة لهذا الغرض ، تمكن فريق Amp من إصدار واجهة برمجة التطبيقات لتوصية العرض المخصصة كما هو موضح في هذا المنشور للإنتاج في أقل من 3 أشهر. يتطور النظام أيضًا بشكل جيد للأحمال غير المتوقعة التي أنشأها مضيفو البرامج المشهورون أو الحملات التسويقية التي يمكن أن تولد تدفقًا للمستخدمين. يستخدم الحل الخدمات المدارة للمعالجة والتدريب والاستضافة ، مما يساعد على تقليل الوقت المستغرق في الصيانة اليومية للنظام. نحن قادرون أيضًا على مراقبة جميع هذه الخدمات المدارة عبر CloudWatch لضمان استمرار سلامة الأنظمة في الإنتاج.

أظهر اختبار A / B للنسخة الأولى من توصيات Amp المستندة إلى ML مقابل النهج القائم على القواعد (الذي يفرز العروض حسب الموضوعات التي تهم العميل فقط) أن المُقترح المستند إلى ML يعرض العملاء لمحتوى عالي الجودة من موضوعات أكثر تنوعًا ، مما ينتج عنه عدد أكبر من المتابعات والإشعارات الممكّنة. يعمل فريق Amp باستمرار على تحسين النماذج لتقديم توصيات ذات صلة وثيقة بالموضوع.

لمزيد من المعلومات حول Feature Store ، قم بزيارة متجر ميزات Amazon SageMaker وتحقق من حالات استخدام العملاء الأخرى في AWS مدونة التعلم الآلي.


عن المؤلفين

كيف استخدم Amp على Amazon البيانات لزيادة مشاركة العملاء ، الجزء 2: إنشاء نظام أساسي لتوصية العروض الشخصية باستخدام Amazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. عاي.توليب جوبتا مهندس حلول في Amazon Web Services. تعمل مع Amazon لتصميم وبناء ونشر الحلول التقنية على AWS. تساعد العملاء في تبني أفضل الممارسات أثناء نشر الحلول في AWS ، وهي من عشاق التحليلات والتعلم الآلي. في أوقات فراغها ، تستمتع بالسباحة والمشي لمسافات طويلة ولعب ألعاب الطاولة.

كيف استخدم Amp على Amazon البيانات لزيادة مشاركة العملاء ، الجزء 2: إنشاء نظام أساسي لتوصية العروض الشخصية باستخدام Amazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. عاي.ديفيد كو مهندس حلول في Amazon Web Services. يعمل مع عملاء AWS لتصميم وبناء ونشر الحلول التقنية على AWS. يعمل مع عملاء وسائل الإعلام والترفيه ولديه اهتمامات في تقنيات التعلم الآلي. في أوقات فراغه ، يتساءل عما يجب أن يفعله في أوقات فراغه.

كيف استخدم Amp على Amazon البيانات لزيادة مشاركة العملاء ، الجزء 2: إنشاء نظام أساسي لتوصية العروض الشخصية باستخدام Amazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. عاي.مانوليا ماكورميك هو مهندس تطوير برامج Sr لـ Amp على Amazon. إنها تصمم وتبني أنظمة موزعة باستخدام AWS لخدمة التطبيقات التي تواجه العملاء. تستمتع بقراءة وطهي وصفات جديدة في أوقات فراغها.

كيف استخدم Amp على Amazon البيانات لزيادة مشاركة العملاء ، الجزء 2: إنشاء نظام أساسي لتوصية العروض الشخصية باستخدام Amazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. عاي.جيف كريستوفرسن هو مهندس بيانات كبير في Amp على Amazon. إنه يعمل على تصميم وبناء ونشر حلول البيانات الضخمة على AWS التي تقدم رؤى قابلة للتنفيذ. يساعد الفرق الداخلية في اعتماد حلول مؤتمتة وقابلة للتطوير ، وهو متحمس للتحليلات والبيانات الضخمة. في أوقات فراغه ، عندما لا يكون على زوج من الزلاجات يمكنك أن تجده على دراجته الجبلية.

الطابع الزمني:

اكثر من التعلم الآلي من AWS