إثراء تدفقات الأخبار في الوقت الفعلي باستخدام مكتبة بيانات Refinitiv وخدمات AWS و Amazon SageMaker

إثراء تدفقات الأخبار في الوقت الفعلي باستخدام مكتبة بيانات Refinitiv وخدمات AWS و Amazon SageMaker

شارك في تأليف هذا المنشور Marios Skevofylakas و Jason Ramchandani و Haykaz Aramyan من Refinitiv، An LSEG Business.

غالبًا ما يحتاج مقدمو الخدمات المالية إلى تحديد الأخبار ذات الصلة وتحليلها واستخراج الأفكار واتخاذ الإجراءات في الوقت الفعلي ، مثل تداول أدوات معينة (مثل السلع والأسهم والأموال) بناءً على معلومات إضافية أو سياق عنصر الأخبار. أحد هذه المعلومات الإضافية (التي نستخدمها كمثال في هذا المنشور) هو شعور الأخبار.

توفر مكتبات بيانات Refinitiv (RD) مجموعة شاملة من الواجهات للوصول الموحد إلى كتالوج بيانات Refinitiv. تقدم المكتبة طبقات متعددة من التجريد توفر أنماطًا وتقنيات برمجة مختلفة مناسبة لجميع المطورين ، بدءًا من زمن الوصول المنخفض والوصول في الوقت الفعلي إلى عمليات استيعاب مجموعة بيانات Refinitiv.

في هذا المنشور ، نقدم نموذجًا أوليًا لبنية AWS يستوعب خلاصاتنا الإخبارية باستخدام مكتبات RD ويعززها بتنبؤات نموذج التعلم الآلي (ML) باستخدام الأمازون SageMaker، وهي خدمة ML مُدارة بالكامل من AWS.

في محاولة لتصميم بنية معيارية يمكن استخدامها في مجموعة متنوعة من حالات الاستخدام ، مثل تحليل المشاعر ، والتعرف على الكيانات المسماة ، وأكثر من ذلك ، بغض النظر عن نموذج ML المستخدم للتحسين ، قررنا التركيز على مساحة الوقت الحقيقي. والسبب في هذا القرار هو أن حالات الاستخدام في الوقت الفعلي تكون بشكل عام أكثر تعقيدًا وأنه يمكن أيضًا استخدام نفس البنية ، مع الحد الأدنى من التعديلات ، لاستدلال الدُفعات. في حالة الاستخدام الخاصة بنا ، نقوم بتنفيذ بنية تستوعب موجز الأخبار في الوقت الفعلي ، وتحسب المشاعر على كل عنوان إخباري باستخدام ML ، وتعيد تقديم موجز AI المحسن من خلال بنية ناشر / مشترك.

علاوة على ذلك ، لتقديم طريقة شاملة وقابلة لإعادة الاستخدام لإنتاج نماذج ML من خلال اعتماد ممارسات MLOps ، نقدم مفهوم البنية التحتية كرمز (IaC) خلال دورة حياة MLOps الكاملة للنموذج الأولي. باستخدام Terraform ونقطة دخول واحدة قابلة للتكوين ، يمكننا إنشاء البنية التحتية بأكملها ، في وضع الإنتاج ، على AWS في بضع دقائق فقط.

في هذا الحل ، لا نتطرق إلى جانب MLOps في تطوير النماذج الفردية وتدريبها ونشرها. إذا كنت مهتمًا بمعرفة المزيد حول هذا الموضوع ، فارجع إلى خارطة طريق MLOps التأسيسية للمؤسسات باستخدام Amazon SageMaker، والذي يشرح بالتفصيل إطار عمل لبناء النموذج والتدريب والنشر باتباع أفضل الممارسات.

حل نظرة عامة

في هذا النموذج الأولي ، نتبع منهجية توفير مؤتمتة بالكامل وفقًا لـ IaC أفضل الممارسات. IaC هي عملية توفير الموارد برمجيًا باستخدام البرامج النصية الآلية بدلاً من استخدام أدوات التكوين التفاعلية. يمكن أن تكون الموارد عبارة عن أجهزة وبرامج مطلوبة. في حالتنا ، نستخدم Terraform لإنجاز تنفيذ نقطة دخول واحدة قابلة للتكوين يمكنها تلقائيًا تدوير البنية التحتية بالكامل التي نحتاجها ، بما في ذلك سياسات الأمان والوصول ، بالإضافة إلى المراقبة الآلية. من خلال نقطة الإدخال الفردية هذه التي تؤدي إلى تشغيل مجموعة من البرامج النصية لـ Terraform ، واحدة لكل خدمة أو كيان مورد ، يمكننا أتمتة دورة حياة جميع مكونات البنية أو أجزاء منها ، مما يسمح لنا بتنفيذ التحكم الدقيق في كل من DevOps وكذلك جانب MLOps. بعد تثبيت Terraform وتكامله بشكل صحيح مع AWS ، يمكننا تكرار معظم العمليات التي يمكن إجراؤها على لوحات معلومات خدمة AWS.

يوضح الرسم البياني التالي بنية الحلول لدينا.

إثراء تدفقات الأخبار في الوقت الفعلي باستخدام مكتبة بيانات Refinitiv وخدمات AWS وAmazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

تتكون العمارة من ثلاث مراحل: الاستيعاب والإثراء والنشر. خلال المرحلة الأولى ، يتم تناول الخلاصات في الوقت الفعلي على ملف الأمازون الحوسبة المرنة السحابية مثيل (Amazon EC2) الذي تم إنشاؤه من خلال AMI جاهز لمكتبة بيانات Refinitiv. يتصل المثيل أيضًا بتيار بيانات عبر الأمازون كينسيس دفق البيانات، مما يؤدي إلى تشغيل ملف AWS لامدا وظيفة.

في المرحلة الثانية ، تقوم وظيفة Lambda التي يتم تشغيلها من Kinesis Data Streams بالاتصال بعناوين الأخبار وإرسالها إلى SageMaker فينبيرت نقطة النهاية ، والتي تُرجع المشاعر المحسوبة لعنصر الأخبار. هذا الشعور المحسوب هو الإثراء في بيانات الوقت الفعلي التي تقوم وظيفة Lambda بعد ذلك بلف عنصر الأخبار بها وتخزينها في الأمازون DynamoDB الجدول.

في المرحلة الثالثة من البنية ، يقوم تيار DynamoDB بتشغيل وظيفة Lambda في إدراجات عنصر جديد ، والتي تتكامل مع خادم Amazon MQ تشغيل RabbitMQ ، والذي يعيد خدمة البث المحسن للذكاء الاصطناعي.

تم اتخاذ القرار بشأن هذا التصميم الهندسي ثلاثي المراحل ، بدلاً من طبقة Lambda الأولى التي تتصل مباشرة بخادم Amazon MQ أو تنفيذ المزيد من الوظائف في مثيل EC2 ، لتمكين استكشاف هياكل تصميم AI أكثر تعقيدًا وأقل اقترانًا في المستقبل.

بناء ونشر النموذج الأولي

نقدم هذا النموذج الأولي في سلسلة من ثلاثة مخططات مفصلة. في كل مخطط ولكل خدمة مستخدمة ، ستجد لمحات عامة ومعلومات ذات صلة حول تطبيقاتها الفنية بالإضافة إلى نصوص Terraform التي تسمح لك ببدء الخدمة وتكوينها ودمجها تلقائيًا مع بقية الهيكل. في نهاية كل مخطط ، ستجد تعليمات حول كيفية التأكد من أن كل شيء يعمل كما هو متوقع حتى كل مرحلة. المخططات هي كما يلي:

لبدء تنفيذ هذا النموذج الأولي ، نقترح إنشاء بيئة Python جديدة مخصصة لها وتثبيت الحزم والأدوات اللازمة بشكل منفصل عن البيئات الأخرى التي قد تكون لديك. للقيام بذلك ، قم بإنشاء وتنشيط البيئة الجديدة في Anaconda باستخدام الأوامر التالية:

conda create —name rd_news_aws_terraform python=3.7
conda activate rd_news_aws_terraform

نحن الآن جاهزون لتثبيت برنامج واجهة سطر الأوامر AWS (AWS CLI) مجموعة أدوات ستسمح لنا ببناء جميع التفاعلات البرمجية الضرورية في وبين خدمات AWS:

pip install awscli

الآن وبعد تثبيت AWS CLI ، نحتاج إلى تثبيت Terraform. HashiCorp تزود Terraform بمثبت ثنائي يمكنك القيام به بإمكانك تحميله وتثبيت.

بعد تثبيت كلتا الأداتين ، تأكد من أنهما يعملان بشكل صحيح باستخدام الأوامر التالية:

terraform -help
AWS – version

أنت الآن جاهز لمتابعة المخططات التفصيلية لكل مرحلة من مراحل التنفيذ الثلاثة.

يمثل هذا المخطط المراحل الأولية للهندسة المعمارية التي تسمح لنا باستيعاب موجز الأخبار في الوقت الفعلي. يتكون من المكونات التالية:

  • تقوم Amazon EC2 بإعداد المثيل الخاص بك لعرض RD News - يقوم هذا القسم بإعداد مثيل EC2 بطريقة تمكنه من الاتصال بواجهة برمجة تطبيقات مكتبات RD والدفق في الوقت الفعلي. نعرض أيضًا كيفية حفظ صورة المثيل الذي تم إنشاؤه لضمان إعادة استخدامه وقابليته للتوسع.
  • بث الأخبار في الوقت الفعلي من Amazon EC2 - تنفيذ مفصل للتكوينات اللازمة لتمكين Amazon EC2 من توصيل مكتبات RD بالإضافة إلى البرامج النصية لبدء العرض.
  • إنشاء وإطلاق Amazon EC2 من AMI - ابدأ تشغيل مثيل جديد عن طريق نقل ملفات العرض في وقت واحد إلى المثيل الذي تم إنشاؤه حديثًا ، وكل ذلك باستخدام Terraform تلقائيًا.
  • إنشاء دفق بيانات Kinesis - يقدم هذا القسم نظرة عامة على تدفقات بيانات Kinesis وكيفية إعداد تدفق على AWS.
  • ربط ودفع البيانات إلى Kinesis - بمجرد عمل رمز الإدخال ، نحتاج إلى توصيله وإرسال البيانات إلى تيار Kinesis.
  • اختبار النموذج الأولي حتى الآن - نحن نستخدم الأمازون CloudWatch وأدوات سطر الأوامر للتحقق من أن النموذج الأولي يعمل حتى هذه النقطة وأنه يمكننا المتابعة إلى المخطط التالي. يجب أن يبدو سجل البيانات التي تم إدخالها مثل لقطة الشاشة التالية.

إثراء تدفقات الأخبار في الوقت الفعلي باستخدام مكتبة بيانات Refinitiv وخدمات AWS وAmazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

في هذا المخطط الثاني ، نركز على الجزء الرئيسي من البنية: وظيفة Lambda التي تستوعب وتحلل تدفق الأخبار ، وتربط استدلال الذكاء الاصطناعي به ، وتخزنه لمزيد من الاستخدام. يتضمن المكونات التالية:

  • لامدا - تحديد تكوين Terraform Lambda للسماح له بالاتصال بنقطة نهاية SageMaker.
  • الأمازون S3 - لتنفيذ Lambda ، نحتاج إلى تحميل الكود المناسب إلى خدمة تخزين أمازون البسيطة (Amazon S3) والسماح لوظيفة Lambda باستيعابها في بيئتها. يصف هذا القسم كيف يمكننا استخدام Terraform لتحقيق ذلك.
  • تنفيذ وظيفة Lambda: الخطوة 1 ، التعامل مع حدث Kinesis - في هذا القسم ، نبدأ في بناء وظيفة Lambda. هنا ، نبني جزء معالج استجابة دفق بيانات Kinesis فقط.
  • SageMaker - في هذا النموذج الأولي ، نستخدم نموذج Hugging Face تم تدريبه مسبقًا ونقوم بتخزينه في نقطة نهاية SageMaker. نقدم هنا كيف يمكن تحقيق ذلك باستخدام البرامج النصية Terraform وكيف تتم عمليات الدمج المناسبة للسماح لنقاط نهاية SageMaker ووظائف Lambda بالعمل معًا.
    • في هذه المرحلة ، يمكنك بدلاً من ذلك استخدام أي نموذج آخر قمت بتطويره ونشره خلف نقطة نهاية SageMaker. يمكن أن يوفر مثل هذا النموذج تحسينًا مختلفًا لبيانات الأخبار الأصلية ، بناءً على احتياجاتك. اختياريًا ، يمكن استقراء ذلك لنماذج متعددة لإجراء تحسينات متعددة في حالة وجودها. بفضل باقي البنية ، فإن أي نماذج من هذا القبيل ستثري مصادر البيانات الخاصة بك في الوقت الفعلي.
  • بناء وظيفة Lambda: الخطوة 2 ، استدعاء نقطة نهاية SageMaker - في هذا القسم ، نبني وظيفة Lambda الأصلية الخاصة بنا عن طريق إضافة كتلة SageMaker للحصول على عنوان أخبار محسّن من خلال استدعاء نقطة نهاية SageMaker.
  • DynamoDB - أخيرًا ، عندما يكون استنتاج الذكاء الاصطناعي في ذاكرة وظيفة Lambda ، فإنه يعيد تجميع العنصر ويرسله إلى جدول DynamoDB للتخزين. هنا ، نناقش كلاً من كود Python المناسب اللازم لإنجاز ذلك ، بالإضافة إلى نصوص Terraform النصية الضرورية التي تمكن هذه التفاعلات.
  • بناء وظيفة Lambda: الخطوة 3 ، دفع البيانات المحسنة إلى DynamoDB - هنا ، نواصل بناء وظيفة Lambda الخاصة بنا عن طريق إضافة الجزء الأخير الذي ينشئ إدخالًا في جدول Dynamo.
  • اختبار النموذج الأولي حتى الآن - يمكننا الانتقال إلى جدول DynamoDB على وحدة تحكم DynamoDB للتحقق من ظهور تحسيناتنا في الجدول.

إثراء تدفقات الأخبار في الوقت الفعلي باستخدام مكتبة بيانات Refinitiv وخدمات AWS وAmazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

هذا المخطط الثالث ينهي هذا النموذج الأولي. وهي تركز على إعادة توزيع عنصر البيانات المحسّن بالذكاء الاصطناعي الذي تم إنشاؤه حديثًا إلى خادم RabbitMQ في Amazon MQ ، مما يسمح للمستهلكين بالاتصال واسترداد العناصر الإخبارية المحسّنة في الوقت الفعلي. يتضمن المكونات التالية:

  • دينامو دي بي تيارات - عندما يكون عنصر الأخبار المحسن في DynamoDB ، نقوم بإعداد حدث يتم تشغيله ويمكن بعد ذلك التقاطه من وظيفة Lambda المناسبة.
  • كتابة منتج Lambda - تقوم وظيفة Lambda هذه بالتقاط الحدث وتعمل كمنتج لدفق RabbitMQ. تقدم هذه الوظيفة الجديدة مفهوم طبقات Lambda لأنها تستخدم مكتبات Python لتنفيذ وظائف المنتج.
  • مستهلكو Amazon MQ و RabbitMQ - تتمثل الخطوة الأخيرة من النموذج الأولي في إعداد خدمة RabbitMQ وتنفيذ مثال للمستهلك الذي سيتصل ببث الرسائل ويستقبل عناصر الأخبار المحسّنة بالذكاء الاصطناعي.
  • الاختبار النهائي للنموذج الأولي - نحن نستخدم عملية شاملة للتحقق من أن النموذج الأولي يعمل بشكل كامل ، بدءًا من الاستيعاب وحتى إعادة تقديم واستهلاك الدفق المحسن الجديد بالذكاء الاصطناعي.

في هذه المرحلة ، يمكنك التحقق من أن كل شيء يعمل من خلال الانتقال إلى لوحة معلومات RabbitMQ ، كما هو موضح في لقطة الشاشة التالية.

إثراء تدفقات الأخبار في الوقت الفعلي باستخدام مكتبة بيانات Refinitiv وخدمات AWS وAmazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

في المخطط النهائي ، يمكنك أيضًا العثور على متجه اختبار مفصل للتأكد من أن الهيكل بأكمله يتصرف كما هو مخطط له.

وفي الختام

في هذا المنشور ، شاركنا حلاً باستخدام ML على السحابة مع خدمات AWS مثل SageMaker (ML) و Lambda (بدون خادم) و Kinesis Data Streams (الدفق) لإثراء تدفق البيانات الإخبارية التي توفرها مكتبات بيانات Refinitiv. يضيف الحل درجة المشاعر لعناصر الأخبار في الوقت الفعلي ويقيس البنية التحتية باستخدام التعليمات البرمجية.

تكمن فائدة هذه البنية المعيارية في أنه يمكنك إعادة استخدامها مع النموذج الخاص بك لأداء أنواع أخرى من زيادة البيانات ، بطريقة غير خادمة وقابلة للتطوير وفعالة من حيث التكلفة يمكن تطبيقها فوق مكتبة بيانات Refinitiv. هذا يمكن أن يضيف قيمة للتداول / الاستثمار / سير عمل إدارة المخاطر.

إذا كان لديك أي تعليقات أو أسئلة ، فيرجى تركها في قسم التعليقات.

معلومات ذات الصلة


 حول المؤلف

إثراء تدفقات الأخبار في الوقت الفعلي باستخدام مكتبة بيانات Refinitiv وخدمات AWS وAmazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.ماريوس سكيفوفيلاكاس يأتي من خلفية الخدمات المالية والخدمات المصرفية الاستثمارية والاستشارات التكنولوجية. حاصل على دكتوراه في الهندسة. في الذكاء الاصطناعي وماجستير. في ماشين فيجن. طوال حياته المهنية ، شارك في العديد من مشاريع الذكاء الاصطناعي و DLT متعددة التخصصات. وهو حاليًا محامي مطور في Refinitiv ، وهي إحدى شركات LSEG ، مع التركيز على تطبيقات الذكاء الاصطناعي والكمية في الخدمات المالية.

إثراء تدفقات الأخبار في الوقت الفعلي باستخدام مكتبة بيانات Refinitiv وخدمات AWS وAmazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.جايسون رامشانداني عمل في Refinitiv ، وهي شركة LSEG Business ، لمدة 8 سنوات كمحامي مطور رئيسي يساعد في بناء مجتمع مطوريهم. عمل سابقًا في الأسواق المالية لأكثر من 15 عامًا بخلفية كمية في المساحة المرتبطة بالأسهم / الأسهم في Okasan Securities و Sakura Finance و Jefferies LLC. جامعته هي UCL.

إثراء تدفقات الأخبار في الوقت الفعلي باستخدام مكتبة بيانات Refinitiv وخدمات AWS وAmazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.حيكاز آراميان يأتي من خلفية مالية وتقنية. حاصل على درجة الدكتوراه. في المالية ، وماجستير. في المالية والتكنولوجيا والسياسة. من خلال 10 سنوات من الخبرة المهنية ، عمل Haykaz في العديد من المشاريع متعددة التخصصات التي تشمل المعاشات التقاعدية وصناديق رأس المال الاستثماري والشركات الناشئة في مجال التكنولوجيا. يعمل حاليًا كمحامي مطور لدى Refinitiv ، إحدى شركات LSEG ، التي تركز على تطبيقات الذكاء الاصطناعي في الخدمات المالية.

إثراء تدفقات الأخبار في الوقت الفعلي باستخدام مكتبة بيانات Refinitiv وخدمات AWS وAmazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.جورجيوس شيناس مهندس حلول متخصص أول للذكاء الاصطناعي / تعلم الآلة في منطقة أوروبا والشرق الأوسط وإفريقيا. يقيم في لندن ويعمل بشكل وثيق مع العملاء في المملكة المتحدة وأيرلندا. يساعد Georgios العملاء على تصميم ونشر تطبيقات التعلم الآلي في الإنتاج على AWS مع اهتمام خاص بممارسات MLOps وتمكين العملاء من أداء التعلم الآلي على نطاق واسع. في أوقات فراغه ، يستمتع بالسفر والطهي وقضاء الوقت مع الأصدقاء والعائلة.

إثراء تدفقات الأخبار في الوقت الفعلي باستخدام مكتبة بيانات Refinitiv وخدمات AWS وAmazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.موثوفيلان سواميناثان هو مهندس حلول للمؤسسات مقره في نيويورك. إنه يعمل مع عملاء المؤسسات الذين يقدمون إرشادات معمارية في بناء حلول مرنة وفعالة من حيث التكلفة ومبتكرة تلبي احتياجات أعمالهم وتساعدهم على التنفيذ على نطاق واسع باستخدام منتجات وخدمات AWS.

إثراء تدفقات الأخبار في الوقت الفعلي باستخدام مكتبة بيانات Refinitiv وخدمات AWS وAmazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.مايور أودرناني يقود أعمال AWS AI & ML مع المؤسسات التجارية في المملكة المتحدة وأيرلندا. في منصبه ، يقضي مايور معظم وقته مع العملاء والشركاء للمساعدة في إنشاء حلول مؤثرة تلبي الاحتياجات الأكثر إلحاحًا للعميل أو لقطاع أوسع يستفيد من خدمات سحابة AWS والذكاء الاصطناعي والتعلم الآلي. يعيش مايور في منطقة لندن. حصل على ماجستير في إدارة الأعمال من المعهد الهندي للإدارة وبكالوريوس في هندسة الكمبيوتر من جامعة مومباي.

الطابع الزمني:

اكثر من التعلم الآلي من AWS