تشفير خصائص النص متعدد اللغات في Amazon Neptune لتدريب النماذج التنبؤية PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

قم بترميز خصائص النص متعدد اللغات في Amazon Neptune لتدريب النماذج التنبؤية

أمازون نبتون ML هي قدرة التعلم الآلي (ML) أمازون نبتون يساعدك على إجراء تنبؤات دقيقة وسريعة بشأن بيانات الرسم البياني. تحت الغطاء ، يستخدم Neptune ML الشبكات العصبية للرسم البياني (GNNs) للاستفادة في الوقت نفسه من بنية الرسم البياني وخصائص العقدة / الحافة لحل المهمة المطروحة. تستخدم الطرق التقليدية الخصائص فقط ولا تستخدم بنية الرسم البياني (على سبيل المثال ، XGBoost ، الشبكات العصبية) ، أو بنية الرسم البياني فقط ولا توجد خصائص (على سبيل المثال ، node2vec ، Label Propagation). لمعالجة خصائص العقدة / الحافة بشكل أفضل ، تتطلب خوارزميات ML أن تكون البيانات بيانات رقمية حسنة التصرف ، لكن البيانات الأولية في قاعدة البيانات يمكن أن يكون لها أنواع أخرى ، مثل النص الخام. للاستفادة من هذه الأنواع الأخرى من البيانات ، نحتاج إلى خطوات معالجة متخصصة تحولها من نوعها الأصلي إلى بيانات رقمية ، وتعتمد جودة نتائج ML بشدة على جودة تحويلات البيانات هذه. يُعد النص الخام ، مثل الجمل ، من بين أصعب الأنواع للتحويل ، ولكن التقدم الأخير في مجال معالجة اللغة الطبيعية (NLP) أدى إلى أساليب قوية يمكنها التعامل مع النصوص الواردة من لغات متعددة ومجموعة متنوعة من الأطوال.

بدءًا من الإصدار 1.1.0.0 ، يدعم Neptune ML ترميزات نصية متعددة (text_fasttext, text_sbert, text_word2vecو text_tfidf) ، والتي تجلب فوائد التطورات الحديثة في البرمجة اللغوية العصبية (NLP) وتمكن من دعم خصائص النص متعدد اللغات بالإضافة إلى متطلبات الاستدلال الإضافية حول اللغات وطول النص. على سبيل المثال ، في حالة استخدام توصية الوظيفة ، يمكن وصف الوظائف في بلدان مختلفة بلغات مختلفة ويختلف طول الأوصاف الوظيفية بشكل كبير. بالإضافة إلى ذلك ، يدعم Neptune ML السيارات الخيار الذي يختار تلقائيًا أفضل طريقة تشفير بناءً على خصائص ميزة النص في البيانات.

في هذا المنشور ، نوضح استخدام كل برنامج تشفير نصي ، ونقارن بين مزاياها وعيوبها ، ونعرض مثالاً على كيفية اختيار برامج ترميز النص المناسبة لمهمة توصية الوظيفة.

ما هو مشفر النص؟

الهدف من تشفير النص هو تحويل خصائص الحافة / العقدة المستندة إلى النص في Neptune إلى متجهات ذات حجم ثابت لاستخدامها في نماذج التعلم الآلي النهائية إما لتصنيف العقدة أو مهام التنبؤ بالارتباط. يمكن أن يختلف طول ميزة النص كثيرًا. يمكن أن تكون كلمة أو عبارة أو جملة أو فقرة أو حتى مستندًا بجمل متعددة (الحد الأقصى لحجم خاصية واحدة هو 55 ميجابايت في Neptune). بالإضافة إلى ذلك ، يمكن أن تكون ميزات النص بلغات مختلفة. قد تكون هناك أيضًا جمل تحتوي على كلمات بعدة لغات مختلفة ، والتي نعرّفها على أنها تناوب لغوي.

بدءًا من الإصدار 1.1.0.0 ، يتيح لك Neptune ML الاختيار من بين عدة برامج ترميز نصية مختلفة. يعمل كل برنامج تشفير بشكل مختلف قليلاً ، ولكن له نفس الهدف المتمثل في تحويل حقل قيمة نصية من Neptune إلى متجه ذي حجم ثابت نستخدمه لبناء نموذج GNN الخاص بنا باستخدام Neptune ML. الترميز الجديد كالتالي:

  • text_fasttext (جديد) - الاستخدامات نص سريع التشفير. FastText هي مكتبة لتعلم تمثيل النص بكفاءة. text_fasttext موصى به للميزات التي تستخدم لغة واحدة فقط من اللغات الخمس التي يدعمها fastText (الإنجليزية والصينية والهندية والإسبانية والفرنسية). ال text_fasttext يمكن أن تأخذ الطريقة اختياريًا max_length ، الذي يحدد الحد الأقصى لعدد الرموز المميزة في قيمة خاصية النص التي سيتم تشفيرها ، وبعد ذلك يتم اقتطاع السلسلة. يمكنك اعتبار الرمز المميز ككلمة. يمكن أن يؤدي ذلك إلى تحسين الأداء عندما تحتوي قيم خصائص النص على سلاسل طويلة ، لأن if max_length لم يتم تحديده ، يقوم fastText بترميز جميع الرموز بغض النظر عن طول السلسلة.
  • text_sbert (جديد) - يستخدم الجملة BERT (سبيرت) طريقة الترميز. SBERT هو نوع من طرق تضمين الجملة باستخدام نماذج تعلم التمثيل السياقي ، شبكات بيرت. text_sbert يوصى به عندما لا تدعم اللغة text_fasttext. يدعم Neptune طريقتين من SBERT: text_sbert128، وهو الإعداد الافتراضي إذا حددته للتو text_sbertو text_sbert512. الفرق بينهما هو الحد الأقصى لعدد الرموز المميزة في خاصية النص التي يتم تشفيرها. ال text_sbert128 تشفير أول 128 رمزًا فقط ، بينما text_sbert512 ترميز ما يصل إلى 512 توكينز. نتيجة لذلك ، باستخدام text_sbert512 يمكن أن تتطلب وقت معالجة أكثر من text_sbert128. كلا الطريقتين أبطأ من text_fasttext.
  • text_word2vec - الاستخدامات Word2Old تم نشر الخوارزميات في الأصل بواسطة Google لتشفير النص. يدعم Word2Vec اللغة الإنجليزية فقط.
  • text_tfidf - يستخدم مصطلح تردد معكوس التردد (قوة العمل-جيش الدفاع الإسرائيلي) vectorizer لتشفير النص. يدعم ترميز TF-IDF الميزات الإحصائية التي لا تدعمها الترميزات الأخرى. إنه يحدد أهمية أو صلة الكلمات في خاصية عقدة واحدة بين جميع العقد الأخرى.

نلاحظ أن text_word2vec و text_tfidf كانت مدعومة سابقًا والطرق الجديدة text_fasttext و text_sbert يوصى بها على الطرق القديمة.

مقارنة بين مختلف برامج ترميز النص

يوضح الجدول التالي المقارنة التفصيلية لجميع خيارات ترميز النص المدعومة (text_fasttext, text_sbertو text_word2vec). text_tfidf ليست طريقة ترميز قائمة على النموذج ، بل هي مقياس قائم على العد الذي يقيم مدى صلة الرمز المميز (على سبيل المثال ، كلمة) بميزات النص في العقد أو الحواف الأخرى ، لذلك لا نقوم بتضمين text_tfidf للمقارنة. نوصي باستخدام text_tfidf عندما تريد تحديد أهمية أو ملاءمة بعض الكلمات في عقدة واحدة أو خاصية الحافة بين جميع خصائص العقدة أو الحافة الأخرى.)

. . text_fasttext text_sbert text_word2vec
نموذج القدرة اللغة المدعومة الإنجليزية والصينية والهندية والإسبانية والفرنسية أكثر من 50 لغة عربي
يمكن ترميز خصائص النص التي تحتوي على كلمات بلغات مختلفة لا نعم لا
أقصى طول دعم لا يوجد حد أقصى للطول يشفر تسلسل النص بطول أقصى يبلغ 128 و 512 لا يوجد حد أقصى للطول
تكلفة الوقت تحميل حوالي 10 ثانية حوالي 2 ثانية حوالي 2 ثانية
الإستنباط سريع بطيء متوسط

لاحظ نصائح الاستخدام التالية:

  • لقيم خصائص النص باللغات الإنجليزية والصينية والهندية والإسبانية والفرنسية ، text_fasttext هو الترميز الموصى به. ومع ذلك ، لا يمكنه التعامل مع الحالات التي تحتوي فيها نفس الجملة على كلمات بأكثر من لغة واحدة. للغات أخرى غير الخمس ذلك fastText يدعم ، استخدم text_sbert التشفير.
  • إذا كان لديك العديد من السلاسل النصية لقيمة الخاصية أطول من ، على سبيل المثال ، 120 رمزًا مميزًا ، فاستخدم max_length للحد من عدد الرموز المميزة في كل سلسلة text_fasttext يشفر.

للتلخيص ، بناءً على حالة الاستخدام الخاصة بك ، نوصي باستخدام طريقة التشفير التالية:

  • إذا كانت خصائص النص الخاصة بك بإحدى اللغات الخمس المدعومة ، فإننا نوصي باستخدام text_fasttext بسبب الاستدلال السريع. text_fasttext هي الخيارات الموصى بها ويمكنك أيضًا استخدامها text_sbert في الاستثناءين التاليين.
  • إذا كانت خصائص النص الخاصة بك بلغات مختلفة ، فإننا نوصي باستخدام text_sbert لأنها الطريقة الوحيدة المدعومة التي يمكنها ترميز خصائص النص التي تحتوي على كلمات بعدة لغات مختلفة.
  • إذا كانت خصائص النص الخاصة بك بلغة واحدة ليست واحدة من اللغات الخمس المدعومة ، فنحن نوصي باستخدام text_sbert لأنه يدعم أكثر من 50 لغة.
  • إذا كان متوسط ​​طول خصائص النص الخاصة بك أطول من 128 ، ففكر في استخدام text_sbert512 or text_fasttext. يمكن أن تستخدم كلتا الطريقتين ترميز تسلسلات نصية أطول.
  • إذا كانت خصائص النص باللغة الإنجليزية فقط ، فيمكنك استخدام text_word2vec، لكننا نوصي باستخدام text_fasttext للاستدلال السريع.

عرض حالة الاستخدام: مهمة توصية الوظيفة

الهدف من مهمة توصية الوظيفة هو التنبؤ بالوظائف التي سيتقدم المستخدمون لها بناءً على تطبيقاتهم السابقة والمعلومات الديموغرافية وتاريخ العمل. يستخدم هذا المنشور ملفات مجموعة بيانات Kaggle مفتوحة. نقوم ببناء مجموعة البيانات كرسم بياني من نوع ثلاث عقد: وظيفة, المستخدمو مدن.

تتميز الوظيفة بعنوانها ووصفها ومتطلباتها والمدينة التي تقع فيها والدولة. يتم وصف المستخدم بخصائص التخصص ونوع الدرجة وعدد سجل العمل وإجمالي عدد سنوات الخبرة العملية وغير ذلك. بالنسبة لحالة الاستخدام هذه ، فإن المسمى الوظيفي والوصف الوظيفي ومتطلبات الوظيفة والتخصصات كلها في شكل نص.

في مجموعة البيانات ، يمتلك المستخدمون الخصائص التالية:

  • الولايه او المحافظه - على سبيل المثال ، CA أو 广东 省 (صيني)
  • الاكتئاب - على سبيل المثال ، إدارة الموارد البشرية أو Lic Cytura Fisica (بالإسبانية)
  • نوع الدرجة - على سبيل المثال ، بكالوريوس أو ماجستير أو دكتوراه أو لا شيء
  • WorkHistoryCount - على سبيل المثال ، 0 ، 1 ، 16 ، وهكذا
  • إجمالي سنوات الخبرة - على سبيل المثال ، 0.0 أو 10.0 أو NAN

الوظائف لها الخصائص التالية:

  • عنوان الاعلان - على سبيل المثال ، مساعد إداري أو Lic Cultura Física (إسباني).
  • الوصف - على سبيل المثال ، "وظيفة المساعد الإداري هذه مسؤولة عن أداء مجموعة متنوعة من وظائف الدعم الكتابي والإداري في مجالات الاتصالات ، ..." متوسط ​​عدد الكلمات في الوصف حوالي 192.2.
  • المتطلبات الأساسية - على سبيل المثال ، "متطلبات الوظيفة: 1. الاهتمام بالتفاصيل. 2. القدرة على العمل في بيئة سريعة الخطى ؛ 3. إصدار الفواتير ... "
  • الولايه او المحافظه: - على سبيل المثال ، CA و NY وما إلى ذلك.

نوع العقدة مدن مثل واشنطن العاصمة وأورلاندو فلوريدا لديها فقط معرف لكل عقدة. في القسم التالي ، نقوم بتحليل خصائص ميزات النص المختلفة ونوضح كيفية تحديد أدوات ترميز النص المناسبة لخصائص نصية مختلفة.

كيفية تحديد برامج ترميز النص المختلفة

على سبيل المثال لدينا ، الاكتئاب و عنوان الاعلان الخصائص في لغات متعددة ولها تسلسل نصي قصير ، لذلك text_sbert موصى به. نموذج التعليمات البرمجية لـ معلمات التصدير على النحو التالي. بالنسبة إلى text_sbert اكتب ، لا توجد حقول معلمات أخرى. هنا نختار text_sbert128 غير text_sbert512، لأن طول النص أقصر نسبيًا من 128.

"additionalParams": {
    "neptune_ml": {
        "version": "v2.0",
        "targets": [ ... ],
        "features": [
            {
                "node": "user",
                "property": "Major",
                "type": "text_sbert128"
            },
            {
                "node": "job",
                "property": "Title",
                "type": "text_sbert128",
            }, ...
        ], ...
    }
}

الوصف و المتطلبات الأساسية عادة ما تكون الخصائص في تسلسلات نصية طويلة. يبلغ متوسط ​​طول الوصف حوالي 192 كلمة ، وهو أطول من الحد الأقصى لطول الإدخال text_sbert (128). يمكننا ان نستخدم text_sbert512، ولكنها قد تؤدي إلى استنتاج أبطأ. بالإضافة إلى ذلك ، النص بلغة واحدة (الإنجليزية). لذلك ، نوصي text_fasttext مع الالجائزة en قيمة اللغة بسبب سرعة الاستدلال وطول الإدخال غير المحدود. نموذج التعليمات البرمجية لـ معلمات التصدير على النحو التالي. ال text_fasttext يمكن تخصيص الترميز باستخدام لغة و الحد الاقصى للطول. language القيمة مطلوبة ، ولكن max_length هو اختياري.

"additionalParams": {
    "neptune_ml": {
        "version": "v2.0",
        "targets": [ ... ],
        "features": [
            {
                "node": "job",
                "property": "Description",
                "type": "text_fasttext",
                "language": "en",
                "max_length": 256
            },
            {
                "node": "job",
                "property": "Requirements",
                "type": "text_fasttext",
                "language": "en"
            }, ...
        ], ...
    }
}

يمكن العثور على مزيد من التفاصيل حول حالات استخدام توصية الوظيفة في دروس مفكرة نبتون.

لأغراض العرض ، نختار مستخدمًا واحدًا ، أي مستخدم 443931 ، حاصل على درجة الماجستير في الإدارة والموارد البشرية. تقدم المستخدم إلى خمس وظائف مختلفة ، بعنوان "مدير الموارد البشرية (HR)" ، "أخصائي الموارد البشرية" ، "مدير الموارد البشرية" ، "مدير الموارد البشرية" ، و "أخصائي الرواتب". من أجل تقييم أداء مهمة التوصية ، نحذف 50٪ من الوظائف المطبقة (الحواف) للمستخدم (هنا نحذف "مدير الموارد البشرية" و "مدير الموارد البشرية) ونحاول التنبؤ بأعلى 10 وظائف من المرجح أن يتقدم لها هذا المستخدم.

بعد ترميز ميزات الوظيفة وميزات المستخدم ، نقوم بتنفيذ مهمة التنبؤ بالرابط من خلال تدريب نموذج شبكة تلافيفية للرسم البياني العلائقي (RGCN). يتطلب تدريب نموذج Neptune ML ثلاث خطوات: معالجة البيانات وتدريب النموذج وإنشاء نقطة النهاية. بعد إنشاء نقطة نهاية الاستدلال ، يمكننا تقديم توصيات للمستخدم 443931. من أفضل 10 وظائف متوقعة للمستخدم 443931 (على سبيل المثال ، "اختصاصي الموارد البشرية" ، "مدير الموارد البشرية (HR)" ، "أخصائي الرواتب الأول" ، "الإنسان مدير الموارد "،" محلل الموارد البشرية "، وآخرون) ، نلاحظ أن الوظيفتين المحذوفتين من بين التوقعات العشرة.

وفي الختام

في هذا المنشور ، أظهرنا استخدام برامج ترميز النص المدعومة حديثًا في Neptune ML. تعتبر برامج ترميز النص هذه سهلة الاستخدام ويمكن أن تدعم متطلبات متعددة. في تلخيص،

  • يوصى باستخدام text_fasttext للميزات التي تستخدم لغة واحدة فقط من اللغات الخمس التي يدعمها text_fasttext.
  • يوصى باستخدام text_sbert للنص الذي لا يدعمه text_fasttext.
  • يدعم text_word2vec اللغة الإنجليزية فقط ، ويمكن استبداله بالنص text_fasttext في أي سيناريو.

لمزيد من التفاصيل حول الحل ، راجع جيثب ريبو. نوصي باستخدام برامج التشفير النصية في بيانات الرسم البياني لتلبية متطلباتك. يمكنك فقط اختيار اسم برنامج التشفير وتعيين بعض سماته ، مع الحفاظ على نموذج GNN دون تغيير.


عن المؤلفين

تشفير خصائص النص متعدد اللغات في Amazon Neptune لتدريب النماذج التنبؤية PlatoBlockchain Data Intelligence. البحث العمودي. عاي.جياني تشانغ هو عالم تطبيقي في AWS AI Research and Education (AIRE). تعمل على حل التطبيقات الواقعية باستخدام خوارزميات التعلم الآلي ، وخاصة اللغة الطبيعية والمشاكل المتعلقة بالرسم البياني.

الطابع الزمني:

اكثر من التعلم الآلي من AWS