أمازون نبتون ML هي قدرة التعلم الآلي (ML) أمازون نبتون يساعدك على إجراء تنبؤات دقيقة وسريعة بشأن بيانات الرسم البياني. تحت الغطاء ، يستخدم Neptune ML الشبكات العصبية للرسم البياني (GNNs) للاستفادة في الوقت نفسه من بنية الرسم البياني وخصائص العقدة / الحافة لحل المهمة المطروحة. تستخدم الطرق التقليدية الخصائص فقط ولا تستخدم بنية الرسم البياني (على سبيل المثال ، XGBoost ، الشبكات العصبية) ، أو بنية الرسم البياني فقط ولا توجد خصائص (على سبيل المثال ، node2vec ، Label Propagation). لمعالجة خصائص العقدة / الحافة بشكل أفضل ، تتطلب خوارزميات ML أن تكون البيانات بيانات رقمية حسنة التصرف ، لكن البيانات الأولية في قاعدة البيانات يمكن أن يكون لها أنواع أخرى ، مثل النص الخام. للاستفادة من هذه الأنواع الأخرى من البيانات ، نحتاج إلى خطوات معالجة متخصصة تحولها من نوعها الأصلي إلى بيانات رقمية ، وتعتمد جودة نتائج ML بشدة على جودة تحويلات البيانات هذه. يُعد النص الخام ، مثل الجمل ، من بين أصعب الأنواع للتحويل ، ولكن التقدم الأخير في مجال معالجة اللغة الطبيعية (NLP) أدى إلى أساليب قوية يمكنها التعامل مع النصوص الواردة من لغات متعددة ومجموعة متنوعة من الأطوال.
بدءًا من الإصدار 1.1.0.0 ، يدعم Neptune ML ترميزات نصية متعددة (text_fasttext, text_sbert, text_word2vecو text_tfidf) ، والتي تجلب فوائد التطورات الحديثة في البرمجة اللغوية العصبية (NLP) وتمكن من دعم خصائص النص متعدد اللغات بالإضافة إلى متطلبات الاستدلال الإضافية حول اللغات وطول النص. على سبيل المثال ، في حالة استخدام توصية الوظيفة ، يمكن وصف الوظائف في بلدان مختلفة بلغات مختلفة ويختلف طول الأوصاف الوظيفية بشكل كبير. بالإضافة إلى ذلك ، يدعم Neptune ML السيارات الخيار الذي يختار تلقائيًا أفضل طريقة تشفير بناءً على خصائص ميزة النص في البيانات.
في هذا المنشور ، نوضح استخدام كل برنامج تشفير نصي ، ونقارن بين مزاياها وعيوبها ، ونعرض مثالاً على كيفية اختيار برامج ترميز النص المناسبة لمهمة توصية الوظيفة.
ما هو مشفر النص؟
الهدف من تشفير النص هو تحويل خصائص الحافة / العقدة المستندة إلى النص في Neptune إلى متجهات ذات حجم ثابت لاستخدامها في نماذج التعلم الآلي النهائية إما لتصنيف العقدة أو مهام التنبؤ بالارتباط. يمكن أن يختلف طول ميزة النص كثيرًا. يمكن أن تكون كلمة أو عبارة أو جملة أو فقرة أو حتى مستندًا بجمل متعددة (الحد الأقصى لحجم خاصية واحدة هو 55 ميجابايت في Neptune). بالإضافة إلى ذلك ، يمكن أن تكون ميزات النص بلغات مختلفة. قد تكون هناك أيضًا جمل تحتوي على كلمات بعدة لغات مختلفة ، والتي نعرّفها على أنها تناوب لغوي.
بدءًا من الإصدار 1.1.0.0 ، يتيح لك Neptune ML الاختيار من بين عدة برامج ترميز نصية مختلفة. يعمل كل برنامج تشفير بشكل مختلف قليلاً ، ولكن له نفس الهدف المتمثل في تحويل حقل قيمة نصية من Neptune إلى متجه ذي حجم ثابت نستخدمه لبناء نموذج GNN الخاص بنا باستخدام Neptune ML. الترميز الجديد كالتالي:
- text_fasttext (جديد) - الاستخدامات نص سريع التشفير. FastText هي مكتبة لتعلم تمثيل النص بكفاءة.
text_fasttext
موصى به للميزات التي تستخدم لغة واحدة فقط من اللغات الخمس التي يدعمها fastText (الإنجليزية والصينية والهندية والإسبانية والفرنسية). الtext_fasttext
يمكن أن تأخذ الطريقة اختياريًاmax_length
، الذي يحدد الحد الأقصى لعدد الرموز المميزة في قيمة خاصية النص التي سيتم تشفيرها ، وبعد ذلك يتم اقتطاع السلسلة. يمكنك اعتبار الرمز المميز ككلمة. يمكن أن يؤدي ذلك إلى تحسين الأداء عندما تحتوي قيم خصائص النص على سلاسل طويلة ، لأن ifmax_length
لم يتم تحديده ، يقوم fastText بترميز جميع الرموز بغض النظر عن طول السلسلة. - text_sbert (جديد) - يستخدم الجملة BERT (سبيرت) طريقة الترميز. SBERT هو نوع من طرق تضمين الجملة باستخدام نماذج تعلم التمثيل السياقي ، شبكات بيرت.
text_sbert
يوصى به عندما لا تدعم اللغةtext_fasttext
. يدعم Neptune طريقتين من SBERT:text_sbert128
، وهو الإعداد الافتراضي إذا حددته للتوtext_sbert
وtext_sbert512
. الفرق بينهما هو الحد الأقصى لعدد الرموز المميزة في خاصية النص التي يتم تشفيرها. الtext_sbert128
تشفير أول 128 رمزًا فقط ، بينماtext_sbert512
ترميز ما يصل إلى 512 توكينز. نتيجة لذلك ، باستخدامtext_sbert512
يمكن أن تتطلب وقت معالجة أكثر منtext_sbert128
. كلا الطريقتين أبطأ منtext_fasttext
. - text_word2vec - الاستخدامات Word2Old تم نشر الخوارزميات في الأصل بواسطة Google لتشفير النص. يدعم Word2Vec اللغة الإنجليزية فقط.
- text_tfidf - يستخدم مصطلح تردد معكوس التردد (قوة العمل-جيش الدفاع الإسرائيلي) vectorizer لتشفير النص. يدعم ترميز TF-IDF الميزات الإحصائية التي لا تدعمها الترميزات الأخرى. إنه يحدد أهمية أو صلة الكلمات في خاصية عقدة واحدة بين جميع العقد الأخرى.
نلاحظ أن text_word2vec
و text_tfidf
كانت مدعومة سابقًا والطرق الجديدة text_fasttext
و text_sbert
يوصى بها على الطرق القديمة.
مقارنة بين مختلف برامج ترميز النص
يوضح الجدول التالي المقارنة التفصيلية لجميع خيارات ترميز النص المدعومة (text_fasttext
, text_sbert
و text_word2vec
). text_tfidf
ليست طريقة ترميز قائمة على النموذج ، بل هي مقياس قائم على العد الذي يقيم مدى صلة الرمز المميز (على سبيل المثال ، كلمة) بميزات النص في العقد أو الحواف الأخرى ، لذلك لا نقوم بتضمين text_tfidf
للمقارنة. نوصي باستخدام text_tfidf
عندما تريد تحديد أهمية أو ملاءمة بعض الكلمات في عقدة واحدة أو خاصية الحافة بين جميع خصائص العقدة أو الحافة الأخرى.)
. | . | text_fasttext | text_sbert | text_word2vec |
نموذج القدرة | اللغة المدعومة | الإنجليزية والصينية والهندية والإسبانية والفرنسية | أكثر من 50 لغة | عربي |
يمكن ترميز خصائص النص التي تحتوي على كلمات بلغات مختلفة | لا | نعم | لا | |
أقصى طول دعم | لا يوجد حد أقصى للطول | يشفر تسلسل النص بطول أقصى يبلغ 128 و 512 | لا يوجد حد أقصى للطول | |
تكلفة الوقت | تحميل | حوالي 10 ثانية | حوالي 2 ثانية | حوالي 2 ثانية |
الإستنباط | سريع | بطيء | متوسط |
لاحظ نصائح الاستخدام التالية:
- لقيم خصائص النص باللغات الإنجليزية والصينية والهندية والإسبانية والفرنسية ،
text_fasttext
هو الترميز الموصى به. ومع ذلك ، لا يمكنه التعامل مع الحالات التي تحتوي فيها نفس الجملة على كلمات بأكثر من لغة واحدة. للغات أخرى غير الخمس ذلكfastText
يدعم ، استخدمtext_sbert
التشفير. - إذا كان لديك العديد من السلاسل النصية لقيمة الخاصية أطول من ، على سبيل المثال ، 120 رمزًا مميزًا ، فاستخدم
max_length
للحد من عدد الرموز المميزة في كل سلسلةtext_fasttext
يشفر.
للتلخيص ، بناءً على حالة الاستخدام الخاصة بك ، نوصي باستخدام طريقة التشفير التالية:
- إذا كانت خصائص النص الخاصة بك بإحدى اللغات الخمس المدعومة ، فإننا نوصي باستخدام
text_fasttext
بسبب الاستدلال السريع.text_fasttext
هي الخيارات الموصى بها ويمكنك أيضًا استخدامهاtext_sbert
في الاستثناءين التاليين. - إذا كانت خصائص النص الخاصة بك بلغات مختلفة ، فإننا نوصي باستخدام
text_sbert
لأنها الطريقة الوحيدة المدعومة التي يمكنها ترميز خصائص النص التي تحتوي على كلمات بعدة لغات مختلفة. - إذا كانت خصائص النص الخاصة بك بلغة واحدة ليست واحدة من اللغات الخمس المدعومة ، فنحن نوصي باستخدام
text_sbert
لأنه يدعم أكثر من 50 لغة. - إذا كان متوسط طول خصائص النص الخاصة بك أطول من 128 ، ففكر في استخدام
text_sbert512
ortext_fasttext
. يمكن أن تستخدم كلتا الطريقتين ترميز تسلسلات نصية أطول. - إذا كانت خصائص النص باللغة الإنجليزية فقط ، فيمكنك استخدام
text_word2vec
، لكننا نوصي باستخدامtext_fasttext
للاستدلال السريع.
عرض حالة الاستخدام: مهمة توصية الوظيفة
الهدف من مهمة توصية الوظيفة هو التنبؤ بالوظائف التي سيتقدم المستخدمون لها بناءً على تطبيقاتهم السابقة والمعلومات الديموغرافية وتاريخ العمل. يستخدم هذا المنشور ملفات مجموعة بيانات Kaggle مفتوحة. نقوم ببناء مجموعة البيانات كرسم بياني من نوع ثلاث عقد: وظيفة, المستخدمو مدن.
تتميز الوظيفة بعنوانها ووصفها ومتطلباتها والمدينة التي تقع فيها والدولة. يتم وصف المستخدم بخصائص التخصص ونوع الدرجة وعدد سجل العمل وإجمالي عدد سنوات الخبرة العملية وغير ذلك. بالنسبة لحالة الاستخدام هذه ، فإن المسمى الوظيفي والوصف الوظيفي ومتطلبات الوظيفة والتخصصات كلها في شكل نص.
في مجموعة البيانات ، يمتلك المستخدمون الخصائص التالية:
- الولايه او المحافظه - على سبيل المثال ، CA أو 广东 省 (صيني)
- الاكتئاب - على سبيل المثال ، إدارة الموارد البشرية أو Lic Cytura Fisica (بالإسبانية)
- نوع الدرجة - على سبيل المثال ، بكالوريوس أو ماجستير أو دكتوراه أو لا شيء
- WorkHistoryCount - على سبيل المثال ، 0 ، 1 ، 16 ، وهكذا
- إجمالي سنوات الخبرة - على سبيل المثال ، 0.0 أو 10.0 أو NAN
الوظائف لها الخصائص التالية:
- عنوان الاعلان - على سبيل المثال ، مساعد إداري أو Lic Cultura Física (إسباني).
- الوصف - على سبيل المثال ، "وظيفة المساعد الإداري هذه مسؤولة عن أداء مجموعة متنوعة من وظائف الدعم الكتابي والإداري في مجالات الاتصالات ، ..." متوسط عدد الكلمات في الوصف حوالي 192.2.
- المتطلبات الأساسية - على سبيل المثال ، "متطلبات الوظيفة: 1. الاهتمام بالتفاصيل. 2. القدرة على العمل في بيئة سريعة الخطى ؛ 3. إصدار الفواتير ... "
- الولايه او المحافظه: - على سبيل المثال ، CA و NY وما إلى ذلك.
نوع العقدة مدن مثل واشنطن العاصمة وأورلاندو فلوريدا لديها فقط معرف لكل عقدة. في القسم التالي ، نقوم بتحليل خصائص ميزات النص المختلفة ونوضح كيفية تحديد أدوات ترميز النص المناسبة لخصائص نصية مختلفة.
كيفية تحديد برامج ترميز النص المختلفة
على سبيل المثال لدينا ، الاكتئاب و عنوان الاعلان الخصائص في لغات متعددة ولها تسلسل نصي قصير ، لذلك text_sbert
موصى به. نموذج التعليمات البرمجية لـ معلمات التصدير على النحو التالي. بالنسبة إلى text_sbert
اكتب ، لا توجد حقول معلمات أخرى. هنا نختار text_sbert128
غير text_sbert512
، لأن طول النص أقصر نسبيًا من 128.
• الوصف و المتطلبات الأساسية عادة ما تكون الخصائص في تسلسلات نصية طويلة. يبلغ متوسط طول الوصف حوالي 192 كلمة ، وهو أطول من الحد الأقصى لطول الإدخال text_sbert
(128). يمكننا ان نستخدم text_sbert512
، ولكنها قد تؤدي إلى استنتاج أبطأ. بالإضافة إلى ذلك ، النص بلغة واحدة (الإنجليزية). لذلك ، نوصي text_fasttext
مع الالجائزة en قيمة اللغة بسبب سرعة الاستدلال وطول الإدخال غير المحدود. نموذج التعليمات البرمجية لـ معلمات التصدير على النحو التالي. ال text_fasttext
يمكن تخصيص الترميز باستخدام لغة و الحد الاقصى للطول. language
القيمة مطلوبة ، ولكن max_length
هو اختياري.
يمكن العثور على مزيد من التفاصيل حول حالات استخدام توصية الوظيفة في دروس مفكرة نبتون.
لأغراض العرض ، نختار مستخدمًا واحدًا ، أي مستخدم 443931 ، حاصل على درجة الماجستير في الإدارة والموارد البشرية. تقدم المستخدم إلى خمس وظائف مختلفة ، بعنوان "مدير الموارد البشرية (HR)" ، "أخصائي الموارد البشرية" ، "مدير الموارد البشرية" ، "مدير الموارد البشرية" ، و "أخصائي الرواتب". من أجل تقييم أداء مهمة التوصية ، نحذف 50٪ من الوظائف المطبقة (الحواف) للمستخدم (هنا نحذف "مدير الموارد البشرية" و "مدير الموارد البشرية) ونحاول التنبؤ بأعلى 10 وظائف من المرجح أن يتقدم لها هذا المستخدم.
بعد ترميز ميزات الوظيفة وميزات المستخدم ، نقوم بتنفيذ مهمة التنبؤ بالرابط من خلال تدريب نموذج شبكة تلافيفية للرسم البياني العلائقي (RGCN). يتطلب تدريب نموذج Neptune ML ثلاث خطوات: معالجة البيانات وتدريب النموذج وإنشاء نقطة النهاية. بعد إنشاء نقطة نهاية الاستدلال ، يمكننا تقديم توصيات للمستخدم 443931. من أفضل 10 وظائف متوقعة للمستخدم 443931 (على سبيل المثال ، "اختصاصي الموارد البشرية" ، "مدير الموارد البشرية (HR)" ، "أخصائي الرواتب الأول" ، "الإنسان مدير الموارد "،" محلل الموارد البشرية "، وآخرون) ، نلاحظ أن الوظيفتين المحذوفتين من بين التوقعات العشرة.
وفي الختام
في هذا المنشور ، أظهرنا استخدام برامج ترميز النص المدعومة حديثًا في Neptune ML. تعتبر برامج ترميز النص هذه سهلة الاستخدام ويمكن أن تدعم متطلبات متعددة. في تلخيص،
- يوصى باستخدام text_fasttext للميزات التي تستخدم لغة واحدة فقط من اللغات الخمس التي يدعمها text_fasttext.
- يوصى باستخدام text_sbert للنص الذي لا يدعمه text_fasttext.
- يدعم text_word2vec اللغة الإنجليزية فقط ، ويمكن استبداله بالنص text_fasttext في أي سيناريو.
لمزيد من التفاصيل حول الحل ، راجع جيثب ريبو. نوصي باستخدام برامج التشفير النصية في بيانات الرسم البياني لتلبية متطلباتك. يمكنك فقط اختيار اسم برنامج التشفير وتعيين بعض سماته ، مع الحفاظ على نموذج GNN دون تغيير.
عن المؤلفين
جياني تشانغ هو عالم تطبيقي في AWS AI Research and Education (AIRE). تعمل على حل التطبيقات الواقعية باستخدام خوارزميات التعلم الآلي ، وخاصة اللغة الطبيعية والمشاكل المتعلقة بالرسم البياني.
- متقدم (300،XNUMX)
- AI
- ai الفن
- مولد الفن ai
- الروبوت ai
- أمازون نبتون
- الذكاء الاصطناعي
- شهادة الذكاء الاصطناعي
- الذكاء الاصطناعي في البنوك
- روبوت ذكاء اصطناعي
- روبوتات الذكاء الاصطناعي
- برنامج ذكاء اصطناعي
- التعلم الآلي من AWS
- سلسلة كتلة
- مؤتمر blockchain ai
- عملة عبقرية
- الذكاء الاصطناعي للمحادثة
- مؤتمر التشفير ai
- دال
- التعلم العميق
- google ai
- آلة التعلم
- أفلاطون
- أفلاطون ع
- الذكاء افلاطون البيانات
- لعبة أفلاطون
- أفلاطون داتا
- بلاتوغمينغ
- مقياس ai
- بناء الجملة
- زفيرنت