قم ببناء سير عمل ترجمة مستندات متعدد اللغات باستخدام التخصيص الخاص بالمجال واللغة الخاصة بـ PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

بناء سير عمل ترجمة مستندات متعدد اللغات مع تخصيص خاص بالمجال ولغة معينة

في العالم الرقمي ، لا يعد توفير المعلومات بلغة محلية أمرًا جديدًا ، ولكنه قد يكون مهمة شاقة ومكلفة. جعلت التطورات في التعلم الآلي (ML) ومعالجة اللغة الطبيعية (NLP) هذه المهمة أسهل بكثير وأقل تكلفة.

لقد شهدنا اعتمادًا متزايدًا لتعلم الآلة للبيانات متعددة اللغات وأعباء عمل معالجة المستندات. يقوم عملاء المؤسسات والحكومة بترحيل أعباء عمل الترجمة اليدوية للاستفادة من خدمات الترجمة الآلية الآلية. ترجمة أمازون هي ملف الترجمة الآلية العصبية خدمة تقدم ترجمة لغوية سريعة وعالية الجودة وبأسعار معقولة بين عدة آلاف من أزواج اللغات التي يمكن استخدامها لمهام الترجمة المتزامنة (في الوقت الفعلي) أو غير المتزامن. للحصول على قائمة كاملة بأزواج الترجمة المتاحة ، يرجى الرجوع إلى اللغات المدعومة ورموز اللغة.

يحتاج العملاء الذين يقومون بترحيل وتحديث أعباء عمل الترجمة الخاصة بهم إلى القدرة على تخصيص الترجمات لمجال أعمالهم. قد يحتاج عبء عمل الترجمة أيضًا إلى القدرة على التكيف مع لهجات اللغة الإقليمية أو استخدامها. على سبيل المثال ، الترجمة الإسبانية لكلمة "كبار السن" هي anciano (a) ولكن في بورتوريكو تُفضل كلمة envejeciente.

في هذا المنشور ، نوضح كيفية دمج ميزة الترجمة المخصصة النشطة (ACT) في Amazon Translate. نقترح حلاً لإنشاء سير عمل ترجمة مستندات متعدد اللغات مع تخصيصات خاصة بالمجال واللغة يمكنك مراجعتها وزيادتها حسب الحاجة لتحسين النتائج باستمرار وإسعاد المستخدمين النهائيين.

حل نظرة عامة

تنتج ACT مخرجات مترجمة حسب الطلب دون الحاجة إلى إنشاء نموذج ترجمة مخصص والحفاظ عليه. باستخدام ACT ، ستستخدم Amazon Translate أمثلة الترجمة المفضلة لديك كبيانات موازية لتخصيص نتيجة الترجمة الخاصة بك ، مما يلغي الوقت والتكلفة اللازمين لبناء نموذج جديد للتعلم الآلي وتدريبه.

يوضح الحل المغطى في هذا المنشور كيفية إنشاء سير عمل بشري في الحلقة باستخدام أمازون المعزز بالذكاء الاصطناعي (Amazon A2I) لتحسين الترجمة المخصصة باستمرار. توفر Amazon A2I طريقة بسيطة لدمج الإشراف البشري في تدفقات عمل ML الخاصة بك ، دون الحاجة إلى خبرة ML. تجعل Amazon A2I من السهل دمج الحكم البشري والذكاء الاصطناعي في أي تطبيق ML ، بغض النظر عما إذا كان يعمل على AWS أو على نظام أساسي آخر.

لمزيد من المعلومات الرجوع إلى تصميم سير عمل المراجعة البشرية باستخدام Amazon Translate و Amazon Augmented AI بريد.

يعرض الرسم التخطيطي التالي تدفق الأوامر وتدفق البيانات للحل. يعرض تدفق الأوامر التسلسل المنطقي للأحداث في سير العمل. يشير تدفق البيانات إلى كيفية إنشاء البيانات أو استخدامها بواسطة مكونات مختلفة في الحل.

قم ببناء سير عمل ترجمة مستندات متعدد اللغات باستخدام التخصيص الخاص بالمجال واللغة الخاصة بـ PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يوضح مخطط التسلسل التالي عمليتين منفصلتين في الحل: سير عمل الترجمة (أ) وعملية تحديث البيانات المتوازية (ب).

يتم بدء سير عمل الترجمة بواسطة ملف الأمازون CloudWatch الحدث المجدول الذي يبدأ استدعاء وظيفة الترجمة AWS لامدا وظيفة. تنشئ هذه الوظيفة وظيفة ترجمة غير متزامنة في Amazon Translate ، وتمرير المستند للترجمة وموقع البيانات المتوازية لتخصيص الترجمة. تقرأ وظيفة الترجمة البيانات المتوازية وتنفذ الترجمة وتعيد كتابة النتيجة المترجمة إلى ملف الأمازون S3 دلو. حتى كتابة هذه السطور ، لا يمكن استخدام البيانات المتوازية إلا لوظائف الترجمة غير المتزامنة.

عند اكتمال مهمة الترجمة ، يتم إنشاء حدث يقوم بتشغيل وظيفة "معالج إكمال مهمة الترجمة" Lambda. تنشئ هذه الوظيفة حلقة سير عمل بشرية - المكون الرئيسي لجزء Amazon A2I من سير العمل.

يقوم المراجعون البشريون بتقييم الترجمة وقبولها أو تعديلها. يتم استخدام أي تصحيحات لتحديث المستند المترجم وإضافته أيضًا إلى قاموس التخصيص. عند الانتهاء من المراجعة ، يتم إنشاء حدث آخر لتشغيل وظيفة معالج إكمال سير العمل. تقوم هذه الوظيفة بكتابة أحدث مستند مترجم إلى Amazon S3. يتم استخدام بيانات التخصيص لتحديث ملف الأمازون DynamoDB الجدول مع المصدر وأزواج النص المترجم.

لإغلاق الحلقة ، يجب علينا دمج بيانات التخصيص هذه المخزنة في DynamoDB مرة أخرى في البيانات المتوازية المخزنة في Amazon S3. لتحقيق ذلك ، نستخدم حدث CloudWatch مجدولًا لتشغيل وظيفة Parallel Data Refresher ، والتي تقرأ البيانات من جدول DynamoDB ، وتعيد تنسيقها كبيانات متوازية ، وتقوم بتحديث دلو S3 ، وتخزين البيانات المتوازية.

انشر الحل باستخدام AWS CloudFormation

قم بتشغيل الموفر تكوين سحابة AWS نموذج لنشر الحل في حسابك. هذا الكومة يعمل فقط في منطقة شرق الولايات المتحدة 1. إذا كنت ترغب في نشر هذا الحل في مناطق أخرى ، فراجع ما يلي جيثب ريبو.

  1. اختار قم بتشغيل Stack:
    قم ببناء سير عمل ترجمة مستندات متعدد اللغات باستخدام التخصيص الخاص بالمجال واللغة الخاصة بـ PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  2. اتبع التعليمات لتعبئة المعلمات الضرورية. إذا كنت تقوم بتشغيل هذا المكدس لأول مرة ، بريد SNS هي المعلمة الوحيدة المطلوبة.
  3. على التقيم الصفحة في قدرات ، حدد خانة الاختيار واختر إنشاء مكدس.

قم ببناء سير عمل ترجمة مستندات متعدد اللغات باستخدام التخصيص الخاص بالمجال واللغة الخاصة بـ PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

ينشئ المكدس المكونات الرئيسية التالية:

  • بيانات التخصيص - جدول DynamoDB (translate_parallel_data) للحفاظ على بيانات التخصيص. تقوم بترحيل بيانات التخصيص الموجودة إلى هذا الجدول. يُستخدم هذا الجدول لإضافة التخصيصات وتحديثها بشكل مستمر.
  • تحديث البيانات الموازية - وظيفة Lambda لتحويل بيانات التخصيص في جدول DynamoDB إلى تنسيق بيانات متوازي - CSV أو TSV أو TMX - وتخزينها في Amazon S3. يقوم بإنشاء وتحديث البيانات المتوازية بملف البيانات المتوازي الجديد في Amazon S3.
  • مدعو وظيفة الترجمة - وظيفة Lambda لبدء وظيفة Amazon Translate المجمعة ببيانات متوازية.
  • معالج إتمام مهمة الترجمة - يتم تشغيل وظيفة Lambda هذه عند اكتمال وظيفة Amazon Translate المجمعة. تنشئ الوظيفة حلقة بشرية واحدة لكل مستند (سنقوم بتحسين ذلك في المستقبل لإنشاء حلقة بشرية فقط لنسبة مئوية محددة من المستندات التي تمت معالجتها). يستخدم المستندات الأصلية والمترجمة لإنشاء الحلقة البشرية.
  • قالب مخصص Amazon A2I - يُستخدم هذا النموذج لتقديم زوج الترجمة للمراجعة البشرية. القالب له أضف خيار لكل جزء ترجمة. يمكن للمستخدمين تحديد هذا الخيار لإضافة التصحيحات إلى بيانات التخصيص. يتم استخدام بيانات التخصيص الجديدة في وظيفة ترجمة الدُفعة التالية.
  • معالج إكمال سير العمل - يتم تشغيل وظيفة Lambda هذه عند اكتمال سير العمل البشري. تقوم الوظيفة بتحديث المستند المترجم بالتصحيحات والتحقق من تحديثات البيانات المتوازية. تمت إضافة البيانات المتوازية الجديدة إلى جدول DynamoDB.
  • فريق Amazon A2I الخاص - تم إنشاء فريق خاص في Amazon A2I مع عامل بشري باستخدام البريد الإلكتروني المقدم. يتم إرسال بيانات الاعتماد الأولية عبر البريد الإلكتروني عند الإنشاء الناجح للفريق الخاص. يمكنك استخدام هذا البريد الإلكتروني وبيانات الاعتماد لتسجيل الدخول إلى بوابة العاملين في Amazon A2I.

اختبر المحلول

sample_text.txt الملف قد تم إنشاؤه تحت بادئة الإدخال لحاوية S3 التي تم إنشاؤها بواسطة المكدس. نحن نستخدم هذا الملف للاختبار. يحتوي على المحتوى التالي:

Life insurance companies have the freedom to charge different premiums based on risk
factors that predict mortality. Purchasing a life insurance policy often entails a health 
status check or medical exam, and asking for vaccination status is not banned.

Health insurers are a different story. A slew of state and federal regulations in the 
last three decades have heavily restricted their ability to use health factors in issuing 
or pricing polices. The use of health status in any group health insurance policy is 
prohibited by law. The Affordable Care Act, passed in 2014, prevents insurers from pricing 
plans according to health – with one exception: smoking status.

لاختبار الحل ، أكمل الخطوات التالية:

  1. قم باستدعاء وظيفة Translation Job Invoker يدويًا ، أو انتظر حتى يتم تشغيلها بواسطة CloudWatch بناءً على جدول cron الذي حددته.
    تعمل هذه الوظيفة على تشغيل وظيفة Amazon Translate المجمعة. يمكنك مراقبة تقدم المهمة على وحدة تحكم Amazon Translate.
    قم ببناء سير عمل ترجمة مستندات متعدد اللغات باستخدام التخصيص الخاص بالمجال واللغة الخاصة بـ PlatoBlockchain Data Intelligence. البحث العمودي. عاي.تستغرق هذه الوظيفة المجمعة حوالي 30 دقيقة حتى تكتمل. عندما يكتمل ، فإن ملف TextTranslationJob يؤدي حدث تغيير الحالة إلى تشغيل وظيفة معالج إكمال مهمة الترجمة. تنشئ هذه الوظيفة حلقة بشرية واحدة لكل مستند مترجم.
  2. انتقل إلى القوى العاملة في Amazon A2I .
  3. اختيار خاص علامة التبويب.
    قم ببناء سير عمل ترجمة مستندات متعدد اللغات باستخدام التخصيص الخاص بالمجال واللغة الخاصة بـ PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  4. قم بتسجيل الدخول إلى بوابة العاملين في Amazon A2I عن طريق اختيار الارتباط الخاص بـ تسمية عنوان URL لتسجيل الدخول إلى البوابة.
  5. حدد المهمة Human review task في قائمة الوظائف.
  6. اختار بدء العمل.
    قم ببناء سير عمل ترجمة مستندات متعدد اللغات باستخدام التخصيص الخاص بالمجال واللغة الخاصة بـ PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
    يمكنك مشاهدة الصفحة التالية معروضة.
    قم ببناء سير عمل ترجمة مستندات متعدد اللغات باستخدام التخصيص الخاص بالمجال واللغة الخاصة بـ PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  7. اتبع التعليمات لإجراء تصحيحات خاصة بالمجال واللغة.
    في لقطة الشاشة السابقة ، تمت ترجمة عبارة "استخدام الحالة الصحية في أي بوليصة تأمين صحي جماعي بموجب القانون" إلى "La ley prohíbe el uso del estado de salud en cualquier póliza de seguro médico de grupo." على الرغم من دقة الترجمة ، فقد تم إعادة ترتيب العبارات.
  8. دعونا نعدل هذا إلى "El uso del estado de salud en cualquier póliza de seguro de salud grupal está blockido por ley" لجعل هذه الترجمة أكثر مباشرة تعكس العبارات الأصلية.
  9. أختار أضف لإضافة هذا إلى القاموس.
  10. عند الانتهاء ، اختر تقدم.
    قم ببناء سير عمل ترجمة مستندات متعدد اللغات باستخدام التخصيص الخاص بالمجال واللغة الخاصة بـ PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يؤدي هذا إلى تشغيل وظيفة معالج إكمال سير العمل ، ويتم تحديث بيانات التخصيص في جدول DynamoDB. تخزن الوظيفة أيضًا الترجمة المصححة تحت بادئة ما بعد التحرير.

يمكنك ملاحظة التخصيصات المضافة إلى translate_parallel_data الجدول على وحدة تحكم DynamoDB.

قم ببناء سير عمل ترجمة مستندات متعدد اللغات باستخدام التخصيص الخاص بالمجال واللغة الخاصة بـ PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

تدفق الأوامر

يتم تشغيل وظيفة Parallel Data Refresher كل ساعة بواسطة حدث مجدول في CloudWatch. تتحقق هذه الوظيفة من وجود تحديثات جديدة في ملف translate_parallel_data الجدول ، يقوم بإنشاء ملف TMX لبيانات متوازية جديد في Amazon S3 تحت parallel_data البادئة ، وتحديث مكون بيانات Amazon Translate المتوازي. يمكنك تشغيل هذه الوظيفة يدويًا إذا كنت لا تريد انتظار مشغل الحدث المجدول.

يمكنك مراقبة البيانات المتوازية التي يتم تحديثها على وحدة تحكم Amazon Translate.

قم ببناء سير عمل ترجمة مستندات متعدد اللغات باستخدام التخصيص الخاص بالمجال واللغة الخاصة بـ PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

عندما تكتمل ، يجب أن تكون حالة الوظيفة النشطه والقيمة ل السجلات المحدثة يجب أن يعكس عدد التخصيصات التي أضفتها (في هذه الحالة 1).

قم ببناء سير عمل ترجمة مستندات متعدد اللغات باستخدام التخصيص الخاص بالمجال واللغة الخاصة بـ PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

الآن يمكننا تشغيل مهمة الترجمة مرة أخرى بالبيانات المحدثة. قم بتشغيل وظيفة مستدعي مهمة الترجمة مرة أخرى لملاحظة إضافة التخصيص إلى الترجمة في التكرار الثاني. تستخدم Amazon Translate الآن البيانات المتوازية المقدمة لتخصيص الترجمة.

قم ببناء سير عمل ترجمة مستندات متعدد اللغات باستخدام التخصيص الخاص بالمجال واللغة الخاصة بـ PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يمكنك ملاحظة التغيير في إخراج الترجمة في بوابة وضع العلامات. بدلاً من الترجمة الافتراضية ، نرى الترجمة المخصصة قيد التطبيق.

قم ببناء سير عمل ترجمة مستندات متعدد اللغات باستخدام التخصيص الخاص بالمجال واللغة الخاصة بـ PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يساعد سير العمل هذا في إنشاء دورة فعالة لتحسين مخرجات الترجمة باستمرار باستخدام ميزات تخصيص Amazon A2I و Amazon Translate.

التكلفة

باستخدام Amazon Translate و Amazon A2I ، تدفع حسب ما تقوم به بناءً على عدد أحرف النص التي قمت بمعالجتها ولكل كائن تمت مراجعته بواسطة الإنسان. نستخدم وضع DynamoDB عند الطلب في هذا المثال. يقوم DynamoDB بفرض رسوم عليك مقابل عمليات القراءة والكتابة التي يتم إجراؤها على طاولاتك. الرجوع إلى صفحات التسعير لـ ترجمة أمازون, أمازون A2Iو الأمازون DynamoDB للتكاليف الفعلية.

تنظيف

عندما تنتهي من تجربة هذا الحل ، قم بتنظيف مواردك باستخدام وحدة تحكم AWS CloudFormation لحذف جميع الموارد المنشورة في هذا المثال. يساعدك هذا في تجنب استمرار التكاليف في حسابك.

وفي الختام

يمكنك استخدام الحل المقدم في هذا المنشور لبناء سير عمل ترجمة متعدد اللغات يستخدم ويعزز التخصيص الخاص بالمجال بشكل تدريجي لتحسين نتائج الترجمة باستمرار. لقد قدمنا ​​آلية بسيطة لدمج أصول التخصيص الحالية مع خدمات الذكاء الاصطناعي المدارة مثل Amazon Translate و Amazon A2I لبناء خدمة ترجمة قوية لتطبيقك. يمكن أن تساعدك Amazon Translate في توسيع نطاق هذا الحل لدعم أكثر من 5,550 زوج ترجمة خارج الصندوق. يمكن أن تساعدك Amazon A2I على الاندماج بسهولة مع خبير لغوي داخلي أو الاستفادة من القوى العاملة الخارجية لتوسيع نطاق الحل.

لمزيد من المعلومات حول Amazon Translate ، تفضل بزيارة موارد Amazon Translate للعثور على موارد الفيديو ومشاركات المدونات والرجوع إلى الأسئلة الشائعة حول AWS Translate. يرجى مشاركة أفكارك معنا في قسم التعليقات ، أو في قسم القضايا في المشروع جيثب مستودع.


حول المؤلف

قم ببناء سير عمل ترجمة مستندات متعدد اللغات باستخدام التخصيص الخاص بالمجال واللغة الخاصة بـ PlatoBlockchain Data Intelligence. البحث العمودي. عاي.ساتيا بالاكريشنان هو مهندس توصيل عملاء كبير في فريق الخدمات الاحترافية في AWS ، متخصص في حلول البيانات / ML. يعمل مع عملاء ماليين فيدراليين في الولايات المتحدة. إنه متحمس لبناء حلول عملية لحل مشاكل عمل العملاء. في أوقات فراغه ، يستمتع بمشاهدة الأفلام والتنزه مع أسرته.

قم ببناء سير عمل ترجمة مستندات متعدد اللغات باستخدام التخصيص الخاص بالمجال واللغة الخاصة بـ PlatoBlockchain Data Intelligence. البحث العمودي. عاي.بول دبليو جويرمان هو مهندس توصيل عملاء كبير في الخدمات الاحترافية في AWS ، ومتخصص في ترحيل التطبيقات والعمل مع العملاء الماليين الفيدراليين في الولايات المتحدة. يتمتع بول بإبداع الحلول التكنولوجية ، والسفر مع العائلة والمشي لمسافات طويلة في حديقة شيناندواه الوطنية ، طالما أن التنزه ينتهي في مصنع الجعة المحلي.

الطابع الزمني:

اكثر من التعلم الآلي من AWS