اللغة العامية للشخص هي جزء من الخصائص التي تجعلها فريدة من نوعها. غالبًا ما توجد طرق مختلفة لا حصر لها للتعبير عن فكرة واحدة محددة. عندما تتواصل إحدى الشركات مع عملائها ، فمن الأهمية بمكان أن يتم تسليم الرسالة بطريقة تمثل أفضل المعلومات التي تحاول نقلها. يصبح هذا أكثر أهمية عندما يتعلق الأمر بترجمة لغة احترافية. يتوقع عملاء أنظمة وخدمات الترجمة مخرجات دقيقة ومخصصة للغاية. لتحقيق ذلك ، غالبًا ما يعيدون استخدام مخرجات الترجمة السابقة - التي تسمى ذاكرة الترجمة (TM) - ومقارنتها بنص الإدخال الجديد. في الترجمة بمساعدة الكمبيوتر ، تُعرف هذه التقنية باسم مطابقة غامضة. تتمثل الوظيفة الأساسية للمطابقة الغامضة في مساعدة المترجم من خلال تسريع عملية الترجمة. عندما يتعذر العثور على تطابق تام في قاعدة بيانات ذاكرة الترجمة للنص الذي تتم ترجمته ، غالبًا ما يكون لدى أنظمة إدارة الترجمة (TMSs) خيار البحث عن تطابق أقل من تطابق تام. يتم توفير المطابقات المحتملة للمترجم كمدخل إضافي للترجمة النهائية. المترجمون الذين يعززون سير عملهم بقدرات الترجمة الآلية مثل ترجمة أمازون غالبًا ما تتوقع استخدام بيانات المطابقة الغامضة كجزء من حل الترجمة الآلي.
في هذا المنشور ، ستتعلم كيفية تخصيص الإخراج من Amazon Translate وفقًا لدرجات جودة مطابقة غامضة لذاكرة الترجمة.
مطابقة جودة الترجمة
تنسيق ملف تبادل تعريب XML (XLIF) القياسي غالبًا كتنسيق لتبادل البيانات بين TMSs و Amazon Translate. تتضمن ملفات XLIFF التي تنتجها TMSs البيانات النصية المصدر والهدف جنبًا إلى جنب مع درجات جودة المطابقة بناءً على ذاكرة الترجمة المتوفرة. تشير هذه الدرجات - التي يتم التعبير عنها عادةً كنسبة مئوية - إلى مدى قرب ذاكرة الترجمة من النص الذي تتم ترجمته.
بعض العملاء الذين لديهم متطلبات صارمة للغاية يريدون فقط استخدام الترجمة الآلية عندما تكون درجات الجودة المطابقة أقل من عتبة معينة. بعد هذا الحد ، يتوقعون أن تكون لذاكرة الترجمة الخاصة بهم الأسبقية. غالبًا ما يحتاج المترجمون إلى تطبيق هذه التفضيلات يدويًا إما داخل TMS الخاصة بهم أو عن طريق تغيير البيانات النصية. هذا التدفق موضح في الرسم البياني التالي. يقوم نظام الترجمة الآلية بمعالجة بيانات الترجمة - نتائج النصوص والمطابقة غير الواضحة - والتي تتم مراجعتها بعد ذلك وتحريرها يدويًا بواسطة المترجمين ، بناءً على حدود الجودة المطلوبة. يتيح لك تطبيق العتبات كجزء من خطوة الترجمة الآلية إزالة هذه الخطوات اليدوية ، مما يحسن الكفاءة ويحسن التكلفة.
يتيح لك الحل المقدم في هذا المنشور فرض القواعد بناءً على حدود نقاط جودة المطابقة لتحديد ما إذا كان يجب ترجمة نص إدخال معين بواسطة Amazon Translate أم لا. في حالة عدم ترجمتها آليًا ، يُترك النص الناتج لتقدير المترجمين الذين يراجعون الإخراج النهائي.
هندسة الحلول
تعزز بنية الحل الموضحة في الشكل 2 الخدمات التالية:
- خدمة تخزين أمازون البسيطة - تحتوي حاويات Amazon S3 على المحتوى التالي:
- ملفات تكوين حد التطابق الغامض
- نص المصدر المراد ترجمته
- مواقع بيانات الإدخال والإخراج من Amazon Translate
- مدير أنظمة AWS - نحن نستخدم متجر المعلمة المعلمات لتخزين قيم تكوين عتبة الجودة المطابقة
- AWS لامدا - نستخدم وظيفتين من وظائف Lambda:
- تقوم وظيفة واحدة بمعالجة ملفات تكوين عتبة مطابقة الجودة وتحتفظ بالبيانات في مخزن المعلمات
- تقوم وظيفة واحدة تلقائيًا بإنشاء مهام الترجمة غير المتزامنة
- خدمة Amazon Simple Queue Service - تقوم قائمة انتظار Amazon SQS بتشغيل تدفق الترجمة نتيجة وصول ملفات جديدة إلى حاوية المصدر
تقوم أولاً بإعداد حدود الجودة لوظائف الترجمة الخاصة بك عن طريق تحرير ملف التكوين وتحميله في حاوية S3 لتكوين حد التطابق الغامض. فيما يلي نموذج تهيئة بتنسيق CSV. اخترنا CSV للتبسيط ، على الرغم من أنه يمكنك استخدام أي تنسيق. يمثل كل سطر حدًا يتم تطبيقه على وظيفة ترجمة معينة أو كقيمة افتراضية لأي وظيفة.
مواصفات ملف التكوين هي كما يلي:
- يجب ملء العمود 1 باسم ملف XLIFF - بدون امتداد - المقدم لوظيفة Amazon Translate كبيانات إدخال.
- يجب ملء العمود 2 بحد النسبة المئوية لمطابقة الجودة. لأي درجة أقل من هذه القيمة ، يتم استخدام الترجمة الآلية.
- لجميع ملفات XLIFF التي لا يتطابق اسمها مع أي اسم مدرج في ملف التكوين ، يتم استخدام الحد الافتراضي - السطر الذي يحتوي على الكلمة الأساسية
default
مجموعة في العمود 1.
عند تحميل ملف جديد ، يقوم Amazon S3 بتشغيل وظيفة Lambda المسؤولة عن معالجة المعلمات. تقرأ هذه الوظيفة معلمات العتبة وتخزنها في مخزن المعلمات للاستخدام المستقبلي. يؤدي استخدام Parameter Store إلى تجنب تنفيذ طلبات Amazon S3 GET الزائدة في كل مرة يتم فيها بدء مهمة ترجمة جديدة. يُنتج ملف التكوين النموذجي علامات المعلمات الموضحة في لقطة الشاشة التالية.
تستخدم وظيفة Lambda لتهيئة هذه المعلمات لمعالجة البيانات مسبقًا قبل استدعاء Amazon Translate. نستخدم ملف إدخال XLIFF للترجمة من الإنجليزية إلى الإسبانية ، كما هو موضح في الكود التالي. يحتوي على النص الأولي المراد ترجمته ، مقسمًا إلى ما يشار إليه باسم شرائح، ممثلة في علامات المصدر.
تمت مطابقة النص المصدر مسبقًا مع ذاكرة الترجمة. تحتوي البيانات على بدائل ترجمة محتملة - ممثلة كـ <alt-trans>
العلامات — جنبًا إلى جنب مع سمة جودة المطابقة ، معبرًا عنها بالنسبة المئوية. قاعدة العمل كما يلي:
- المقاطع المستلمة مع ترجمات بديلة ونوعية مطابقة أدنى من الحد الأدنى لم يتم المساس بها أو فارغة. يشير هذا إلى Amazon Translate بأنه يجب ترجمتها.
- يتم ملء الأجزاء المستلمة بترجمات بديلة بجودة مطابقة أعلى من الحد مسبقًا بالنص الهدف المقترح. تتخطى Amazon Translate تلك الأجزاء.
لنفترض أن حد مطابقة الجودة الذي تم تكوينه لهذه الوظيفة هو 80٪. المقطع الأول بجودة المطابقة 99٪ غير مترجم آليًا ، بينما المقطع الثاني ، لأن جودة المطابقة أقل من الحد المحدد. في هذا التكوين ، تنتج Amazon Translate المخرجات التالية:
في المقطع الثاني ، يقوم Amazon Translate بالكتابة فوق النص الهدف المقترح في البداية (Selección
) بترجمة عالية الجودة: Visita de selección
.
قد يكون أحد الامتدادات المحتملة لحالة الاستخدام هذه إعادة استخدام المخرجات المترجمة وإنشاء ذاكرة الترجمة الخاصة بنا. يدعم Amazon Translate تخصيص الترجمة الآلية باستخدام ذاكرة الترجمة بفضل ملف بيانات متوازية خاصية. يمكن إعادة استخدام المقاطع النصية التي تمت ترجمتها آليًا سابقًا بسبب درجات الجودة الأولية المنخفضة في مشروعات الترجمة الجديدة.
في الأقسام التالية ، نوجهك خلال عملية نشر واختبار هذا الحل. انت تستخدم تكوين سحابة AWS البرامج النصية وعينات البيانات لبدء مهمة ترجمة غير متزامنة مخصصة مع حد مطابقة جودة قابل للتكوين.
المتطلبات الأساسية المسبقة
لهذه الإرشادات ، يجب أن يكون لديك ملف حساب AWS. إذا لم يكن لديك حساب بعد ، فيمكنك ذلك إنشاء وتفعيل واحدة.
قم بتشغيل حزمة AWS CloudFormation
- اختار قم بتشغيل Stack:
- في حالة اسم المكدس، إدخال اسم.
- في حالة ConfigBucketName، أدخل حاوية S3 التي تحتوي على ملفات تكوين العتبة.
- في حالة المعلمةStoreRoot، أدخل مسار جذر المعلمات التي تم إنشاؤها بواسطة المعلمات التي تعالج وظيفة Lambda.
- في حالة QueueName، أدخل قائمة انتظار SQS التي تقوم بإنشائها لنشر إعلامات ملف جديد من حاوية المصدر إلى وظيفة تهيئة الوظيفة Lambda. هذه هي الوظيفة التي تقرأ ملف التكوين.
- في حالة اسم مصدر الحزمة، أدخل حاوية S3 التي تحتوي على ملفات XLIFF المراد ترجمتها. إذا كنت تفضل استخدام حاوية موجودة مسبقًا ، فأنت بحاجة إلى تغيير قيمة معلمة CreateSourceBucket إلى No.
- في حالة WorkBucketName، أدخل حاوية S3 التي يستخدمها Amazon Translate لبيانات الإدخال والإخراج.
- اختار التالى.
- اختياريا على كومة مزيد من الخيارات الصفحة ، أضف أسماء المفاتيح والقيم للعلامات التي قد ترغب في تعيينها إلى الموارد التي سيتم إنشاؤها.
- اختار التالى.
- على التقيم الصفحة ، حدد أقر بأن هذا النموذج قد يتسبب في إنشاء AWS CloudFormation لموارد IAM.
- راجع الإعدادات الأخرى ، ثم اختر إنشاء مكدس.
يستغرق AWS CloudFormation عدة دقائق لإنشاء الموارد نيابة عنك. يمكنك مشاهدة التقدم على الفعاليات علامة التبويب في وحدة تحكم AWS CloudFormation. عندما يتم إنشاء المكدس ، يمكنك رؤية ملف CREATE_COMPLETE
رسالة في الحالة عمود على نبذة علامة التبويب.
اختبر المحلول
دعنا نذهب من خلال مثال بسيط.
- قم بتنزيل ما يلي بيانات العينة.
- قم بفك ضغط المحتوى.
يجب أن يكون هناك ملفان: ملف .xlf بتنسيق XLIFF ، وملف تكوين عتبة بامتداد .cfg. التالي مقتطفات من ملف XLIFF.
- في وحدة تحكم Amazon S3 ، قم بتحميل ملف تكوين عتبة الجودة في حاوية التكوين التي حددتها مسبقًا.
تم تعيين القيمة لـ test_En_to_Fr
75٪. يجب أن تكون قادرًا على رؤية المعلمات على وحدة تحكم مدير الأنظمة في قسم متجر المعلمات.
- لا يزال في وحدة تحكم Amazon S3 ، قم بتحميل ملف xlf في حاوية S3 التي قمت بتكوينها كمصدر. تأكد من أن الملف موجود ضمن مجلد باسم
translate
(فمثلا،<my_bucket>/translate/test_En_to_Fr.xlf
).
هذا يبدأ تدفق الترجمة.
- افتح وحدة تحكم Amazon Translate.
يجب أن تظهر الوظيفة الجديدة بحالة قيد التقدم.
- بمجرد اكتمال المهمة ، انقر فوق ارتباط الوظيفة واستشر الإخراج. يجب أن تكون جميع الأجزاء قد تمت ترجمتها.
يجب أن تكون جميع الأجزاء قد تمت ترجمتها. في ملف XLIFF المترجم ، ابحث عن المقاطع ذات السمات الإضافية المسماة lscustom:match-quality
، كما هو موضح في الصورة التالية. تحدد هذه السمات المخصصة الأجزاء حيث تم الاحتفاظ بالترجمة المقترحة بناءً على النتيجة.
تم اشتقاقها من ذاكرة الترجمة وفقًا لعتبة الجودة. تمت ترجمة جميع المقاطع الأخرى آليًا.
لقد قمت الآن بنشر واختبار مساعد وظيفة ترجمة غير متزامن آليًا يفرض حدود جودة مطابقة لذاكرة الترجمة القابلة للتكوين. عمل عظيم!
تنظيف
إذا قمت بنشر الحل في حسابك ، فلا تنس حذف مكدس CloudFormation لتجنب أي تكلفة غير متوقعة. تحتاج إلى تفريغ حاويات S3 يدويًا مسبقًا.
وفي الختام
في هذا المنشور ، تعلمت كيفية تخصيص وظائف ترجمة Amazon Translate استنادًا إلى مقاييس جودة XLIFF المطابقة الضبابية القياسية. باستخدام هذا الحل ، يمكنك تقليل العمل اليدوي المتضمن في مراجعة النص المترجم آليًا بشكل كبير مع تحسين استخدامك لـ Amazon Translate. يمكنك أيضًا توسيع الحل من خلال التشغيل التلقائي لاستلام البيانات وإمكانيات تنظيم سير العمل ، كما هو موضح في تسريع مهام الترجمة باستخدام مساعد نظام الترجمة المؤتمت بالكامل.
حول المؤلف
نارسيس زيكبا مهندس حلول مقره بوسطن. يساعد العملاء في شمال شرق الولايات المتحدة على تسريع تبنيهم سحابة AWS ، من خلال توفير إرشادات معمارية وتصميم حلول مبتكرة وقابلة للتطوير. عندما لا يقوم نارسيس بالبناء ، فإنه يستمتع بقضاء الوقت مع أسرته والسفر والطهي ولعب كرة السلة.
ديمتري ريستاينو هو مهندس حلول في AWS ، ومقره في بروكلين ، نيويورك. يعمل بشكل أساسي مع شركات الرعاية الصحية والخدمات المالية في الشمال الشرقي ، مما يساعد على تصميم حلول مبتكرة وخلاقة لخدمة عملائها على أفضل وجه. قادمًا من خلفية تطوير البرمجيات ، فهو متحمس للإمكانيات الجديدة التي يمكن أن توفرها التكنولوجيا بدون خادم للعالم. خارج العمل ، يحب التنزه واستكشاف مشهد الطعام في مدينة نيويورك.
- كوينسمارت. أفضل بورصة للبيتكوين والعملات المشفرة في أوروبا.
- بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. دخول مجاني.
- كريبتوهوك. الرادار. تجربة مجانية.
- المصدر: https://aws.amazon.com/blogs/machine-learning/personalize-your-machine-translation-results-by-using-fuzzy-matching-with-amazon-translate/
- "
- 100
- 420
- 7
- من نحن
- تسريع
- وفقا
- حسابي
- دقيق
- التأهيل
- إضافي
- تبني
- الكل
- البديل
- بالرغم ان
- أمازون
- تطبيق
- معماري
- هندسة معمارية
- المساعد
- سمات
- الآلي
- أتمتة
- متاح
- AWS
- خلفية
- كره السلة
- يجري
- أقل من
- أفضل
- Beyond
- الحدود
- بوسطن
- ابني
- الأعمال
- قدرات
- سبب
- معين
- تغيير
- تهمة
- اختار
- سحابة
- الكود
- عمود
- آت
- الشركات
- الاعداد
- موافقة
- كنسولات
- يحتوي
- محتوى
- استطاع
- خلق
- خلق
- يخلق
- الإبداع
- حرج
- على
- العملاء
- البيانات
- قاعدة البيانات
- تم التوصيل
- نشر
- نشر
- وصف
- تصميم
- التطوير التجاري
- مختلف
- حرية التصرف
- لا
- إلى أسفل
- قيادة
- كفاءة
- عربي
- أدخل
- مثال
- تبادل
- متحمس
- توقع
- اكتشف
- أعربت
- مد
- للعائلات
- الميزات
- الشكل
- مالي
- الخدمات المالية
- شركة
- الاسم الأول
- تدفق
- متابعيك
- متابعات
- طعام
- شكل
- وجدت
- الفرنسية
- وظيفة
- وظائف
- مستقبل
- عظيم
- جدا
- تجمع
- المبادئ التوجيهية
- الرعاية الصحية
- مساعدة
- يساعد
- أعلى
- جدا
- كيفية
- كيفية
- HTTPS
- فكرة
- تحديد
- تحديد
- أهمية
- تتضمن
- معلومات
- مبتكرة
- إدخال
- المشاركة
- IT
- وظيفة
- المشــاريــع
- القفل
- معروف
- عمل
- لغة
- إطلاق
- تعلم
- تعلم
- روافع
- خط
- LINK
- المدرج
- آلة
- إدارة
- مدير
- كتيب
- يدويا
- مباراة
- مطابقة
- مكبر الصوت : يدعم، مع دعم ميكروفون مدمج لمنع الضوضاء
- المقاييس
- ربما
- الأكثر من ذلك
- أسماء
- نيويورك
- شمال
- مدينة نيويورك
- تحسين
- خيار
- تزامن
- أخرى
- الخاصة
- جزء
- نسبة مئوية
- أداء
- إضفاء الطابع الشخصي
- لعب
- إمكانيات
- ممكن
- محتمل
- سابق
- ابتدائي
- عملية المعالجة
- العمليات
- معالجة
- أنتج
- محترف
- مشروع ناجح
- توفير
- جودة
- تلقى
- تخفيض
- ممثلة
- يمثل
- طلبات
- المتطلبات الأساسية
- الموارد
- النتائج
- مراجعة
- القواعد
- تحجيم
- مشهد
- بحث
- قطعة
- شرائح
- Serverless
- خدمات
- طقم
- أظهرت
- الاشارات
- تطبيقات الكمبيوتر
- تطوير البرمجيات
- الصلبة
- حل
- الحلول
- مواصفات
- الإنفاق
- كومة
- معيار
- يبدأ
- الحالة
- تخزين
- متجر
- فروعنا
- الدعم
- نظام
- أنظمة
- الهدف
- تكنولوجيا
- الاختبار
- المصدر
- العالم
- عتبة
- عبر
- الوقت
- خدمات ترجمة
- السفر
- لنا
- فريد من نوعه
- تستخدم
- قيمنا
- شاهد
- ابحث عن
- ما هي تفاصيل
- سواء
- في حين
- من الذى
- في غضون
- للعمل
- أعمال
- العالم
- XML