الغوص في التعلم العميق (D2L.ai) هو كتاب مدرسي مفتوح المصدر يجعل التعلم العميق في متناول الجميع. إنه يتميز بدفاتر Jupyter التفاعلية ذات التعليمات البرمجية المضمنة في PyTorch و JAX و TensorFlow و MXNet ، بالإضافة إلى أمثلة من العالم الحقيقي وأرقام العرض والرياضيات. حتى الآن ، تم اعتماد D2L من قبل أكثر من 400 جامعة حول العالم ، مثل جامعة كامبريدج ، وجامعة ستانفورد ، ومعهد ماساتشوستس للتكنولوجيا ، وجامعة كارنيجي ميلون ، وجامعة تسينغهوا. يتوفر هذا العمل أيضًا باللغات الصينية واليابانية والكورية والبرتغالية والتركية والفيتنامية ، مع خطط لإطلاق الإسبانية ولغات أخرى.
إنها محاولة صعبة للحصول على كتاب على الإنترنت يتم تحديثه باستمرار ، وكتابته من قبل العديد من المؤلفين ، ومتاح بلغات متعددة. في هذا المنشور ، نقدم حلًا استخدمته D2L.ai لمواجهة هذا التحدي باستخدام ملف ميزة الترجمة المخصصة النشطة (ACT) of ترجمة أمازون وبناء خط ترجمة آلي متعدد اللغات.
نوضح كيفية استخدام وحدة تحكم إدارة AWS و Amazon Translate Public API لتقديم ترجمة آلية آلية ، وتحليل الترجمات بين لغتين: الإنجليزية والصينية ، والإنجليزية والإسبانية. نوصي أيضًا بأفضل الممارسات عند استخدام Amazon Translate في مسار الترجمة التلقائي هذا لضمان جودة الترجمة وكفاءتها.
حل نظرة عامة
لقد أنشأنا خطوط أنابيب للترجمة الآلية للغات متعددة باستخدام ميزة ACT في Amazon Translate. يتيح لك ACT تخصيص إخراج الترجمة على الفور من خلال تقديم أمثلة ترجمة مخصصة في شكل بيانات متوازية. تتكون البيانات الموازية من مجموعة من الأمثلة النصية في لغة المصدر والترجمات المطلوبة في لغة هدف واحدة أو أكثر. أثناء الترجمة ، تحدد ACT تلقائيًا المقاطع الأكثر صلة من البيانات المتوازية وتقوم بتحديث نموذج الترجمة سريعًا استنادًا إلى أزواج المقاطع هذه. ينتج عن هذا ترجمات تتطابق بشكل أفضل مع نمط ومحتوى البيانات المتوازية.
تحتوي العمارة على خطوط أنابيب فرعية متعددة ؛ يتعامل كل خط أنابيب فرعي مع ترجمة لغة واحدة مثل الإنجليزية إلى الصينية ، والإنجليزية إلى الإسبانية ، وما إلى ذلك. يمكن معالجة خطوط الأنابيب الفرعية للترجمة المتعددة بالتوازي. في كل خط أنابيب فرعي ، نبني أولاً البيانات المتوازية في Amazon Translate باستخدام مجموعة بيانات عالية الجودة لأمثلة الترجمة الذيلية من كتب D2L المترجمة بشريًا. ثم نقوم بإنشاء مخرجات الترجمة الآلية المخصصة أثناء التشغيل ، مما يحقق جودة ودقة أفضل.
في الأقسام التالية ، نوضح كيفية إنشاء كل مسار ترجمة باستخدام Amazon Translate مع ACT ، جنبًا إلى جنب مع الأمازون SageMaker و خدمة تخزين أمازون البسيطة (أمازون S3).
أولاً ، نضع المستندات المصدر والمستندات المرجعية ومجموعة التدريب على البيانات المتوازية في دلو S3. ثم قمنا ببناء دفاتر Jupyter في SageMaker لتشغيل عملية الترجمة باستخدام واجهات برمجة تطبيقات Amazon Translate العامة.
المتطلبات الأساسية المسبقة
لاتباع الخطوات الواردة في هذا المنشور ، تأكد من أن لديك حساب AWS مع ما يلي:
- الوصول إلى إدارة الهوية والوصول AWS (IAM) لتكوين الدور والسياسة
- الوصول إلى Amazon Translate و SageMaker و Amazon S3
- حاوية S3 لتخزين المستندات المصدر والمستندات المرجعية ومجموعة البيانات المتوازية وإخراج الترجمة
أنشئ دور IAM وسياساته لـ Amazon Translate باستخدام ACT
يحتاج دور IAM الخاص بنا إلى احتواء سياسة ثقة مخصصة لـ Amazon Translate:
يجب أن يكون لهذا الدور أيضًا سياسة أذونات تمنح Amazon Translate حق الوصول للقراءة إلى مجلد الإدخال والمجلدات الفرعية في Amazon S3 التي تحتوي على المستندات المصدر ، والوصول للقراءة / الكتابة إلى حاوية الإخراج S3 والمجلد الذي يحتوي على المستندات المترجمة:
لتشغيل دفاتر Jupyter في SageMaker لوظائف الترجمة ، نحتاج إلى منح سياسة إذن مضمنة لدور تنفيذ SageMaker. يمرر هذا الدور دور خدمة Amazon Translate إلى SageMaker الذي يسمح لدفاتر SageMaker بالوصول إلى المصدر والمستندات المترجمة في حاويات S3 المعينة:
إعداد عينات التدريب على البيانات المتوازية
تحتاج البيانات الموازية في ACT إلى التدريب من خلال ملف إدخال يتكون من قائمة من أزواج الأمثلة النصية ، على سبيل المثال ، زوج من لغة المصدر (الإنجليزية) واللغة الهدف (الصينية). يمكن أن يكون ملف الإدخال بتنسيق TMX أو CSV أو TSV. تُظهر لقطة الشاشة التالية مثالاً لملف إدخال CSV. العمود الأول هو بيانات اللغة المصدر (باللغة الإنجليزية) ، والعمود الثاني هو بيانات اللغة الهدف (باللغة الصينية). تم استخراج المثال التالي من كتاب D2L-en وكتاب D2L-zh.
قم بإجراء تدريب مخصص على البيانات المتوازية في Amazon Translate
أولاً ، قمنا بإعداد دلو ومجلدات S3 كما هو موضح في لقطة الشاشة التالية. ال source_data
يحتوي المجلد على المستندات المصدر قبل الترجمة ؛ يتم وضع المستندات التي تم إنشاؤها بعد الترجمة الدفعية في مجلد الإخراج. ال ParallelData
يحتوي المجلد على ملف إدخال البيانات المتوازي الذي تم إعداده في الخطوة السابقة.
بعد تحميل ملفات الإدخال إلى source_data
مجلد ، يمكننا استخدام ملف إنشاء واجهة برمجة تطبيقات ParallelData لتشغيل وظيفة إنشاء بيانات متوازية في Amazon Translate:
لتحديث البيانات المتوازية الحالية بمجموعات بيانات تدريبية جديدة ، يمكننا استخدام واجهة برمجة تطبيقات UpdateParallelData:
S3_BUCKET = “YOUR-S3_BUCKET-NAME”
pd_name = “pd-d2l-short_test_sentence_enzh_all”
pd_description = “Parallel Data for English to Chinese”
pd_fn = “d2l_short_test_sentence_enzh_all.csv”
response_t = translate_client.update_parallel_data( Name=pd_name, # pd_name is the parallel data name Description=pd_description, # pd_description is the parallel data description ParallelDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/Paralleldata/'+pd_fn, # S3_BUCKET is the S3 bucket name defined in the previous step 'Format': 'CSV' },
)
print(pd_name, ": ", response_t['Status'], " updated.")
يمكننا التحقق من تقدم مهمة التدريب على وحدة تحكم Amazon Translate. عند اكتمال المهمة ، تظهر حالة البيانات المتوازية كـ النشطه وجاهز للاستخدام.
قم بتشغيل ترجمة دفعية غير متزامنة باستخدام البيانات المتوازية
يمكن إجراء الترجمة المجمعة في عملية يتم فيها ترجمة مستندات المصدر المتعددة تلقائيًا إلى مستندات باللغات المستهدفة. تتضمن العملية تحميل المستندات المصدر إلى مجلد الإدخال لحاوية S3 ، ثم تطبيق ملف واجهة برمجة تطبيقات StartTextTranslationJob من Amazon Translate لبدء مهمة ترجمة غير متزامنة:
اخترنا خمسة مستندات مصدر باللغة الإنجليزية من كتاب D2L (D2L-en) للترجمة المجمعة. في وحدة تحكم Amazon Translate ، يمكننا مراقبة تقدم مهمة الترجمة. عندما تتغير حالة الوظيفة إلى الطلب مكتمل، يمكننا العثور على المستندات المترجمة باللغة الصينية (D2L-zh) في مجلد إخراج دلو S3.
تقييم جودة الترجمة
لإثبات فعالية ميزة ACT في Amazon Translate ، طبقنا أيضًا الطريقة التقليدية لترجمة Amazon Translate في الوقت الفعلي بدون بيانات متوازية لمعالجة نفس المستندات ، وقارننا الإخراج بإخراج الترجمة المجمعة باستخدام ACT. استخدمنا درجة BLEU (دراسة تقييم ثنائية اللغة) لقياس جودة الترجمة بين الطريقتين. الطريقة الوحيدة لقياس جودة مخرجات الترجمة الآلية بدقة هي الحصول على مراجعة خبراء وتقييم الجودة. ومع ذلك ، توفر BLEU تقديرًا لتحسين الجودة النسبي بين ناتجين. عادةً ما تكون درجة BLEU عبارة عن رقم بين 0-1 ؛ يحسب تشابه الترجمة الآلية مع الترجمة البشرية المرجعية. تمثل الدرجة الأعلى جودة أفضل في فهم اللغة الطبيعية (NLU).
لقد اختبرنا مجموعة من المستندات في أربعة خطوط أنابيب: الإنجليزية إلى الصينية (en to zh) ، الصينية إلى الإنجليزية (zh to en) ، الإنجليزية إلى الإسبانية (en to es) ، الإسبانية إلى الإنجليزية (es إلى en). يوضح الشكل التالي أن الترجمة باستخدام ACT أنتجت متوسط درجات BLEU أعلى في جميع خطوط أنابيب الترجمة.
لاحظنا أيضًا أنه كلما كانت أزواج البيانات المتوازية أكثر دقة ، كان أداء الترجمة أفضل. على سبيل المثال ، نستخدم ملف إدخال البيانات المتوازي التالي مع أزواج من الفقرات ، والتي تحتوي على 10 إدخالات.
لنفس المحتوى ، نستخدم ملف إدخال البيانات المتوازي التالي مع أزواج من الجمل و 16 إدخالاً.
استخدمنا كلا من ملفي إدخال البيانات المتوازية لإنشاء كيانين متوازيين للبيانات في Amazon Translate ، ثم أنشأنا وظيفتين للترجمة المجمعة بنفس المستند المصدر. الشكل التالي يقارن الترجمات الناتجة. يُظهر أن المخرجات باستخدام البيانات المتوازية مع أزواج من الجمل تفوقت على المخرجات باستخدام بيانات متوازية مع أزواج من الفقرات ، لكل من الترجمة من الإنجليزية إلى الصينية والترجمة الصينية إلى الإنجليزية.
إذا كنت مهتمًا بمعرفة المزيد حول هذه التحليلات المعيارية ، فارجع إلى الترجمة الآلية الآلية والمزامنة من أجل "الغوص في التعلم العميق".
تنظيف
لتجنب التكاليف المتكررة في المستقبل ، نوصيك بتنظيف الموارد التي قمت بإنشائها:
- في وحدة تحكم Amazon Translate ، حدد البيانات المتوازية التي أنشأتها واخترتها حذف. بدلاً من ذلك ، يمكنك استخدام ملف واجهة برمجة تطبيقات DeleteParallelData أو ال واجهة سطر الأوامر AWS (AWS CLI) حذف البيانات المتوازية أمر لحذف البيانات المتوازية.
- احذف حاوية S3 تستخدم لاستضافة المصدر والوثائق المرجعية والمستندات المترجمة وملفات إدخال البيانات المتوازية.
- حذف دور IAM وسياستها. للحصول على تعليمات ، راجع حذف الأدوار أو ملفات تعريف المثيل و حذف سياسات IAM.
وفي الختام
من خلال هذا الحل ، نهدف إلى تقليل عبء العمل على المترجمين البشريين بنسبة 80٪ ، مع الحفاظ على جودة الترجمة ودعم لغات متعددة. يمكنك استخدام هذا الحل لتحسين جودة الترجمة وكفاءتها. نحن نعمل على تحسين بنية الحلول وجودة الترجمة للغات أخرى.
نرحب بتعليقاتك دائمًا ؛ يرجى ترك أفكارك وأسئلتك في قسم التعليقات.
عن المؤلفين
يونفي باي هو مهندس حلول أول في AWS. من خلال خلفية في AI / ML وعلوم البيانات والتحليلات ، تساعد Yunfei العملاء على اعتماد خدمات AWS لتحقيق نتائج الأعمال. يقوم بتصميم حلول الذكاء الاصطناعي / التعلم الآلي وتحليلات البيانات التي تتغلب على التحديات التقنية المعقدة وتؤدي إلى تحقيق الأهداف الاستراتيجية. Yunfei حاصل على درجة الدكتوراه في الهندسة الإلكترونية والكهربائية. خارج العمل ، يستمتع Yunfei بالقراءة والموسيقى.
راشيل هو هو عالم تطبيقي في AWS Machine Learning University (MLU). لقد كانت تقود عددًا من تصميمات الدورات التدريبية ، بما في ذلك ML Operations (MLOps) و Accelerator Computer Vision. راشيل من كبار المتحدثين في AWS وتحدثت في مؤتمرات رفيعة المستوى بما في ذلك AWS re: Invent و NVIDIA GTC و KDD و MLOps Summit. قبل الانضمام إلى AWS ، عملت راشيل كمهندسة تعلم الآلة لبناء نماذج معالجة اللغة الطبيعية. خارج العمل ، تستمتع باليوغا والطبق الطائر في نهاية المطاف والقراءة والسفر.
واتسون سريفاتسان هو مدير المنتج الرئيسي لـ Amazon Translate ، خدمة معالجة اللغة الطبيعية من AWS. في عطلات نهاية الأسبوع ، ستجده يستكشف الهواء الطلق في شمال غرب المحيط الهادئ.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- تمويل EVM. واجهة موحدة للتمويل اللامركزي. الوصول هنا.
- مجموعة كوانتوم ميديا. تضخيم IR / PR. الوصول هنا.
- أفلاطونايستريم. ذكاء بيانات Web3. تضخيم المعرفة. الوصول هنا.
- المصدر https://aws.amazon.com/blogs/machine-learning/build-a-multilingual-automatic-translation-pipeline-with-amazon-translate-active-custom-translation/
- :لديها
- :يكون
- :أين
- $ UP
- 10
- 100
- 11
- 12
- 14
- 16
- 17
- 7
- a
- من نحن
- مسرع
- الوصول
- يمكن الوصول
- حسابي
- دقة
- بدقة
- يحقق
- عمل
- اكشن
- نشط
- العنوان
- تبنى
- اعتمد
- بعد
- AI
- AI / ML
- هدف
- الكل
- السماح
- يسمح
- على طول
- أيضا
- دائما
- أمازون
- ترجمة أمازون
- أمازون ويب سيرفيسز
- an
- تحليل
- تحليلات
- تحليل
- و
- واجهات برمجة التطبيقات
- تطبيقي
- تطبيق
- هندسة معمارية
- هي
- حول
- AS
- At
- الكتاب
- السيارات
- أوتوماتيك
- تلقائيا
- متاح
- المتوسط
- تجنب
- AWS
- التعلم الآلي من AWS
- AWS إعادة: اختراع
- خلفية
- على أساس
- BE
- كان
- قبل
- مؤشر
- أفضل
- أفضل الممارسات
- أفضل
- ما بين
- كتاب
- كُتُب
- على حد سواء
- نساعدك في بناء
- ابني
- بنيت
- الأعمال
- by
- تحسب
- كامبردج
- CAN
- كارنيجي ميلون
- تحدى
- التحديات
- تحدي
- التغييرات
- التحقق
- الصينية
- اختار
- الكود
- مجموعة شتاء XNUMX
- عمود
- COM
- تعليقات
- مقارنة
- إكمال
- مجمع
- الكمبيوتر
- رؤية الكمبيوتر
- أجرت
- المؤتمرات
- تتكون
- يتكون
- كنسولات
- بناء
- تحتوي على
- يحتوي
- محتوى
- بشكل متواصل
- التكاليف
- الدورة
- خلق
- خلق
- على
- العملاء
- تصميم
- حسب الطلب
- البيانات
- تحليلات البيانات
- علم البيانات
- قواعد البيانات
- التاريخ
- عميق
- التعلم العميق
- تعريف
- نقل
- شرح
- وصف
- محدد
- تصاميم
- مطلوب
- وثيقة
- وثائق
- قيادة
- أثناء
- كل
- تأثير
- فعالية
- كفاءة
- إلكتروني
- محاولة
- مهندس
- الهندسة
- انجليزي
- ضمان
- الكيانات
- تقدير
- تقييم
- كل شخص
- مثال
- أمثلة
- القائمة
- خبير
- استكشاف
- بعيدا
- الميزات
- المميزات
- ردود الفعل
- قليل
- الشكل
- الأرقام
- قم بتقديم
- ملفات
- الاسم الأول
- اتباع
- متابعيك
- في حالة
- النموذج المرفق
- شكل
- أربعة
- تبدأ من
- إضافي
- مستقبل
- توليد
- ولدت
- درجة
- منح
- منح
- مقابض
- يملك
- he
- يساعد
- عالي الجودة
- أعلى
- وسلم
- يحمل
- مضيف
- كيفية
- كيفية
- لكن
- HTML
- HTTP
- HTTPS
- الانسان
- هوية
- تحسن
- تحسين
- تحسين
- in
- بما فيه
- بدء
- إدخال
- مثل
- معهد
- تعليمات
- التفاعلية
- يستفد
- إلى
- IT
- اليابانيّة
- وظيفة
- المشــاريــع
- انضمام
- JPG
- أبقى
- الكوريّة
- لغة
- اللغات
- إطلاق
- قيادة
- تعلم
- يترك
- خط
- قائمة
- آلة
- آلة التعلم
- صنع
- الحفاظ على
- جعل
- يصنع
- إدارة
- مدير
- ماساتشوستس
- معهد ماساتشوستس للتكنولوجيا
- مباراة
- الرياضيات
- قياس
- ميلون
- طريقة
- طرق
- ML
- MLOps
- نموذج
- عارضات ازياء
- مراقبة
- الأكثر من ذلك
- أكثر
- متعدد
- موسيقى
- يجب
- الاسم
- طبيعي
- معالجة اللغات الطبيعية
- حاجة
- إحتياجات
- جديد
- عدد
- NVIDIA
- أهداف
- of
- on
- ONE
- online
- فقط
- المصدر المفتوح
- عمليات
- or
- أخرى
- في الهواء الطلق
- الناتج
- في الخارج
- تغلب
- سلمي
- زوج
- أزواج
- موازية
- يمر
- أداء
- إذن
- أذونات
- خط أنابيب
- خطط
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- من فضلك
- سياسات الخصوصية والبيع
- سياسة
- البرتغاليّة
- منشور
- الممارسات
- أعدت
- يقدم
- سابق
- رئيسي
- عملية المعالجة
- معالجتها
- معالجة
- أنتج
- المنتج
- مدير المنتج
- التقدّم
- ويوفر
- توفير
- جمهور
- وضع
- pytorch
- جودة
- الأسئلة المتكررة
- RE
- عرض
- نادي القراءة
- استعداد
- العالم الحقيقي
- في الوقت الحقيقي
- نوصي
- متكرر
- تخفيض
- نسبي
- ذات الصلة
- يمثل
- مورد
- الموارد
- استجابة
- النتائج
- مراجعة
- النوع
- الأدوار
- يجري
- sagemaker
- نفسه
- علوم
- عالم
- أحرز هدفاً
- الثاني
- القسم
- أقسام
- قطعة
- شرائح
- مختار
- كبير
- الخدمة
- خدماتنا
- طقم
- هي
- أظهرت
- يظهر
- الاشارات
- So
- حتى الآن
- حل
- الحلول
- مصدر
- الإسبانية
- مكبرات الصوت
- تحدث
- ستانفورد
- جامعة ستانفورد
- ملخص الحساب
- الحالة
- خطوة
- خطوات
- تخزين
- متجر
- إستراتيجي
- نمط
- هذه
- قمة
- دعم
- تزامن
- تناسب
- الهدف
- تقني
- تكنولوجيا
- tensorflow
- اختبار
- الكتاب المدرسي
- من
- أن
- •
- المستقبل
- المصدر
- العالم
- then
- تشبه
- هؤلاء
- الوقت
- إلى
- تيشرت
- تقليدي
- متدرب
- قادة الإيمان
- ترجمه
- خدمات ترجمة
- السفر
- الثقة
- تسينغهوا
- تركي
- اثنان
- عادة
- نهائي
- فهم
- الجامعات
- جامعة
- جامعة كامبريدج
- تحديث
- تحديث
- آخر التحديثات
- تحميل
- تستخدم
- مستعمل
- استخدام
- الإصدار
- الفيتنامية
- رؤيتنا
- واتسون
- طريق..
- we
- الويب
- خدمات ويب
- ترحيب
- حسن
- متى
- التي
- في حين
- سوف
- مع
- بدون
- للعمل
- عمل
- عامل
- العالم
- مكتوب
- اليوغا
- أنت
- حل متجر العقارات الشامل الخاص بك في جورجيا
- زفيرنت