أمازون كندرا هي خدمة بحث ذكية مدعومة بالتعلم الآلي (ML). تعيد Amazon Kendra تخيل البحث عن مواقع الويب والتطبيقات الخاصة بك حتى يتمكن موظفوك وعملائك من العثور بسهولة على المحتوى الذي يبحثون عنه ، حتى عندما يكون منتشرًا عبر مواقع متعددة ومستودعات المحتوى داخل مؤسستك.
يدعم Amazon Kendra مجموعة متنوعة من تنسيقات المستندات ، مثل Microsoft Word و PDF والنص. أثناء العمل مع عميل Edtech رائد ، طُلب منا إنشاء حل بحث مؤسسي يستخدم أيضًا الصور وملفات PPT. يركز هذا المنشور على توسيع نطاق دعم المستندات في Amazon Kendra حتى تتمكن من المعالجة المسبقة للصور النصية والمستندات الممسوحة ضوئيًا (تنسيق JPEG أو PNG أو PDF) لجعلها قابلة للبحث. يجمع الحل أمازون تيكستراك للمعالجة المسبقة للمستندات والتعرف البصري على الأحرف (OCR) ، و Amazon Kendra للبحث الذكي.
باستخدام ميزة Custom Document Enrichment الجديدة في Amazon Kendra ، يمكنك الآن معالجة مستنداتك مسبقًا أثناء الاستيعاب وزيادة مستنداتك ببيانات وصفية جديدة. يتيح لك Custom Document Enrichment الاتصال بخدمات خارجية مثل فهم الأمازونو Amazon Textract و الأمازون النسخ لاستخراج نص من الصور ونسخ الصوت وتحليل الفيديو. لمزيد من المعلومات حول استخدام إثراء المستندات المخصصة ، يرجى الرجوع إلى قم بإثراء المحتوى والبيانات الوصفية لتحسين تجربة البحث الخاصة بك من خلال إثراء المستندات المخصصة في Amazon Kendra.
في هذا المنشور ، نقترح طريقة بديلة للمعالجة المسبقة للمحتوى قبل استدعاء عملية الابتلاع في Amazon Kendra.
حل نظرة عامة
Amazon Textract هي خدمة تعلُّم آلي تستخرج تلقائيًا النصوص والكتابة اليدوية والبيانات من المستندات الممسوحة ضوئيًا وتتجاوز التعرف الضوئي على الحروف الأساسي لتعريف البيانات وفهمها واستخراجها من النماذج والجداول. اليوم ، تستخرج العديد من الشركات البيانات يدويًا من المستندات الممسوحة ضوئيًا مثل ملفات PDF والصور والجداول والنماذج من خلال برنامج OCR الأساسي الذي يتطلب تكوينًا يدويًا ، والذي يتطلب غالبًا إعادة التكوين عندما يتغير النموذج.
للتغلب على هذه العمليات اليدوية والمكلفة ، تستخدم Amazon Textract التعلم الآلي لقراءة مجموعة كبيرة من المستندات ومعالجتها ، واستخراج النص والكتابة اليدوية والجداول والبيانات الأخرى بدقة دون أي جهد يدوي. يمكنك أتمتة معالجة المستندات بسرعة واتخاذ إجراءات بشأن المعلومات المستخرجة ، سواء أكانت معالجة القروض تلقائيًا أو استخراج المعلومات من الفواتير والإيصالات.
أمازون كندرا هي خدمة بحث مؤسسية سهلة الاستخدام تتيح لك إضافة إمكانات بحث إلى تطبيقاتك بحيث يمكن للمستخدمين النهائيين العثور بسهولة على المعلومات المخزنة في مصادر بيانات مختلفة داخل شركتك. يمكن أن يشمل ذلك الفواتير ووثائق العمل والأدلة الفنية وتقارير المبيعات ومسارد الشركات والمواقع الداخلية والمزيد. يمكنك حصاد هذه المعلومات من حلول التخزين مثل خدمة تخزين أمازون البسيطة (Amazon S3) و OneDrive ؛ تطبيقات مثل Salesforce و SharePoint و ServiceNow ؛ أو قواعد البيانات العلائقية مثل خدمة قاعدة بيانات الأمازون (أمازون آر دي إس).
يمكّنك الحل المقترح من فتح إمكانات البحث في المستندات الممسوحة ضوئيًا ، مما يوسع قدرة Amazon Kendra على العثور على إجابات دقيقة في نطاق أوسع من أنواع المستندات. يتضمن سير العمل الخطوات التالية:
- قم بتحميل مستند (أو مستندات من أنواع مختلفة) إلى Amazon S3.
- يؤدي الحدث إلى تشغيل ملف AWS لامدا وظيفة تستخدم واجهة برمجة تطبيقات Amazon Textract المتزامنة (
DetectDocumentText
). - يقرأ Amazon Textract المستند في Amazon S3 ويستخرج النص منه ويعيد النص المستخرج إلى وظيفة Lambda.
- يجب إعادة فهرسة مصدر البيانات في الملف النصي الجديد.
- عند اكتمال إعادة الفهرسة ، يمكنك البحث في مجموعة البيانات الجديدة إما عبر وحدة تحكم Amazon Kendra أو واجهة برمجة التطبيقات.
يوضح الرسم البياني التالي بنية الحل.
في الأقسام التالية ، نوضح كيفية تكوين وظيفة Lambda ، وإنشاء مشغل الحدث ، ومعالجة مستند ، ثم إعادة فهرسة البيانات.
تكوين وظيفة Lambda
لتكوين وظيفة Lambda الخاصة بك ، أضف الكود التالي إلى وظيفة محرر Python:
نستخدم DetectDocumentText API لاستخراج النص من صورة (JPEG أو PNG) تم استردادها في Amazon S3.
أنشئ حدثًا مشغلاً في Amazon S3
في هذه الخطوة ، نقوم بإنشاء مشغل حدث لبدء وظيفة Lambda عند تحميل مستند جديد إلى حاوية معينة. تُظهر لقطة الشاشة التالية وظيفتنا الجديدة على وحدة التحكم Amazon S3.
يمكنك أيضًا التحقق من مشغل الحدث على وحدة تحكم Lambda.
معالجة وثيقة
لاختبار العملية ، نقوم بتحميل صورة إلى المجلد S3 الذي حددناه لمشغل حدث S3. نستخدم الصورة النموذجية التالية.
عندما تكتمل وظيفة Lambda ، يمكننا الانتقال إلى ملف الأمازون CloudWatch وحدة للتحقق من الإخراج. تُظهر لقطة الشاشة التالية النص المستخرج ، مما يؤكد تشغيل وظيفة Lambda بنجاح.
أعد فهرسة البيانات باستخدام Amazon Kendra
يمكننا الآن إعادة فهرسة بياناتنا.
- على وحدة تحكم Amazon Kendra ، تحت إدارة البيانات في جزء التنقل ، اختر مصادر البيانات.
- حدد مصدر البيانات
demo-s3-datasource
. - اختار زامن الآن "لنقل البيانات.
تتغير حالة المزامنة إلى Synching - crawling
.
عند اكتمال المزامنة ، تتغير حالة المزامنة إلى Succeeded
وتتغير حالة المزامنة إلى Idle
.
يمكننا الآن العودة إلى وحدة تحكم البحث ومشاهدة بحثنا الأوجه عمليًا.
أضفنا بيانات وصفية لبضعة عناصر ؛ اثنان منهم هما خوارزميات ML XGBoost و BlazingText.
كان بحثنا ناجحًا ، وحصلنا على قائمة بالنتائج. دعونا نرى ما لدينا من جوانب.
- وسع تصفية نتائج البحث.
لدينا category
و tags
الأوجه التي كانت جزءًا من البيانات الوصفية للعناصر.
- اختار BlazingText لتصفية النتائج لتلك الخوارزمية فقط.
- لنقم الآن بالبحث عن ملفات الصور التي تم تحميلها حديثًا. تُظهر لقطة الشاشة التالية البحث في المستندات الجديدة المعالجة مسبقًا.
وفي الختام
ستكون هذه المدونة مفيدة في تحسين فعالية نتائج البحث وتجربة البحث. يمكنك استخدام Amazon Textract لاستخراج النص من الصور الممسوحة ضوئيًا والتي تمت إضافتها كبيانات وصفية والمتاحة لاحقًا كواجهة للتفاعل مع نتائج البحث. هذا مجرد توضيح لكيفية استخدام خدمات AWS الأصلية لإنشاء تجربة بحث مميزة لمستخدميك. يساعد هذا أيضًا في إطلاق الإمكانات الكاملة لأصول المعرفة الخاصة بك.
للتعمق في ما يمكنك تحقيقه من خلال الجمع بين خدمات AWS الأخرى مع Amazon Kendra ، يرجى الرجوع إلى اجعل ملفات الصوت والفيديو الخاصة بك قابلة للبحث باستخدام Amazon Transcribe و Amazon Kendra, بناء حل بحث ذكي مع إثراء المحتوى الآلي، والمشاركات الأخرى على مدونة أمازون كندرا.
حول المؤلف
سانجاي تيواري هو مهندس حلول متخصص AI / ML. يقضي وقته في العمل مع العملاء الاستراتيجيين لتحديد متطلبات العمل ، وتقديم جلسات L300 حول حالات استخدام محددة ، وتصميم تطبيقات وخدمات ML تكون قابلة للتطوير وموثوقة وذات أداء. لقد ساعد في إطلاق وتوسيع خدمة Amazon SageMaker التي تدعم الذكاء الاصطناعي / التعلم الآلي وقام بتنفيذ العديد من البراهين على المفهوم باستخدام خدمات Amazon AI. كما طور منصة التحليلات المتقدمة كجزء من رحلة التحول الرقمي.
- "
- 100
- 7
- من نحن
- دقيق
- في
- اكشن
- متقدم
- AI
- خدمات الذكاء الاصطناعي
- خوارزمية
- خوارزميات
- أمازون
- تحليلات
- API
- التطبيقات
- هندسة معمارية
- حول
- ممتلكات
- سمعي
- الآلي
- متاح
- AWS
- حظر
- المدونة
- الحدود
- نساعدك في بناء
- الأعمال
- دعوة
- قدرات
- الحالات
- اختار
- الكود
- الشركات
- حول الشركة
- مفهوم
- الاعداد
- كنسولات
- محتوى
- استطاع
- على
- العملاء
- البيانات
- قاعدة البيانات
- قواعد البيانات
- أعمق
- شرح
- تصميم
- المتقدمة
- مختلف
- متباينة
- رقمي
- التحول الرقمي
- وثائق
- بسهولة
- رئيس التحرير
- فعالية
- الموظفين
- تمكين
- مشروع
- الحدث/الفعالية
- الخبره في مجال الغطس
- مقتطفات
- الميزات
- ويركز
- متابعيك
- النموذج المرفق
- شكل
- أشكال
- بالإضافة إلى
- وظيفة
- موسم الحصاد
- مفيد
- يساعد
- كيفية
- كيفية
- HTTPS
- تحديد
- صورة
- نفذت
- تتضمن
- معلومات
- ذكي
- IT
- القفل
- المعرفة
- إطلاق
- قيادة
- تعلم
- خط
- قائمة
- القروض
- المواقع
- أبحث
- آلة
- آلة التعلم
- إدارة
- كتيب
- يدويا
- مایکروسافت
- ML
- الأكثر من ذلك
- متعدد
- قائمة الإختيارات
- منظمة
- أخرى
- المنصة
- المنشورات
- محتمل
- عملية المعالجة
- العمليات
- اقترح
- المقترح
- تزود
- بسرعة
- نطاق
- تسجيل
- التقارير
- المتطلبات الأساسية
- النتائج
- عائدات
- الأملاح
- تحجيم
- حجم
- بحث
- الخدمة
- خدماتنا
- الاشارات
- So
- تطبيقات الكمبيوتر
- حل
- الحلول
- بداية
- الولايه او المحافظه
- الحالة
- تخزين
- إستراتيجي
- ناجح
- بنجاح
- الدعم
- الدعم
- تقني
- تجربه بالعربي
- عبر
- الوقت
- اليوم
- تحول
- فهم
- فتح
- تستخدم
- المستخدمين
- تشكيلة
- مختلف
- فيديو
- المواقع
- ابحث عن
- سواء
- في حين
- في غضون
- بدون
- عامل
- X