يلعب الإشراف على المحتوى دورًا محوريًا في الحفاظ على السلامة عبر الإنترنت ودعم قيم ومعايير مواقع الويب ومنصات التواصل الاجتماعي. وتتجلى أهميتها من خلال الحماية التي توفرها للمستخدمين من التعرض لمحتوى غير لائق، والحفاظ على سلامتهم في المساحات الرقمية. على سبيل المثال، في صناعة الإعلان، يعمل الإشراف على المحتوى على حماية العلامات التجارية من الارتباطات غير المواتية، وبالتالي المساهمة في رفع مستوى العلامة التجارية ونمو الإيرادات. يعطي المعلنون الأولوية لمواءمة علاماتهم التجارية مع المحتوى المناسب لدعم سمعتهم وتجنب الدعاية السلبية. ويحظى الإشراف على المحتوى أيضًا بأهمية بالغة في قطاعي التمويل والرعاية الصحية، حيث يخدم وظائف متعددة. إنه يلعب دورًا مهمًا في تحديد وحماية معلومات التعريف الشخصية والمعلومات الصحية الحساسة (PII، PHI). ومن خلال الالتزام بالمعايير والممارسات الداخلية والامتثال للوائح الخارجية، يعمل الإشراف على المحتوى على تعزيز الأمان الرقمي للمستخدمين. وبهذه الطريقة، فإنه يمنع المشاركة غير المقصودة للبيانات السرية على المنصات العامة، مما يضمن الحفاظ على خصوصية المستخدم وأمن البيانات.
في هذا المنشور، نقدم طريقة جديدة لإجراء الإشراف على المحتوى على بيانات الصورة من خلال التدريب المسبق متعدد الوسائط ونموذج اللغة الكبير (LLM). من خلال التدريب المسبق متعدد الوسائط، يمكننا الاستعلام مباشرة عن محتوى الصورة بناءً على مجموعة من الأسئلة ذات الاهتمام وسيتمكن النموذج من الإجابة على هذه الأسئلة. يتيح ذلك للمستخدمين الدردشة مع الصورة للتأكد مما إذا كانت تحتوي على أي محتوى غير لائق ينتهك سياسات المؤسسة. نحن نستخدم قدرة التوليد القوية لـ LLMs لإنشاء القرار النهائي بما في ذلك التصنيفات الآمنة/غير الآمنة ونوع الفئة. بالإضافة إلى ذلك، من خلال تصميم موجه، يمكننا أن نجعل LLM يقوم بإنشاء تنسيق الإخراج المحدد، مثل تنسيق JSON. يسمح قالب المطالبة المصمم لـ LLM بتحديد ما إذا كانت الصورة تنتهك سياسة الإشراف، وتحديد فئة الانتهاك، وشرح السبب، وتوفير الإخراج بتنسيق JSON منظم.
نستخدم بليب-2 باعتبارها طريقة التدريب المسبق متعددة الوسائط. يعد BLIP-2 واحدًا من أحدث النماذج في التدريب المسبق متعدد الوسائط ويتفوق على معظم الأساليب الحالية في الإجابة على الأسئلة المرئية والتعليق على الصور واسترجاع نص الصورة. بالنسبة لماجستير القانون لدينا، نستخدم اللاما 2، الجيل القادم من LLM مفتوح المصدر، والذي يتفوق على نماذج اللغة مفتوحة المصدر الحالية في العديد من المعايير، بما في ذلك المنطق والترميز والكفاءة واختبارات المعرفة. والشكل التالي يوضح مكونات الحل.
التحديات في الإشراف على المحتوى
لا تستطيع أساليب الإشراف على المحتوى التقليدية، مثل الإشراف البشري، مواكبة الحجم المتزايد للمحتوى الذي ينشئه المستخدم (UGC). مع زيادة حجم المحتوى الذي ينشئه المستخدمون، يمكن أن يصبح المشرفون البشريون مرهقين ويكافحون من أجل الإشراف على المحتوى بشكل فعال. وينتج عن ذلك تجربة مستخدم سيئة، وارتفاع تكاليف الإشراف، ومخاطر العلامة التجارية. إن الاعتدال القائم على الإنسان هو أيضًا عرضة للأخطاء، مما قد يؤدي إلى اعتدال غير متسق وقرارات متحيزة. ولمواجهة هذه التحديات، ظهر الإشراف على المحتوى المدعوم بالتعلم الآلي (ML) كحل. يمكن لخوارزميات ML تحليل كميات كبيرة من المحتوى الذي ينشئه المستخدمون وتحديد المحتوى الذي ينتهك سياسات المؤسسة. يمكن تدريب نماذج ML على التعرف على الأنماط وتحديد المحتوى الإشكالي، مثل خطاب الكراهية والبريد العشوائي والمواد غير المناسبة. وفقا للدراسة قم بحماية المستخدمين والعلامة التجارية والميزانية من خلال الإشراف على المحتوى المدعوم بالذكاء الاصطناعي، يمكن أن يساعد الإشراف على المحتوى المدعوم بالتعلم الآلي المؤسسات على استعادة ما يصل إلى 95% من الوقت الذي تقضيه فرقها في الإشراف على المحتوى يدويًا. يتيح ذلك للمؤسسات تركيز مواردها على المزيد من المهام الإستراتيجية، مثل بناء المجتمع وإنشاء المحتوى. يمكن أن يؤدي الإشراف على المحتوى المدعوم بالتعلم الآلي أيضًا إلى تقليل تكاليف الإشراف لأنه أكثر كفاءة من الإشراف البشري.
على الرغم من مزايا الإشراف على المحتوى الذي يعتمد على التعلم الآلي، إلا أنه لا يزال لديه مساحة إضافية للتحسين. تعتمد فعالية خوارزميات تعلم الآلة بشكل كبير على جودة البيانات التي يتم تدريبها عليها. عندما يتم تدريب النماذج باستخدام بيانات متحيزة أو غير كاملة، فإنها يمكن أن تتخذ قرارات اعتدال خاطئة، مما يعرض المؤسسات لمخاطر العلامة التجارية والمسؤوليات القانونية المحتملة. إن اعتماد الأساليب القائمة على التعلم الآلي لإدارة المحتوى يجلب العديد من التحديات التي تتطلب دراسة متأنية. وتشمل هذه التحديات ما يلي:
- الحصول على البيانات المسمى – يمكن أن تكون هذه عملية مكلفة، خاصة بالنسبة لمهام الإشراف على المحتوى المعقدة التي تتطلب تدريب واضعي العلامات. قد تجعل هذه التكلفة من الصعب جمع مجموعات بيانات كبيرة بما يكفي لتدريب نموذج تعلم الآلة الخاضع للإشراف بسهولة. بالإضافة إلى ذلك، تعتمد دقة النموذج بشكل كبير على جودة بيانات التدريب، ويمكن أن تؤدي البيانات المتحيزة أو غير الكاملة إلى قرارات اعتدال غير دقيقة، مما يؤدي إلى مخاطر العلامة التجارية والمسؤوليات القانونية.
- تعميم النموذج – وهذا أمر بالغ الأهمية لاعتماد الأساليب القائمة على التعلم الآلي. النموذج الذي تم تدريبه على مجموعة بيانات واحدة قد لا يعمم بشكل جيد على مجموعة بيانات أخرى، خاصة إذا كانت مجموعات البيانات لها توزيعات مختلفة. ولذلك، من الضروري التأكد من تدريب النموذج على مجموعة بيانات متنوعة وتمثيلية لضمان تعميمه بشكل جيد على البيانات الجديدة.
- كفاءة العملية - يعد هذا تحديًا آخر عند استخدام الأساليب التقليدية القائمة على التعلم الآلي للإشراف على المحتوى. إن إضافة تسميات جديدة باستمرار وإعادة تدريب النموذج عند إضافة فئات جديدة يمكن أن يستغرق وقتًا طويلاً ومكلفًا. بالإضافة إلى ذلك، من الضروري التأكد من تحديث النموذج بانتظام لمواكبة التغييرات في المحتوى الذي يتم الإشراف عليه.
- شرح - قد ينظر المستخدمون النهائيون إلى النظام الأساسي على أنه متحيز أو غير عادل إذا تم وضع علامة على المحتوى أو إزالته دون مبرر، مما يؤدي إلى تجربة مستخدم سيئة. وبالمثل، فإن غياب التفسيرات الواضحة يمكن أن يجعل عملية الإشراف على المحتوى غير فعالة، وتستغرق وقتًا طويلاً، ومكلفة بالنسبة للمشرفين.
- الطبيعة العدائية – تمثل الطبيعة العدائية للإشراف على المحتوى القائم على الصور تحديًا فريدًا للأساليب التقليدية القائمة على التعلم الآلي. يمكن أن تحاول الجهات الفاعلة السيئة التهرب من آليات الإشراف على المحتوى عن طريق تغيير المحتوى بطرق مختلفة، مثل استخدام مرادفات الصور أو تضمين محتواها الفعلي ضمن مجموعة أكبر من المحتوى غير المسيء. وهذا يتطلب مراقبة وتحديثًا مستمرًا للنموذج لاكتشاف مثل هذه التكتيكات العدائية والرد عليها.
التفكير متعدد الوسائط باستخدام BLIP-2
تشير نماذج ML متعددة الوسائط إلى النماذج التي يمكنها التعامل مع البيانات من مصادر أو طرق متعددة ودمجها، مثل الصور والنصوص والصوت والفيديو وأشكال أخرى من البيانات المنظمة أو غير المنظمة. أحد النماذج الشائعة متعددة الوسائط هي نماذج اللغة المرئية مثل BLIP-2، الذي يجمع بين رؤية الكمبيوتر ومعالجة اللغة الطبيعية (NLP) لفهم وتوليد المعلومات المرئية والنصية. تمكن هذه النماذج أجهزة الكمبيوتر من تفسير معنى الصور والنصوص بطريقة تحاكي الفهم البشري. يمكن لنماذج لغة الرؤية معالجة مجموعة متنوعة من المهام، بما في ذلك التعليق على الصور، واسترجاع نص الصورة، والإجابة على الأسئلة المرئية، والمزيد. على سبيل المثال، يمكن لنموذج التعليق على الصورة إنشاء وصف باللغة الطبيعية لصورة ما، ويمكن لنموذج استرجاع نص الصورة البحث عن الصور بناءً على استعلام نصي. يمكن لنماذج الإجابة على الأسئلة المرئية الرد على أسئلة اللغة الطبيعية حول الصور، ويمكن لروبوتات الدردشة متعددة الوسائط استخدام المدخلات المرئية والنصية لإنشاء الإجابات. فيما يتعلق بالإشراف على المحتوى، يمكنك استخدام هذه الإمكانية للاستعلام عن قائمة الأسئلة.
يحتوي BLIP-2 على ثلاثة أجزاء. المكون الأول هو برنامج تشفير الصور المجمد، ViT-L/14 من CLIP، والذي يأخذ بيانات الصورة كمدخلات. المكون الثاني هو LLM مجمد، FlanT5، الذي يقوم بإخراج النص. المكون الثالث عبارة عن وحدة قابلة للتدريب تسمى Q-Former، وهي عبارة عن محول خفيف الوزن يربط أداة تشفير الصور المجمدة مع LLM المجمدة. يستخدم Q-Former متجهات استعلام قابلة للتعلم لاستخراج الميزات المرئية من برنامج تشفير الصور المجمدة ويغذي الميزة المرئية الأكثر فائدة إلى LLM لإخراج النص المطلوب.
تتضمن عملية التدريب المسبق مرحلتين. في المرحلة الأولى، يتم تنفيذ تعلم تمثيل لغة الرؤية لتعليم Q-Former تعلم التمثيل البصري الأكثر صلة بالنص. في المرحلة الثانية، يتم إجراء التعلم التوليدي من الرؤية إلى اللغة من خلال ربط مخرجات Q-Former بماجستير LLM مجمد وتدريب Q-Former على إخراج تمثيلات مرئية يمكن تفسيرها بواسطة LLM.
يحقق BLIP-2 أداءً متطورًا في العديد من مهام لغة الرؤية على الرغم من وجود معلمات قابلة للتدريب أقل بكثير من الأساليب الحالية. يوضح النموذج أيضًا القدرات الناشئة لتوليد صورة إلى نص بدون لقطة والتي يمكنها اتباع تعليمات اللغة الطبيعية. تم تعديل الرسم التوضيحي التالي من ورقة بحثية أصلية.
حل نظرة عامة
يوضح الرسم البياني التالي بنية الحل.
في الأقسام التالية، نوضح كيفية نشر BLIP-2 على شبكة الأمازون SageMaker نقطة النهاية، واستخدم BLIP-2 وLLM للإشراف على المحتوى.
المتطلبات الأساسية المسبقة
أنت بحاجة إلى حساب AWS بامتداد إدارة الهوية والوصول AWS دور (IAM) مع أذونات لإدارة الموارد التي تم إنشاؤها كجزء من الحل. لمزيد من التفاصيل، راجع قم بإنشاء حساب AWS مستقل.
إذا كانت هذه هي المرة الأولى التي تعمل فيها أمازون ساجميكر ستوديو، تحتاج أولاً إلى إنشاء ملف المجال SageMaker. بالإضافة إلى ذلك، قد تحتاج إلى طلب زيادة حصة الخدمة لمثيلات استضافة SageMaker المقابلة. بالنسبة لنموذج BLIP-2، نستخدم ml.g5.2xlarge
مثيل استضافة SageMaker. بالنسبة لنموذج Llama 2 13B، نستخدم ml.g5.12xlarge
مثيل استضافة SageMaker.
انشر BLIP-2 إلى نقطة نهاية SageMaker
يمكنك استضافة LLM على SageMaker باستخدام الاستدلال النموذجي الكبير (LMI) المُحسّنة لاستضافة النماذج الكبيرة باستخدام DJLServing. DJLServing هو حل تقديم نموذج عالمي عالي الأداء مدعوم من مكتبة Deep Java Library (DJL) التي لا تعتمد على لغة البرمجة. لمعرفة المزيد حول DJL وDJLServing، راجع انشر نماذج كبيرة على Amazon SageMaker باستخدام الاستدلال المتوازي لنموذج DJLServing و DeepSpeed. بمساعدة حاوية SageMaker LMI، يمكن تنفيذ نموذج BLIP-2 بسهولة باستخدام مكتبة Hugging Face واستضافته على SageMaker. يمكنك الجري blip2-sagemaker.ipynb
لهذه الخطوة.
لإعداد صورة Docker وملف النموذج، تحتاج إلى استرداد صورة Docker الخاصة بـ DJLServing، وحزم البرنامج النصي للاستدلال وملفات التكوين كملف model.tar.gz
الملف، وتحميله إلى خدمة تخزين أمازون البسيطة دلو (أمازون S3). يمكنك الرجوع إلى البرنامج النصي الاستدلالي وملف التكوين لمزيد من التفاصيل.
inference_image_uri = image_uris.retrieve( framework="djl-deepspeed", region=sess.boto_session.region_name, version="0.22.1"
)
! tar czvf model.tar.gz blip2/
s3_code_artifact = sess.upload_data("model.tar.gz", bucket, s3_code_prefix)
عندما تصبح صورة Docker والملفات المرتبطة بالاستدلال جاهزة، يمكنك إنشاء النموذج والتكوين لنقطة النهاية ونقطة النهاية:
from sagemaker.utils import name_from_base
blip_model_version = "blip2-flan-t5-xl"
model_name = name_from_base(blip_model_version)
model = Model( image_uri=inference_image_uri, model_data=s3_code_artifact, role=role, name=model_name,
)
model.deploy( initial_instance_count=1, instance_type="ml.g5.2xlarge", endpoint_name=model_name
)
عندما تصبح حالة نقطة النهاية في الخدمة، يمكنك استدعاء نقطة النهاية للتسمية التوضيحية للصور ومهمة إنشاء رؤية إلى لغة بدون لقطة. بالنسبة لمهمة التسمية التوضيحية للصورة، ما عليك سوى تمرير الصورة إلى نقطة النهاية:
import base64
import json
from PIL import Image smr_client = boto3.client("sagemaker-runtime") def encode_image(img_file): with open(img_file, "rb") as image_file: img_str = base64.b64encode(image_file.read()) base64_string = img_str.decode("latin1") return base64_string def run_inference(endpoint_name, inputs): response = smr_client.invoke_endpoint( EndpointName=endpoint_name, Body=json.dumps(inputs) ) print(response["Body"].read()) test_image = "carcrash-ai.jpeg"
base64_string = encode_image(test_image)
inputs = {"image": base64_string}
run_inference(endpoint_name, inputs)
بالنسبة لمهمة توليد الرؤية إلى اللغة بدون لقطة، بالإضافة إلى الصورة المدخلة، تحتاج إلى تحديد السؤال كمطالبة:
base64_string = encode_image(test_image)
inputs = {"prompt": "Question: what happened in this photo? Answer:", "image": base64_string}
run_inference(endpoint_name, inputs)
استخدم BLIP-2 وLLM للإشراف على المحتوى
في هذه المرحلة، يمكنك إجراء استعلامات على الصورة المحددة واسترجاع المعلومات المخفية. باستخدام LLM، يمكنك تنظيم الاستعلامات واسترداد المعلومات لإنشاء نتيجة تنسيق JSON. يمكنك تقسيم هذه المهمة تقريبًا إلى المهمتين الفرعيتين التاليتين:
- استخرج المعلومات من الصورة باستخدام نموذج BLIP-2.
- توليد النتيجة النهائية والتفسير مع LLM.
استخرج المعلومات من الصورة باستخدام نموذج BLIP-2
لاسترداد ما يكفي من المعلومات المخفية المفيدة من الصورة المحددة، تحتاج إلى تحديد الاستعلامات. نظرًا لأن كل استعلام سوف يستدعي نقطة النهاية مرة واحدة، فإن العديد من الاستعلامات ستؤدي إلى وقت معالجة أطول. لذلك، نقترح أن تكون الاستعلامات ذات جودة عالية وأن تغطي جميع السياسات ولكن دون تكرار أيضًا. في نموذج التعليمات البرمجية لدينا، نحدد الاستعلامات على النحو التالي:
check_list = [ "Does this photo contain complete naked person?", "Does this photo contain topless person?", "Does this photo contain weapon?", "Does this photo contain contact information?", "Does this photo contain a smoker?", "Does this photo contain blood?", "Are there persons fighting in this photo?", "Does this photo contain harassment words?"
]
باستخدام الاستعلامات السابقة، قم باستدعاء نقطة نهاية BLIP-2 لاسترداد المعلومات باستخدام الكود التالي:
test_image = "./surf_swimwear.png"
raw_image = Image.open(test_image).convert('RGB') base64_string = encode_image(test_image)
conversations = """"""
for question in check_list: inputs = {"prompt": f"Question: {question}? Answer:", "image": base64_string} response = run_inference(endpoint_name, inputs) conversations += f"""
Question: {question}
Answer: {response}. """
بالإضافة إلى المعلومات التي يتم استردادها عن طريق الاستعلامات، يمكنك الحصول على معلومات باستخدام مهمة التسمية التوضيحية للصورة عن طريق استدعاء نقطة النهاية بدون prompt
الحقل في الحمولة:
inputs = {"image": base64_string}
response = smr_client.invoke_endpoint(
EndpointName=endpoint_name, Body=json.dumps(inputs)
)
image_caption = response["Body"].read().decode('utf-8')
يمكنك دمج محتويات الاستعلامات والإجابات مع التسمية التوضيحية للصورة واستخدام هذه المعلومات المستردة للمهمة النهائية الموضحة في القسم التالي أدناه.
توليد النتيجة النهائية والتفسير مع LLM
يمكن لنماذج اللغات الكبيرة (LLMs) مثل Llama 2 إنشاء نتائج عالية الجودة باستخدام قالب المطالبة المناسب. استخدام أمازون سيج ميكر جومب ستارت، يمكن لممارسي تعلم الآلة الاختيار من بين مجموعة واسعة من النماذج الأساسية المتاحة للجمهور. بنقرات قليلة فقط في SageMaker Studio، يمكنك ذلك الآن اكتشاف ونشر Llama 2.
تعتمد النتائج النهائية على LLM مع قالب موجه محدد. وتتكون هذه المطالبة من: سياسة الاعتدال القائمة على فئات غير لائقة أو مسيئة فئات الاعتدال; معلومات الصورة المستخرجة من BLIP-2؛ نموذج السؤال إلى LLM الذي يسأل عما إذا كانت الصورة تحتوي على محتوى غير آمن ويطلب فئتها وسبب عدم أمانها؛ وتعليمات لإخراج النتائج بتنسيق JSON. يسمح قالب المطالبة المصمم لـ LLM بتحديد ما إذا كانت الصورة تنتهك سياسة الإشراف، وتحديد فئة الانتهاك، وشرح السبب، وتوفير الإخراج بتنسيق JSON منظم.
كود المصدر الأساسي هو كما يلي:
prompt_template = f"""
The following is our company's content moderation policy, based on the moderation policy, we gather image information from the user uploaded image. Please answer the question with json format. ###### moderation policy ######
{moderation_policy} ###### Image information ######
{conversations} ###### Question ######
Based on the following Moderation policy and QA, tell me if the photo containes unsafe content, also give its category and reason if it's unsafe. Please anwser the question with the following format and only put explanation into the reason field: """ prompt_template += """
{ "flag": "xxx", "category": "xxx", "reason": "the reason is ..."
} """ dialog = [ {"role": "user", "content": prompt_template}
]
يمكنك تخصيص المطالبة بناءً على حالة الاستخدام الخاصة بك. الرجوع إلى مفكرة لمزيد من التفاصيل. عندما تكون المطالبة جاهزة، يمكنك استدعاء نقطة نهاية LLM لإنشاء النتائج:
endpoint_name = "jumpstart-dft-meta-textgeneration-llama-2-70b-f" def query_endpoint(payload): client = boto3.client("sagemaker-runtime") response = client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/json", Body=json.dumps(payload), CustomAttributes="accept_eula=true", ) response = response["Body"].read().decode("utf8") response = json.loads(response) return response payload = { "inputs": [dialog], "parameters": {"max_new_tokens": 256, "top_p": 0.9, "temperature": 0.5}
}
result = query_endpoint(payload)[0]
جزء من الإخراج الذي تم إنشاؤه هو كما يلي:
في بعض الأحيان، يقوم Llama 2 بإرفاق شرح إضافي إلى جانب إجابة المساعد. يمكنك استخدام كود التحليل لاستخراج بيانات JSON من النتائج الأصلية التي تم إنشاؤها:
answer = result['generation']['content'].split('}')[0]+'}'
json.loads(answer)
مزايا النهج التوليدي
أظهرت الأقسام السابقة كيفية تنفيذ الجزء الأساسي من الاستدلال النموذجي. في هذا القسم، نغطي جوانب مختلفة من المناهج التوليدية، بما في ذلك المقارنات مع المناهج ووجهات النظر التقليدية.
ويقارن الجدول التالي كل نهج.
. | النهج التوليدي | نهج التصنيف |
الحصول على البيانات المسمى | نموذج تم تدريبه مسبقًا على عدد كبير من الصور، واستدلال صفري | يتطلب بيانات من جميع أنواع الفئات |
تعميم النموذج | نموذج تم تدريبه مسبقًا مع أنواع مختلفة من الصور | يتطلب حجمًا كبيرًا من البيانات المتعلقة بالإشراف على المحتوى لتحسين تعميم النموذج |
كفاءة العملية | قدرات إطلاق النار صفر | يتطلب تدريب النموذج للتعرف على الأنماط المختلفة، وإعادة التدريب عند إضافة التسميات |
شرح | التفكير كإخراج النص، تجربة مستخدم رائعة | من الصعب تحقيق المنطق، من الصعب شرح وتفسير |
الطبيعة العدائية | قوي | إعادة التدريب عالية التردد |
حالات الاستخدام المحتملة للاستدلال متعدد الوسائط بما يتجاوز الإشراف على المحتوى
يمكن تطبيق نماذج BLIP-2 لتناسب أغراضًا متعددة مع أو بدون ضبط دقيق، والتي تتضمن ما يلي:
- شرح الصورة – يطلب هذا من النموذج إنشاء وصف نصي للمحتوى المرئي للصورة. كما هو موضح في الصورة المثال التالية (يسار)، يمكننا الحصول على "رجل يقف على الشاطئ ومعه لوح ركوب الأمواج" كما هو موضح في الصورة.
- الإجابة على السؤال البصري – كما يظهر في الصورة النموذجية في المنتصف، يمكننا أن نسأل "هل هو محتوى تجاري متعلق" ونحن لدينا "نعم" كإجابة. بالإضافة إلى ذلك، يدعم BLIP-2 المحادثة متعددة الجولات ويخرج السؤال التالي: "لماذا تظن ذلك؟" استنادًا إلى الإشارات المرئية وإمكانيات LLM، يتم إخراج BLIP-2 "إنها علامة لأمازون."
- استرجاع نص الصورة - نظرا للسؤال كما "النص على الصورة"، يمكننا استخراج نص الصورة ”إنه يوم الاثنين ولكن استمر في الابتسام“ كما هو موضح في الصورة على اليمين.
تعرض الصور التالية أمثلة لتوضيح إمكانية تحويل الصورة إلى نص بدون لقطة لاستدلال المعرفة البصرية.
كما يمكننا أن نرى من الأمثلة المختلفة أعلاه، فإن النماذج متعددة الوسائط تفتح فرصًا جديدة لحل المشكلات المعقدة التي قد تكافح النماذج التقليدية ذات الطريقة الواحدة لمعالجتها.
تنظيف
لتجنب تكبد رسوم مستقبلية، احذف الموارد التي تم إنشاؤها كجزء من هذا المنشور. يمكنك القيام بذلك عن طريق اتباع الإرشادات الموجودة في قسم تنظيف دفتر الملاحظات، أو حذف نقاط النهاية التي تم إنشاؤها عبر وحدة تحكم SageMaker والموارد المخزنة في حاوية S3.
وفي الختام
ناقشنا في هذا المقال أهمية الإشراف على المحتوى في العالم الرقمي وسلطنا الضوء على تحدياته. لقد اقترحنا طريقة جديدة للمساعدة في تحسين الإشراف على المحتوى باستخدام بيانات الصورة وإجراء الإجابة على الأسئلة مقابل الصور لاستخراج المعلومات المفيدة تلقائيًا. لقد قدمنا أيضًا مزيدًا من المناقشة حول مزايا استخدام النهج التوليدي القائم على الذكاء الاصطناعي مقارنة بالنهج التقليدي القائم على التصنيف. وأخيرًا، قمنا بتوضيح حالات الاستخدام المحتملة لنماذج اللغة المرئية بما يتجاوز الإشراف على المحتوى.
نحن نشجعك على معرفة المزيد من خلال استكشاف SageMaker وبناء حل باستخدام الحل متعدد الوسائط المتوفر في هذا المنشور ومجموعة البيانات ذات الصلة بعملك.
حول المؤلف
جوردون وانج هو أحد كبار المتخصصين في الذكاء الاصطناعي/تعلم الآلة (TAM) في AWS. إنه يدعم العملاء الاستراتيجيين بأفضل ممارسات الذكاء الاصطناعي/التعلم الآلي في العديد من الصناعات. إنه شغوف برؤية الكمبيوتر والبرمجة اللغوية العصبية والذكاء الاصطناعي التوليدي وعمليات MLOps. وفي أوقات فراغه يحب الجري والمشي لمسافات طويلة.
يانوي كويدكتوراه، هو مهندس حلول متخصص في التعلم الآلي في AWS. بدأ أبحاث التعلم الآلي في IRISA (معهد أبحاث علوم الكمبيوتر والأنظمة العشوائية)، ويتمتع بخبرة سنوات عديدة في بناء التطبيقات الصناعية التي تعمل بالذكاء الاصطناعي في رؤية الكمبيوتر، ومعالجة اللغات الطبيعية، والتنبؤ بسلوك المستخدم عبر الإنترنت. في AWS، يشارك خبرته في المجال ويساعد العملاء على إطلاق إمكانات الأعمال وتحقيق نتائج قابلة للتنفيذ من خلال التعلم الآلي على نطاق واسع. خارج العمل، يستمتع بالقراءة والسفر.
ميلاني ليحاصل على درجة الدكتوراه ، وهو متخصص أول في الذكاء الاصطناعي / التعلم الآلي TAM في AWS ومقرها في سيدني ، أستراليا. تساعد عملاء المؤسسات على بناء الحلول باستخدام أحدث أدوات الذكاء الاصطناعي / التعلم الآلي على AWS وتقدم إرشادات حول تصميم وتنفيذ حلول التعلم الآلي باستخدام أفضل الممارسات. في أوقات فراغها ، تحب استكشاف الطبيعة وقضاء الوقت مع العائلة والأصدقاء.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
- أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
- أفلاطون السيارات / المركبات الكهربائية ، كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
- أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
- تشارت بريم. ارفع مستوى لعبة التداول الخاصة بك مع ChartPrime. الوصول هنا.
- BlockOffsets. تحديث ملكية الأوفست البيئية. الوصول هنا.
- المصدر https://aws.amazon.com/blogs/machine-learning/build-a-generative-ai-based-content-moderation-solution-on-amazon-sagemaker-jumpstart/
- :لديها
- :يكون
- :ليس
- :أين
- $ UP
- 1
- 10
- 100
- 20
- 22
- 7
- 9
- 95%
- a
- ماهرون
- من نحن
- فوق
- الوصول
- وفقا
- حسابي
- دقة
- التأهيل
- يحقق
- الجهات الفاعلة
- يقدم
- وأضاف
- مضيفا
- إضافة
- إضافي
- وبالإضافة إلى ذلك
- العنوان
- الانضمام
- اعتماد
- تبني
- مزايا
- الخصومة
- المعلنين
- دعاية
- ضد
- AI
- AI-بالطاقة
- AI / ML
- خوارزميات
- انحياز
- الكل
- يسمح
- أيضا
- أمازون
- الأمازون SageMaker
- أمازون سيج ميكر جومب ستارت
- أمازون ويب سيرفيسز
- an
- تحليل
- و
- آخر
- إجابة
- الأجوبة
- أي وقت
- التطبيقات
- تطبيقي
- نهج
- اقتراب
- مناسب
- هندسة معمارية
- هي
- AS
- تطلب
- الجوانب
- المساعد
- جمعيات
- يفترض
- At
- سمعي
- أستراليا
- تلقائيا
- متاح
- تجنب
- AWS
- سيئة
- على أساس
- BE
- شاطئ
- لان
- أصبح
- يصبح
- سلوك
- يجري
- أقل من
- المعايير
- بالإضافة إلى
- أفضل
- أفضل الممارسات
- Beyond
- انحيازا
- دم
- الجسدي
- على حد سواء
- العلامة تجارية
- العلامات التجارية
- يجلب
- واسع
- ميزانية
- نساعدك في بناء
- ابني
- الأعمال
- لكن
- by
- تسمى
- CAN
- يستطيع الحصول على
- قدرات
- قدرة
- حذر
- حقيبة
- الحالات
- الفئات
- الفئة
- تحدى
- التحديات
- تحدي
- التغييرات
- اسعارنا محددة من قبل وزارة العمل
- chatbots
- اختار
- فصول
- واضح
- زبون
- ملابس
- الكود
- البرمجة
- دمج
- يجمع بين
- تجاري
- مجتمع
- بناء المجتمع
- حول الشركة
- مقارنة
- إكمال
- مجمع
- عنصر
- مكونات
- الكمبيوتر
- علوم الكمبيوتر
- رؤية الكمبيوتر
- أجهزة الكمبيوتر
- الاعداد
- أكد
- الرابط
- يربط
- نظر
- نظرت
- يتكون
- كنسولات
- ثابت
- باستمرار
- التواصل
- تحتوي على
- وعاء
- يحتوي
- محتوى
- انشاء محتوى
- محتويات
- المساهمة
- تقليدي
- محادثة
- المحادثات
- جوهر
- المقابلة
- التكلفة
- مكلفة
- التكاليف
- استطاع
- بهيكل
- خلق
- خلق
- خلق
- حرج
- عبر
- العملاء
- تصميم
- البيانات
- أمن البيانات
- قواعد البيانات
- القرار
- القرارات
- عميق
- حدد
- تعريف
- شرح
- تظاهر
- يوضح
- نشر
- وصف
- وصف
- تصميم
- تصميم
- مطلوب
- على الرغم من
- تفاصيل
- بكشف أو
- حدد
- حوار
- مختلف
- رقمي
- العالم الرقمي
- مباشرة
- ناقش
- مناقشة
- التوزيعات
- عدة
- do
- عامل في حوض السفن
- هل
- نطاق
- قيادة
- كل
- سهولة
- بسهولة
- على نحو فعال
- فعالية
- فعال
- تضمين
- ظهرت
- الناشئة
- توظف
- تمكين
- تمكن
- شجع
- النهاية
- نقطة النهاية
- يعزز
- كاف
- ضمان
- ضمان
- مشروع
- أخطاء
- خاصة
- أساسي
- مثال
- أمثلة
- القائمة
- الخبره في مجال الغطس
- خبرة
- شرح
- تفسير
- اكتشف
- استكشاف
- تعرض
- خارجي
- استخراج
- الوجه
- شلالات
- للعائلات
- الميزات
- المميزات
- أنثى
- قليل
- أقل
- حقل
- قتال
- قم بتقديم
- ملفات
- نهائي
- تمويل
- الاسم الأول
- لأول مرة
- تناسب
- مرصوف
- تركز
- اتباع
- متابعيك
- متابعات
- في حالة
- شكل
- أشكال
- دورة تأسيسية
- تردد
- الاصدقاء
- تبدأ من
- مجمد
- وظائف
- إضافي
- مستقبل
- جمع
- توليد
- ولدت
- توليد
- جيل
- توليدي
- الذكاء الاصطناعي التوليدي
- دولار فقط واحصل على خصم XNUMX% على جميع
- منح
- معطى
- عظيم
- متزايد
- التسويق
- توجيه
- مقبض
- حدث
- الثابت
- يملك
- وجود
- he
- صحة الإنسان
- معلومات صحية
- الرعاية الصحية
- بشكل كبير
- مساعدة
- يساعد
- لها
- مخفي
- مرتفع
- أداء عالي
- عالي الجودة
- سلط الضوء
- له
- مضيف
- استضافت
- استضافة
- كيفية
- كيفية
- HTML
- HTTP
- HTTPS
- الانسان
- تحديد
- تحديد
- هوية
- if
- يوضح
- صورة
- صور
- تنفيذ
- نفذت
- تحقيق
- استيراد
- أهمية
- أهمية
- تحسن
- تحسين
- in
- غير دقيق
- تتضمن
- يشمل
- بما فيه
- القيمة الاسمية
- الزيادات
- صناعي
- الصناعات
- العالمية
- غير فعال
- معلومات
- إدخال
- المدخلات
- مثل
- معهد
- تعليمات
- دمج
- مصلحة
- داخلي
- إلى
- تقديم
- IT
- انها
- جافا
- JPG
- جسون
- م
- احتفظ
- المعرفة
- ملصقات
- لغة
- كبير
- أكبر
- قيادة
- قيادة
- تعلم
- تعلم
- اليسار
- شروط وأحكام
- الخصوم
- المكتبة
- خفيفة الوزن
- قائمة
- اللاما نوع من الجمال
- LLM
- يعد
- يحب
- آلة
- آلة التعلم
- الحفاظ على
- جعل
- القيام ب
- رجل
- إدارة
- يدويا
- كثير
- مادة
- مايو..
- me
- معنى
- آليات
- الوسائط
- مييتااا
- طريقة
- طرق
- وسط
- ML
- MLOps
- نموذج
- عارضات ازياء
- الاعتدال
- تم التعديل
- وحدة
- الإثنين
- مراقبة
- الأكثر من ذلك
- أكثر فعالية
- أكثر
- متعدد
- طبيعي
- معالجة اللغات الطبيعية
- الطبيعة
- حاجة
- سلبي
- جديد
- التالي
- البرمجة اللغوية العصبية
- مفكرة
- رواية
- الآن
- عدد
- of
- هجومي
- on
- مرة
- ONE
- online
- فقط
- جاكيت
- المصدر المفتوح
- الفرص
- الأمثل
- or
- المنظمات
- أصلي
- أخرى
- لنا
- شركتنا
- النتائج
- يتفوق
- الناتج
- في الخارج
- طغت
- الخاصة
- صفقة
- موازية
- المعلمات
- جزء
- خاصة
- أجزاء
- pass
- عاطفي
- أنماط
- نفذ
- أداء
- تنفيذ
- أذونات
- شخص
- الشخصية
- الأشخاص
- وجهات نظر
- رسالة دكتوراه
- صور
- محوري
- المنصة
- بلاتفورم
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- يلعب
- من فضلك
- سياسات الخصوصية والبيع
- سياسة
- فقير
- الرائج
- منشور
- محتمل
- الإمكانيات
- مدعوم
- قوي
- الممارسات
- تنبؤ
- إعداد
- الهدايا
- حفظ
- يمنع
- أولويات
- خصوصية
- مشاكل
- عملية المعالجة
- معالجة
- برمجة وتطوير
- المقترح
- الحماية
- تزود
- المقدمة
- ويوفر
- جمهور
- دعاية
- علانية
- أغراض
- وضع
- سؤال وجواب
- جودة
- الاستفسارات
- سؤال
- الأسئلة المتكررة
- عشوائية
- نادي القراءة
- استعداد
- سبب
- الاعتراف
- يميز
- تخفيض
- بانتظام
- قوانين
- ذات صلة
- ذات الصلة
- اعتمد
- إزالة
- التمثيل
- ممثل
- سمعة
- طلب
- تطلب
- يتطلب
- بحث
- الموارد
- الرد
- استجابة
- ردود
- نتيجة
- مما أدى
- النتائج
- عائد أعلى
- كاشفا
- إيرادات
- نمو الإيرادات
- RGB
- حق
- المخاطرة
- المخاطر
- النوع
- تقريبا
- قاعدة
- يجري
- تشغيل
- s
- حماية
- السلامة
- sagemaker
- حجم
- علوم
- بحث
- الثاني
- القسم
- أقسام
- قطاعات
- أمن
- انظر تعريف
- اختيار
- كبير
- حساس
- يخدم
- الخدمة
- خدماتنا
- خدمة
- طقم
- عدة
- جنسي
- مشاركة
- مشاركة
- هي
- الدرع
- إظهار
- أظهرت
- يظهر
- إشارة
- أهمية
- بشكل ملحوظ
- وبالمثل
- الاشارات
- حالات
- So
- منصات التواصل
- وسائل التواصل الاجتماعي
- المنصات الإعلامية الاجتماعية
- حل
- الحلول
- حل
- مصدر
- شفرة المصدر
- مصادر
- الفضاء
- المساحات
- البريد المزعج
- متخصص
- محدد
- خطاب
- أنفق
- انقسم
- المسرح
- مراحل
- مستقل
- المعايير
- بدأت
- دولة من بين الفن
- المحافظة
- الحالة
- خطوة
- لا يزال
- تخزين
- تخزين
- إستراتيجي
- منظم
- النضال
- ستوديو
- دراسة
- هذه
- اقترح
- الدعم
- سيدني
- أنظمة
- جدول
- معالجة
- التكتيكات
- يأخذ
- مهمة
- المهام
- فريق
- اقول
- قالب
- سياسة الحجب وتقييد الوصول
- نص
- نصي
- من
- أن
- •
- المعلومات
- من مشاركة
- هناك.
- وبالتالي
- وبالتالي
- تشبه
- هم
- اعتقد
- الثالث
- ثلاثة
- الوقت
- استهلاك الوقت
- إلى
- أدوات
- تقليدي
- قطار
- متدرب
- قادة الإيمان
- محول
- السفر
- اثنان
- نوع
- أنواع
- مع
- فهم
- فهم
- فريد من نوعه
- عالمي
- فتح
- تحديث
- تحديث
- دعم
- تم التحميل
- تستخدم
- حالة الاستخدام
- مستخدم
- تجربة المستخدم
- خصوصية المستخدم
- المستخدمين
- استخدام
- القيم
- تشكيلة
- مختلف
- بواسطة
- فيديو
- عنيف
- رؤيتنا
- حجم
- مجلدات
- طريق..
- طرق
- we
- الويب
- خدمات ويب
- المواقع
- حسن
- ابحث عن
- متى
- التي
- لماذا
- سوف
- مع
- في غضون
- بدون
- كلمات
- للعمل
- عامل
- العالم
- سوف
- سنوات
- أنت
- حل متجر العقارات الشامل الخاص بك في جورجيا
- زفيرنت