أنشئ حلًا إبداعيًا لإدارة المحتوى قائمًا على الذكاء الاصطناعي على Amazon SageMaker JumpStart

أعاد نشره أفلاطون

المتابعون: 0

يلعب الإشراف على المحتوى دورًا محوريًا في الحفاظ على السلامة عبر الإنترنت ودعم قيم ومعايير مواقع الويب ومنصات التواصل الاجتماعي. وتتجلى أهميتها من خلال الحماية التي توفرها للمستخدمين من التعرض لمحتوى غير لائق، والحفاظ على سلامتهم في المساحات الرقمية. على سبيل المثال، في صناعة الإعلان، يعمل الإشراف على المحتوى على حماية العلامات التجارية من الارتباطات غير المواتية، وبالتالي المساهمة في رفع مستوى العلامة التجارية ونمو الإيرادات. يعطي المعلنون الأولوية لمواءمة علاماتهم التجارية مع المحتوى المناسب لدعم سمعتهم وتجنب الدعاية السلبية. ويحظى الإشراف على المحتوى أيضًا بأهمية بالغة في قطاعي التمويل والرعاية الصحية، حيث يخدم وظائف متعددة. إنه يلعب دورًا مهمًا في تحديد وحماية معلومات التعريف الشخصية والمعلومات الصحية الحساسة (PII، PHI). ومن خلال الالتزام بالمعايير والممارسات الداخلية والامتثال للوائح الخارجية، يعمل الإشراف على المحتوى على تعزيز الأمان الرقمي للمستخدمين. وبهذه الطريقة، فإنه يمنع المشاركة غير المقصودة للبيانات السرية على المنصات العامة، مما يضمن الحفاظ على خصوصية المستخدم وأمن البيانات.

في هذا المنشور، نقدم طريقة جديدة لإجراء الإشراف على المحتوى على بيانات الصورة من خلال التدريب المسبق متعدد الوسائط ونموذج اللغة الكبير (LLM). من خلال التدريب المسبق متعدد الوسائط، يمكننا الاستعلام مباشرة عن محتوى الصورة بناءً على مجموعة من الأسئلة ذات الاهتمام وسيتمكن النموذج من الإجابة على هذه الأسئلة. يتيح ذلك للمستخدمين الدردشة مع الصورة للتأكد مما إذا كانت تحتوي على أي محتوى غير لائق ينتهك سياسات المؤسسة. نحن نستخدم قدرة التوليد القوية لـ LLMs لإنشاء القرار النهائي بما في ذلك التصنيفات الآمنة/غير الآمنة ونوع الفئة. بالإضافة إلى ذلك، من خلال تصميم موجه، يمكننا أن نجعل LLM يقوم بإنشاء تنسيق الإخراج المحدد، مثل تنسيق JSON. يسمح قالب المطالبة المصمم لـ LLM بتحديد ما إذا كانت الصورة تنتهك سياسة الإشراف، وتحديد فئة الانتهاك، وشرح السبب، وتوفير الإخراج بتنسيق JSON منظم.

نستخدم بليب-2 باعتبارها طريقة التدريب المسبق متعددة الوسائط. يعد BLIP-2 واحدًا من أحدث النماذج في التدريب المسبق متعدد الوسائط ويتفوق على معظم الأساليب الحالية في الإجابة على الأسئلة المرئية والتعليق على الصور واسترجاع نص الصورة. بالنسبة لماجستير القانون لدينا، نستخدم اللاما 2، الجيل القادم من LLM مفتوح المصدر، والذي يتفوق على نماذج اللغة مفتوحة المصدر الحالية في العديد من المعايير، بما في ذلك المنطق والترميز والكفاءة واختبارات المعرفة. والشكل التالي يوضح مكونات الحل.

التحديات في الإشراف على المحتوى

لا تستطيع أساليب الإشراف على المحتوى التقليدية، مثل الإشراف البشري، مواكبة الحجم المتزايد للمحتوى الذي ينشئه المستخدم (UGC). مع زيادة حجم المحتوى الذي ينشئه المستخدمون، يمكن أن يصبح المشرفون البشريون مرهقين ويكافحون من أجل الإشراف على المحتوى بشكل فعال. وينتج عن ذلك تجربة مستخدم سيئة، وارتفاع تكاليف الإشراف، ومخاطر العلامة التجارية. إن الاعتدال القائم على الإنسان هو أيضًا عرضة للأخطاء، مما قد يؤدي إلى اعتدال غير متسق وقرارات متحيزة. ولمواجهة هذه التحديات، ظهر الإشراف على المحتوى المدعوم بالتعلم الآلي (ML) كحل. يمكن لخوارزميات ML تحليل كميات كبيرة من المحتوى الذي ينشئه المستخدمون وتحديد المحتوى الذي ينتهك سياسات المؤسسة. يمكن تدريب نماذج ML على التعرف على الأنماط وتحديد المحتوى الإشكالي، مثل خطاب الكراهية والبريد العشوائي والمواد غير المناسبة. وفقا للدراسة قم بحماية المستخدمين والعلامة التجارية والميزانية من خلال الإشراف على المحتوى المدعوم بالذكاء الاصطناعي، يمكن أن يساعد الإشراف على المحتوى المدعوم بالتعلم الآلي المؤسسات على استعادة ما يصل إلى 95% من الوقت الذي تقضيه فرقها في الإشراف على المحتوى يدويًا. يتيح ذلك للمؤسسات تركيز مواردها على المزيد من المهام الإستراتيجية، مثل بناء المجتمع وإنشاء المحتوى. يمكن أن يؤدي الإشراف على المحتوى المدعوم بالتعلم الآلي أيضًا إلى تقليل تكاليف الإشراف لأنه أكثر كفاءة من الإشراف البشري.

على الرغم من مزايا الإشراف على المحتوى الذي يعتمد على التعلم الآلي، إلا أنه لا يزال لديه مساحة إضافية للتحسين. تعتمد فعالية خوارزميات تعلم الآلة بشكل كبير على جودة البيانات التي يتم تدريبها عليها. عندما يتم تدريب النماذج باستخدام بيانات متحيزة أو غير كاملة، فإنها يمكن أن تتخذ قرارات اعتدال خاطئة، مما يعرض المؤسسات لمخاطر العلامة التجارية والمسؤوليات القانونية المحتملة. إن اعتماد الأساليب القائمة على التعلم الآلي لإدارة المحتوى يجلب العديد من التحديات التي تتطلب دراسة متأنية. وتشمل هذه التحديات ما يلي:

الحصول على البيانات المسمى – يمكن أن تكون هذه عملية مكلفة، خاصة بالنسبة لمهام الإشراف على المحتوى المعقدة التي تتطلب تدريب واضعي العلامات. قد تجعل هذه التكلفة من الصعب جمع مجموعات بيانات كبيرة بما يكفي لتدريب نموذج تعلم الآلة الخاضع للإشراف بسهولة. بالإضافة إلى ذلك، تعتمد دقة النموذج بشكل كبير على جودة بيانات التدريب، ويمكن أن تؤدي البيانات المتحيزة أو غير الكاملة إلى قرارات اعتدال غير دقيقة، مما يؤدي إلى مخاطر العلامة التجارية والمسؤوليات القانونية.
تعميم النموذج – وهذا أمر بالغ الأهمية لاعتماد الأساليب القائمة على التعلم الآلي. النموذج الذي تم تدريبه على مجموعة بيانات واحدة قد لا يعمم بشكل جيد على مجموعة بيانات أخرى، خاصة إذا كانت مجموعات البيانات لها توزيعات مختلفة. ولذلك، من الضروري التأكد من تدريب النموذج على مجموعة بيانات متنوعة وتمثيلية لضمان تعميمه بشكل جيد على البيانات الجديدة.
كفاءة العملية - يعد هذا تحديًا آخر عند استخدام الأساليب التقليدية القائمة على التعلم الآلي للإشراف على المحتوى. إن إضافة تسميات جديدة باستمرار وإعادة تدريب النموذج عند إضافة فئات جديدة يمكن أن يستغرق وقتًا طويلاً ومكلفًا. بالإضافة إلى ذلك، من الضروري التأكد من تحديث النموذج بانتظام لمواكبة التغييرات في المحتوى الذي يتم الإشراف عليه.
شرح - قد ينظر المستخدمون النهائيون إلى النظام الأساسي على أنه متحيز أو غير عادل إذا تم وضع علامة على المحتوى أو إزالته دون مبرر، مما يؤدي إلى تجربة مستخدم سيئة. وبالمثل، فإن غياب التفسيرات الواضحة يمكن أن يجعل عملية الإشراف على المحتوى غير فعالة، وتستغرق وقتًا طويلاً، ومكلفة بالنسبة للمشرفين.
الطبيعة العدائية – تمثل الطبيعة العدائية للإشراف على المحتوى القائم على الصور تحديًا فريدًا للأساليب التقليدية القائمة على التعلم الآلي. يمكن أن تحاول الجهات الفاعلة السيئة التهرب من آليات الإشراف على المحتوى عن طريق تغيير المحتوى بطرق مختلفة، مثل استخدام مرادفات الصور أو تضمين محتواها الفعلي ضمن مجموعة أكبر من المحتوى غير المسيء. وهذا يتطلب مراقبة وتحديثًا مستمرًا للنموذج لاكتشاف مثل هذه التكتيكات العدائية والرد عليها.

التفكير متعدد الوسائط باستخدام BLIP-2

تشير نماذج ML متعددة الوسائط إلى النماذج التي يمكنها التعامل مع البيانات من مصادر أو طرق متعددة ودمجها، مثل الصور والنصوص والصوت والفيديو وأشكال أخرى من البيانات المنظمة أو غير المنظمة. أحد النماذج الشائعة متعددة الوسائط هي نماذج اللغة المرئية مثل BLIP-2، الذي يجمع بين رؤية الكمبيوتر ومعالجة اللغة الطبيعية (NLP) لفهم وتوليد المعلومات المرئية والنصية. تمكن هذه النماذج أجهزة الكمبيوتر من تفسير معنى الصور والنصوص بطريقة تحاكي الفهم البشري. يمكن لنماذج لغة الرؤية معالجة مجموعة متنوعة من المهام، بما في ذلك التعليق على الصور، واسترجاع نص الصورة، والإجابة على الأسئلة المرئية، والمزيد. على سبيل المثال، يمكن لنموذج التعليق على الصورة إنشاء وصف باللغة الطبيعية لصورة ما، ويمكن لنموذج استرجاع نص الصورة البحث عن الصور بناءً على استعلام نصي. يمكن لنماذج الإجابة على الأسئلة المرئية الرد على أسئلة اللغة الطبيعية حول الصور، ويمكن لروبوتات الدردشة متعددة الوسائط استخدام المدخلات المرئية والنصية لإنشاء الإجابات. فيما يتعلق بالإشراف على المحتوى، يمكنك استخدام هذه الإمكانية للاستعلام عن قائمة الأسئلة.

يحتوي BLIP-2 على ثلاثة أجزاء. المكون الأول هو برنامج تشفير الصور المجمد، ViT-L/14 من CLIP، والذي يأخذ بيانات الصورة كمدخلات. المكون الثاني هو LLM مجمد، FlanT5، الذي يقوم بإخراج النص. المكون الثالث عبارة عن وحدة قابلة للتدريب تسمى Q-Former، وهي عبارة عن محول خفيف الوزن يربط أداة تشفير الصور المجمدة مع LLM المجمدة. يستخدم Q-Former متجهات استعلام قابلة للتعلم لاستخراج الميزات المرئية من برنامج تشفير الصور المجمدة ويغذي الميزة المرئية الأكثر فائدة إلى LLM لإخراج النص المطلوب.

تتضمن عملية التدريب المسبق مرحلتين. في المرحلة الأولى، يتم تنفيذ تعلم تمثيل لغة الرؤية لتعليم Q-Former تعلم التمثيل البصري الأكثر صلة بالنص. في المرحلة الثانية، يتم إجراء التعلم التوليدي من الرؤية إلى اللغة من خلال ربط مخرجات Q-Former بماجستير LLM مجمد وتدريب Q-Former على إخراج تمثيلات مرئية يمكن تفسيرها بواسطة LLM.

يحقق BLIP-2 أداءً متطورًا في العديد من مهام لغة الرؤية على الرغم من وجود معلمات قابلة للتدريب أقل بكثير من الأساليب الحالية. يوضح النموذج أيضًا القدرات الناشئة لتوليد صورة إلى نص بدون لقطة والتي يمكنها اتباع تعليمات اللغة الطبيعية. تم تعديل الرسم التوضيحي التالي من ورقة بحثية أصلية.

حل نظرة عامة

يوضح الرسم البياني التالي بنية الحل.

في الأقسام التالية، نوضح كيفية نشر BLIP-2 على شبكة الأمازون SageMaker نقطة النهاية، واستخدم BLIP-2 وLLM للإشراف على المحتوى.

المتطلبات الأساسية المسبقة

أنت بحاجة إلى حساب AWS بامتداد إدارة الهوية والوصول AWS دور (IAM) مع أذونات لإدارة الموارد التي تم إنشاؤها كجزء من الحل. لمزيد من التفاصيل، راجع قم بإنشاء حساب AWS مستقل.

إذا كانت هذه هي المرة الأولى التي تعمل فيها أمازون ساجميكر ستوديو، تحتاج أولاً إلى إنشاء ملف المجال SageMaker. بالإضافة إلى ذلك، قد تحتاج إلى طلب زيادة حصة الخدمة لمثيلات استضافة SageMaker المقابلة. بالنسبة لنموذج BLIP-2، نستخدم ml.g5.2xlarge مثيل استضافة SageMaker. بالنسبة لنموذج Llama 2 13B، نستخدم ml.g5.12xlarge مثيل استضافة SageMaker.

انشر BLIP-2 إلى نقطة نهاية SageMaker

يمكنك استضافة LLM على SageMaker باستخدام الاستدلال النموذجي الكبير (LMI) المُحسّنة لاستضافة النماذج الكبيرة باستخدام DJLServing. DJLServing هو حل تقديم نموذج عالمي عالي الأداء مدعوم من مكتبة Deep Java Library (DJL) التي لا تعتمد على لغة البرمجة. لمعرفة المزيد حول DJL وDJLServing، راجع انشر نماذج كبيرة على Amazon SageMaker باستخدام الاستدلال المتوازي لنموذج DJLServing و DeepSpeed. بمساعدة حاوية SageMaker LMI، يمكن تنفيذ نموذج BLIP-2 بسهولة باستخدام مكتبة Hugging Face واستضافته على SageMaker. يمكنك الجري blip2-sagemaker.ipynb لهذه الخطوة.

لإعداد صورة Docker وملف النموذج، تحتاج إلى استرداد صورة Docker الخاصة بـ DJLServing، وحزم البرنامج النصي للاستدلال وملفات التكوين كملف model.tar.gz الملف، وتحميله إلى خدمة تخزين أمازون البسيطة دلو (أمازون S3). يمكنك الرجوع إلى البرنامج النصي الاستدلالي وملف التكوين لمزيد من التفاصيل.

inference_image_uri = image_uris.retrieve( framework="djl-deepspeed", region=sess.boto_session.region_name, version="0.22.1"
)
! tar czvf model.tar.gz blip2/
s3_code_artifact = sess.upload_data("model.tar.gz", bucket, s3_code_prefix)

عندما تصبح صورة Docker والملفات المرتبطة بالاستدلال جاهزة، يمكنك إنشاء النموذج والتكوين لنقطة النهاية ونقطة النهاية:

from sagemaker.utils import name_from_base
blip_model_version = "blip2-flan-t5-xl"
model_name = name_from_base(blip_model_version)
model = Model( image_uri=inference_image_uri, model_data=s3_code_artifact, role=role, name=model_name,
)
model.deploy( initial_instance_count=1, instance_type="ml.g5.2xlarge", endpoint_name=model_name
)

عندما تصبح حالة نقطة النهاية في الخدمة، يمكنك استدعاء نقطة النهاية للتسمية التوضيحية للصور ومهمة إنشاء رؤية إلى لغة بدون لقطة. بالنسبة لمهمة التسمية التوضيحية للصورة، ما عليك سوى تمرير الصورة إلى نقطة النهاية:

import base64
import json
from PIL import Image smr_client = boto3.client("sagemaker-runtime") def encode_image(img_file): with open(img_file, "rb") as image_file: img_str = base64.b64encode(image_file.read()) base64_string = img_str.decode("latin1") return base64_string def run_inference(endpoint_name, inputs): response = smr_client.invoke_endpoint( EndpointName=endpoint_name, Body=json.dumps(inputs) ) print(response["Body"].read()) test_image = "carcrash-ai.jpeg"
base64_string = encode_image(test_image)
inputs = {"image": base64_string}
run_inference(endpoint_name, inputs)

بالنسبة لمهمة توليد الرؤية إلى اللغة بدون لقطة، بالإضافة إلى الصورة المدخلة، تحتاج إلى تحديد السؤال كمطالبة:

base64_string = encode_image(test_image)
inputs = {"prompt": "Question: what happened in this photo? Answer:", "image": base64_string}
run_inference(endpoint_name, inputs)

استخدم BLIP-2 وLLM للإشراف على المحتوى

في هذه المرحلة، يمكنك إجراء استعلامات على الصورة المحددة واسترجاع المعلومات المخفية. باستخدام LLM، يمكنك تنظيم الاستعلامات واسترداد المعلومات لإنشاء نتيجة تنسيق JSON. يمكنك تقسيم هذه المهمة تقريبًا إلى المهمتين الفرعيتين التاليتين:

استخرج المعلومات من الصورة باستخدام نموذج BLIP-2.
توليد النتيجة النهائية والتفسير مع LLM.

استخرج المعلومات من الصورة باستخدام نموذج BLIP-2

لاسترداد ما يكفي من المعلومات المخفية المفيدة من الصورة المحددة، تحتاج إلى تحديد الاستعلامات. نظرًا لأن كل استعلام سوف يستدعي نقطة النهاية مرة واحدة، فإن العديد من الاستعلامات ستؤدي إلى وقت معالجة أطول. لذلك، نقترح أن تكون الاستعلامات ذات جودة عالية وأن تغطي جميع السياسات ولكن دون تكرار أيضًا. في نموذج التعليمات البرمجية لدينا، نحدد الاستعلامات على النحو التالي:

check_list = [ "Does this photo contain complete naked person?", "Does this photo contain topless person?", "Does this photo contain weapon?", "Does this photo contain contact information?", "Does this photo contain a smoker?", "Does this photo contain blood?", "Are there persons fighting in this photo?", "Does this photo contain harassment words?"
]

باستخدام الاستعلامات السابقة، قم باستدعاء نقطة نهاية BLIP-2 لاسترداد المعلومات باستخدام الكود التالي:

test_image = "./surf_swimwear.png"
raw_image = Image.open(test_image).convert('RGB') base64_string = encode_image(test_image)
conversations = """"""
for question in check_list: inputs = {"prompt": f"Question: {question}? Answer:", "image": base64_string} response = run_inference(endpoint_name, inputs) conversations += f"""
Question: {question}
Answer: {response}. """

بالإضافة إلى المعلومات التي يتم استردادها عن طريق الاستعلامات، يمكنك الحصول على معلومات باستخدام مهمة التسمية التوضيحية للصورة عن طريق استدعاء نقطة النهاية بدون prompt الحقل في الحمولة:

inputs = {"image": base64_string}
response = smr_client.invoke_endpoint(
EndpointName=endpoint_name, Body=json.dumps(inputs)
)
image_caption = response["Body"].read().decode('utf-8')

يمكنك دمج محتويات الاستعلامات والإجابات مع التسمية التوضيحية للصورة واستخدام هذه المعلومات المستردة للمهمة النهائية الموضحة في القسم التالي أدناه.

توليد النتيجة النهائية والتفسير مع LLM

يمكن لنماذج اللغات الكبيرة (LLMs) مثل Llama 2 إنشاء نتائج عالية الجودة باستخدام قالب المطالبة المناسب. استخدام أمازون سيج ميكر جومب ستارت، يمكن لممارسي تعلم الآلة الاختيار من بين مجموعة واسعة من النماذج الأساسية المتاحة للجمهور. بنقرات قليلة فقط في SageMaker Studio، يمكنك ذلك الآن اكتشاف ونشر Llama 2.

تعتمد النتائج النهائية على LLM مع قالب موجه محدد. وتتكون هذه المطالبة من: سياسة الاعتدال القائمة على فئات غير لائقة أو مسيئة فئات الاعتدال; معلومات الصورة المستخرجة من BLIP-2؛ نموذج السؤال إلى LLM الذي يسأل عما إذا كانت الصورة تحتوي على محتوى غير آمن ويطلب فئتها وسبب عدم أمانها؛ وتعليمات لإخراج النتائج بتنسيق JSON. يسمح قالب المطالبة المصمم لـ LLM بتحديد ما إذا كانت الصورة تنتهك سياسة الإشراف، وتحديد فئة الانتهاك، وشرح السبب، وتوفير الإخراج بتنسيق JSON منظم.

كود المصدر الأساسي هو كما يلي:

prompt_template = f"""
The following is our company's content moderation policy, based on the moderation policy, we gather image information from the user uploaded image. Please answer the question with json format. ###### moderation policy ######
{moderation_policy} ###### Image information ######
{conversations} ###### Question ######
Based on the following Moderation policy and QA, tell me if the photo containes unsafe content, also give its category and reason if it's unsafe. Please anwser the question with the following format and only put explanation into the reason field: """ prompt_template += """
{ "flag": "xxx", "category": "xxx", "reason": "the reason is ..."
} """ dialog = [ {"role": "user", "content": prompt_template}
]

يمكنك تخصيص المطالبة بناءً على حالة الاستخدام الخاصة بك. الرجوع إلى مفكرة لمزيد من التفاصيل. عندما تكون المطالبة جاهزة، يمكنك استدعاء نقطة نهاية LLM لإنشاء النتائج:

endpoint_name = "jumpstart-dft-meta-textgeneration-llama-2-70b-f" def query_endpoint(payload): client = boto3.client("sagemaker-runtime") response = client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/json", Body=json.dumps(payload), CustomAttributes="accept_eula=true", ) response = response["Body"].read().decode("utf8") response = json.loads(response) return response payload = { "inputs": [dialog], "parameters": {"max_new_tokens": 256, "top_p": 0.9, "temperature": 0.5}
}
result = query_endpoint(payload)[0]

جزء من الإخراج الذي تم إنشاؤه هو كما يلي:

> Assistant: { "flag": "unsafe", "category": "Suggestive", "reason": "The photo contains a topless person, which is considered suggestive content."
} Explanation:
The photo contains a topless person, which violates the moderation policy's rule number 2, which states that suggestive content includes "Female Swimwear Or Underwear, Male Swimwear Or Underwear, Partial Nudity, Barechested Male, Revealing Clothes and Sexual Situations." Therefore, the photo is considered unsafe and falls under the category of Suggestive.

في بعض الأحيان، يقوم Llama 2 بإرفاق شرح إضافي إلى جانب إجابة المساعد. يمكنك استخدام كود التحليل لاستخراج بيانات JSON من النتائج الأصلية التي تم إنشاؤها:

answer = result['generation']['content'].split('}')[0]+'}'
json.loads(answer)

مزايا النهج التوليدي

أظهرت الأقسام السابقة كيفية تنفيذ الجزء الأساسي من الاستدلال النموذجي. في هذا القسم، نغطي جوانب مختلفة من المناهج التوليدية، بما في ذلك المقارنات مع المناهج ووجهات النظر التقليدية.

ويقارن الجدول التالي كل نهج.

.	النهج التوليدي	نهج التصنيف
الحصول على البيانات المسمى	نموذج تم تدريبه مسبقًا على عدد كبير من الصور، واستدلال صفري	يتطلب بيانات من جميع أنواع الفئات
تعميم النموذج	نموذج تم تدريبه مسبقًا مع أنواع مختلفة من الصور	يتطلب حجمًا كبيرًا من البيانات المتعلقة بالإشراف على المحتوى لتحسين تعميم النموذج
كفاءة العملية	قدرات إطلاق النار صفر	يتطلب تدريب النموذج للتعرف على الأنماط المختلفة، وإعادة التدريب عند إضافة التسميات
شرح	التفكير كإخراج النص، تجربة مستخدم رائعة	من الصعب تحقيق المنطق، من الصعب شرح وتفسير
الطبيعة العدائية	قوي	إعادة التدريب عالية التردد

حالات الاستخدام المحتملة للاستدلال متعدد الوسائط بما يتجاوز الإشراف على المحتوى

يمكن تطبيق نماذج BLIP-2 لتناسب أغراضًا متعددة مع أو بدون ضبط دقيق، والتي تتضمن ما يلي:

شرح الصورة – يطلب هذا من النموذج إنشاء وصف نصي للمحتوى المرئي للصورة. كما هو موضح في الصورة المثال التالية (يسار)، يمكننا الحصول على "رجل يقف على الشاطئ ومعه لوح ركوب الأمواج" كما هو موضح في الصورة.
الإجابة على السؤال البصري – كما يظهر في الصورة النموذجية في المنتصف، يمكننا أن نسأل "هل هو محتوى تجاري متعلق" ونحن لدينا "نعم" كإجابة. بالإضافة إلى ذلك، يدعم BLIP-2 المحادثة متعددة الجولات ويخرج السؤال التالي: "لماذا تظن ذلك؟" استنادًا إلى الإشارات المرئية وإمكانيات LLM، يتم إخراج BLIP-2 "إنها علامة لأمازون."
استرجاع نص الصورة - نظرا للسؤال كما "النص على الصورة"، يمكننا استخراج نص الصورة ”إنه يوم الاثنين ولكن استمر في الابتسام“ كما هو موضح في الصورة على اليمين.

تعرض الصور التالية أمثلة لتوضيح إمكانية تحويل الصورة إلى نص بدون لقطة لاستدلال المعرفة البصرية.

كما يمكننا أن نرى من الأمثلة المختلفة أعلاه، فإن النماذج متعددة الوسائط تفتح فرصًا جديدة لحل المشكلات المعقدة التي قد تكافح النماذج التقليدية ذات الطريقة الواحدة لمعالجتها.

تنظيف

لتجنب تكبد رسوم مستقبلية، احذف الموارد التي تم إنشاؤها كجزء من هذا المنشور. يمكنك القيام بذلك عن طريق اتباع الإرشادات الموجودة في قسم تنظيف دفتر الملاحظات، أو حذف نقاط النهاية التي تم إنشاؤها عبر وحدة تحكم SageMaker والموارد المخزنة في حاوية S3.

وفي الختام

ناقشنا في هذا المقال أهمية الإشراف على المحتوى في العالم الرقمي وسلطنا الضوء على تحدياته. لقد اقترحنا طريقة جديدة للمساعدة في تحسين الإشراف على المحتوى باستخدام بيانات الصورة وإجراء الإجابة على الأسئلة مقابل الصور لاستخراج المعلومات المفيدة تلقائيًا. لقد قدمنا أيضًا مزيدًا من المناقشة حول مزايا استخدام النهج التوليدي القائم على الذكاء الاصطناعي مقارنة بالنهج التقليدي القائم على التصنيف. وأخيرًا، قمنا بتوضيح حالات الاستخدام المحتملة لنماذج اللغة المرئية بما يتجاوز الإشراف على المحتوى.

نحن نشجعك على معرفة المزيد من خلال استكشاف SageMaker وبناء حل باستخدام الحل متعدد الوسائط المتوفر في هذا المنشور ومجموعة البيانات ذات الصلة بعملك.

حول المؤلف

أنشئ حلاً إبداعيًا للإشراف على المحتوى يعتمد على الذكاء الاصطناعي على Amazon SageMaker JumpStart | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. جوردون وانج هو أحد كبار المتخصصين في الذكاء الاصطناعي/تعلم الآلة (TAM) في AWS. إنه يدعم العملاء الاستراتيجيين بأفضل ممارسات الذكاء الاصطناعي/التعلم الآلي في العديد من الصناعات. إنه شغوف برؤية الكمبيوتر والبرمجة اللغوية العصبية والذكاء الاصطناعي التوليدي وعمليات MLOps. وفي أوقات فراغه يحب الجري والمشي لمسافات طويلة.

أنشئ حلاً إبداعيًا للإشراف على المحتوى يعتمد على الذكاء الاصطناعي على Amazon SageMaker JumpStart | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. يانوي كويدكتوراه، هو مهندس حلول متخصص في التعلم الآلي في AWS. بدأ أبحاث التعلم الآلي في IRISA (معهد أبحاث علوم الكمبيوتر والأنظمة العشوائية)، ويتمتع بخبرة سنوات عديدة في بناء التطبيقات الصناعية التي تعمل بالذكاء الاصطناعي في رؤية الكمبيوتر، ومعالجة اللغات الطبيعية، والتنبؤ بسلوك المستخدم عبر الإنترنت. في AWS، يشارك خبرته في المجال ويساعد العملاء على إطلاق إمكانات الأعمال وتحقيق نتائج قابلة للتنفيذ من خلال التعلم الآلي على نطاق واسع. خارج العمل، يستمتع بالقراءة والسفر.

أنشئ حلاً إبداعيًا للإشراف على المحتوى يعتمد على الذكاء الاصطناعي على Amazon SageMaker JumpStart | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. ميلاني ليحاصل على درجة الدكتوراه ، وهو متخصص أول في الذكاء الاصطناعي / التعلم الآلي TAM في AWS ومقرها في سيدني ، أستراليا. تساعد عملاء المؤسسات على بناء الحلول باستخدام أحدث أدوات الذكاء الاصطناعي / التعلم الآلي على AWS وتقدم إرشادات حول تصميم وتنفيذ حلول التعلم الآلي باستخدام أفضل الممارسات. في أوقات فراغها ، تحب استكشاف الطبيعة وقضاء الوقت مع العائلة والأصدقاء.

محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
أفلاطون السيارات / المركبات الكهربائية ، كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
تشارت بريم. ارفع مستوى لعبة التداول الخاصة بك مع ChartPrime. الوصول هنا.
BlockOffsets. تحديث ملكية الأوفست البيئية. الوصول هنا.
المصدر https://aws.amazon.com/blogs/machine-learning/build-a-generative-ai-based-content-moderation-solution-on-amazon-sagemaker-jumpstart/

الطابع الزمني: 5 سبتمبر 2023

الطابع الزمني: يوليو 19، 2022

أفضل الممارسات لـ Amazon SageMaker Training Managed Warm Pools

الكتلة المصدر:

التعلم الآلي من AWS

عقدة المصدر: 1774316

الطابع الزمني: ديسمبر 16،

كيف تدرب Sophos كاشفًا قويًا وخفيف الوزن للبرامج الضارة لملفات PDF على نطاق واسع باستخدام Amazon SageMaker

الكتلة المصدر:

التعلم الآلي من AWS

عقدة المصدر: 1705967

الطابع الزمني: سبتمبر 29، 2022

أنشئ تطبيقًا مؤسسيًا آمنًا باستخدام Geneative AI وRAG باستخدام Amazon SageMaker JumpStart | خدمات الويب الأمازون

الكتلة المصدر:

التعلم الآلي من AWS

عقدة المصدر: 1886008

الطابع الزمني: سبتمبر 6، 2023

أعاد نشره أفلاطون

إنشاء حل للكشف عن الاحتيال في الوقت الفعلي قائم على GNN باستخدام Amazon SageMaker و Amazon Neptune و Deep Graph Library

قياس تأثير الأعمال لتوصيات تخصيص أمازون

قم بتخصيص نتائج البحث الخاصة بك من خلال تكامل Amazon Personalize وAmazon OpenSearch Service | خدمات الويب الأمازون

أنشئ خط أنابيب لتحليل المستندات قابل للتتبع ومخصص ومتعدد التنسيقات باستخدام Amazon Textract

أنشئ سير عمل MLOps عبر الحسابات باستخدام سجل نموذج Amazon SageMaker

قم بترجمة المحتوى إلى لغات متعددة باستخدام خدمات التعلم الآلي من AWS

أفضل الممارسات لـ Amazon SageMaker Training Managed Warm Pools

كيف تدرب Sophos كاشفًا قويًا وخفيف الوزن للبرامج الضارة لملفات PDF على نطاق واسع باستخدام Amazon SageMaker

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي