ایمیزون کی شناخت اور دیگر مواد کی اعتدال کی خدمات میں مواد کی اعتدال کا اندازہ کرنے کے لیے میٹرکس

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

مواد کا اعتدال صارف کے تیار کردہ مواد کی آن لائن اسکریننگ اور نگرانی کا عمل ہے۔ صارفین اور برانڈز دونوں کے لیے ایک محفوظ ماحول فراہم کرنے کے لیے، پلیٹ فارمز کو مواد کو معتدل کرنا چاہیے تاکہ یہ یقینی بنایا جا سکے کہ یہ قابل قبول رویے کے پہلے سے قائم کردہ رہنما خطوط کے اندر آتا ہے جو پلیٹ فارم اور اس کے سامعین کے لیے مخصوص ہیں۔

جب کوئی پلیٹ فارم مواد کو معتدل کرتا ہے، تو قابل قبول صارف کے ذریعے تیار کردہ مواد (UGC) بنایا اور دوسرے صارفین کے ساتھ شیئر کیا جا سکتا ہے۔ پلیٹ فارم میں موجود مواد کی اعتدال پسندی کے ٹولز اور طریقہ کار کی بنیاد پر نامناسب، زہریلے یا ممنوعہ طرز عمل کو روکا جا سکتا ہے، حقیقی وقت میں بلاک کیا جا سکتا ہے، یا حقیقت کے بعد ہٹایا جا سکتا ہے۔

آپ استعمال کر سکتے ہیں Amazon Recognition Content Moderation ایسے مواد کا پتہ لگانے کے لیے جو نامناسب، ناپسندیدہ، یا جارحانہ ہو، صارف کا ایک محفوظ تجربہ تخلیق کرنے، مشتہرین کو برانڈ کی حفاظت کی یقین دہانیاں فراہم کرنے اور مقامی اور عالمی ضوابط کی تعمیل کرنے کے لیے۔

اس پوسٹ میں، ہم مختلف درستگی میٹرکس کے لحاظ سے مواد کی اعتدال کی خدمت کی کارکردگی کے پہلو کو جانچنے کے لیے درکار کلیدی عناصر پر تبادلہ خیال کرتے ہیں، اور Amazon Recognition کا استعمال کرتے ہوئے ایک مثال فراہم کرتے ہیں۔ Content Moderation API's.

کیا تشخیص کرنا ہے

مواد کی اعتدال کی خدمت کا جائزہ لیتے وقت، ہم درج ذیل اقدامات کی تجویز کرتے ہیں۔

اس سے پہلے کہ آپ اپنے استعمال کے معاملات پر API کی کارکردگی کا جائزہ لے سکیں، آپ کو ایک نمائندہ ٹیسٹ ڈیٹاسیٹ تیار کرنے کی ضرورت ہے۔ درج ذیل کچھ اعلیٰ سطحی رہنما خطوط ہیں۔

جمعکاری - ڈیٹا کا کافی بڑا بے ترتیب نمونہ (تصاویر یا ویڈیوز) لیں جسے آپ بالآخر Amazon Recognition کے ذریعے چلانا چاہتے ہیں۔ مثال کے طور پر، اگر آپ صارف کی اپ لوڈ کردہ تصاویر کو معتدل کرنے کا ارادہ رکھتے ہیں، تو آپ ٹیسٹ کے لیے ایک ہفتے کی صارف کی تصاویر لے سکتے ہیں۔ ہم ایک ایسا سیٹ منتخب کرنے کی تجویز کرتے ہیں جس میں کافی تصاویر ہوں بغیر پروسیس کرنے کے لیے بہت بڑی ہو (جیسے 1,000–10,000 تصاویر)، حالانکہ بڑے سیٹ بہتر ہیں۔
ڈیفینیشن - یہ فیصلہ کرنے کے لیے اپنی ایپلیکیشن کے مواد کے رہنما خطوط کا استعمال کریں کہ آپ Amazon Recognition سے کس قسم کے غیر محفوظ مواد کا پتہ لگانے میں دلچسپی رکھتے ہیں۔ اعتدال کے تصورات کی درجہ بندی. مثال کے طور پر، آپ کو ہر قسم کی صریح عریانیت اور گرافک تشدد یا خون کا پتہ لگانے میں دلچسپی ہو سکتی ہے۔
تشریح - اب آپ کو منتخب کردہ لیبلز کا استعمال کرتے ہوئے اپنے ٹیسٹ سیٹ کے لیے انسانی تخلیق کردہ زمینی سچائی کی ضرورت ہے، تاکہ آپ ان کے خلاف مشین کی پیشین گوئیوں کا موازنہ کر سکیں۔ اس کا مطلب یہ ہے کہ ہر تصویر کو آپ کے منتخب کردہ تصورات کی موجودگی یا غیر موجودگی کے لیے بیان کیا گیا ہے۔ اپنے تصویری ڈیٹا کو نوٹ کرنے کے لیے، آپ استعمال کر سکتے ہیں۔ ایمیزون سیج میکر گراؤنڈ ٹروتھ (GT) تصویری تشریح کا نظم کرنے کے لیے۔ آپ حوالہ دے سکتے ہیں۔ تصویری لیبلنگ کے لیے جی ٹی, تشریحات کو مضبوط کرنا اور پروسیسنگ تشریح آؤٹ پٹ.

Amazon Recognition کے ساتھ اپنے ٹیسٹ ڈیٹاسیٹ پر پیشین گوئیاں حاصل کریں۔

اگلا، آپ اپنے ٹیسٹ ڈیٹاسیٹ پر پیشین گوئیاں حاصل کرنا چاہتے ہیں۔

پہلا قدم یہ ہے کہ کم از کم اعتماد کے اسکور (ایک حد کی قدر، جیسے 50%) کا فیصلہ کریں جس پر آپ نتائج کی پیمائش کرنا چاہتے ہیں۔ ہماری ڈیفالٹ حد 50 پر سیٹ کی گئی ہے، جو محفوظ مواد پر بہت زیادہ غلط پیش گوئیاں کیے بغیر بڑی مقدار میں غیر محفوظ مواد کی بازیافت کے درمیان ایک اچھا توازن پیش کرتی ہے۔ تاہم، آپ کے پلیٹ فارم کی مختلف کاروباری ضروریات ہو سکتی ہیں، لہذا آپ کو ضرورت کے مطابق اس اعتماد کی حد کو اپنی مرضی کے مطابق بنانا چاہیے۔ آپ استعمال کر سکتے ہیں۔ MinConfidence آپ کے API میں پیرامیٹر مواد کی کھوج (ریکال) بمقابلہ کھوج کی درستگی (صحت سے متعلق) کو متوازن کرنے کی درخواست کرتا ہے۔ اگر آپ کم کریں MinConfidence، آپ کو زیادہ تر نامناسب مواد کا پتہ لگانے کا امکان ہے، لیکن یہ بھی امکان ہے کہ وہ مواد اٹھا لیں جو حقیقت میں نامناسب نہیں ہے۔ اگر آپ بڑھاتے ہیں۔ MinConfidence آپ اس بات کو یقینی بنا سکتے ہیں کہ آپ کا پایا جانے والا تمام مواد واقعی نامناسب ہے لیکن کچھ مواد کو ٹیگ نہیں کیا جا سکتا ہے۔ ہم کچھ کے ساتھ تجربہ کرنے کا مشورہ دیتے ہیں۔ MinConfidence اپنے ڈیٹاسیٹ پر اقدار اور مقداری طور پر اپنے ڈیٹا ڈومین کے لیے بہترین قدر منتخب کریں۔

اس کے بعد، Amazon Recognition Moderation API (کے ذریعے اپنے ٹیسٹ سیٹ کے ہر ایک نمونے (تصویر یا ویڈیو) کو چلائیں۔ڈیٹیکٹ موڈریشن لیبلز).

تصاویر پر ماڈل کی درستگی کی پیمائش کریں۔

آپ ماڈل کی پیشین گوئیوں کے ساتھ انسانی تخلیق کردہ زمینی سچائی تشریحات کا موازنہ کر کے ماڈل کی درستگی کا اندازہ لگا سکتے ہیں۔ آپ ہر تصویر کے لیے اس موازنہ کو آزادانہ طور پر دہراتے ہیں اور پھر پورے ٹیسٹ سیٹ پر جمع کرتے ہیں:

فی تصویر کے نتائج - ماڈل کی پیشین گوئی کو جوڑے کے طور پر بیان کیا گیا ہے۔ {label_name, confidence_score} (جہاں اعتماد کا اسکور >= وہ حد جو آپ نے پہلے منتخب کی ہے)۔ ہر تصویر کے لیے، ایک پیشین گوئی درست سمجھی جاتی ہے جب وہ زمینی سچائی (GT) سے میل کھاتی ہے۔ پیشن گوئی درج ذیل اختیارات میں سے ایک ہے:
- حقیقی مثبت (TP): پیشن گوئی اور GT دونوں "غیر محفوظ" ہیں
- حقیقی منفی (TN): پیشن گوئی اور GT دونوں "محفوظ" ہیں
- غلط مثبت (FP): پیشن گوئی "غیر محفوظ" کہتی ہے، لیکن GT "محفوظ" ہے
- غلط منفی (FN): پیشن گوئی "محفوظ" ہے، لیکن GT "غیر محفوظ" ہے
تمام تصاویر پر مجموعی نتائج - اگلا، آپ ان پیشین گوئیوں کو ڈیٹاسیٹ کی سطح کے نتائج میں جمع کر سکتے ہیں:
- غلط مثبت شرح (FPR) - یہ ٹیسٹ سیٹ میں تصاویر کا فیصد ہے جو ماڈل کے ذریعے غلط طور پر جھنڈا لگا کر غیر محفوظ مواد پر مشتمل ہے: (FP): FP / (TN+FP)۔
- غلط منفی شرح (FNR) - یہ ٹیسٹ سیٹ میں غیر محفوظ امیجز کا فیصد ہے جو ماڈل سے چھوٹ گئی ہیں: (FN): FN / (FN+TP)۔
- حقیقی مثبت شرح (TPR) – اسے یاد کرنا بھی کہا جاتا ہے، یہ غیر محفوظ مواد (زمینی سچائی) کے فیصد کی گنتی کرتا ہے جو ماڈل کے ذریعہ صحیح طور پر دریافت یا پیش گوئی کی گئی ہے: TP / (TP + FN) = 1 – FNR۔
- صحت سے متعلق - یہ پیشین گوئیوں کی کل تعداد کے حوالے سے درست پیشین گوئیوں (غیر محفوظ مواد) کے فیصد کی گنتی کرتا ہے: TP / (TP+FP)۔

آئیے ایک مثال دریافت کریں۔ آئیے فرض کریں کہ آپ کے ٹیسٹ سیٹ میں 10,000 تصاویر ہیں: 9,950 محفوظ اور 50 غیر محفوظ۔ ماڈل 9,800 تصاویر میں سے 9,950 کو محفوظ اور 45 میں سے 50 کو غیر محفوظ قرار دیتا ہے:

TP 45 =
TN 9800 =
FP = 9950 - 9800 = 150
FN = 50 - 45 = 5
آرپییف = 150 / (9950 + 150) = 0.015 = 1.5%
ایف این آر = 5 / (5 + 45) = 0.1 = 10%
ٹی پی آر/ریکال = 45 / (45 + 5) = 0.9 = 90%
صحت سے متعلق = 45 / (45 + 150) = 0.23 = 23%

ویڈیوز پر ماڈل کی درستگی کی پیمائش کریں۔

اگر آپ ویڈیوز پر کارکردگی کا جائزہ لینا چاہتے ہیں تو چند اضافی اقدامات ضروری ہیں:

ہر ویڈیو سے فریموں کا سب سیٹ نمونہ کریں۔ ہم 0.3–1 فریم فی سیکنڈ (fps) کی شرح کے ساتھ یکساں نمونے لینے کا مشورہ دیتے ہیں۔ مثال کے طور پر، اگر کوئی ویڈیو 24 ایف پی ایس پر انکوڈ ہے اور آپ ہر 3 سیکنڈ (0.3 ایف پی ایس) میں ایک فریم کا نمونہ لینا چاہتے ہیں، تو آپ کو ہر 72 فریم پر ایک کو منتخب کرنا ہوگا۔
Amazon Recognition مواد کی اعتدال کے ذریعے نمونے کے ان فریموں کو چلائیں۔ آپ یا تو ہمارا ویڈیو API استعمال کر سکتے ہیں، جو پہلے سے ہی آپ کے لیے فریموں کا نمونہ بناتا ہے (3 fps کی شرح سے)، یا امیج API استعمال کر سکتے ہیں، ایسی صورت میں آپ زیادہ کم نمونہ لینا چاہتے ہیں۔ ویڈیوز میں معلومات کی فالتو پن کو دیکھتے ہوئے ہم مؤخر الذکر آپشن کی تجویز کرتے ہیں (مسلسل فریم بہت ملتے جلتے ہیں)۔
فی فریم نتائج کا حساب لگائیں جیسا کہ پچھلے حصے میں بیان کیا گیا ہے (فی تصویر کے نتائج)۔
پورے ٹیسٹ سیٹ پر مجموعی نتائج۔ یہاں آپ کے پاس دو اختیارات ہیں، نتیجہ کی قسم پر منحصر ہے جو آپ کے کاروبار کے لیے اہمیت رکھتا ہے:
1. فریم لیول کے نتائج - یہ تمام نمونے کے فریموں کو آزاد تصویروں کے طور پر سمجھتا ہے اور نتائج کو بالکل اسی طرح جمع کرتا ہے جیسا کہ تصویروں کے لیے پہلے بیان کیا گیا تھا (FPR, FNR, recall, precision)۔ اگر کچھ ویڈیوز دوسروں کے مقابلے کافی لمبی ہیں، تو وہ کل گنتی میں مزید فریم کا حصہ ڈالیں گے، جس سے موازنہ غیر متوازن ہو جائے گا۔ اس صورت میں، ہم ابتدائی نمونے لینے کی حکمت عملی کو فی ویڈیو فریموں کی ایک مقررہ تعداد میں تبدیل کرنے کا مشورہ دیتے ہیں۔ مثال کے طور پر، آپ یکساں طور پر 50-100 فریم فی ویڈیو کا نمونہ لے سکتے ہیں (یہ فرض کرتے ہوئے کہ ویڈیوز کم از کم 2-3 منٹ طویل ہیں)۔
2. ویڈیو کی سطح کے نتائج - استعمال کے کچھ معاملات کے لیے، اس سے کوئی فرق نہیں پڑتا کہ آیا ماڈل کسی ویڈیو میں 50% یا 99% فریموں کی صحیح پیش گوئی کرنے کے قابل ہے۔ یہاں تک کہ ایک فریم پر ایک بھی غلط غیر محفوظ پیشین گوئی ایک بہاو انسانی تشخیص کو متحرک کر سکتی ہے اور صرف 100% درست پیشین گوئیوں والی ویڈیوز کو ہی صحیح طور پر سمجھا جاتا ہے۔ اگر یہ آپ کے استعمال کا معاملہ ہے، تو ہم تجویز کرتے ہیں کہ آپ FPR/FNR/TPR کو ہر ویڈیو کے فریموں پر شمار کریں اور ویڈیو کو درج ذیل پر غور کریں:

ویڈیو ID	درستگی	فی ویڈیو کی درجہ بندی
ویڈیو ID کے تمام فریموں پر جمع نتائج	کل FP = 0 کل FN = 0	کامل پیشین گوئیاں
.	کل FP > 0	غلط مثبت (FP)
.	کل FN > 0	غلط منفی (FN)

ہر ویڈیو کے لیے آزادانہ طور پر ان کی گنتی کرنے کے بعد، آپ ان تمام میٹرکس کی گنتی کر سکتے ہیں جنہیں ہم نے پہلے متعارف کرایا تھا:

ویڈیوز کا فیصد جو غلط طور پر جھنڈا لگا ہوا ہے (FP) یا چھوٹ گیا (FN)
درستگی اور یاد کرنا

اہداف کے خلاف کارکردگی کی پیمائش کریں۔

آخر میں، آپ کو اپنے مقاصد اور صلاحیتوں کے تناظر میں ان نتائج کی تشریح کرنے کی ضرورت ہے۔

سب سے پہلے، درج ذیل کے حوالے سے اپنی کاروباری ضروریات پر غور کریں:

ڈیٹا – اپنے ڈیٹا (روزانہ والیوم، ڈیٹا کی قسم، وغیرہ) اور اپنے غیر محفوظ بمقابلہ محفوظ مواد کی تقسیم کے بارے میں جانیں۔ مثال کے طور پر، کیا یہ متوازن ہے (50/50)، ترچھا (10/90) یا بہت ترچھا (1/99، مطلب کہ صرف 1% غیر محفوظ ہے)؟ اس طرح کی تقسیم کو سمجھنے سے آپ کو اپنے اصل میٹرک اہداف کی وضاحت کرنے میں مدد مل سکتی ہے۔ مثال کے طور پر، محفوظ مواد کی تعداد اکثر غیر محفوظ مواد (بہت ترچھی) سے بڑی مقدار کا آرڈر ہوتی ہے، جس سے یہ تقریباً ایک بے ضابطگی کا پتہ لگانے کا مسئلہ بن جاتا ہے۔ اس منظر نامے کے اندر، غلط مثبت کی تعداد حقیقی مثبت کی تعداد سے زیادہ ہو سکتی ہے، اور آپ اپنے ڈیٹا کی معلومات (تقسیم کی کمی، ڈیٹا کا حجم، وغیرہ) استعمال کر سکتے ہیں تاکہ آپ جس FPR کے ساتھ کام کر سکتے ہیں اس کا فیصلہ کر سکیں۔
میٹرک اہداف - آپ کے کاروبار کے سب سے اہم پہلو کیا ہیں؟ FPR کو کم کرنا اکثر زیادہ FNR کی قیمت پر آتا ہے (اور اس کے برعکس) اور یہ ضروری ہے کہ صحیح توازن تلاش کریں جو آپ کے لیے کارآمد ہو۔ اگر آپ کسی غیر محفوظ مواد سے محروم نہیں رہ سکتے ہیں، تو آپ ممکنہ طور پر 0% FNR (100% recall) کے قریب چاہتے ہیں۔ تاہم، اس میں سب سے زیادہ جھوٹے مثبت اثرات مرتب ہوں گے، اور آپ کو اپنی پوسٹ پیشن گوئی پائپ لائن کی بنیاد پر ہدف (زیادہ سے زیادہ) FPR کا تعین کرنا ہوگا جس کے ساتھ آپ کام کر سکتے ہیں۔ آپ بہتر توازن تلاش کرنے اور اپنے FPR کو کم کرنے کے قابل ہونے کے لیے کچھ درجے کی غلط منفی کو اجازت دینا چاہیں گے: مثال کے طور پر، 5% کی بجائے 0% FNR قبول کرنے سے FPR کو 2% سے 0.5% تک کم کیا جا سکتا ہے، جس سے تعداد میں کافی حد تک کمی واقع ہو سکتی ہے۔ جھنڈے والے مواد کی

اگلا، اپنے آپ سے پوچھیں کہ آپ جھنڈے والی تصاویر کو پارس کرنے کے لیے کون سے طریقہ کار استعمال کریں گے۔ اگرچہ APIs 0% FPR اور FNR فراہم نہیں کر سکتا ہے، پھر بھی یہ بہت زیادہ بچت اور پیمانہ لا سکتا ہے (مثال کے طور پر، آپ کی صرف 3% تصاویر کو جھنڈا لگا کر، آپ اپنے مواد کا 97% پہلے ہی فلٹر کر چکے ہیں)۔ جب آپ API کو کچھ ڈاون اسٹریم میکانزم کے ساتھ جوڑتے ہیں، جیسے کہ ایک انسانی افرادی قوت جو پرچم لگائے گئے مواد کا جائزہ لیتی ہے، تو آپ آسانی سے اپنے اہداف تک پہنچ سکتے ہیں (مثال کے طور پر، 0.5% پرچم والا مواد)۔ نوٹ کریں کہ یہ جوڑا آپ کے مواد کے 100% پر انسانی جائزہ لینے کے مقابلے میں کافی سستا ہے۔

جب آپ اپنے ڈاؤن اسٹریم میکانزم کا فیصلہ کر لیتے ہیں، تو ہم تجویز کرتے ہیں کہ آپ اس تھرو پٹ کا جائزہ لیں جس کی آپ حمایت کر سکتے ہیں۔ مثال کے طور پر، اگر آپ کے پاس ایسی افرادی قوت ہے جو آپ کے یومیہ مواد کے صرف 2% کی تصدیق کر سکتی ہے، تو ہمارے مواد کی اعتدال کے API سے آپ کا ہدف 2% کی فلیگ ریٹ (FPR+TPR) ہے۔

آخر میں، اگر زمینی سچائی کی تشریحات حاصل کرنا بہت مشکل یا بہت مہنگا ہے (مثال کے طور پر، آپ کے ڈیٹا کا حجم بہت بڑا ہے)، تو ہم API کے ذریعے جھنڈا لگائی گئی تصاویر کی چھوٹی تعداد پر تشریح کرنے کا مشورہ دیتے ہیں۔ اگرچہ یہ FNR کی تشخیص کی اجازت نہیں دیتا ہے (کیونکہ آپ کے ڈیٹا میں کوئی غلط منفی نہیں ہے)، آپ پھر بھی TPR اور FPR کی پیمائش کر سکتے ہیں۔

درج ذیل حصے میں، ہم تصویری اعتدال کی تشخیص کے لیے ایک حل فراہم کرتے ہیں۔ آپ ویڈیو اعتدال کی تشخیص کے لیے ایسا ہی طریقہ اختیار کر سکتے ہیں۔

حل جائزہ

مندرجہ ذیل خاکہ مختلف AWS خدمات کی وضاحت کرتا ہے جو آپ اپنے ٹیسٹ ڈیٹاسیٹ پر Amazon Recognition مواد کی اعتدال کی کارکردگی کا جائزہ لینے کے لیے استعمال کر سکتے ہیں۔

مواد کی اعتدال کی تشخیص کے درج ذیل مراحل ہیں:

اپنے تشخیصی ڈیٹاسیٹ کو اس میں اپ لوڈ کریں۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)۔
زمینی سچائی کے اعتدال کے لیبل تفویض کرنے کے لیے زمینی سچائی کا استعمال کریں۔
Amazon Recognition پہلے سے تربیت یافتہ اعتدال پسند API کا استعمال کرتے ہوئے کچھ حد کی اقدار کا استعمال کرتے ہوئے پیشن گوئی شدہ اعتدال پسند لیبلز بنائیں۔ (مثال کے طور پر، 70%، 75% اور 80%)۔
حقیقی مثبت، حقیقی منفی، جھوٹے مثبت، اور غلط منفیوں کی گنتی کرکے ہر حد کے لیے کارکردگی کا اندازہ لگائیں۔ اپنے استعمال کے کیس کے لیے بہترین حد کی قیمت کا تعین کریں۔
اختیاری طور پر، آپ صحیح اور غلط مثبت کی بنیاد پر افرادی قوت کے سائز کو تیار کر سکتے ہیں، اور استعمال کر سکتے ہیں۔ Amazon Augmented AI (Amazon A2I) خودکار طور پر تمام جھنڈا لگے ہوئے مواد کو آپ کی نامزد افرادی قوت کو دستی جائزے کے لیے بھیجنے کے لیے۔

درج ذیل حصے مراحل 1، 2 اور 3 کے لیے کوڈ کے ٹکڑوں کو فراہم کرتے ہیں۔ مکمل اینڈ ٹو اینڈ سورس کوڈ کے لیے، فراہم کردہ کو دیکھیں Jupyter نوٹ بک.

شرائط

شروع کرنے سے پہلے، Jupyter نوٹ بک کو ترتیب دینے کے لیے درج ذیل مراحل کو مکمل کریں:

ایک نوٹ بک مثال بنائیں in ایمیزون سیج میکر.
جب نوٹ بک فعال ہو، منتخب کریں۔ Jupyter کھولیں۔.
Jupyter ڈیش بورڈ پر، منتخب کریں۔ نئی، اور منتخب کریں ٹرمنل.

ٹرمینل میں، درج ذیل کوڈ درج کریں:

cd SageMaker
git clone https://github.com/aws-samples/amazon-rekognition-code-samples.git

اس پوسٹ کے لیے نوٹ بک کھولیں: content-moderation-evaluation/Evaluating-Amazon-Rekognition-Content-Moderation-Service.ipynb.
پر اپنا تشخیصی ڈیٹا سیٹ اپ لوڈ کریں۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)۔

اب ہم Jupyter نوٹ بک میں 2 سے 4 تک کے مراحل سے گزریں گے۔

اعتدال پسندی کے لیبل تفویض کرنے کے لیے زمینی سچائی کا استعمال کریں۔

گراؤنڈ ٹروتھ میں لیبل تفویض کرنے کے لیے، درج ذیل مراحل کو مکمل کریں:

مینی فیسٹ ان پٹ فائل بنائیں اپنی گراؤنڈ ٹروتھ جاب کے لیے اور اسے Amazon S3 پر اپ لوڈ کریں۔
لیبلنگ کنفیگریشن بنائیں، جس میں وہ تمام اعتدال پسند لیبلز شامل ہوں جو گراؤنڈ ٹروتھ لیبلنگ کے کام کے لیے درکار ہیں۔ لیبل کے زمرے کی تعداد کی حد کو چیک کرنے کے لیے، آپ استعمال کر سکتے ہیں۔ لیبل زمرہ کوٹہ. مندرجہ ذیل کوڈ کے ٹکڑوں میں، ہم پانچ لیبل استعمال کرتے ہیں (حوالہ کریں۔ درجہ بندی کی درجہ بندی Amazon Recognition میں استعمال ہوتی ہے۔ مزید تفصیلات کے لیے) علاوہ ایک لیبل (Safe_Content) جو مواد کو محفوظ کے بطور نشان زد کرتا ہے:
```
# customize CLASS_LIST to include all labels that can be used to classify sameple data, it's up to 10 labels
# In order to easily match image label with content moderation service supported taxonomy, 

CLASS_LIST = ["", "", "", "", "", "Safe_Content"]
print("Label space is {}".format(CLASS_LIST))

json_body = {"labels": [{"label": label} for label in CLASS_LIST]}
with open("class_labels.json", "w") as f:
    json.dump(json_body, f)

s3.upload_file("class_labels.json", BUCKET, EXP_NAME + "/class_labels.json")
```
گراؤنڈ ٹروتھ ورک فورس کو لیبلنگ کی ہدایات کے ساتھ فراہم کرنے کے لیے ایک کسٹم ورکر ٹاسک ٹیمپلیٹ بنائیں اور اسے Amazon S3 پر اپ لوڈ کریں۔
گراؤنڈ ٹروتھ لیبل جاب کو تصویر کی درجہ بندی (ملٹی لیبل) کام کے طور پر بیان کیا گیا ہے۔ ہدایات کے سانچے کو حسب ضرورت بنانے کے لیے ہدایات کے لیے سورس کوڈ سے رجوع کریں۔
فیصلہ کریں کہ آپ گراؤنڈ ٹروتھ کے کام کو مکمل کرنے کے لیے کونسی افرادی قوت استعمال کرنا چاہتے ہیں۔ آپ کے پاس دو اختیارات ہیں (تفصیلات کے لیے سورس کوڈ سے رجوع کریں):
1. استعمال کریں نجی افرادی قوت آپ کی اپنی تنظیم میں تشخیصی ڈیٹاسیٹ کو لیبل کرنے کے لیے۔
2. استعمال کریں عوامی افرادی قوت تشخیصی ڈیٹاسیٹ کو لیبل کرنے کے لیے۔

گراؤنڈ ٹروتھ لیبلنگ جاب بنائیں اور جمع کروائیں۔ آپ کو ترتیب دینے کے لیے درج ذیل کوڈ کو بھی ایڈجسٹ کر سکتے ہیں۔ لیبلنگ کام کے پیرامیٹرز اپنی مخصوص کاروباری ضروریات کو پورا کرنے کے لیے۔ گراؤنڈ ٹروتھ جاب بنانے اور ترتیب دینے کے لیے مکمل ہدایات کے لیے سورس کوڈ سے رجوع کریں۔

human_task_config = {
    "AnnotationConsolidationConfig": {
        "AnnotationConsolidationLambdaArn": acs_arn,
    },
    "PreHumanTaskLambdaArn": prehuman_arn,
    "MaxConcurrentTaskCount": 200,  # 200 images will be sent at a time to the workteam.
    "NumberOfHumanWorkersPerDataObject": 3,  # 3 separate workers will be required to label each image.
    "TaskAvailabilityLifetimeInSeconds": 21600,  # Your workteam has 6 hours to complete all pending tasks.
    "TaskDescription": task_description,
    "TaskKeywords": task_keywords,
    "TaskTimeLimitInSeconds": 180,  # Each image must be labeled within 3 minutes.
    "TaskTitle": task_title,
    "UiConfig": {
        "UiTemplateS3Uri": "s3://{}/{}/instructions.template".format(BUCKET, EXP_NAME),
    },
}

جاب جمع کروانے کے بعد، آپ کو مندرجہ ذیل سے ملتا جلتا آؤٹ پٹ نظر آنا چاہیے:

Labeling job name is: ground-truth-cm-1662738403

تشخیصی ڈیٹاسیٹ پر لیبلنگ کام کے کامیابی سے مکمل ہونے کا انتظار کریں، پھر اگلے مرحلے پر جاری رکھیں۔

پیشن گوئی شدہ اعتدال پسند لیبلز بنانے کے لیے Amazon Recognition Moderation API کا استعمال کریں۔

درج ذیل کوڈ کا ٹکڑا دکھاتا ہے کہ Amazon Recognition کو کیسے استعمال کیا جائے۔ اعتدال API اعتدال کے لیبل بنانے کے لیے:

client=boto3.client('rekognition')
def moderate_image(photo, bucket):
    response = client.detect_moderation_labels(Image={'S3Object':{'Bucket':bucket,'Name':photo}})
    return len(response['ModerationLabels'])

کارکردگی کا اندازہ لگائیں۔

آپ نے پہلے تشخیصی ڈیٹاسیٹ کے لیے زمینی سچائی کے ماڈریشن لیبلز کو گراؤنڈ ٹروتھ لیبلنگ جاب کے نتائج سے بازیافت کیا، پھر آپ نے اسی ڈیٹاسیٹ کے لیے پیشین گوئی شدہ اعتدال پسندی کے لیبلز حاصل کرنے کے لیے Amazon Recognition Moderation API کو چلایا۔ چونکہ یہ بائنری درجہ بندی کا مسئلہ ہے (محفوظ بمقابلہ غیر محفوظ مواد)، ہم درج ذیل میٹرکس کا حساب لگاتے ہیں (یہ فرض کرتے ہوئے کہ غیر محفوظ مواد مثبت ہے):

ہم متعلقہ تشخیصی میٹرکس کا بھی حساب لگاتے ہیں:

درج ذیل کوڈ کا ٹکڑا دکھاتا ہے کہ ان میٹرکس کا حساب کیسے لگایا جائے:

FPR = FP / (FP + TN)
FNR = FN / (FN + TP)
Recall = TP / (TP + FN)
Precision = TP / (TP + FP)

نتیجہ

یہ پوسٹ مختلف درستگی میٹرکس کے لحاظ سے آپ کے مواد کی اعتدال کی خدمت کی کارکردگی کے پہلو کو جانچنے کے لیے درکار کلیدی عناصر پر بحث کرتی ہے۔ تاہم، درستگی ان متعدد جہتوں میں سے صرف ایک ہے جس کا آپ کو کسی خاص مواد کی اعتدال کی خدمت کا انتخاب کرتے وقت جانچنے کی ضرورت ہے۔ یہ ضروری ہے کہ آپ دوسرے پیرامیٹرز کو شامل کریں، جیسے کہ سروس کا کل فیچر سیٹ، استعمال میں آسانی، موجودہ انضمام، رازداری اور سیکیورٹی، حسب ضرورت کے اختیارات، اسکیل ایبلٹی مضمرات، کسٹمر سروس، اور قیمتوں کا تعین۔ Amazon Recognition میں مواد کی اعتدال کے بارے میں مزید جاننے کے لیے، ملاحظہ کریں۔ Amazon Recognition Content Moderation.

مصنفین کے بارے میں

امت گپتا AWS میں ایک سینئر AI سروسز سلوشنز آرکیٹیکٹ ہیں۔ وہ بڑے پیمانے پر اچھی طرح سے تعمیر شدہ مشین لرننگ سلوشنز کے ساتھ صارفین کو فعال کرنے کا پرجوش ہے۔

ڈیوڈ موڈولو AWS AI لیبز میں ایک اپلائیڈ سائنس مینیجر ہے۔ اس نے یونیورسٹی آف ایڈنبرا (برطانیہ) سے کمپیوٹر وژن میں پی ایچ ڈی کی ہے اور حقیقی دنیا کے صارفین کے مسائل کے لیے نئے سائنسی حل تیار کرنے کے لیے پرجوش ہیں۔ کام سے باہر، وہ سفر کرنے اور کسی بھی قسم کا کھیل، خاص طور پر فٹ بال کھیلنے سے لطف اندوز ہوتا ہے۔

جیان وو AWS میں ایک سینئر انٹرپرائز سلوشنز آرکیٹیکٹ ہے۔ وہ AWS کے ساتھ 6 سال سے تمام سائز کے صارفین کے ساتھ کام کر رہا ہے۔ وہ کلاؤڈ اور AI/ML کو اپنانے کے ذریعے صارفین کو تیزی سے اختراع کرنے میں مدد کرنے کا پرجوش ہے۔ AWS میں شامل ہونے سے پہلے، جیان نے 10+ سال سوفٹ ویئر ڈیولپمنٹ، سسٹم کے نفاذ اور انفراسٹرکچر مینجمنٹ پر توجہ مرکوز کرتے ہوئے گزارے۔ کام کے علاوہ، وہ متحرک رہنے اور اپنے خاندان کے ساتھ وقت گزارنے میں لطف اندوز ہوتا ہے۔

ٹائم اسٹیمپ: اکتوبر 5، 2022اکتوبر 6، 2022

ٹائم اسٹیمپ: جون 30، 2023

Amazon Recognition اور دیگر مواد کی اعتدال کی خدمات میں مواد کی اعتدال کا جائزہ لینے کے لیے میٹرکس

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

کیا تشخیص کرنا ہے

Amazon Recognition کے ساتھ اپنے ٹیسٹ ڈیٹاسیٹ پر پیشین گوئیاں حاصل کریں۔

تصاویر پر ماڈل کی درستگی کی پیمائش کریں۔

ویڈیوز پر ماڈل کی درستگی کی پیمائش کریں۔

اہداف کے خلاف کارکردگی کی پیمائش کریں۔

حل جائزہ

شرائط

اعتدال پسندی کے لیبل تفویض کرنے کے لیے زمینی سچائی کا استعمال کریں۔

پیشن گوئی شدہ اعتدال پسند لیبلز بنانے کے لیے Amazon Recognition Moderation API کا استعمال کریں۔

کارکردگی کا اندازہ لگائیں۔

نتیجہ

مصنفین کے بارے میں

سے زیادہ AWS مشین لرننگ

لائف سائنسز انڈسٹری کے لیے ریگولیٹری گذارشات تخلیق کرنے کے لیے Amazon SageMaker پر RStudio استعمال کریں۔

Amazon SageMaker Data Wrangler کے ساتھ ڈیٹا کے بے ترتیب اور مرتب شدہ نمونے بنائیں

ہیگنگ فیس سے پہلے سے تربیت یافتہ ٹرانسفارمر ماڈلز کو ٹھیک کرنے کے لیے ہائپر پیرامیٹر کی اصلاح

AWS پر کمپیوٹر وژن پائپ لائنز کے لیے مصنوعی ڈیٹا بنائیں

بھرپور انسانی تاثرات سے سیکھ کر LLMs میں ملٹی ہاپ استدلال کو بہتر بنائیں

فیس آف امکان، NHL Edge IQ کا حصہ: ٹیلیویژن گیمز کے دوران حقیقی وقت میں آمنے سامنے جیتنے والوں کی پیش گوئی

نئے Amazon Kendra Alfresco کنیکٹر کا استعمال کرتے ہوئے اپنے الفریسکو مواد کی فہرست بنائیں | ایمیزون ویب سروسز

متعدد Amazon SageMaker ڈومینز کے ساتھ کاروبار یا ٹیموں کی الگ لائنیں۔

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ