زنان، چهره هایی با رنگ پوست تیره تر به طور قابل توجهی کمتر ایجاد می شوند
در طول هفته گذشته، پس از چند ماه بازی با مدلهای مختلف تولیدی منبع باز، کاری را آغاز کردم که به صورت خیرخواهانه آن را «مطالعه» مینامم (یعنی روشها تقریباً معقول هستند و نتیجهگیری ممکن است به طور کلی در میدان توپ کسانی باشید که با کار سخت تر به آن ها می رسید). هدف این است که شهودی برای اینکه آیا و تا چه اندازه مدلهای تصویر مولد سوگیریهای جنسیتی یا رنگ پوست را در پیشبینیهایشان منعکس میکنند، شکل میدهند، که بسته به زمینه استفاده به طور بالقوه منجر به آسیبهای خاصی میشود.
با گسترش این مدلها، من فکر میکنم به احتمال زیاد شاهد افزایش تعداد استارتآپها و شرکتهای فناوری فعلی خواهیم بود که آنها را در محصولات و خدمات جدید و نوآورانه به کار میگیرند. و در حالی که من می توانم جذابیت را از دیدگاه آنها درک کنم، فکر می کنم مهم است که با هم کار کنیم محدودیت ها را درک کنید و آسیب های احتمالی که این سیستم ها ممکن است در زمینه های مختلف باعث شوند و شاید مهمتر از همه، ما به صورت جمعی کار کنند به مزایای آنها را به حداکثر برسانید، در حین به حداقل رساندن خطرات. بنابراین، اگر این کار به پیشبرد این هدف کمک کند، #ماموریت انجام شد.
هدف از این مطالعه تعیین (1) میزان بود Stable Diffusion v1-4⁵ نقض می کند برابری جمعیتی در ایجاد تصاویری از یک "پزشک" با توجه به جنسیت و رنگ پوست. این فرض می کند که برابری جمعیتی در مدل پایه یک صفت مطلوب است. بسته به زمینه استفاده، این ممکن است یک فرض معتبر نباشد. علاوه بر این، من (2) به طور کمی بررسی می کنم تعصب نمونه برداری در مجموعه داده LAION5B در پشت انتشار پایدار، و همچنین (3) نظر کیفی در مورد مسائل مربوط به سوگیری پوشش و عدم پاسخ در سرپرستی آن¹.
در این پست به هدف شماره 1 می پردازم که در آن، از طریق یک بررسی ارزیاب221 از XNUMX تصویر تولید شدهXNUMX با استفاده از یک نسخه باینریزه شده از مقیاس رنگ پوست راهب (MST).XNUMX، مشاهده می شود که⁴:
جایی که برابری جمعیتی = 50٪:
- فیگورهای زنانه درک شده در 36 درصد مواقع تولید می شوند
- فیگورهایی با رنگ پوست تیره تر (Monk 06+) در 6 درصد مواقع تولید می شوند
جایی که برابری جمعیتی = 25٪:
- فیگورهای زنانه با رنگ پوست تیرهتر در 4 درصد مواقع ایجاد میشوند
- فیگورهای مردانه با رنگ پوست تیره تر در 3 درصد مواقع ایجاد می شوند
به این ترتیب، به نظر میرسد که Stable Diffusion به سمت تولید تصاویری از چهرههای مرد با پوست روشنتر، با تعصب قابلتوجهی در برابر چهرههایی با پوست تیرهتر، و همچنین سوگیری قابلتوجهی علیه چهرههای زنانه درکشده به طور کلی سوگیری دارد.
این مطالعه با PyTorch در اجرا شد Stable Diffusion v1-4 از Hugging Face، با استفاده از زمانبندی روشهای شبه عددی خطی مقیاسشده برای مدلهای انتشار (PNDM) و 50 num_inference_steps
. بررسیهای ایمنی غیرفعال شد و استنباط در زمان اجرای Google Colab GPU⁴ اجرا شد. تصاویر در مجموعه های 4 تایی در همان اعلان تولید شدند ("دکتر پشت میز”) بیش از 56 دسته برای مجموع 224 تصویر (3 تصویر از مطالعه حذف شدند زیرا شامل پیکره های انسانی نمی شدند)³. این رویکرد تکراری برای به حداقل رساندن حجم نمونه و در عین حال تولید فواصل اطمینان که به طور مشخص از یکدیگر قابل تفکیک بودند استفاده شد.
در همان زمان، تصاویر تولید شده توسط یک بازبین (من) در ابعاد زیرXNUMX حاشیه نویسی شد:
male_presenting
// باینری // 1 = درست، 0 = نادرستfemale_presenting
// باینری // 1 = درست، 0 = نادرستmonk_binary
// باینری // 0 = رنگ پوست شکل معمولاً در MST 05 یا کمتر از آن ظاهر می شود (معروف به "سبک تر"). 1 = رنگ پوست شکل معمولاً در MST 06 یا بالاتر از آن ظاهر می شود (معروف به "تیره تر").confidence
// طبقه بندی // اعتماد داور در طبقه بندی آنها قضاوت کرد.
توجه به این نکته مهم است که این ابعاد توسط یک بازبین واحد از یک تجربه فرهنگی و جنسیتی خاص ارزیابی شده است. بعلاوه، من به نشانههای جنسیتی که بهطور تاریخی غربی درک شدهاند، مانند طول مو، آرایش و هیکل، تکیه میکنم تا فیگورها را در طبقات دوتایی مردانه و زنانه قرار دهم. حساس بودن به این واقعیت که انجام این کار بدون با اذعان به پوچ بودن آن به خودی خود خطر ایجاد گروه های اجتماعی مضرXNUMX را به دنبال دارد، می خواهم مطمئن شوم که به وضوح محدودیت های این رویکرد را بپذیرید.
همانطور که به رنگ پوست مربوط می شود، همان استدلال صادق است. در واقع، ترجیحاً میتوان امتیازدهندگان را از پسزمینههای مختلف تهیه کرد و هر تصویر را با استفاده از توافق چند رتبهدهنده در طیف بسیار غنیتری از تجربیات انسانی ارزیابی کرد.
با تمام آنچه گفته شد، با تمرکز بر رویکردی که شرح داده شد، از نمونهگیری مجدد جکنیف برای تخمین فواصل اطمینان حول میانگین هر زیرگروه (جنسیت و رنگ پوست)، و همچنین هر گروه متقاطع (جنسیت + رنگ پوست) در عدد 95 استفاده کردم. درصد سطح اطمینان در اینجا، میانگین نشان دهنده نمایش تناسبی (%) هر گروه در برابر کل (221 تصویر) است. توجه داشته باشید که من عمداً زیرگروهها را بهعنوان متقابل انحصاری و به طور جمعی جامع برای اهداف این مطالعه مفهومسازی میکنم، به این معنی که برای جنسیت و تن پوست برابری جمعیتی دوتایی است (یعنی 50٪ نشان دهنده برابری است)، در حالی که برای گروههای متقاطع برابری برابر با 25٪ است. XNUMX. باز هم، این بدیهی است که تقلیل دهنده است.
بر اساس این روشها، مشاهده کردم که انتشار پایدار، زمانی که برای ایجاد تصویری از یک پزشک، درخواستی خنثی از نظر جنسیت و تن پوست داده میشود، به سمت تولید تصاویری از چهرههای مرد با پوست روشنتر سوق داده میشود. همچنین سوگیری قابل توجهی را در برابر چهره هایی با پوست تیره تر، و همچنین به طور کلی تعصب قابل توجهی در برابر چهره های زنانه مشاهده می کندXNUMX:
این نتیجهگیریها هنگام محاسبه عرض فاصله اطمینان حول برآوردهای نقطهای با توجه به نشانگرهای برابری جمعیتی زیرگروه مرتبط، تفاوت اساسی ندارند.
اینجاست که کار روی تعصب ناعادلانه در یادگیری ماشین معمولاً ممکن است متوقف شود. با این حال، کارهای اخیر از جارد کاتزمن و همکاران al. پیشنهاد مفیدی را ارائه می دهد که ممکن است جلوتر برویم. بازنگری «سوگیری غیرمنصفانه» عمومی به طبقهبندی آسیبهای بازنمایی که به ما کمک میکند تا با دقت بیشتری پیامدهای نامطلوب را تشخیص دهیم، و همچنین اقدامات کاهشی را با دقت بیشتری هدف قرار دهیم. من استدلال می کنم که این نیاز به زمینه خاصی از استفاده دارد. بنابراین، بیایید تصور کنیم که از این سیستم برای تولید خودکار تصاویری از پزشکان استفاده می شود که به صورت بلادرنگ در صفحه پذیرش دانشکده پزشکی یک دانشگاه ارائه می شوند. شاید به عنوان راهی برای سفارشی کردن تجربه برای هر کاربر بازدید کننده. در این زمینه، با استفاده از طبقه بندی کاتزمن، نتایج من نشان می دهد که چنین سیستمی ممکن است گروه های اجتماعی کلیشه ای⁸ با نشان دادن کمتر سیستمی زیرگروه های آسیب دیده (شکل هایی با رنگ پوست تیره تر و ویژگی های زنانه درک شده). همچنین ممکن است در نظر بگیریم که آیا این نوع خرابی ها ممکن است یا خیر از مردم فرصتی برای شناسایی خود محروم کنید⁸ توسط پروکسی، با وجود این واقعیت که تصاویر هستند تولید و نماینده اشخاص حقیقی نیستند.
توجه به این نکته مهم است که کارت مدل Huggingface برای انتشار پایدار نسخه 1-4 این واقعیت را آشکار می کند که LAION5B و بنابراین خود مدل ممکن است فاقد برابری جمعیت شناختی در نمونه های آموزشی باشد و به همین ترتیب، ممکن است سوگیری های ذاتی در توزیع آموزش را منعکس کند (از جمله تمرکز بر انگلیسی، هنجارهای غربی و الگوهای استفاده سیستمی از اینترنت.XNUMX). به این ترتیب، نتایج این مطالعه غیرمنتظره نیست، اما مقیاس نابرابری ممکن است برای پزشکانی که به موارد استفاده خاص فکر می کنند مفید باشد. برجسته کردن مناطقی که ممکن است قبل از تولید تصمیمات مدل نیاز به کاهش فعال باشد.
من در مقاله بعدی من مقابله می کنم هدف شماره 2: بررسی کمی تعصب نمونه برداری در مجموعه داده LAION5B در پشت انتشار پایدار، و مقایسه آن با نتایج حاصل از هدف شماره 1.
- واژه نامه یادگیری ماشینی: انصاف، 2022، گوگل
- استفاده از مقیاس رنگ پوست Monk را شروع کنید، 2022، گوگل
- تصاویر تولید شده از مطالعه2022، دنی ترون
- کد از مطالعه2022، دنی ترون
- Stable Diffusion v1-4، 2022، Stability.ai & Huggingface
- LAION5B جلوی بازیابی کلیپ، 2022، رومن بومونت
- نتایج بررسی ارزیاب از مطالعه2022، دنی ترون
- آسیب های بازنمایی در برچسب گذاری تصویر، 2021، جارد کاتزمن و همکاران.
از ژوان یانگ و [رضایت بازبین معلق] برای بازبینی و بازخورد متفکرانه و کوشاشان در مورد این مقاله سپاسگزاریم.
#mailpoet_form_1 .mailpoet_form { }
فرم #mailpoet_form_1 { margin-bottom: 0; }
#mailpoet_form_1 .mailpoet_column_with_background { padding: 0px; }
#mailpoet_form_1 .wp-block-column:first-child, #mailpoet_form_1 .mailpoet_form_column:first-child { padding: 0 20px; }
#mailpoet_form_1 .mailpoet_form_column:not(:first-child) { margin-left: 0; }
#mailpoet_form_1 h2.mailpoet-heading { margin: 0 0 12px 0; }
#mailpoet_form_1 .mailpoet_paragraph { line-height: 20px; حاشیه پایین: 20 پیکسل. }
#mailpoet_form_1 .mailpoet_segment_label, #mailpoet_form_1 .mailpoet_text_label, #mailpoet_form_1 .mailpoet_textarea_label, #mailpoet_form_1 .mailpoet_select_label, #mailpoet_form_1 .mailpoet_radio_label, #mailpoet_form_1 .mailpoet_checkbox_label, #mailpoet_form_1 .mailpoet_list_label, #mailpoet_form_1 .mailpoet_date_label { display: block; فونت-وزن: عادی; }
#mailpoet_form_1. }
#mailpoet_form_1 .mailpoet_text, #mailpoet_form_1 .mailpoet_textarea { عرض: 200px; }
#mailpoet_form_1 .mailpoet_checkbox { }
#mailpoet_form_1 .mailpoet_submit { }
#mailpoet_form_1 .mailpoet_divider { }
#mailpoet_form_1 .mailpoet_message { }
#mailpoet_form_1 .mailpoet_form_loading { width: 30px; text-align: center; ارتفاع خط: معمولی }
#mailpoet_form_1 .mailpoet_form_loading > span { width: 5px; ارتفاع: 5px; پس زمینه رنگ: #5b5b5b; }#mailpoet_form_1{border-radius: 3px; پسزمینه: #27282e;رنگ: #ffffff;تراز متن: چپ؛}#mailpoet_form_1 form.mailpoet_form {padding: 0px;}#mailpoet_form_1{width: 100%_}_mail mailpoet_message {حاشیه: 1; padding: 0 0px;}
#mailpoet_form_1 .mailpoet_validate_success {color: #00d084}
#mailpoet_form_1 input.parsley-success {color: #00d084}
#mailpoet_form_1 select.parsley-success {color: #00d084}
#mailpoet_form_1 textarea.parsley-success {color: #00d084}
#mailpoet_form_1 .mailpoet_validate_error {color: #cf2e2e}
#mailpoet_form_1 input.parsley-error {color: #cf2e2e}
#mailpoet_form_1 select.parsley-error {color: #cf2e2e}
#mailpoet_form_1 textarea.textarea.parsley-error {color: #cf2e2e}
#mailpoet_form_1 .parsley-errors-list {color: #cf2e2e}
#mailpoet_form_1 .parsley-required {color: #cf2e2e}
#mailpoet_form_1 .parsley-custom-error-message {color: #cf2e2e}
#mailpoet_form_1 .mailpoet_paragraph.last {margin-bottom: 0} @media (max-width: 500px) {#mailpoet_form_1 {background: #27282e;}} @media (min-width: 500px) {#mailpoet_form_1. last-child {margin-bottom: 0}} @media (max-width: 500px) {#mailpoet_form_1 .mailpoet_form_column:last-child .mailpoet_paragraph:last-child {margin-bottom: 0}}
تعصب ناعادلانه در سراسر جنسیت، رنگ پوست و گروههای متقاطع در تصاویر انتشار پایدار ایجاد شده از منبع https://towardsdatascience.com/unfair-bias-across-gender-skin-tones-intersection-groups-in-generated-stable-diffusion-1b36b82fb7b60fb5620b9dfb4-XNUMX-XNUMX-XNUMX-XNUMX XNUMXcXNUMX—XNUMX از طریق https://towardsdatascience.com/feed
<!–
->
- بیت کوین
- bizbuildermike
- بلاکچین
- انطباق با بلاک چین
- کنفرانس بلاکچین
- مشاوران بلاک چین
- coinbase
- coingenius
- اجماع
- کنفرانس رمزنگاری
- معدنکاری رمز گشایی
- کریپتو کارنسی (رمز ارزها )
- غیر متمرکز
- DEFI
- دارایی های دیجیتال
- ethereum
- فراگیری ماشین
- رمز غیر قابل شستشو
- افلاطون
- افلاطون آی
- هوش داده افلاطون
- پلاتوبلاک چین
- PlatoData
- بازی پلاتو
- چند ضلعی
- اثبات سهام
- W3
- زفیرنت