اصل فیزیک که الهام بخش هنر هوش مصنوعی مدرن است

اصل فیزیک که الهام بخش هنر هوش مصنوعی مدرن است

اصل فیزیک که الهام بخش هنر مدرن هوش مصنوعی از هوش داده پلاتو بلاک چین است. جستجوی عمودی Ai.

معرفی

از DALL·E 2، یک سیستم تولید تصویر که توسط OpenAI ایجاد شده است، بخواهید تصویری از «ماهی طلایی در حال خمیدن کوکاکولا در ساحل» را ترسیم کند، و دقیقاً تصاویر سورئال را از آن بیرون می‌دهد. این برنامه در حین تمرین با تصاویری از سواحل، ماهی قرمز و کوکاکولا روبرو می‌شد، اما بعید به نظر می‌رسد که تصویری از سواحل که در آن هر سه با هم جمع شده‌اند دیده شود. با این حال، DALL·E 2 می تواند مفاهیم را در چیزی جمع کند که ممکن است دالی را افتخار کند.

DALL·E 2 نوعی مدل مولد است - سیستمی که تلاش می کند از داده های آموزشی برای تولید چیز جدیدی استفاده کند که از نظر کیفیت و تنوع با داده ها قابل مقایسه باشد. این یکی از سخت ترین مشکلات در یادگیری ماشینی است و رسیدن به این نقطه سفر دشواری بوده است.

اولین مدل‌های تولیدی مهم برای تصاویر از رویکردی به هوش مصنوعی به نام شبکه عصبی استفاده کردند - برنامه‌ای که از لایه‌های بسیاری از واحدهای محاسباتی به نام نورون‌های مصنوعی تشکیل شده است. اما حتی با بهبود کیفیت تصاویر، مدل‌ها غیرقابل اعتماد و آموزش آن‌ها سخت بود. در همین حال، یک مدل مولد قدرتمند - ایجاد شده توسط یک محقق فوق دکترا با اشتیاق به فیزیک - خاموش بود، تا اینکه دو دانشجوی فارغ التحصیل به پیشرفت های فنی دست یافتند که جانور را زنده کرد.

DALL·E 2 چنین جانوری است. بینش کلیدی که تصاویر DALL·E 2 را ممکن می کند - و همچنین تصاویر رقبای آن Stable Diffusion و Imagen - از دنیای فیزیک می آید. سیستمی که زیربنای آنهاست، که به عنوان مدل انتشار شناخته می شود، به شدت از ترمودینامیک غیرتعادلی الهام گرفته شده است، که بر پدیده هایی مانند انتشار سیالات و گازها حکومت می کند. تکنیک های زیادی وجود دارد که در ابتدا توسط فیزیکدانان ابداع شد و اکنون در یادگیری ماشین بسیار مهم است. آهنگ یانگمحقق یادگیری ماشین در OpenAI.

قدرت این مدل ها صنعت و کاربران را تکان داده است. گفت: "این زمان هیجان انگیزی برای مدل های مولد است." آنیما آناندکومار، دانشمند کامپیوتر در موسسه فناوری کالیفرنیا و مدیر ارشد تحقیقات یادگیری ماشین در Nvidia. و در حالی که تصاویر واقعی ایجاد شده توسط مدل‌های انتشار گاهی اوقات می‌توانند سوگیری‌های اجتماعی و فرهنگی را تداوم بخشند، او گفت: «ما نشان داده‌ایم که مدل‌های مولد برای کارهای پایین‌دستی مفید هستند [که عادلانه بودن مدل‌های هوش مصنوعی پیش‌بینی‌کننده را بهبود می‌بخشند».

احتمالات بالا

برای درک اینکه چگونه ایجاد داده برای تصاویر کار می کند، اجازه دهید با یک تصویر ساده که فقط از دو پیکسل مقیاس خاکستری مجاور ساخته شده است شروع کنیم. ما می توانیم این تصویر را به طور کامل با دو مقدار، بر اساس سایه هر پیکسل (از صفر بودن کاملا سیاه تا 255 کاملا سفید بودن) توصیف کنیم. می توانید از این دو مقدار برای رسم تصویر به عنوان یک نقطه در فضای دوبعدی استفاده کنید.

اگر چندین تصویر را به عنوان نقطه رسم کنیم، ممکن است خوشه ها ظاهر شوند - تصاویر خاصی و مقادیر پیکسل متناظر آنها که بیشتر از بقیه رخ می دهند. حال سطحی را در بالای صفحه تصور کنید، جایی که ارتفاع سطح با چگالی خوشه ها مطابقت دارد. این سطح یک توزیع احتمال را ترسیم می کند. شما به احتمال زیاد نقاط داده جداگانه ای را در زیر بالاترین قسمت سطح پیدا خواهید کرد، و تعداد کمی که سطح پایین ترین سطح است.

معرفی

اکنون می توانید از این توزیع احتمال برای تولید تصاویر جدید استفاده کنید. تنها کاری که باید انجام دهید این است که به صورت تصادفی نقاط داده جدیدی تولید کنید و در عین حال به محدودیتی که داده‌های محتمل‌تر را بیشتر تولید می‌کنید، پایبند باشید - فرآیندی به نام «نمونه‌گیری» از توزیع. هر نقطه جدید یک تصویر جدید است.

همین تحلیل برای عکس‌های واقعی‌تر در مقیاس خاکستری با مثلاً یک میلیون پیکسل هر کدام صادق است. فقط در حال حاضر، ترسیم هر تصویر به دو محور نیاز ندارد، بلکه به یک میلیون محور نیاز دارد. توزیع احتمال روی چنین تصاویری یک سطح پیچیده میلیونی به علاوه یک بعدی خواهد بود. اگر از آن توزیع نمونه برداری کنید، یک میلیون مقدار پیکسل تولید خواهید کرد. آن پیکسل ها را روی یک ورق کاغذ چاپ کنید، و تصویر احتمالاً شبیه عکسی از مجموعه داده اصلی خواهد بود.

چالش مدل‌سازی مولد یادگیری این توزیع احتمال پیچیده برای مجموعه‌ای از تصاویر است که داده‌های آموزشی را تشکیل می‌دهند. این توزیع تا حدی به این دلیل مفید است که اطلاعات گسترده‌ای را در مورد داده‌ها دریافت می‌کند، و تا حدودی به این دلیل که محققان می‌توانند توزیع‌های احتمال را بر روی انواع مختلف داده‌ها (مانند متن و تصویر) ترکیب کنند تا خروجی‌های سورئال بسازند، مانند ماهی قرمزی که کوکاکولا را در ساحل می‌چرخاند. . آناندکومار گفت: "شما می توانید مفاهیم مختلف را با هم ترکیب کنید ... تا سناریوهای کاملا جدیدی ایجاد کنید که هرگز در داده های آموزشی دیده نشده اند."

در سال 2014، مدلی به نام شبکه متخاصم مولد (GAN) اولین مدلی بود که تصاویر واقعی تولید کرد. آناندکومار گفت: «هیجان زیادی وجود داشت. اما آموزش GAN ها سخت است: آنها ممکن است توزیع احتمال کامل را یاد نگیرند و می توانند فقط از زیر مجموعه ای از توزیع تصاویر تولید کنند. برای مثال، یک GAN که بر روی تصاویر حیوانات مختلف آموزش دیده است، ممکن است فقط تصاویری از سگ ها تولید کند.

یادگیری ماشینی به مدل قوی تری نیاز داشت. جاشا سول-دیکستین، که کارش از فیزیک الهام گرفته شده بود، یکی را فراهم می کرد.

حباب های هیجان

در حدود زمانی که GAN ها اختراع شدند، Sohl-Dickstein یک فوق دکتر در دانشگاه استنفورد بود که بر روی مدل های مولد کار می کرد و علاقه جانبی به ترمودینامیک غیرتعادلی داشت. این شاخه از فیزیک به مطالعه سیستم‌هایی می‌پردازد که در تعادل حرارتی نیستند - آن‌هایی که ماده و انرژی را در داخل و با محیط خود مبادله می‌کنند.

یک مثال گویا قطره جوهر آبی است که در یک ظرف آب پخش می شود. در ابتدا یک لکه تیره در یک نقطه تشکیل می دهد. در این مرحله، اگر می‌خواهید احتمال یافتن یک مولکول جوهر را در حجم کمی از ظرف محاسبه کنید، به توزیع احتمالی نیاز دارید که به طور تمیز حالت اولیه را قبل از شروع پخش شدن جوهر مدل‌سازی کند. اما این توزیع پیچیده است و بنابراین نمونه برداری از آن سخت است.

با این حال، در نهایت جوهر در سراسر آب پخش می شود و آن را آبی کم رنگ می کند. این منجر به توزیع احتمال بسیار ساده‌تر و یکنواخت‌تر مولکول‌ها می‌شود که می‌توان آن را با یک بیان ریاضی ساده توصیف کرد. ترمودینامیک غیرتعادلی توزیع احتمال را در هر مرحله از فرآیند انتشار توصیف می کند. مهمتر از همه، هر مرحله برگشت پذیر است - با مراحل به اندازه کافی کوچک، می توانید از یک توزیع ساده به یک توزیع پیچیده برگردید.

معرفی

Sohl-Dickstein از اصول انتشار برای توسعه الگوریتمی برای مدل‌سازی مولد استفاده کرد. ایده ساده است: این الگوریتم ابتدا تصاویر پیچیده در مجموعه داده های آموزشی را به نویز ساده تبدیل می کند - شبیه به حرکت از یک لکه جوهر به انتشار آب آبی روشن - و سپس به سیستم می آموزد که چگونه فرآیند را معکوس کند و نویز را به تصویر تبدیل کند.

در اینجا نحوه عملکرد آن آمده است. ابتدا الگوریتم یک تصویر از مجموعه آموزشی می گیرد. مانند قبل، فرض کنید که هر یک از میلیون پیکسل مقداری ارزش دارد و می توانیم تصویر را به صورت یک نقطه در فضای میلیون بعدی رسم کنیم. این الگوریتم در هر مرحله زمانی مقداری نویز به هر پیکسل اضافه می کند که معادل انتشار جوهر پس از یک مرحله زمانی کوچک است. همانطور که این روند ادامه می یابد، مقادیر پیکسل ها ارتباط کمتری با مقادیر آنها در تصویر اصلی دارند و پیکسل ها بیشتر شبیه یک توزیع ساده نویز هستند. (الگوریتم همچنین در هر مرحله زمانی، هر مقدار پیکسل را یک مقدار کمی به سمت مبدا، یعنی مقدار صفر در تمام آن محورها، هدایت می کند. این حرکت از بزرگ شدن مقادیر پیکسل برای رایانه ها جلوگیری می کند تا به راحتی با آنها کار نکنند.)

این کار را برای همه تصاویر موجود در مجموعه داده انجام دهید، و توزیع پیچیده اولیه نقاط در فضای میلیون بعدی (که به راحتی قابل توصیف و نمونه برداری نیست) به توزیع ساده و عادی نقاط در اطراف مبدا تبدیل می شود.

Sohl-Dickstein گفت: "توالی تبدیل ها به آرامی توزیع داده های شما را فقط به یک توپ نویز بزرگ تبدیل می کند." این «فرآیند رو به جلو» توزیعی را در اختیار شما قرار می دهد که می توانید به راحتی از آن نمونه برداری کنید.

قسمت بعدی یادگیری ماشین است: تصاویر پر سر و صدای بدست آمده از یک گذر رو به جلو را به یک شبکه عصبی بدهید و آن را آموزش دهید تا تصاویر کم نویز را که یک قدم زودتر آمده است را پیش بینی کند. در ابتدا اشتباه می کند، بنابراین پارامترهای شبکه را تغییر می دهید تا بهتر عمل کند. در نهایت، شبکه عصبی می تواند به طور قابل اعتماد یک تصویر نویزدار را که نماینده نمونه ای از توزیع ساده است، به تصویری نماینده نمونه از توزیع پیچیده تبدیل کند.

شبکه آموزش دیده یک مدل مولد تمام عیار است. اکنون حتی نیازی به یک تصویر اصلی برای انجام پاس رو به جلو ندارید: شما یک توصیف ریاضی کامل از توزیع ساده دارید، بنابراین می توانید مستقیماً از آن نمونه برداری کنید. شبکه عصبی می تواند این نمونه را - اساساً فقط ایستا - به یک تصویر نهایی که شبیه یک تصویر در مجموعه داده های آموزشی است تبدیل کند.

Sohl-Dickstein اولین خروجی های مدل انتشار خود را به یاد می آورد. او گفت: "شما به چشم نگاه می کنید و می گویید، "من فکر می کنم آن لکه رنگی شبیه یک کامیون است." ماه‌های زیادی از عمرم را صرف خیره شدن به الگوهای مختلف پیکسل‌ها کرده بودم و سعی می‌کردم ساختاری را ببینم که می‌گویم: «این ساختار بسیار ساختارمندتر از قبل است.» خیلی هیجان زده بودم.»

تجسم آینده

Sohl-Dickstein خود را منتشر کرد الگوریتم مدل انتشار در سال 2015، اما هنوز از آنچه GAN ها می توانستند انجام دهند بسیار عقب بود. در حالی که مدل‌های انتشار می‌توانستند از کل توزیع نمونه برداری کنند و هرگز با بیرون ریختن زیر مجموعه‌ای از تصاویر گیر نکنند، تصاویر بدتر به نظر می‌رسیدند و روند بسیار کند بود. Sohl-Dickstein گفت: «فکر نمی‌کنم در آن زمان این موضوع هیجان‌انگیز باشد.

دو دانشجو، که هیچ‌کدام از آنها سول-دیکستین یا یکدیگر را نمی‌شناختند، لازم است تا نقاط این کار اولیه را به مدل‌های انتشار امروزی مانند DALL·E 2 وصل کنند. اولین نفر سونگ، دانشجوی دکترا در استنفورد در آن زمان بود. در سال 2019، او و مشاورش یک روش جدید منتشر کرد برای ساخت مدل‌های مولد که توزیع احتمال داده‌ها (سطح با ابعاد بالا) را برآورد نمی‌کنند. در عوض، گرادیان توزیع را تخمین زد (به عنوان شیب سطح با ابعاد بالا در نظر بگیرید).

سانگ دریافت که اگر ابتدا هر تصویر را در مجموعه داده‌های آموزشی با سطوح نویز افزایش می‌دهد، تکنیک او بهترین کارایی را دارد، سپس از شبکه عصبی خود می‌خواهد تا تصویر اصلی را با استفاده از گرادیان‌های توزیع پیش‌بینی کند و به طور موثر آن را حذف کند. پس از آموزش، شبکه عصبی او می‌تواند یک تصویر نویزدار از یک توزیع ساده بگیرد و به تدریج آن را به تصویری که نماینده مجموعه داده‌های آموزشی است تبدیل کند. کیفیت تصویر عالی بود، اما نمونه‌گیری از مدل یادگیری ماشینی او به طرز دردناکی کند بود. و او این کار را بدون اطلاع از کار سول دیکستین انجام داد. سانگ گفت: «من اصلاً از مدل‌های انتشار اطلاعی نداشتم. «بعد از انتشار مقاله ما در سال 2019، ایمیلی از Jascha دریافت کردم. او به من اشاره کرد که [مدل های ما] ارتباطات بسیار قوی دارند."

در سال 2020، دانش‌آموز دوم آن ارتباطات را دید و متوجه شد که کار سونگ می‌تواند مدل‌های انتشار Sohl-Dickstein را بهبود بخشد. جاناتان هو اخیراً کار دکترای خود را در زمینه مدل سازی مولد در دانشگاه کالیفرنیا، برکلی به پایان رسانده بود، اما به کار روی آن ادامه داد. او گفت: «من فکر می‌کردم که از نظر ریاضی زیباترین زیرشاخه یادگیری ماشینی است.

هو مدل انتشار Sohl-Dickstein را با برخی از ایده های سانگ و سایر پیشرفت های دنیای شبکه های عصبی دوباره طراحی و به روز کرد. او گفت: «من می‌دانستم که برای جلب توجه جامعه، باید کاری کنم که این مدل نمونه‌هایی با ظاهر عالی تولید کند. من متقاعد شده بودم که این مهمترین کاری بود که در آن زمان می توانستم انجام دهم.

شهود او کاملاً مشخص بود. هو و همکارانش این مدل انتشار جدید و بهبود یافته را در سال 2020 در مقاله ای با عنوان «نویز زدایی از مدل های احتمالی انتشار" به سرعت به نقطه عطفی تبدیل شد که محققان اکنون آن را صرفاً به عنوان DDPM می نامند. بر اساس یک معیار کیفیت تصویر - که توزیع تصاویر تولید شده را با توزیع تصاویر آموزشی مقایسه می‌کند - این مدل‌ها با تمام مدل‌های تولیدی رقیب، از جمله GAN مطابقت داشتند یا از آنها پیشی گرفتند. دیری نگذشت که بازیکنان بزرگ متوجه شدند. اکنون، DALL·E 2، Stable Diffusion، Imagen و سایر مدل‌های تجاری، همگی از تغییراتی از DDPM استفاده می‌کنند.

مدل‌های انتشار مدرن یک عنصر کلیدی دیگر دارند: مدل‌های زبان بزرگ (LLM)، مانند GPT-3. اینها مدلهای تولیدی هستند که بر روی متن از اینترنت آموزش داده شده اند تا توزیع احتمالات را بر روی کلمات به جای تصاویر یاد بگیرند. در سال 2021، هو - که اکنون یک دانشمند محقق در یک شرکت مخفی کاری است - و همکارش تیم سلیمانز در Google Research، همراه با سایر تیم‌ها در جاهای دیگر، نشان دادند که چگونه می‌توان اطلاعات یک LLM و یک مدل انتشار تولیدکننده تصویر را برای استفاده از متن (مثلاً «ماهی طلایی که کوکاکولا را در ساحل می‌چرخاند») ترکیب کرد تا فرآیند انتشار و در نتیجه را هدایت کند. تولید تصویر این فرآیند "نشر هدایت شده" پشت موفقیت مدل های متن به تصویر، مانند DALL·E 2 است.

هو گفت: «آنها بسیار فراتر از وحشیانه ترین انتظارات من هستند. "من قصد ندارم وانمود کنم که همه اینها را دیدم."

ایجاد مشکلات

به همان اندازه که این مدل ها موفق بوده اند، تصاویر DALL·E 2 و امثال آن هنوز با ایده آل فاصله دارند. مدل‌های زبانی بزرگ می‌توانند سوگیری‌های فرهنگی و اجتماعی مانند نژادپرستی و جنسیت‌گرایی را در متنی که تولید می‌کنند منعکس کنند. این به این دلیل است که آنها بر روی متن های حذف شده از اینترنت آموزش می بینند و اغلب چنین متون حاوی زبان نژادپرستانه و جنسیتی است. LLMهایی که توزیع احتمال را بر روی چنین متنی یاد می گیرند با همان سوگیری ها آغشته می شوند. مدل‌های انتشار نیز بر روی تصاویری که از اینترنت انتخاب نشده‌اند، آموزش داده می‌شوند که می‌توانند حاوی داده‌های مشابهی باشند. جای تعجب نیست که ترکیب LLM با مدل های انتشار امروزی گاهی اوقات می تواند منجر به تصاویری شود که منعکس کننده مشکلات جامعه است.

آناندکومار تجربه دست اولی دارد. هنگامی که او سعی کرد با استفاده از یک برنامه مبتنی بر مدل انتشار، آواتارهای سبک شده خود را تولید کند، شوکه شد. او گفت: «بسیاری از تصاویر به شدت جنسیت‌آمیز بودند، در حالی که چیزهایی که به مردان نشان می‌داد اینطور نبود.» او نه به تنهایی.

این سوگیری‌ها را می‌توان با تنظیم و فیلتر کردن داده‌ها کاهش داد (یک کار بسیار دشوار، با توجه به گستردگی مجموعه داده‌ها)، یا با بررسی هر دو دستور ورودی و خروجی این مدل‌ها. هو گفت: "البته، هیچ چیز جایگزین آزمایش دقیق و گسترده ایمنی نیست." "این یک چالش مهم برای این رشته است."

علی رغم چنین نگرانی هایی، آناندکومار به قدرت مدل سازی مولد اعتقاد دارد. او گفت: «من واقعاً این جمله ریچارد فاینمن را دوست دارم: «آنچه را که نمی توانم خلق کنم، نمی فهمم». درک بیشتر تیم او را قادر می سازد تا مدل های مولد را برای تولید، به عنوان مثال، داده های آموزشی مصنوعی کلاس های کمتر ارائه شده برای کارهای پیش بینی کننده، مانند رنگ پوست تیره تر برای تشخیص چهره، تولید کند که به بهبود عدالت کمک می کند. مدل‌های مولد همچنین ممکن است به ما بینشی در مورد نحوه برخورد مغز ما با ورودی‌های پر سر و صدا، یا اینکه چگونه تصاویر ذهنی را تداعی می‌کنند و به کنش‌های آینده فکر می‌کنند، به ما بدهد. و ساخت مدل‌های پیچیده‌تر می‌تواند به هوش مصنوعی قابلیت‌های مشابهی بدهد.

آناندکومار می‌گوید: «من فکر می‌کنم ما در ابتدای راه هستیم که چه کاری می‌توانیم با هوش مصنوعی مولد انجام دهیم.

تمبر زمان:

بیشتر از مجله کوانتاما