اکنون برای یک دهه، بسیاری از چشمگیرترین سیستم های هوش مصنوعی با استفاده از موجودی عظیمی از داده های برچسب دار آموزش داده شده اند. یک تصویر ممکن است به عنوان مثال "گربه تابی" یا "گربه ببر" برچسب گذاری شود تا یک شبکه عصبی مصنوعی را "آموزش دهد" تا به درستی یک تابی را از یک ببر تشخیص دهد. این استراتژی هم به طرز چشمگیری موفق بوده و هم به طرز غم انگیزی ناقص بوده است.
چنین آموزش «نظارتشده» به دادههایی نیاز دارد که به سختی توسط انسان برچسبگذاری شدهاند، و شبکههای عصبی اغلب از میانبرها استفاده میکنند و یاد میگیرند که برچسبها را با اطلاعات حداقلی و گاهی سطحی مرتبط کنند. به عنوان مثال، یک شبکه عصبی ممکن است از حضور علف برای تشخیص عکس یک گاو استفاده کند، زیرا گاوها معمولاً در مزرعه عکس می گیرند.
گفت: «ما در حال پرورش نسلی از الگوریتمها هستیم که شبیه به دانشآموزانی هستند که کل ترم به کلاس نیامدهاند و سپس شب قبل از فینال، در حال انباشته شدن هستند.» الکسی افروس، دانشمند کامپیوتر در دانشگاه کالیفرنیا، برکلی. "آنها واقعاً مطالب را یاد نمی گیرند، اما در آزمون خوب عمل می کنند."
علاوه بر این، برای محققان علاقه مند به تلاقی هوش حیوانات و ماشین، این "یادگیری تحت نظارت" ممکن است در آنچه می تواند در مورد مغزهای بیولوژیکی آشکار کند محدود باشد. حیوانات - از جمله انسان ها - از مجموعه داده های برچسب گذاری شده برای یادگیری استفاده نمی کنند. در بیشتر موارد، آنها به تنهایی محیط را کاوش می کنند و با انجام این کار، درک غنی و قوی از جهان به دست می آورند.
اکنون برخی از دانشمندان علوم اعصاب محاسباتی شروع به کاوش در شبکه های عصبی کرده اند که با داده های کم یا بدون برچسب انسانی آموزش دیده اند. این الگوریتمهای «یادگیری با نظارت خود» بسیار موفق بودهاند الگوبرداری از زبان انسان و اخیراً تشخیص تصویر. در کار اخیر، مدلهای محاسباتی سیستمهای بینایی و شنوایی پستانداران که با استفاده از مدلهای یادگیری خود نظارتی ساخته شدهاند، مطابقت نزدیکتری با عملکرد مغز نسبت به همتایان تحتنظارت خود نشان دادهاند. برای برخی از دانشمندان علوم اعصاب، به نظر می رسد که شبکه های مصنوعی شروع به افشای برخی از روش های واقعی مغز ما برای یادگیری کرده اند.
نظارت ناقص
مدلهای مغزی الهامگرفته از شبکههای عصبی مصنوعی حدود 10 سال پیش روی کار آمدند، تقریباً در همان زمان که شبکهای عصبی به نام الکس نت وظیفه طبقه بندی تصاویر ناشناخته را متحول کرد. این شبکه، مانند همه شبکههای عصبی، از لایههایی از نورونهای مصنوعی ساخته شده بود، واحدهای محاسباتی که اتصالاتی را به یکدیگر تشکیل میدهند که میتوانند از نظر قدرت یا وزن متفاوت باشند. اگر یک شبکه عصبی نتواند یک تصویر را به درستی طبقه بندی کند، الگوریتم یادگیری وزن اتصالات بین نورون ها را به روز می کند تا احتمال طبقه بندی اشتباه در دور بعدی آموزش کمتر شود. الگوریتم این فرآیند را بارها با تمام تصاویر تمرینی، وزنهها، تا زمانی که میزان خطای شبکه به طور قابل قبولی کم شود، تکرار میکند.
تقریباً در همان زمان، عصبشناسان اولین مدلهای محاسباتی را توسعه دادند سیستم بینایی نخستی ها، با استفاده از شبکه های عصبی مانند AlexNet و جانشینان آن. این اتحادیه امیدوارکننده به نظر میرسید: برای مثال، زمانی که میمونها و شبکههای عصبی مصنوعی تصاویر مشابهی را نشان دادند، فعالیت نورونهای واقعی و نورونهای مصنوعی مطابقت جالبی را نشان داد. مدلهای مصنوعی شنوایی و تشخیص بو دنبال شد.
اما با پیشرفت این زمینه، محققان متوجه محدودیتهای آموزش تحت نظارت شدند. به عنوان مثال، در سال 2017، لئون گاتیس، دانشمند کامپیوتر در آن زمان در دانشگاه توبینگن در آلمان، و همکارانش تصویری از فورد مدل T گرفتند، سپس یک الگوی پوست پلنگ را روی عکس پوشاندند و تصویری عجیب و غریب اما به راحتی قابل تشخیص ایجاد کردند. . یک شبکه عصبی مصنوعی پیشرو به درستی تصویر اصلی را به عنوان مدل T طبقه بندی کرد، اما تصویر اصلاح شده را یک پلنگ در نظر گرفت. روی بافت ثابت شده بود و هیچ درک درستی از شکل ماشین (یا پلنگ) نداشت.
راهبردهای یادگیری خود نظارتی برای جلوگیری از چنین مشکلاتی طراحی شده اند. در این رویکرد، انسان ها داده ها را برچسب گذاری نمی کنند. در عوض، "برچسب ها از خود داده ها می آیند." فریدمان زنکه، یک عصب شناس محاسباتی در موسسه تحقیقات زیست پزشکی فردریش میشر در بازل، سوئیس. الگوریتمهای خود نظارت اساساً شکافهایی در دادهها ایجاد میکنند و از شبکه عصبی میخواهند تا جاهای خالی را پر کند. به عنوان مثال، در یک مدل به اصطلاح زبان بزرگ، الگوریتم آموزشی چند کلمه اول یک جمله را به شبکه عصبی نشان می دهد و از آن می خواهد که کلمه بعدی را پیش بینی کند. وقتی با مجموعه عظیمی از متن که از اینترنت جمع آوری شده بود، این مدل آموزش دید به نظر می رسد که یاد می گیرد ساختار نحوی زبان، توانایی زبانی چشمگیر را نشان می دهد - همه بدون برچسب یا نظارت خارجی.
تلاش مشابهی در بینایی کامپیوتر در حال انجام است. در اواخر سال 2021، Kaiming He و همکاران خود را فاش کردندرمزگذار خودکار پوشانده شده"، که بر اساس یک تکنیک توسط تیم افروس در سال 2016 پیشگام شد. الگوریتم یادگیری خود نظارتی به طور تصادفی تصاویر را پنهان می کند و تقریباً سه چهارم هر یک را پنهان می کند. رمزگذار خودکار نقابدار بخشهای بدون ماسک را به نمایشهای نهفته تبدیل میکند - توصیفهای فشردهشده ریاضی که حاوی اطلاعات مهمی درباره یک شی است. (در مورد یک تصویر، نمایش نهفته ممکن است یک توصیف ریاضی باشد که در میان چیزهای دیگر، شکل یک شی را در تصویر ثبت میکند.) سپس یک رمزگشا آن تصاویر را دوباره به تصاویر کامل تبدیل میکند.
الگوریتم یادگیری خود نظارت، ترکیب رمزگذار-رمزگشا را آموزش می دهد تا تصاویر ماسک شده را به نسخه های کامل خود تبدیل کند. هر گونه تفاوت بین تصاویر واقعی و تصاویر بازسازی شده به سیستم بازگردانده می شود تا به یادگیری آن کمک کند. این فرآیند برای مجموعه ای از تصاویر آموزشی تکرار می شود تا زمانی که میزان خطای سیستم به طور مناسب کم شود. در یک مثال، زمانی که یک رمزگذار خودکار ماسکدار آموزشدیده، تصویری از یک اتوبوس که قبلا دیده نشده بود با تقریباً 80 درصد آن مبهم نشان داده شد، سیستم با موفقیت ساختار اتوبوس را بازسازی کرد.
افروس گفت: «این یک نتیجه بسیار بسیار چشمگیر است.
به نظر می رسد بازنمایی های نهفته ایجاد شده در سیستمی مانند این حاوی اطلاعات عمیق تر از استراتژی های قبلی است. این سیستم ممکن است شکل یک ماشین، به عنوان مثال - یا یک پلنگ - و نه فقط الگوهای آنها را یاد بگیرد. افروس گفت: «و این واقعاً ایده اساسی یادگیری با نظارت شخصی است - شما دانش خود را از پایین به بالا میسازید. بدون سخت گیری لحظه آخری برای قبولی در آزمون ها.
مغزهای خود نظارت شده
در سیستم هایی مانند این، برخی از عصب شناسان پژواک هایی از نحوه یادگیری ما مشاهده می کنند. من فکر می کنم شکی وجود ندارد که 90 درصد از کارهایی که مغز انجام می دهد یادگیری خود نظارت است. بلیک ریچاردز، یک عصب شناس محاسباتی در دانشگاه مک گیل و میلا، موسسه هوش مصنوعی کبک. تصور میشود که مغزهای بیولوژیکی به طور مداوم مکان آینده یک شی را هنگام حرکت یا کلمه بعدی در یک جمله را پیشبینی میکنند، درست همانطور که یک الگوریتم یادگیری با نظارت خود تلاش میکند شکاف یک تصویر یا بخشی از متن را پیشبینی کند. و مغزها نیز به تنهایی از اشتباهات خود یاد می گیرند - تنها بخش کوچکی از بازخورد مغز ما از یک منبع خارجی می آید که می گوید، اساسا، "پاسخ اشتباه".
به عنوان مثال، سیستم های بینایی انسان و دیگر نخستی ها را در نظر بگیرید. اینها بهترین سیستمهای حسی حیوانات هستند، اما دانشمندان علوم اعصاب تلاش کردهاند توضیح دهند که چرا آنها شامل دو مسیر مجزا میشوند: جریان بینایی شکمی، که مسئول تشخیص اشیا و چهرهها است، و جریان بینایی پشتی، که حرکت را پردازش میکند ( مسیرهای what" و "where" به ترتیب).
ریچاردز و تیمش یک مدل تحت نظارت خود ایجاد کردند که به پاسخ اشاره می کند. آنها آموزش دیده یک هوش مصنوعی که دو شبکه عصبی مختلف را با هم ترکیب میکرد: اولی که معماری ResNet نام داشت، برای پردازش تصاویر طراحی شد. دومی که به عنوان یک شبکه تکراری شناخته می شود، می تواند دنباله ای از ورودی های قبلی را برای پیش بینی در مورد ورودی مورد انتظار بعدی پیگیری کند. برای آموزش هوش مصنوعی ترکیبی، تیم با دنباله ای از مثلاً 10 فریم از یک ویدیو شروع کرد و به ResNet اجازه داد آنها را یکی یکی پردازش کند. سپس شبکه تکراری نمایش نهفته فریم یازدهم را پیش بینی کرد، در حالی که به سادگی با 11 فریم اول مطابقت نداشت. الگوریتم یادگیری خود نظارتی، پیشبینی را با مقدار واقعی مقایسه کرد و به شبکههای عصبی دستور داد تا وزنهای خود را بهروزرسانی کنند تا پیشبینی بهتر شود.
تیم ریچاردز دریافتند که هوش مصنوعی آموزش دیده با یک ResNet در تشخیص اشیا خوب است، اما در دسته بندی حرکات نه. اما زمانی که آنها ResNet را به دو بخش تقسیم کردند و دو مسیر را ایجاد کردند (بدون تغییر در تعداد کل نورون ها)، هوش مصنوعی بازنمایی هایی را برای اشیاء در یکی و برای حرکت در دیگری ایجاد کرد و امکان طبقه بندی پایین دستی این ویژگی ها را فراهم کرد - درست همانطور که مغز ما احتمالاً وجود دارد. انجام دادن.
برای آزمایش بیشتر هوش مصنوعی، تیم مجموعهای از ویدئوها را به آن نشان دادند که محققان موسسه علوم مغز آلن در سیاتل قبلاً به موشها نشان داده بودند. مانند نخستیها، موشها دارای نواحی مغزی هستند که برای تصاویر ثابت و حرکت تخصص دارند. محققان آلن فعالیت عصبی را در قشر بینایی موش در حین تماشای ویدیوها ثبت کردند.
در اینجا نیز، تیم ریچاردز شباهت هایی را در نحوه واکنش هوش مصنوعی و مغزهای زنده به ویدئوها پیدا کردند. در طول آموزش، یکی از مسیرها در شبکه عصبی مصنوعی بیشتر شبیه به ناحیه شکمی و تشخیص اشیا در مغز موش شد و مسیر دیگر شبیه به مناطق پشتی متمرکز بر حرکت شد.
ریچاردز گفت: نتایج نشان می دهد که سیستم بینایی ما دارای دو مسیر تخصصی است زیرا آنها به پیش بینی آینده بصری کمک می کنند. یک مسیر به اندازه کافی خوب نیست.
مدلهای دستگاه شنوایی انسان نیز داستان مشابهی را روایت میکنند. در ماه ژوئن، تیمی به رهبری ژان رمی کینگ، یک دانشمند محقق در Meta AI، هوش مصنوعی به نام Wav2Vec 2.0 را آموزش داد، که از یک شبکه عصبی برای تبدیل صدا به نمایش های پنهان استفاده می کند. محققان برخی از این نمایشها را پنهان میکنند، که سپس وارد شبکه عصبی جزء دیگری به نام ترانسفورماتور میشوند. در طول تمرین، ترانسفورماتور اطلاعات پوشانده شده را پیش بینی می کند. در این فرآیند، کل هوش مصنوعی یاد میگیرد که صداها را به نمایشهای نهفته تبدیل کند - باز هم نیازی به برچسب نیست. کینگ گفت، تیم از حدود 600 ساعت داده گفتاری برای آموزش شبکه استفاده کرد، "که تقریباً همان چیزی است که یک کودک در [دو سال] اول تجربه کسب می کند."
پس از آموزش این سیستم، محققان بخش هایی از کتاب های صوتی را به زبان های انگلیسی، فرانسوی و ماندارین برای آن پخش کردند. محققان سپس عملکرد هوش مصنوعی را با داده های 412 نفر مقایسه کردند - ترکیبی از گویشوران بومی این سه زبان که همزمان با تصویربرداری از مغزشان در یک اسکنر fMRI به صداهای مشابه گوش داده بودند. کینگ گفت که شبکه عصبی او و مغز انسان، علیرغم تصاویر fMRI پر سر و صدا و با وضوح پایین، "نه تنها با یکدیگر ارتباط دارند، بلکه به شکلی سیستماتیک همبستگی دارند": فعالیت در لایه های اولیه هوش مصنوعی با فعالیت همسو می شود. در قشر شنوایی اولیه، در حالی که فعالیت عمیقترین لایههای هوش مصنوعی با فعالیت در لایههای بالاتر مغز، در این مورد قشر جلوی مغز، همسو است. ریچاردز گفت: «این دادهها واقعاً زیبا هستند. این قطعی نیست، اما [این] مدرک قانعکننده دیگری است که نشان میدهد، در واقع، روشی که ما زبان را یاد میگیریم تا حد زیادی با تلاش برای پیشبینی چیزهای بعدی است که گفته میشود.»
آسیب شناسی درمان نشده
همه قانع نشده اند. جاش مک درموتیک عصب شناس محاسباتی در موسسه فناوری ماساچوست، روی مدل های بینایی و ادراک شنوایی با استفاده از یادگیری تحت نظارت و خود نظارت کار کرده است. آزمایشگاه او چیزی را طراحی کرده است که او آن را "متامرها" می نامد، سیگنال های صوتی و تصویری سنتز شده ای که برای یک انسان فقط هستند. سر و صدای غیر قابل درک. با این حال، برای یک شبکه عصبی مصنوعی، متامرها از سیگنال های واقعی قابل تشخیص نیستند. این نشان میدهد که بازنماییهایی که در لایههای عمیقتر شبکه عصبی شکل میگیرند، حتی با یادگیری خود نظارتی، با بازنماییهای مغز ما مطابقت ندارند. مک درموت گفت، این رویکردهای یادگیری خود نظارتی "پیشرفت هستند به این معنا که شما می توانید بازنمایی هایی را یاد بگیرید که می توانند بسیاری از رفتارهای شناسایی را بدون نیاز به همه این برچسب ها پشتیبانی کنند." "اما آنها هنوز آسیب شناسی های بسیاری از مدل های تحت نظارت را دارند."
خود الگوریتم ها نیز به کار بیشتری نیاز دارند. به عنوان مثال، در Wav2Vec 2.0 متا AI، هوش مصنوعی تنها بازنمایی های نهفته را برای صدای چند ده میلی ثانیه ای پیش بینی می کند - زمان کمتری نسبت به بیان یک نویز از نظر ادراکی متمایز، چه رسد به یک کلمه. کینگ گفت: «کارهای زیادی برای انجام کاری مشابه کاری که مغز انجام می دهد باید انجام داد.
درک واقعی عملکرد مغز به چیزی بیش از یادگیری تحت نظارت نیاز دارد. برای یک چیز، مغز مملو از اتصالات بازخوردی است، در حالی که مدل های فعلی، اگر وجود داشته باشند، چنین ارتباطی کمی دارند. یک گام واضح بعدی استفاده از یادگیری خود نظارتی برای آموزش شبکههای بسیار تکرارشونده است - فرآیندی دشوار - و دیدن اینکه چگونه فعالیت در چنین شبکههایی با فعالیت واقعی مغز مقایسه میشود. گام مهم دیگر تطبیق فعالیت نورونهای مصنوعی در مدلهای یادگیری تحت نظارت خود با فعالیت نورونهای بیولوژیکی فردی خواهد بود. کینگ گفت: «امیدواریم در آینده، نتایج [ما] با ضبطهای تک سلولی نیز تأیید شود.
اگر شباهتهای مشاهده شده بین مغز و مدلهای یادگیری تحت نظارت خود برای سایر وظایف حسی نیز وجود داشته باشد، این نشانه قویتر خواهد بود که هر جادویی که مغز ما قادر به انجام آن باشد، نیازمند یادگیری خود نظارتی است. کینگ میگوید: «اگر شباهتهای سیستماتیک بین سیستمهای بسیار متفاوت پیدا کنیم، نشان میدهد که شاید راههای زیادی برای پردازش اطلاعات به شیوهای هوشمندانه وجود نداشته باشد. حداقل، این یک نوع فرضیه زیباست که ما دوست داریم با آن کار کنیم.