ابزارهای هوش مصنوعی که تصاویر را بهتر می کنند | مجله کوانتا

ابزارهای هوش مصنوعی که تصاویر را بهتر می کنند | مجله کوانتا

ابزارهای هوش مصنوعی که تصاویر را بهتر می کنند | Quanta Magazine PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

معرفی

این یکی از بزرگ‌ترین کلیشه‌های جنایی و علمی تخیلی است: یک محقق یک عکس تار را روی صفحه رایانه می‌کشد و می‌خواهد آن را بهبود بخشد، و بوم می‌شود، تصویر فوکوس می‌کند و سرنخ‌های ضروری را نشان می‌دهد. این یک راحتی داستان سرایی فوق‌العاده است، اما برای دهه‌ها داستانی خسته‌کننده بوده است - یک تصویر را بیش از حد منفجر کنید، و به وضوح پیکسلی می‌شود. داده های کافی برای انجام کارهای بیشتر وجود ندارد.

«اگر ساده‌لوحانه یک تصویر را ارتقا دهید، تار می‌شود. جزئیات زیادی وجود خواهد داشت، اما اشتباه خواهد بود.» برایان کاتانزارو، معاون تحقیقات کاربردی یادگیری عمیق در Nvidia.

اخیراً محققان و متخصصان شروع به ترکیب الگوریتم‌های هوش مصنوعی در ابزارهای تقویت‌کننده تصویر خود کرده‌اند که این فرآیند را آسان‌تر و قدرتمندتر می‌کند، اما هنوز محدودیت‌هایی برای بازیابی اطلاعات از هر تصویر وجود دارد. خوشبختانه، همانطور که محققان الگوریتم‌های بهبود را بیش از پیش پیش می‌برند، راه‌های جدیدی برای کنار آمدن با این محدودیت‌ها پیدا می‌کنند - حتی گاهی اوقات راه‌هایی برای غلبه بر آن‌ها پیدا می‌کنند.

در دهه گذشته، محققان شروع به تقویت تصاویر با نوع جدیدی از مدل هوش مصنوعی به نام شبکه متخاصم مولد یا GAN کردند که می‌توانست تصاویری با جزئیات و با ظاهر چشمگیر تولید کند. گفت: "تصاویر ناگهان بسیار بهتر به نظر می رسند." تومر میکائیلی، مهندس برق در Technion در اسرائیل. اما او تعجب کرد که تصاویر ساخته شده توسط GAN ها سطوح بالایی از اعوجاج را نشان می دهند، که نشان می دهد یک تصویر بهبودیافته چقدر به واقعیت زیربنایی آنچه نشان می دهد نزدیک است. GAN ها تصاویری را تولید کردند که زیبا و طبیعی به نظر می رسیدند، اما در واقع جزئیاتی را ساختند یا "توهم آمیز" کردند که دقیق نبودند، که به عنوان سطوح بالایی از اعوجاج ثبت شد.

میکائیلی شاهد تقسیم شدن زمینه بازسازی عکس به دو بخش فرعی مجزا بود. یکی تصاویر زیبایی را نشان داد که بسیاری از آنها توسط GAN ساخته شده بودند. دیگری داده‌ها را نشان می‌داد، اما آنها تصاویر زیادی را نشان نمی‌دادند، زیرا ظاهر زیبایی نداشتند.»

در سال 2017، مایکلی و دانشجوی فارغ التحصیلش یوچای بلاو به طور رسمی به این دوگانگی نگاه کردند. آنها عملکرد الگوریتم های مختلف بهبود تصویر را بر روی نموداری از اعوجاج در مقابل کیفیت ادراکی ترسیم کردند، با استفاده از معیار شناخته شده ای برای کیفیت ادراکی که به خوبی با قضاوت ذهنی انسان ها ارتباط دارد. همانطور که Michaeli انتظار داشت، برخی از الگوریتم ها کیفیت بصری بسیار بالایی داشتند، در حالی که برخی دیگر بسیار دقیق و با اعوجاج کم بودند. اما هیچ کدام هر دو مزیت را نداشتند. باید یکی یا دیگری را انتخاب می کردی محققان به این لقب دادند مبادله ادراک-تحریف.

میکائیلی نیز سایر محققان را به چالش کشید برای ارائه الگوریتم‌هایی که می‌توانند بهترین کیفیت تصویر را برای سطح معینی از اعوجاج تولید کنند تا امکان مقایسه منصفانه بین الگوریتم‌های تصویر زیبا و الگوریتم‌های آماری خوب را فراهم کنند. از آن زمان، صدها محقق هوش مصنوعی در مورد کیفیت اعوجاج و درک الگوریتم های خود گزارش داده اند. با استناد به مقاله میکائیلی و بلاو که مبادله را توصیف کرد.

گاهی اوقات، پیامدهای مبادله ادراک-تحریف وحشتناک نیست. به عنوان مثال، انویدیا دریافت که صفحه نمایش‌های با کیفیت بالا به خوبی محتوای بصری با کیفیت پایین‌تر را ارائه نمی‌کنند، بنابراین در ماه فوریه ابزاری را منتشر کرد که از یادگیری عمیق برای بالا بردن کیفیت پخش ویدیو استفاده می‌کند. در این مورد، مهندسان انویدیا کیفیت ادراکی را به دقت ترجیح دادند و این واقعیت را پذیرفتند که وقتی الگوریتم ویدیو را ارتقا می‌دهد، جزئیات بصری را ایجاد می‌کند که در ویدیوی اصلی وجود ندارد. «مدل توهم‌آور است. کاتانزارو گفت همه اینها یک حدس است. «بیشتر اوقات برای یک مدل با وضوح فوق العاده خوب است که اشتباه حدس بزند، البته تا زمانی که سازگار باشد.»

معرفی

برنامه های کاربردی در تحقیقات و پزشکی البته نیاز به دقت بسیار بیشتری دارد. فناوری هوش مصنوعی منجر به پیشرفت‌های بزرگی در تصویربرداری شده است، اما "گاهی اوقات با عوارض جانبی ناخواسته‌ای مانند نصب بیش از حد یا [افزودن] ویژگی‌های جعلی همراه است، و بنابراین باید با احتیاط شدید درمان شود." جونجی یائومهندس زیست پزشکی در دانشگاه دوک. سال گذشته، او در نوشتن یک مقاله توصیف اینکه چگونه ابزارهای هوش مصنوعی می‌توانند روش‌های موجود برای اندازه‌گیری جریان خون و متابولیسم در مغز را بهبود بخشند - در حالی که با خیال راحت در کنار دقیق مبادله ادراک-تحریف باقی می‌مانند.

یکی از راه‌های دور زدن محدودیت‌ها در مورد مقدار داده‌ای که می‌توان از یک تصویر استخراج کرد این است که به سادگی داده‌ها را از تصاویر بیشتری ترکیب کنید - اگرچه این اغلب چندان ساده نیست. محققانی که محیط را از طریق تصاویر ماهواره ای مطالعه می کنند، در ترکیب منابع مختلف داده های بصری پیشرفت کرده اند. در سال 2021، گروهی از محققان در چین و بریتانیا داده های ذوب شده از دو نوع مختلف ماهواره برای دریافت دید بهتری از جنگل زدایی در حوضه کنگو، دومین جنگل بارانی استوایی بزرگ در جهان و یکی از بزرگترین ذخایر تنوع زیستی. محققان داده‌های دو ماهواره Landsat را که جنگل‌زدایی را برای چندین دهه اندازه‌گیری کرده‌اند، گرفتند و از تکنیک‌های یادگیری عمیق برای بهبود وضوح تصاویر از 30 متر به 10 متر استفاده کردند. آنها سپس آن مجموعه تصویر را با داده های دو ماهواره Sentinel-2 که آرایه آشکارسازهای کمی متفاوتی دارند، ترکیب کردند. آنها نوشتند که تصاویر ترکیبی "11٪ تا 21٪ بیشتر از آنچه که تنها با استفاده از تصاویر Sentinel-2 یا Landsat-7/8 امکان پذیر بود، امکان شناسایی مناطق آشفته را فراهم کرد."

میکائیلی راه دیگری را برای دور زدن محدودیت‌های سخت در دسترسی به اطلاعات پیشنهاد می‌کند. مدل‌ها می‌توانند به‌جای اینکه بر روی یک پاسخ قطعی برای بهبود تصویر با کیفیت پایین تمرکز کنند، چندین تفسیر مختلف از تصویر اصلی نشان می‌دهند. در مقاله ای با عنوان "وضوح فوق العاده قابل بررسیاو کمک کرد تا نشان دهد که چگونه ابزارهای بهبود تصویر می توانند چندین پیشنهاد را به کاربر ارائه دهند. یک تصویر مبهم و با وضوح پایین از فردی که پیراهنی مایل به خاکستری به تن دارد، می تواند به تصویری با وضوح بالاتر بازسازی شود که در آن پیراهن دارای نوارهای عمودی سیاه و سفید، نوارهای افقی یا چک است که همه اینها به یک اندازه قابل قبول هستند. .

در مثالی دیگر، Michaeli عکسی با کیفیت پایین از یک پلاک گرفت و آن را از طریق یک تقویت کننده تصویر هوش مصنوعی پیشرو اجرا کرد، که نشان داد 1 روی پلاک بیشتر شبیه صفر است. اما زمانی که تصویر توسط الگوریتمی متفاوت و با انتهای بازتر که مایکلی طراحی کرده بود پردازش شد، به نظر می‌رسید که رقم به همان اندازه صفر، 1 یا 8 باشد.

از آنجایی که رشته‌های مختلف به شیوه‌های خود با مبادله ادراک-تحریف دست و پنجه نرم می‌کنند، این سوال که چقدر می‌توانیم از تصاویر هوش مصنوعی استخراج کنیم و چقدر می‌توانیم به آن تصاویر اعتماد کنیم، همچنان محوری است. مایکلی گفت: "ما باید در نظر داشته باشیم که برای خروجی گرفتن از این تصاویر زیبا، الگوریتم ها فقط جزئیات را تشکیل می دهند." ما می‌توانیم این توهم‌ها را کاهش دهیم، اما دکمه «افزایش» حل‌الجنایت همه‌جانبه یک رویا باقی خواهد ماند.

تمبر زمان:

بیشتر از مجله کوانتاما