أدوات الذكاء الاصطناعي تجعل الصور تبدو أفضل | مجلة كوانتا

أدوات الذكاء الاصطناعي تجعل الصور تبدو أفضل | مجلة كوانتا

أدوات الذكاء الاصطناعي تجعل الصور تبدو أفضل | مجلة كوانتا ذكاء البيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

المُقدّمة

إنها واحدة من أكبر الكليشيهات في الجريمة والخيال العلمي: يقوم المحقق بسحب صورة ضبابية على شاشة الكمبيوتر ويطلب تحسينها، وفجأة، يتم التركيز على الصورة، مما يكشف عن بعض الأدلة الأساسية. إنها وسيلة رائعة لسرد القصص، لكنها ظلت خيالًا محبطًا لعقود من الزمن - قم بتفجير الصورة كثيرًا، وستصبح مشوشة بشكل واضح. لا توجد بيانات كافية للقيام بالمزيد.

"إذا قمت بسذاجة بترقية الصورة، فستكون ضبابية. سيكون هناك الكثير من التفاصيل، لكن سيكون الأمر خاطئا”. بريان كاتانزارو، نائب رئيس أبحاث التعلم العميق التطبيقية في Nvidia.

في الآونة الأخيرة، بدأ الباحثون والمهنيون في دمج خوارزميات الذكاء الاصطناعي في أدوات تحسين الصور الخاصة بهم، مما يجعل العملية أسهل وأكثر قوة، ولكن لا تزال هناك حدود لكمية البيانات التي يمكن استرجاعها من أي صورة. لحسن الحظ، بينما يدفع الباحثون خوارزميات التحسين إلى أبعد من ذلك، فإنهم يجدون طرقًا جديدة للتعامل مع تلك الحدود، بل وفي بعض الأحيان، يجدون طرقًا للتغلب عليها.

في العقد الماضي، بدأ الباحثون في تحسين الصور باستخدام نوع جديد من نماذج الذكاء الاصطناعي تسمى شبكة الخصومة التوليدية، أو GAN، والتي يمكنها إنتاج صور مفصلة ومثيرة للإعجاب. قال: "بدأت الصور فجأة تبدو أفضل بكثير". تومر ميخائيلي، مهندس كهربائي في التخنيون في إسرائيل. لكنه فوجئ بأن الصور التي التقطتها شبكات GAN أظهرت مستويات عالية من التشويه، وهو ما يقيس مدى قرب الصورة المحسنة من الواقع الأساسي لما تظهره. أنتجت شبكات GAN صورًا تبدو جميلة وطبيعية، لكنها في الواقع كانت تختلق أو "تهلوس" تفاصيل غير دقيقة، والتي سجلت مستويات عالية من التشويه.

شاهد ميكايلي مجال استعادة الصور ينقسم إلى مجتمعين فرعيين متميزين. "أظهر أحدهم صورًا جميلة، تم التقاط العديد منها بواسطة شبكات GAN. وقال: "أظهر الآخر البيانات، لكنهم لم يظهروا الكثير من الصور، لأنها لم تبدو جميلة".

في عام 2017، نظر ميكايلي وطالب الدراسات العليا يوشاي بلاو في هذا الانقسام بشكل أكثر رسمية. لقد رسموا أداء مختلف خوارزميات تحسين الصورة على رسم بياني للتشوه مقابل الجودة الإدراكية، باستخدام مقياس معروف للجودة الإدراكية التي ترتبط جيدًا بالحكم الشخصي للبشر. وكما توقع ميكايلي، فقد أسفرت بعض الخوارزميات عن جودة بصرية عالية جدًا، بينما كانت بعضها الآخر دقيقة جدًا، مع تشويه منخفض. لكن لم يكن لأي منهم كلتا الميزتين؛ كان عليك اختيار واحد أو آخر. أطلق الباحثون على هذا اسم مقايضة تشويه الإدراك.

ميكايلي أيضا تحدى الباحثين الآخرين للتوصل إلى خوارزميات يمكنها إنتاج أفضل جودة للصورة لمستوى معين من التشويه، للسماح بإجراء مقارنات عادلة بين خوارزميات الصورة الجميلة وخوارزميات الإحصائيات الجيدة. منذ ذلك الحين، قدم المئات من الباحثين في مجال الذكاء الاصطناعي تقارير عن خصائص التشويه والإدراك في خوارزمياتهم. نقلا عن ورقة ميكايلي وبلو الذي وصف المقايضة.

في بعض الأحيان، لا تكون الآثار المترتبة على مقايضة تشويه الإدراك وخيمة. على سبيل المثال، وجدت شركة Nvidia أن الشاشات عالية الوضوح لا تعرض بعض المحتوى المرئي منخفض الدقة بشكل جيد، لذلك أصدرت في فبراير أداة تستخدم التعلم العميق لرفع مستوى تدفق الفيديو. في هذه الحالة، اختار مهندسو Nvidia الجودة الإدراكية على الدقة، متقبلين حقيقة أنه عندما تقوم الخوارزمية بترقية الفيديو، فإنها ستشكل بعض التفاصيل المرئية غير الموجودة في الفيديو الأصلي. "النموذج هلوسة. قال كاتانزارو: "الأمر كله مجرد تخمين". "في معظم الأحيان، من الجيد أن يخمن النموذج فائق الدقة خطأً، طالما أنه متسق."

المُقدّمة

تتطلب التطبيقات في مجال البحث والطب بالطبع دقة أكبر بكثير. لقد أدت تكنولوجيا الذكاء الاصطناعي إلى تقدم كبير في مجال التصوير، لكنها "تأتي في بعض الأحيان مع آثار جانبية غير مرغوب فيها، مثل التجهيز الزائد أو [إضافة] ميزات مزيفة، وبالتالي تحتاج إلى التعامل معها بعناية فائقة"، كما قال. جونجي ياو، مهندس الطب الحيوي في جامعة ديوك. وفي العام الماضي شارك في كتابة أ ورقة يصف كيف يمكن لأدوات الذكاء الاصطناعي تحسين الأساليب الحالية لقياس تدفق الدم والتمثيل الغذائي في الدماغ - مع البقاء بأمان على الجانب الدقيق من مقايضة تشويه الإدراك.

إحدى طرق التحايل على القيود المفروضة على كمية البيانات التي يمكن استخلاصها من صورة ما هي ببساطة دمج البيانات من المزيد من الصور - على الرغم من أن ذلك ليس بهذه البساطة في كثير من الأحيان. أحرز الباحثون الذين يدرسون البيئة من خلال صور الأقمار الصناعية تقدما في الجمع بين مصادر مختلفة للبيانات المرئية. وفي عام 2021، مجموعة من الباحثين في الصين والمملكة المتحدة البيانات المندمجة من نوعين مختلفين من الأقمار الصناعية للحصول على رؤية أفضل لإزالة الغابات في حوض الكونغو، ثاني أكبر الغابات الاستوائية المطيرة في العالم وواحد من أكبر مخازن التنوع البيولوجي. أخذ الباحثون بيانات من قمرين صناعيين لاندسات، اللذين قاما بقياس إزالة الغابات لعقود من الزمن، واستخدموا تقنيات التعلم العميق لتحسين دقة الصور من 30 مترًا إلى 10 أمتار. ثم قاموا بدمج مجموعة الصور هذه مع بيانات من قمرين صناعيين Sentinel-2، اللذين يحتويان على مجموعة مختلفة قليلاً من أجهزة الكشف. وكتبوا أن الصور المجمعة "سمحت باكتشاف مناطق مضطربة بنسبة 11% إلى 21% أكثر مما كان ممكنًا باستخدام صور Sentinel-2 أو Landsat-7/8 وحدها".

يقترح ميكايلي طريقة أخرى للالتفاف حول القيود الصارمة المفروضة على إمكانية الوصول إلى المعلومات، إن لم يكن عبرها. بدلاً من الاستقرار على إجابة واحدة ثابتة حول كيفية تحسين صورة منخفضة الجودة، يمكن للنماذج أن تعرض تفسيرات متعددة ومختلفة للصورة الأصلية. في ورقة بعنوان "دقة فائقة قابلة للاستكشاف"، ساعد في توضيح كيف يمكن لأدوات تحسين الصورة أن تقدم للمستخدم اقتراحات متعددة. يمكن إعادة بناء صورة غامضة منخفضة الدقة لشخص يرتدي ما يبدو أنه قميص رمادي اللون إلى صورة ذات دقة أعلى حيث يحتوي القميص على خطوط عمودية بالأبيض والأسود، أو خطوط أفقية، أو مربعات، وكلها معقولة على حد سواء .

وفي مثال آخر، التقط ميكايلي صورة منخفضة الجودة للوحة ترخيص وقام بتشغيلها من خلال مُحسِّن صور رائد يعمل بالذكاء الاصطناعي، مما أظهر أن الرقم 1 الموجود على لوحة الترخيص يشبه إلى حد كبير الصفر. ولكن عندما تمت معالجة الصورة بواسطة خوارزمية مختلفة وأكثر انفتاحًا صممها ميكايلي، بدا من المرجح أن يكون الرقم صفرًا أو 1 أو 8. وقد يساعد هذا النهج في استبعاد الأرقام الأخرى دون استنتاج خطأ أن الرقم كان صفرًا.

بينما تتصارع التخصصات المختلفة مع المفاضلة بين تشويه الإدراك بطرقها الخاصة، يظل السؤال حول مدى ما يمكننا استخلاصه من صور الذكاء الاصطناعي ومدى ثقتنا في تلك الصور محوريًا. وقال ميكائيلي: "يجب أن نضع في اعتبارنا أنه لإخراج هذه الصور الجميلة، تقوم الخوارزميات بتكوين التفاصيل فقط". يمكننا التخفيف من تلك الهلوسة، لكن زر "التعزيز" القوي لحل الجريمة سيظل حلما.

الطابع الزمني:

اكثر من كوانتماجازين