AI সরঞ্জামগুলি ছবিগুলিকে আরও ভাল দেখায় | কোয়ান্টা ম্যাগাজিন

AI সরঞ্জামগুলি ছবিগুলিকে আরও ভাল দেখায় | কোয়ান্টা ম্যাগাজিন

AI সরঞ্জামগুলি ছবিগুলিকে আরও ভাল দেখায় | কোয়ান্টা ম্যাগাজিন প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

ভূমিকা

এটি অপরাধ এবং কল্পবিজ্ঞানের সবচেয়ে বড় ক্লিচগুলির মধ্যে একটি: একজন তদন্তকারী কম্পিউটারের স্ক্রিনে একটি ঝাপসা ছবি তোলেন এবং এটিকে উন্নত করতে বলেন, এবং বুম, ছবিটি ফোকাসে আসে, কিছু প্রয়োজনীয় সূত্র প্রকাশ করে। এটি একটি চমৎকার গল্প বলার সুবিধা, কিন্তু এটি কয়েক দশক ধরে একটি হতাশাজনক কল্পকাহিনী - একটি চিত্রকে খুব বেশি উড়িয়ে দেয় এবং এটি দৃশ্যমানভাবে পিক্সেলেটেড হয়ে যায়। আরও কিছু করার জন্য পর্যাপ্ত ডেটা নেই।

“আপনি যদি একটি চিত্রকে সহজভাবে উন্নত করেন তবে এটি অস্পষ্ট হয়ে যাবে। অনেক বিস্তারিত হতে যাচ্ছে, কিন্তু এটা ভুল হতে যাচ্ছে,” বলেন ব্রায়ান ক্যাটানজারো, Nvidia এ প্রয়োগিত গভীর শিক্ষা গবেষণার ভাইস প্রেসিডেন্ট।

সম্প্রতি, গবেষকরা এবং পেশাদাররা তাদের চিত্র-বর্ধক সরঞ্জামগুলিতে কৃত্রিম বুদ্ধিমত্তার অ্যালগরিদমগুলিকে অন্তর্ভুক্ত করা শুরু করেছেন, প্রক্রিয়াটিকে আরও সহজ এবং আরও শক্তিশালী করে তুলেছে, তবে এখনও কোনও চিত্র থেকে কতটা ডেটা পুনরুদ্ধার করা যেতে পারে তার সীমাবদ্ধতা রয়েছে৷ সৌভাগ্যবশত, গবেষকরা বর্ধিতকরণ অ্যালগরিদমগুলিকে আরও এগিয়ে নিয়ে যাওয়ার কারণে, তারা সেই সীমাগুলি মোকাবেলা করার জন্য নতুন উপায়গুলি খুঁজে পাচ্ছেন - এমনকি, কখনও কখনও, সেগুলি অতিক্রম করার উপায়গুলিও খুঁজে পাচ্ছেন৷

বিগত দশকে, গবেষকরা একটি নতুন ধরণের AI মডেলের সাথে চিত্রগুলিকে উন্নত করা শুরু করেছেন যাকে একটি জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক বা GAN বলা হয়, যা বিস্তারিত, চিত্তাকর্ষক-সুদর্শন ছবি তৈরি করতে পারে। "ছবিগুলো হঠাৎ করে অনেক ভালো লাগতে শুরু করেছে," বলেন টোমার মাইকেলি, ইস্রায়েলের টেকনিওনের একজন বৈদ্যুতিক প্রকৌশলী। কিন্তু তিনি বিস্মিত হয়েছিলেন যে GAN-এর দ্বারা তৈরি চিত্রগুলি উচ্চ স্তরের বিকৃতি দেখায়, যা পরিমাপ করে যে একটি উন্নত চিত্র এটি যা দেখায় তার অন্তর্নিহিত বাস্তবতার কতটা কাছাকাছি। GAN-গুলি এমন ছবি তৈরি করেছিল যেগুলি দেখতে সুন্দর এবং স্বাভাবিক ছিল, কিন্তু তারা প্রকৃতপক্ষে তৈরি করেছিল, বা "হ্যালুসিনেটিং", বিশদ বিবরণ যা সঠিক ছিল না, যা উচ্চ স্তরের বিকৃতি হিসাবে নিবন্ধিত হয়েছিল।

মাইকেলি ফটো পুনরুদ্ধারের ক্ষেত্রটিকে দুটি স্বতন্ত্র উপ-সম্প্রদায়ে বিভক্ত দেখেছেন। “একজন চমৎকার ছবি দেখিয়েছে, অনেকগুলো GAN-এর তৈরি। অন্যটি ডেটা দেখিয়েছিল, কিন্তু তারা অনেকগুলি চিত্র দেখায়নি, কারণ তারা দেখতে সুন্দর ছিল না,” তিনি বলেছিলেন।

2017 সালে, মাইকেলি এবং তার স্নাতক ছাত্র ইয়োচাই ব্লাউ এই দ্বিধাবিভক্তিকে আরও আনুষ্ঠানিকভাবে দেখেছিলেন। তারা বিভিন্ন ইমেজ-বর্ধিতকরণ অ্যালগরিদমের কর্মক্ষমতা প্লট করেছে বিকৃতি বনাম ইন্দ্রিয়গত মানের গ্রাফে, একটি পরিচিত পরিমাপ ব্যবহার করে উপলব্ধিগত মানের জন্য যা মানুষের বিষয়গত বিচারের সাথে ভালভাবে সম্পর্কযুক্ত। মাইকেলি যেমন আশা করেছিলেন, কিছু অ্যালগরিদমের ফলে খুব উচ্চ ভিজ্যুয়াল গুণমান ছিল, অন্যগুলি খুব নির্ভুল ছিল, কম বিকৃতি সহ। কিন্তু কোনটিরই উভয় সুবিধা ছিল না; আপনি একটি বা অন্য বাছাই ছিল. গবেষকরা এটি ডাব করেছেন উপলব্ধি-বিকৃতি বাণিজ্য বন্ধ.

মাইকেলিও অন্যান্য গবেষকদের চ্যালেঞ্জ করেছেন প্রিটি-পিকচার অ্যালগরিদম এবং সুন্দর-পরিসংখ্যানগুলির মধ্যে ন্যায্য তুলনা করার অনুমতি দেওয়ার জন্য বিকৃতির একটি নির্দিষ্ট স্তরের জন্য সেরা চিত্রের গুণমান তৈরি করতে পারে এমন অ্যালগরিদমগুলি নিয়ে আসা। তারপর থেকে, শত শত এআই গবেষক তাদের অ্যালগরিদমের বিকৃতি এবং উপলব্ধি গুণাবলী সম্পর্কে রিপোর্ট করেছেন, মাইকেলি এবং ব্লাউ পেপারের উদ্ধৃতি দিয়ে যে বাণিজ্য বন্ধ বর্ণনা.

কখনও কখনও, উপলব্ধি-বিকৃতি ট্রেড-অফের প্রভাব মারাত্মক হয় না। এনভিডিয়া, উদাহরণস্বরূপ, দেখেছে যে হাই-ডেফিনিশন স্ক্রিনগুলি কিছু নিম্ন-সংজ্ঞা ভিজ্যুয়াল সামগ্রীকে সুন্দরভাবে রেন্ডার করছে না, তাই ফেব্রুয়ারিতে এটি একটি টুল প্রকাশ করেছে যা ভিডিও স্ট্রিমিংকে আপস্কেল করতে গভীর শিক্ষা ব্যবহার করে। এই ক্ষেত্রে, এনভিডিয়ার প্রকৌশলীরা নির্ভুলতার চেয়ে উপলব্ধিগত গুণমান বেছে নিয়েছেন, এই সত্যটি স্বীকার করে যে অ্যালগরিদম যখন ভিডিওটিকে আপস্কেল করে, তখন এটি কিছু ভিজ্যুয়াল বিবরণ তৈরি করবে যা মূল ভিডিওতে নেই। "মডেলটি হ্যালুসিনেটিং। এটা সব একটি অনুমান,” Catanzaro বলেন. "অধিকাংশ সময় একটি সুপার-রেজোলিউশন মডেলের পক্ষে ভুল অনুমান করা ঠিক থাকে, যতক্ষণ না এটি সামঞ্জস্যপূর্ণ।"

ভূমিকা

গবেষণা এবং মেডিসিনে অ্যাপ্লিকেশনগুলি অবশ্যই অনেক বেশি নির্ভুলতার দাবি করে। এআই প্রযুক্তি ইমেজিংয়ের ক্ষেত্রে বড় অগ্রগতির দিকে পরিচালিত করেছে, কিন্তু এটি "কখনও কখনও অবাঞ্ছিত পার্শ্বপ্রতিক্রিয়ার সাথে আসে, যেমন অতিরিক্ত ফিটিং বা [সংযোজন] জাল বৈশিষ্ট্য, এবং এইভাবে অত্যন্ত যত্ন সহকারে চিকিত্সা করা প্রয়োজন," বলেন জুনজি ইয়াও, ডিউক বিশ্ববিদ্যালয়ের একজন বায়োমেডিকেল ইঞ্জিনিয়ার। গত বছর, তিনি সহ-লেখা ক কাগজ কীভাবে AI সরঞ্জামগুলি মস্তিষ্কে রক্ত ​​​​প্রবাহ এবং বিপাক পরিমাপের বিদ্যমান পদ্ধতিগুলিকে উন্নত করতে পারে তা বর্ণনা করে — উপলব্ধি-বিকৃতি ট্রেড-অফের সঠিক দিকে নিরাপদে থাকাকালীন।

একটি ইমেজ থেকে কতটা ডেটা বের করা যায় তার সীমা অতিক্রম করার একটি উপায় হল আরও ছবি থেকে ডেটা একত্রিত করা - যদিও এটি প্রায়শই সহজ নয়। গবেষকরা যারা স্যাটেলাইট ইমেজের মাধ্যমে পরিবেশ অধ্যয়ন করেন তারা ভিজ্যুয়াল ডেটার বিভিন্ন উত্স একত্রিত করতে অগ্রগতি করেছেন। 2021 সালে, চীন এবং যুক্তরাজ্যের একদল গবেষক ফিউজড ডেটা বিশ্বের দ্বিতীয় বৃহত্তম গ্রীষ্মমন্ডলীয় রেইনফরেস্ট এবং জীববৈচিত্র্যের অন্যতম বড় ভাণ্ডার কঙ্গো বেসিনে বন উজাড়ের আরও ভাল দৃশ্য পেতে দুটি ভিন্ন ধরণের উপগ্রহ থেকে। গবেষকরা দুটি ল্যান্ডস্যাট উপগ্রহ থেকে তথ্য নিয়েছিলেন, যা কয়েক দশক ধরে বন উজাড় করা পরিমাপ করেছে এবং 30 মিটার থেকে 10 মিটার পর্যন্ত চিত্রগুলির রেজোলিউশন পরিমার্জন করতে গভীর শিক্ষার কৌশল ব্যবহার করেছে। তারপরে তারা দুটি সেন্টিনেল-২ স্যাটেলাইটের ডেটার সাথে সেই চিত্র সেটটিকে একত্রিত করেছে, যার ডিটেক্টরের কিছুটা আলাদা অ্যারে রয়েছে। সম্মিলিত চিত্র "একা সেন্টিনেল -2 বা ল্যান্ডস্যাট -11/21 চিত্রগুলি ব্যবহার করে 2% থেকে 7% বেশি বিরক্তিকর এলাকা সনাক্ত করার অনুমতি দিয়েছে," তারা লিখেছেন।

মাইকেলি তথ্যের অ্যাক্সেসিবিলিটির উপর কঠোর সীমাবদ্ধতার মাধ্যমে ঘুরে বেড়ানোর অন্য উপায়ের পরামর্শ দেন। একটি নিম্ন-মানের চিত্র কীভাবে উন্নত করা যায় তার জন্য একটি দৃঢ় উত্তরের পরিবর্তে, মডেলগুলি মূল চিত্রের একাধিক ভিন্ন ব্যাখ্যা দেখাতে পারে। শিরোনামের একটি গবেষণাপত্রেঅন্বেষণযোগ্য সুপার রেজোলিউশন,” তিনি প্রদর্শন করতে সাহায্য করেছেন কিভাবে ইমেজ-বর্ধিতকরণ সরঞ্জামগুলি একজন ব্যবহারকারীকে একাধিক পরামর্শ সহ উপস্থাপন করতে পারে। একটি অস্পষ্ট, লো-রেজোলিউশনের ইমেজ পরা একজন ব্যক্তির যা একটি ধূসর রঙের শার্ট বলে মনে হচ্ছে সেটিকে একটি উচ্চ-রেজোলিউশনের ছবিতে পুনর্গঠন করা যেতে পারে যেখানে শার্টটিতে কালো এবং সাদা উল্লম্ব স্ট্রাইপ, অনুভূমিক স্ট্রাইপ বা চেক রয়েছে, যার সবকটিই সমানভাবে বিশ্বাসযোগ্য। .

অন্য একটি উদাহরণে, মাইকেলি একটি লাইসেন্স প্লেটের একটি নিম্ন-মানের ছবি তুলেছিলেন এবং এটি একটি অগ্রণী AI ইমেজ বর্ধক যন্ত্রের মাধ্যমে চালান, যা দেখায় যে লাইসেন্স প্লেটে একটি 1 শূন্যের মতো দেখায়। কিন্তু যখন চিত্রটি মাইকেলির ডিজাইন করা একটি ভিন্ন, আরও ওপেন-এন্ডেড অ্যালগরিদম দ্বারা প্রক্রিয়া করা হয়েছিল, তখন অঙ্কটি শূন্য, 1 বা 8 হওয়ার সমান সম্ভাবনা দেখাচ্ছিল। এই পদ্ধতিটি অঙ্কটি শূন্য ছিল বলে ভুল সিদ্ধান্ত না নিয়ে অন্যান্য সংখ্যাকে বাতিল করতে সাহায্য করতে পারে।

যেহেতু বিভিন্ন শৃঙ্খলা তাদের নিজস্ব উপায়ে উপলব্ধি-বিকৃতি ট্রেড-অফের সাথে লড়াই করে, আমরা AI চিত্র থেকে কতটা বের করতে পারি এবং আমরা সেই চিত্রগুলিকে কতটা বিশ্বাস করতে পারি সেই প্রশ্নটি কেন্দ্রীয় রয়ে গেছে। "আমাদের মনে রাখা উচিত যে এই সুন্দর চিত্রগুলি আউটপুট করতে, অ্যালগরিদমগুলি কেবল বিশদ তৈরি করে," মাইকেলি বলেছিলেন। আমরা সেই হ্যালুসিনেশনগুলিকে প্রশমিত করতে পারি, কিন্তু সর্বশক্তিমান, অপরাধ-সমাধান "বর্ধিত" বোতামটি স্বপ্নই থেকে যাবে।

সময় স্ট্যাম্প:

থেকে আরো কোয়ান্টাম্যাগাজিন