এআই ইমেজ জেনারেশন জ্যোতির্বিদ্যাগত গতিতে অগ্রসর হচ্ছে। একটি ছবি জাল কিনা আমরা এখনও বলতে পারি? PlatoBlockchain ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

এআই ইমেজ জেনারেশন জ্যোতির্বিদ্যাগত গতিতে অগ্রসর হচ্ছে। একটি ছবি জাল কিনা আমরা এখনও বলতে পারি?

নকল ফটোগ্রাফি নতুন কিছু নয়। 1910-এর দশকে, ব্রিটিশ লেখক আর্থার কোনান ডয়েল বিখ্যাতভাবে দুই স্কুল-বয়সী বোনের দ্বারা প্রতারিত হয়েছিলেন যারা তাদের বাগানে মার্জিত পরীদের ছবি তৈরি করেছিলেন।

1917 সালে এলসি রাইটের তোলা পাঁচটি 'কটিংলি ফেইরিস' ছবির মধ্যে প্রথম। চিত্র ক্রেডিট: উইকিপিডিয়া

আজকে বিশ্বাস করা কঠিন যে এই ফটোগুলি যে কাউকে বোকা বানাতে পারত, কিন্তু 1980 এর দশক পর্যন্ত জিওফ্রে ক্রাওলি নামে একজন বিশেষজ্ঞ ফিল্ম ফটোগ্রাফি সম্পর্কে তার জ্ঞানকে সরাসরি প্রয়োগ করতে এবং সুস্পষ্ট অনুমান করার স্নায়ু ছিলেন না।

ফটোগ্রাফগুলি জাল ছিল, কারণ পরে এক বোন নিজেই স্বীকার করেছিলেন।

একটি ওল্ডস্কুল ফটোগ্রাফি ক্যামেরা ধারণ করা একজন হাস্যোজ্জ্বল ব্যক্তির একটি সামান্য অস্বাভাবিক চিত্র৷
1982 সালে জিওফ্রে ক্রাওলি পরীর ছবিগুলি জাল বলে অনুমান করেছিলেন। তাই এই এক. ইমেজ ক্রেডিট: ব্রেন্ডন মারফি / লেখক প্রদান করা হয়েছে

আর্টিফ্যাক্ট এবং সাধারণ জ্ঞান জন্য শিকার

ডিজিটাল ফটোগ্রাফি একইভাবে জাল এবং গোয়েন্দাদের জন্য প্রচুর কৌশল উন্মুক্ত করেছে।

সন্দেহভাজন চিত্রগুলির ফরেনসিক পরীক্ষায় আজকাল ডিজিটাল ফটোগ্রাফির অন্তর্নিহিত গুণাবলীর সন্ধান করা জড়িত, যেমন পরীক্ষা করা ফটোতে এমবেড করা মেটাডেটা, ছবিগুলির বিকৃতি সংশোধন করতে অ্যাডোব ফটোশপের মতো সফ্টওয়্যার ব্যবহার করে, এবং ম্যানিপুলেশনের কল্পিত লক্ষণগুলির জন্য অনুসন্ধান করা হচ্ছে, যেমন অঞ্চলগুলি অস্পষ্ট মূল বৈশিষ্ট্যগুলির জন্য নকল করা হচ্ছে৷

কখনও কখনও ডিজিটাল সম্পাদনাগুলি সনাক্ত করার জন্য খুব সূক্ষ্ম হয়, কিন্তু যখন আমরা আলো এবং অন্ধকার পিক্সেলগুলি বিতরণ করার উপায় সামঞ্জস্য করি তখন দৃশ্যে ঝাঁপিয়ে পড়ে। উদাহরণস্বরূপ, 2010 সালে নাসা একটি প্রকাশ করেছে শনির চাঁদ ডিওন এবং টাইটানের ছবি. এটি কোনোভাবেই জাল ছিল না, তবে বিপথগামী শিল্পকর্মগুলি সরানোর জন্য পরিষ্কার করা হয়েছিল - যা পেয়েছিলেন ষড়যন্ত্র তত্ত্ববিদদের মনোযোগ.

কৌতূহলী, আমি ছবিটি ফটোশপে রেখেছি। নীচের চিত্রটি মোটামুটিভাবে এটিকে কীভাবে দেখায় তা পুনরায় তৈরি করে।

অন্ধকার এবং হালকা সমন্বয়ের জন্য চার্ট সহ একটি চিত্র সম্পাদনা স্ক্রীনের স্ক্রিনশট
আলো এবং অন্ধকারের মাত্রা সমন্বয় করা হলে কীভাবে সম্পাদনা সনাক্ত করা যায় তা দেখানো একটি সিমুলেশন। ইমেজ ক্রেডিট: ব্রেন্ডন মারফি / লেখক প্রদান করা হয়েছে

বেশিরভাগ ডিজিটাল ফটোগ্রাফগুলি JPEG-এর মতো সংকুচিত ফর্ম্যাটে থাকে, ক্যামেরা দ্বারা ধারণ করা অনেক তথ্য মুছে ফেলে। স্ট্যান্ডার্ডাইজড অ্যালগরিদমগুলি নিশ্চিত করে যে সরানো তথ্যের ন্যূনতম দৃশ্যমান প্রভাব রয়েছে-কিন্তু এটি চিহ্ন রেখে যায়।

একটি ছবির যেকোনো অঞ্চলের সংকোচন চিত্র এবং বর্তমান ক্যামেরা সেটিংসে কী চলছে তার উপর নির্ভর করবে; যখন একটি জাল ছবি একাধিক উত্স একত্রিত করে, তখন প্রায়ই এটি সনাক্ত করা সম্ভব হয়৷ কম্প্রেশন আর্টিফ্যাক্টের যত্নশীল বিশ্লেষণ.

কিছু ফরেনসিক পদ্ধতির একটি চিত্রের বিন্যাসের সাথে খুব সামান্যই সম্পর্ক আছে, তবে এটি মূলত চাক্ষুষ গোয়েন্দা কাজ. ছবির সবাই কি একইভাবে আলোকিত? ছায়া এবং প্রতিফলন কি অর্থপূর্ণ? কান এবং হাত কি সঠিক জায়গায় আলো এবং ছায়া দেখাচ্ছে? মানুষের চোখে কি প্রতিফলিত হয়? আমরা যদি দৃশ্যটিকে 3D তে মডেল করি তাহলে কি ঘরের সমস্ত লাইন এবং কোণ যোগ হবে?

আর্থার কোনান ডয়েল হয়তো পরীর ছবি দেখে বোকা বনে গেছেন, কিন্তু আমি মনে করি তার সৃষ্টি শার্লক হোমস ফরেনসিক ফটো বিশ্লেষণের জগতে সঠিক হবে।

কৃত্রিম বুদ্ধিমত্তার একটি নতুন যুগ

সার্জারির চিত্রের বর্তমান বিস্ফোরণ টেক্সট-টু-ইমেজ দ্বারা তৈরি কৃত্রিম বুদ্ধিমত্তা ফিল্ম থেকে ডিজিটাল ফটোগ্রাফিতে স্থানান্তরের চেয়ে সরঞ্জামগুলি অনেক উপায়ে বেশি আমূল।

আমরা এখন শুধু টাইপ করে আমাদের ইচ্ছামত যেকোন ইমেজ কনজ্যুর করতে পারি। এই ছবিগুলি আগে থেকে বিদ্যমান পিক্সেলের ক্লাম্পগুলিকে একত্রিত করে তৈরি করা ফ্র্যাঙ্কেন-ফটো নয়৷ এগুলি নির্দিষ্ট বিষয়বস্তু, গুণমান এবং শৈলী সহ সম্পূর্ণ নতুন ছবি।

সম্প্রতি অবধি, এই চিত্রগুলি তৈরি করতে ব্যবহৃত জটিল নিউরাল নেটওয়ার্কগুলির জনসাধারণের কাছে সীমিত উপলব্ধতা ছিল। এটি 23 আগস্ট, 2022-এ পরিবর্তিত হয়েছে, যা জনসাধারণের কাছে প্রকাশ করা হয়েছে৷ ওপেন সোর্স স্ট্যাবল ডিফিউশন. এখন যে কেউ তাদের কম্পিউটারে গেমিং-লেভেলের এনভিডিয়া গ্রাফিক্স কার্ড সহ কোনো গবেষণা ল্যাব বা ব্যবসায়িক গেটকিপিং ছাড়াই এআই ইমেজ সামগ্রী তৈরি করতে পারে।

এটি অনেককে জিজ্ঞাসা করতে প্ররোচিত করেছে, "আমরা কি আবার অনলাইনে যা দেখি তা কি বিশ্বাস করতে পারি?” এটা নির্ভর করে.

টেক্সট-টু-ইমেজ AI প্রশিক্ষণ থেকে তার স্মার্ট হয়ে ওঠে—অনেক সংখ্যক ছবি/ক্যাপশন জোড়ার বিশ্লেষণ। প্রতিটি সিস্টেমের শক্তি এবং দুর্বলতাগুলি আংশিকভাবে এটিকে প্রশিক্ষণ দেওয়া হয়েছে এমন চিত্রগুলি থেকে প্রাপ্ত। এখানে একটি উদাহরণ দেওয়া হল: এইভাবে স্টেবল ডিফিউশন জর্জ ক্লুনিকে ইস্ত্রি করতে দেখেন।

একটি সাদা তোয়ালে ধরে বিকৃত বৈশিষ্ট্যযুক্ত একজন ব্যক্তির সামান্য অস্বাভাবিক চিত্র৷
এই জর্জ ক্লুনি তার ইস্ত্রি করছেন... নাকি এটা? ইমেজ ক্রেডিট: ব্রেন্ডন মারফি / লেখক প্রদান করা হয়েছে

এটি বাস্তবসম্মত থেকে অনেক দূরে। সমস্ত স্থিতিশীল বিচ্ছুরণে যেতে হবে সেই তথ্য যা এটি শিখেছে, এবং যখন এটি স্পষ্ট যে তিনি জর্জ ক্লুনিকে দেখেছেন এবং অভিনেতার বৈশিষ্ট্যগুলির সাথে অক্ষরগুলির স্ট্রিং লিঙ্ক করতে পারেন, এটি ক্লুনি বিশেষজ্ঞ নয়।

যাইহোক, এটি সাধারণভাবে মধ্যবয়সী পুরুষদের আরও অনেক ফটো দেখে এবং হজম করতে পারে, তাই দেখা যাক যখন আমরা একই পরিস্থিতিতে একজন সাধারণ মধ্যবয়সী পুরুষকে জিজ্ঞাসা করি তখন কী হয়।

বৃত্তাকার বৈশিষ্ট্য সহ একটি মধ্যবয়সী পুরুষের একটি সামান্য অস্বাভাবিক চিত্র যা ক্যামেরার দিকে তাকিয়ে একটি শার্ট ধরে আছে
নট-জর্জ-ক্লুনি ইস্ত্রি করছেন। ইমেজ ক্রেডিট: ব্রেন্ডন মারফি / লেখক প্রদান করা হয়েছে

এটি একটি স্পষ্ট উন্নতি, কিন্তু এখনও পুরোপুরি বাস্তবসম্মত নয়। বরাবরের মতই, হাত ও কানের জটিল জ্যামিতি হল জাল-সাহিত্যের চিহ্ন খোঁজার জন্য ভাল জায়গা—যদিও এই মাধ্যমটিতে আমরা অসম্ভব আলোর কথা না বলে স্থানিক জ্যামিতি দেখছি।

অন্য ক্লু থাকতে পারে। যদি আমরা সাবধানে ঘরটি পুনর্গঠন করি তবে কোণগুলি কি বর্গাকার হবে? তাক কি অর্থপূর্ণ হবে? ডিজিটাল ফটোগ্রাফ পরীক্ষা করার জন্য ব্যবহৃত একজন ফরেনসিক বিশেষজ্ঞ সম্ভবত এটিতে একটি কল করতে পারে।

আমরা আর আমাদের চোখকে বিশ্বাস করতে পারি না

আমরা যদি একটি টেক্সট-টু-ইমেজ সিস্টেমের জ্ঞান প্রসারিত করি, তবে এটি আরও ভাল করতে পারে। বিদ্যমান প্রশিক্ষণের পরিপূরক করতে আপনি আপনার নিজের বর্ণিত ফটোগ্রাফ যোগ করতে পারেন। এই প্রক্রিয়া হিসাবে পরিচিত হয় পাঠ্য বিপরীত.

সম্প্রতি প্রকাশ করেছে গুগল স্বপ্ন বুথ, টেক্সট-টু-ইমেজ এআই সিস্টেমে নির্দিষ্ট ব্যক্তি, বস্তু বা এমনকি শিল্প শৈলী ইনজেকশনের জন্য একটি বিকল্প, আরও পরিশীলিত পদ্ধতি।

এই প্রক্রিয়াটির জন্য ভারী-শুল্ক হার্ডওয়্যার প্রয়োজন, তবে ফলাফলগুলি বিস্ময়কর। কিছু দুর্দান্ত কাজ Reddit এ শেয়ার করা শুরু হয়েছে। ছবির দিকে তাকান নিচের পোস্টে যেগুলি ড্রিমবুথের মধ্যে রাখা ছবি এবং স্টেবল ডিফিউশন থেকে বাস্তবসম্মত জাল ছবি দেখায়৷



আমরা আর আমাদের চোখকে বিশ্বাস করতে পারি না, তবে আমরা এখনও অন্তত আপাতত ফরেনসিক বিশেষজ্ঞদের বিশ্বাস করতে সক্ষম হতে পারি। এটা সম্পূর্ণভাবে সম্ভব যে ভবিষ্যতের সিস্টেমগুলিকে ইচ্ছাকৃতভাবে তাদেরও বোকা বানানোর জন্য প্রশিক্ষিত করা যেতে পারে।

আমরা দ্রুত একটি যুগে চলে যাচ্ছি যেখানে নিখুঁত ফটোগ্রাফিক এবং এমনকি ভিডিও সাধারণ হবে। সময়ই বলে দেবে এটি কতটা তাৎপর্যপূর্ণ হবে, কিন্তু এরই মধ্যে কটিংলে ফেয়ারি ফটোর পাঠটি মনে রাখা মূল্যবান—কখনও কখনও লোকেরা কেবল বিশ্বাস করতে চায়, এমনকি সুস্পষ্ট নকলেও।কথোপকথোন

এই নিবন্ধটি থেকে পুনঃপ্রকাশ করা হয় কথোপকথোন ক্রিয়েটিভ কমন্স লাইসেন্সের অধীনে। পর এটা মূল নিবন্ধ.

চিত্র ক্রেডিট: ব্রেন্ডন মারফি/এuthor প্রদান করা হয়েছে

সময় স্ট্যাম্প:

থেকে আরো এককতা হাব