এআই ইমেজ জেনারেশন জ্যোতির্বিদ্যাগত গতিতে অগ্রসর হচ্ছে। আমরা কি এখনও বলতে পারি যদি একটি ছবি জাল হয়?

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

নকল ফটোগ্রাফি নতুন কিছু নয়। 1910-এর দশকে, ব্রিটিশ লেখক আর্থার কোনান ডয়েল বিখ্যাতভাবে দুই স্কুল-বয়সী বোনের দ্বারা প্রতারিত হয়েছিলেন যারা তাদের বাগানে মার্জিত পরীদের ছবি তৈরি করেছিলেন।

1917 সালে এলসি রাইটের তোলা পাঁচটি 'কটিংলি ফেইরিস' ছবির মধ্যে প্রথম। চিত্র ক্রেডিট: উইকিপিডিয়া

আজকে বিশ্বাস করা কঠিন যে এই ফটোগুলি যে কাউকে বোকা বানাতে পারত, কিন্তু 1980 এর দশক পর্যন্ত জিওফ্রে ক্রাওলি নামে একজন বিশেষজ্ঞ ফিল্ম ফটোগ্রাফি সম্পর্কে তার জ্ঞানকে সরাসরি প্রয়োগ করতে এবং সুস্পষ্ট অনুমান করার স্নায়ু ছিলেন না।

ফটোগ্রাফগুলি জাল ছিল, কারণ পরে এক বোন নিজেই স্বীকার করেছিলেন।

একটি ওল্ডস্কুল ফটোগ্রাফি ক্যামেরা ধারণ করা একজন হাস্যোজ্জ্বল ব্যক্তির একটি সামান্য অস্বাভাবিক চিত্র৷ — 1982 সালে জিওফ্রে ক্রাওলি পরীর ছবিগুলি জাল বলে অনুমান করেছিলেন। তাই এই এক. ইমেজ ক্রেডিট: ব্রেন্ডন মারফি / লেখক প্রদান করা হয়েছে

আর্টিফ্যাক্ট এবং সাধারণ জ্ঞান জন্য শিকার

ডিজিটাল ফটোগ্রাফি একইভাবে জাল এবং গোয়েন্দাদের জন্য প্রচুর কৌশল উন্মুক্ত করেছে।

সন্দেহভাজন চিত্রগুলির ফরেনসিক পরীক্ষায় আজকাল ডিজিটাল ফটোগ্রাফির অন্তর্নিহিত গুণাবলীর সন্ধান করা জড়িত, যেমন পরীক্ষা করা ফটোতে এমবেড করা মেটাডেটা, ছবিগুলির বিকৃতি সংশোধন করতে অ্যাডোব ফটোশপের মতো সফ্টওয়্যার ব্যবহার করে, এবং ম্যানিপুলেশনের কল্পিত লক্ষণগুলির জন্য অনুসন্ধান করা হচ্ছে, যেমন অঞ্চলগুলি অস্পষ্ট মূল বৈশিষ্ট্যগুলির জন্য নকল করা হচ্ছে৷

কখনও কখনও ডিজিটাল সম্পাদনাগুলি সনাক্ত করার জন্য খুব সূক্ষ্ম হয়, কিন্তু যখন আমরা আলো এবং অন্ধকার পিক্সেলগুলি বিতরণ করার উপায় সামঞ্জস্য করি তখন দৃশ্যে ঝাঁপিয়ে পড়ে। উদাহরণস্বরূপ, 2010 সালে নাসা একটি প্রকাশ করেছে শনির চাঁদ ডিওন এবং টাইটানের ছবি. এটি কোনোভাবেই জাল ছিল না, তবে বিপথগামী শিল্পকর্মগুলি সরানোর জন্য পরিষ্কার করা হয়েছিল - যা পেয়েছিলেন ষড়যন্ত্র তত্ত্ববিদদের মনোযোগ.

কৌতূহলী, আমি ছবিটি ফটোশপে রেখেছি। নীচের চিত্রটি মোটামুটিভাবে এটিকে কীভাবে দেখায় তা পুনরায় তৈরি করে।

অন্ধকার এবং হালকা সমন্বয়ের জন্য চার্ট সহ একটি চিত্র সম্পাদনা স্ক্রীনের স্ক্রিনশট — আলো এবং অন্ধকারের মাত্রা সমন্বয় করা হলে কীভাবে সম্পাদনা সনাক্ত করা যায় তা দেখানো একটি সিমুলেশন। ইমেজ ক্রেডিট: ব্রেন্ডন মারফি / লেখক প্রদান করা হয়েছে

বেশিরভাগ ডিজিটাল ফটোগ্রাফগুলি JPEG-এর মতো সংকুচিত ফর্ম্যাটে থাকে, ক্যামেরা দ্বারা ধারণ করা অনেক তথ্য মুছে ফেলে। স্ট্যান্ডার্ডাইজড অ্যালগরিদমগুলি নিশ্চিত করে যে সরানো তথ্যের ন্যূনতম দৃশ্যমান প্রভাব রয়েছে-কিন্তু এটি চিহ্ন রেখে যায়।

একটি ছবির যেকোনো অঞ্চলের সংকোচন চিত্র এবং বর্তমান ক্যামেরা সেটিংসে কী চলছে তার উপর নির্ভর করবে; যখন একটি জাল ছবি একাধিক উত্স একত্রিত করে, তখন প্রায়ই এটি সনাক্ত করা সম্ভব হয়৷ কম্প্রেশন আর্টিফ্যাক্টের যত্নশীল বিশ্লেষণ.

কিছু ফরেনসিক পদ্ধতির একটি চিত্রের বিন্যাসের সাথে খুব সামান্যই সম্পর্ক আছে, তবে এটি মূলত চাক্ষুষ গোয়েন্দা কাজ. ছবির সবাই কি একইভাবে আলোকিত? ছায়া এবং প্রতিফলন কি অর্থপূর্ণ? কান এবং হাত কি সঠিক জায়গায় আলো এবং ছায়া দেখাচ্ছে? মানুষের চোখে কি প্রতিফলিত হয়? আমরা যদি দৃশ্যটিকে 3D তে মডেল করি তাহলে কি ঘরের সমস্ত লাইন এবং কোণ যোগ হবে?

আর্থার কোনান ডয়েল হয়তো পরীর ছবি দেখে বোকা বনে গেছেন, কিন্তু আমি মনে করি তার সৃষ্টি শার্লক হোমস ফরেনসিক ফটো বিশ্লেষণের জগতে সঠিক হবে।

কৃত্রিম বুদ্ধিমত্তার একটি নতুন যুগ

সার্জারির চিত্রের বর্তমান বিস্ফোরণ টেক্সট-টু-ইমেজ দ্বারা তৈরি কৃত্রিম বুদ্ধিমত্তা ফিল্ম থেকে ডিজিটাল ফটোগ্রাফিতে স্থানান্তরের চেয়ে সরঞ্জামগুলি অনেক উপায়ে বেশি আমূল।

আমরা এখন শুধু টাইপ করে আমাদের ইচ্ছামত যেকোন ইমেজ কনজ্যুর করতে পারি। এই ছবিগুলি আগে থেকে বিদ্যমান পিক্সেলের ক্লাম্পগুলিকে একত্রিত করে তৈরি করা ফ্র্যাঙ্কেন-ফটো নয়৷ এগুলি নির্দিষ্ট বিষয়বস্তু, গুণমান এবং শৈলী সহ সম্পূর্ণ নতুন ছবি।

সম্প্রতি অবধি, এই চিত্রগুলি তৈরি করতে ব্যবহৃত জটিল নিউরাল নেটওয়ার্কগুলির জনসাধারণের কাছে সীমিত উপলব্ধতা ছিল। এটি 23 আগস্ট, 2022-এ পরিবর্তিত হয়েছে, যা জনসাধারণের কাছে প্রকাশ করা হয়েছে৷ ওপেন সোর্স স্ট্যাবল ডিফিউশন. এখন যে কেউ তাদের কম্পিউটারে গেমিং-লেভেলের এনভিডিয়া গ্রাফিক্স কার্ড সহ কোনো গবেষণা ল্যাব বা ব্যবসায়িক গেটকিপিং ছাড়াই এআই ইমেজ সামগ্রী তৈরি করতে পারে।

এটি অনেককে জিজ্ঞাসা করতে প্ররোচিত করেছে, "আমরা কি আবার অনলাইনে যা দেখি তা কি বিশ্বাস করতে পারি?” এটা নির্ভর করে.

টেক্সট-টু-ইমেজ AI প্রশিক্ষণ থেকে তার স্মার্ট হয়ে ওঠে—অনেক সংখ্যক ছবি/ক্যাপশন জোড়ার বিশ্লেষণ। প্রতিটি সিস্টেমের শক্তি এবং দুর্বলতাগুলি আংশিকভাবে এটিকে প্রশিক্ষণ দেওয়া হয়েছে এমন চিত্রগুলি থেকে প্রাপ্ত। এখানে একটি উদাহরণ দেওয়া হল: এইভাবে স্টেবল ডিফিউশন জর্জ ক্লুনিকে ইস্ত্রি করতে দেখেন।

একটি সাদা তোয়ালে ধরে বিকৃত বৈশিষ্ট্যযুক্ত একজন ব্যক্তির সামান্য অস্বাভাবিক চিত্র৷ — এই জর্জ ক্লুনি তার ইস্ত্রি করছেন... নাকি এটা? ইমেজ ক্রেডিট: ব্রেন্ডন মারফি / লেখক প্রদান করা হয়েছে

এটি বাস্তবসম্মত থেকে অনেক দূরে। সমস্ত স্থিতিশীল বিচ্ছুরণে যেতে হবে সেই তথ্য যা এটি শিখেছে, এবং যখন এটি স্পষ্ট যে তিনি জর্জ ক্লুনিকে দেখেছেন এবং অভিনেতার বৈশিষ্ট্যগুলির সাথে অক্ষরগুলির স্ট্রিং লিঙ্ক করতে পারেন, এটি ক্লুনি বিশেষজ্ঞ নয়।

যাইহোক, এটি সাধারণভাবে মধ্যবয়সী পুরুষদের আরও অনেক ফটো দেখে এবং হজম করতে পারে, তাই দেখা যাক যখন আমরা একই পরিস্থিতিতে একজন সাধারণ মধ্যবয়সী পুরুষকে জিজ্ঞাসা করি তখন কী হয়।

বৃত্তাকার বৈশিষ্ট্য সহ একটি মধ্যবয়সী পুরুষের একটি সামান্য অস্বাভাবিক চিত্র যা ক্যামেরার দিকে তাকিয়ে একটি শার্ট ধরে আছে — নট-জর্জ-ক্লুনি ইস্ত্রি করছেন। ইমেজ ক্রেডিট: ব্রেন্ডন মারফি / লেখক প্রদান করা হয়েছে

এটি একটি স্পষ্ট উন্নতি, কিন্তু এখনও পুরোপুরি বাস্তবসম্মত নয়। বরাবরের মতই, হাত ও কানের জটিল জ্যামিতি হল জাল-সাহিত্যের চিহ্ন খোঁজার জন্য ভাল জায়গা—যদিও এই মাধ্যমটিতে আমরা অসম্ভব আলোর কথা না বলে স্থানিক জ্যামিতি দেখছি।

অন্য ক্লু থাকতে পারে। যদি আমরা সাবধানে ঘরটি পুনর্গঠন করি তবে কোণগুলি কি বর্গাকার হবে? তাক কি অর্থপূর্ণ হবে? ডিজিটাল ফটোগ্রাফ পরীক্ষা করার জন্য ব্যবহৃত একজন ফরেনসিক বিশেষজ্ঞ সম্ভবত এটিতে একটি কল করতে পারে।

আমরা আর আমাদের চোখকে বিশ্বাস করতে পারি না

আমরা যদি একটি টেক্সট-টু-ইমেজ সিস্টেমের জ্ঞান প্রসারিত করি, তবে এটি আরও ভাল করতে পারে। বিদ্যমান প্রশিক্ষণের পরিপূরক করতে আপনি আপনার নিজের বর্ণিত ফটোগ্রাফ যোগ করতে পারেন। এই প্রক্রিয়া হিসাবে পরিচিত হয় পাঠ্য বিপরীত.

সম্প্রতি প্রকাশ করেছে গুগল স্বপ্ন বুথ, টেক্সট-টু-ইমেজ এআই সিস্টেমে নির্দিষ্ট ব্যক্তি, বস্তু বা এমনকি শিল্প শৈলী ইনজেকশনের জন্য একটি বিকল্প, আরও পরিশীলিত পদ্ধতি।

এই প্রক্রিয়াটির জন্য ভারী-শুল্ক হার্ডওয়্যার প্রয়োজন, তবে ফলাফলগুলি বিস্ময়কর। কিছু দুর্দান্ত কাজ Reddit এ শেয়ার করা শুরু হয়েছে। ছবির দিকে তাকান নিচের পোস্টে যেগুলি ড্রিমবুথের মধ্যে রাখা ছবি এবং স্টেবল ডিফিউশন থেকে বাস্তবসম্মত জাল ছবি দেখায়৷

আমরা আর আমাদের চোখকে বিশ্বাস করতে পারি না, তবে আমরা এখনও অন্তত আপাতত ফরেনসিক বিশেষজ্ঞদের বিশ্বাস করতে সক্ষম হতে পারি। এটা সম্পূর্ণভাবে সম্ভব যে ভবিষ্যতের সিস্টেমগুলিকে ইচ্ছাকৃতভাবে তাদেরও বোকা বানানোর জন্য প্রশিক্ষিত করা যেতে পারে।

আমরা দ্রুত একটি যুগে চলে যাচ্ছি যেখানে নিখুঁত ফটোগ্রাফিক এবং এমনকি ভিডিও সাধারণ হবে। সময়ই বলে দেবে এটি কতটা তাৎপর্যপূর্ণ হবে, কিন্তু এরই মধ্যে কটিংলে ফেয়ারি ফটোর পাঠটি মনে রাখা মূল্যবান—কখনও কখনও লোকেরা কেবল বিশ্বাস করতে চায়, এমনকি সুস্পষ্ট নকলেও।

এই নিবন্ধটি থেকে পুনঃপ্রকাশ করা হয় কথোপকথোন ক্রিয়েটিভ কমন্স লাইসেন্সের অধীনে। পর এটা মূল নিবন্ধ.

চিত্র ক্রেডিট: ব্রেন্ডন মারফি/এuthor প্রদান করা হয়েছে

সময় স্ট্যাম্প: অক্টোবর 13, 2022অক্টোবর 13, 2022

সময় স্ট্যাম্প: ফেব্রুয়ারী 1, 2023

এআই ইমেজ জেনারেশন জ্যোতির্বিদ্যাগত গতিতে অগ্রসর হচ্ছে। একটি ছবি জাল কিনা আমরা এখনও বলতে পারি?

প্লেটো দ্বারা প্রকাশিত

আর্টিফ্যাক্ট এবং সাধারণ জ্ঞান জন্য শিকার

কৃত্রিম বুদ্ধিমত্তার একটি নতুন যুগ

আমরা আর আমাদের চোখকে বিশ্বাস করতে পারি না

থেকে আরো এককতা হাব

CRISPR জিন সম্পাদনার একটি যুগান্তকারী বছর ছিল - এবং এটি শুধুমাত্র শুরু হচ্ছে৷

অ্যাটম কম্পিউটিং বলেছে যে তার নতুন কোয়ান্টাম কম্পিউটারে 1,000 কিউবিট রয়েছে

নাসা একটি পারমাণবিক রকেট তৈরি করছে যা আমাদেরকে মাত্র 6 সপ্তাহের মধ্যে মঙ্গল গ্রহে নিয়ে যাবে

অ্যামাজন রোবটগুলি আপনার অর্ডার করা জিনিসটি আরও দ্রুত পেতে গুদামগুলি দখল করে

মহাজাগতিক ভোরের দিকে ফিরে তাকানো - জ্যোতির্বিজ্ঞানীরা কখনও দেখা সবচেয়ে ক্ষীণ ছায়াপথ নিশ্চিত করেছেন

DALL-E কে ধন্যবাদ, কৃত্রিম প্রোটিন ওষুধ তৈরির দৌড় চলছে

একটি নতুন ফটোনিক কম্পিউটার চিপ এআই শক্তি খরচ কমাতে আলো ব্যবহার করে

ওয়েব জুড়ে থেকে এই সপ্তাহের দুর্দান্ত কৌশলগুলি (এপ্রিল 27 এর মাধ্যমে)

একটি খাঁচা থেকে পালানোর জন্য এই আকার-বদল করা রোবটটি দেখুন, তারপরে সংস্কার করুন

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব