কেন সবাই ChatGPT চ্যাটবট পছন্দ করে

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

কৃত্রিম বুদ্ধিমত্তার (এআই) জয় করার জন্য আরেকটি গেমটি অনেকদিন ধরেই খুব চ্যালেঞ্জিং বলে মনে করা হচ্ছে বটদের কাছে পড়েছে: স্ট্র্যাটেগো।

DeepNash, লন্ডন ভিত্তিক কোম্পানি দ্বারা তৈরি একটি AI DeepMind, এখন স্ট্র্যাটেগোতে বিশেষজ্ঞ মানুষের সাথে মেলে, একটি বোর্ড গেম যা অপূর্ণ তথ্যের বিরুদ্ধে দীর্ঘমেয়াদী কৌশলগত চিন্তার প্রয়োজন।

এই সর্বশেষ কীর্তিটি AIs-এর জন্য গেমগুলিতে আরও একটি বড় জয়ের পরিপ্রেক্ষিতে আসে যা আগে মানুষের শক্তি বলে মনে করা হয়েছিল।

মাত্র গত সপ্তাহে, মেটার সিসেরো, একটি এআই যে মানুষের খেলোয়াড়দের ছাড়িয়ে যেতে পারে কূটনীতির খেলায়, অনলাইনে প্রতিপক্ষকে ছাড়িয়ে যাওয়ার ইতিহাস তৈরি করেছে৷

"সাম্প্রতিক বছরগুলিতে AI দ্বারা গুণগতভাবে বিভিন্ন গেমের বৈশিষ্ট্যগুলিকে যে হারে জয় করা হয়েছে - বা নতুন স্তরে আয়ত্ত করা হয়েছে - তা বেশ লক্ষণীয়," অ্যান আর্বরের মিশিগান বিশ্ববিদ্যালয়ের মাইকেল ওয়েলম্যান বলেছেন, একজন কম্পিউটার বিজ্ঞানী যিনি কৌশলগত যুক্তি এবং গেম অধ্যয়ন করেন। তত্ত্ব

"কৌশল এবং কূটনীতি একে অপরের থেকে বেশ আলাদা, এবং চ্যালেঞ্জিং বৈশিষ্ট্যগুলিও রয়েছে যা গেমগুলির থেকে উল্লেখযোগ্যভাবে আলাদা যার জন্য সাদৃশ্যপূর্ণ মাইলফলক পৌঁছেছে," ওয়েলম্যান বলেছেন।

অসম্পূর্ণ তথ্য

গেমটিতে এমন বৈশিষ্ট্য রয়েছে যা সাধারণত দাবা, গো বা পোকারের চেয়ে অনেক বেশি জটিল। দাবা, গো এবং পোকার সবই এআই দ্বারা আয়ত্ত করা হয়েছে।

স্ট্র্যাটেগো খেলায়, দুইজন খেলোয়াড় একটি বোর্ডে 40টি করে টুকরো রাখেন, কিন্তু তাদের প্রতিপক্ষের টুকরোগুলো দেখতে হবে না।

গেমটির উদ্দেশ্য হল প্রতিপক্ষকে নির্মূল করতে এবং একটি পতাকা ক্যাপচার করার জন্য টুকরো টুকরো করা।

স্ট্র্যাটেগোর গেম ট্রি - গেমটি যেভাবে যেতে পারে তার একটি গ্রাফ - Go এর 10535 এর বিপরীতে 10360টি স্টেট রয়েছে৷

যখন খেলার শুরুতে অসম্পূর্ণ তথ্যের কথা আসে, তখন স্ট্র্যাটেগোতে 1066 সম্ভাব্য ব্যক্তিগত অবস্থান রয়েছে, একটি চিত্র যা দুই-খেলোয়াড় টেক্সাস হোল্ড'ম পোকারে মাত্র 106টি এমন প্রারম্ভিক পরিস্থিতিকে বামন করে।

প্যারিসে অবস্থিত ডিপমাইন্ড গবেষক জুলিয়েন পেরোলাট বলেছেন, "স্ট্র্যাটেগোতে সম্ভাব্য ফলাফলের সংখ্যার নিছক জটিলতার অর্থ হল যে অ্যালগরিদমগুলি নিখুঁত-তথ্যযুক্ত গেমগুলিতে ভাল পারফর্ম করে, এবং এমনকি যেগুলি পোকারের জন্য কাজ করে, সেগুলিও কাজ করে না।"

ডিপনাশ পেরোলাট এবং তার সহকর্মীরা তৈরি করেছিলেন।

ন্যাশ অনুপ্রাণিত বট

বটটির নাম হল বিখ্যাত মার্কিন গণিতবিদ জন ন্যাশের প্রতি শ্রদ্ধা, যিনি ন্যাশ ভারসাম্য তত্ত্ব নিয়ে এসেছিলেন যা মনে করে যে "কৌশলের একটি স্থিতিশীল সেট" আছে যা খেলোয়াড়দের এমনভাবে অনুসরণ করা যেতে পারে যে কৌশল পরিবর্তন করে কোনো খেলোয়াড় উপকৃত হয় না। তাদের নিজেদের. যেমন, গেমগুলিতে শূন্য, এক বা একাধিক ন্যাশ ভারসাম্য থাকে।

DeepNash একটি ন্যাশ ভারসাম্য খুঁজে পেতে শক্তিবৃদ্ধি-শিক্ষার অ্যালগরিদম এবং একটি গভীর নিউরাল নেটওয়ার্ককে একত্রিত করে।

সাধারনত, রিইনফোর্সমেন্ট লার্নিং হল যেখানে একজন বুদ্ধিমান এজেন্ট (কম্পিউটার প্রোগ্রাম) পরিবেশের সাথে মিথস্ক্রিয়া করে এবং গেমের প্রতিটি স্টেটের জন্য ক্রিয়া নির্দেশ করার জন্য সর্বোত্তম নীতি শিখে।

একটি সর্বোত্তম নীতির জন্য, DeepNash নিজের বিরুদ্ধে মোট 5.5 বিলিয়ন গেম খেলেছে।

সংক্ষেপে, যদি এক পক্ষ শাস্তি পায়, অন্য পক্ষকে পুরস্কৃত করা হয়, এবং নিউরাল নেটওয়ার্কের ভেরিয়েবলগুলি - যা নীতির প্রতিনিধিত্ব করে - সেই অনুযায়ী টুইক করা হয়৷

এআই কৌশলে মানুষকে হারায় – ডিপম্যাশের সাথে দেখা করুন

কিছু পর্যায়ে, DeepNash একটি আনুমানিক ন্যাশ সাম্যাবস্থায় একত্রিত হয়। অন্যান্য বট থেকে ভিন্ন, DeepNash নিজেকে s ছাড়াই অপ্টিমাইজ করেখেলা গাছের মধ্য দিয়ে কান দেওয়া

দুই সপ্তাহের জন্য, ডিপনাশ অনলাইন গেম প্ল্যাটফর্ম, গ্র্যাভনে মানব স্ট্র্যাটেগো প্লেয়ারদের বিরুদ্ধে খেলেছে।

50টি ম্যাচে প্রতিদ্বন্দ্বিতা করার পর, Ai 2002 সাল থেকে সমস্ত গ্র্যাভন স্ট্র্যাটেগো খেলোয়াড়দের মধ্যে তৃতীয় স্থানে ছিল।

"আমাদের কাজ দেখায় যে স্ট্র্যাটেগোর মতো একটি জটিল গেম, অসম্পূর্ণ তথ্য জড়িত, এটি সমাধান করার জন্য অনুসন্ধান কৌশলগুলির প্রয়োজন হয় না," বলেছেন দলের সদস্য কার্ল টুয়েলস, প্যারিসে অবস্থিত ডিপমাইন্ড গবেষক৷ "এটি AI-তে একটি সত্যিই বড় পদক্ষেপ।"

অন্যান্য গবেষকরাও এই কৃতিত্ব দ্বারা মুগ্ধ।

চিত্তাকর্ষক ফলাফল

"ফলগুলি চিত্তাকর্ষক," নোম ব্রাউন সম্মত হন, মেটা এআই-এর একজন গবেষক, নিউ ইয়র্ক সিটিতে সদর দফতর এবং দলের একজন সদস্য যে 2019 সালে পোকার-বাজানো AI Pluribus4 রিপোর্ট করেছিল৷

মেটাতে, Facebook-এর মূল সংস্থা, ব্রাউন এবং তার সহকর্মীরা একটি AI তৈরি করেছে যা কূটনীতি খেলতে পারে, এমন একটি খেলা যেখানে সাতজন খেলোয়াড় একটি মানচিত্রের চারপাশে টুকরো টুকরো করে ইউরোপের ভৌগলিক নিয়ন্ত্রণের জন্য প্রতিযোগিতা করে।

কূটনীতিতে, লক্ষ্য হল ইউনিটগুলি (বহর এবং সেনাবাহিনী) সরানোর মাধ্যমে সরবরাহ কেন্দ্রগুলির নিয়ন্ত্রণ নেওয়া।

মেটা বলে যে সিসেরো বেশ তাৎপর্যপূর্ণ কারণ এআই অ-প্রতিকূল পরিবেশের উপর নির্ভর করে।

অতীতের বিপরীতে যেখানে মাল্টি-এজেন্ট এআই-এর পূর্বে বড় সাফল্যগুলি সম্পূর্ণরূপে প্রতিকূল পরিবেশে হয়েছে, যেমন দাবা, গো এবং পোকার, যেখানে যোগাযোগের কোন মূল্য নেই, সিসেরো একটি কৌশলগত যুক্তি ইঞ্জিন এবং নিয়ন্ত্রণযোগ্য সংলাপ মডিউল নিয়োগ করে।

"যখন আপনি দুই-খেলোয়াড়ের শূন্য-সমষ্টি গেমের বাইরে যান, তখন ন্যাশ ভারসাম্যের ধারণাটি মানুষের সাথে ভাল খেলার জন্য আর উপযোগী হয় না," ব্রাউন বলেছেন।

ব্রাউন এবং তার দল মানব খেলোয়াড়দের জড়িত কূটনীতির একটি অনলাইন সংস্করণের 125,261টি গেমের ডেটা ব্যবহার করে সিসেরোকে প্রশিক্ষণ দিয়েছে।

সেলফ-প্লে ডেটা এবং স্ট্র্যাটেজিক রিজনিং মডিউল (এসআরএম) ব্যবহার করে, সিসেরো গেমের অবস্থা এবং জমে থাকা বার্তা, অন্যান্য খেলোয়াড়দের সম্ভাব্য চাল এবং নীতির দ্বারা বিচার-বিবেচনা করতে শিখেছে।

এআই কৌশলে মানুষকে হারায় – ডিপম্যাশের সাথে দেখা করুন

মেটা বলে যে এটি webDiplomacy.net এ অনলাইনে খেলা কূটনীতির 125,261টি গেম থেকে ডেটা সংগ্রহ করেছে। এই গেমগুলির মধ্যে, মোট 40,408টি গেমে সংলাপ রয়েছে, যেখানে খেলোয়াড়দের মধ্যে মোট 12,901,662টি বার্তা আদান-প্রদান করা হয়েছে।

বাস্তব বিশ্বের আচরণ

ব্রাউন বিশ্বাস করেন যে সিসেরোর মতো গেম-প্লেয়িং বট মানুষের সাথে যোগাযোগ করতে পারে এবং "অনুপস্থিত বা এমনকি অযৌক্তিক মানুষের ক্রিয়াকলাপ বাস্তব-বিশ্বের অ্যাপ্লিকেশনগুলির জন্য পথ প্রশস্ত করতে পারে।"

"আপনি যদি একটি স্ব-ড্রাইভিং গাড়ি তৈরি করেন, তাহলে আপনি অনুমান করতে চান না যে রাস্তায় অন্য সব চালক পুরোপুরি যুক্তিবাদী, এবং সর্বোত্তম আচরণ করতে যাচ্ছেন," তিনি বলেছেন।

সিসেরো, তিনি যোগ করেছেন, এই দিকে একটি বড় পদক্ষেপ। "আমাদের এখনও খেলার জগতে এক পা আছে, কিন্তু এখন বাস্তব জগতেও আমাদের এক পা আছে।"

ওয়েলম্যানের মতো অন্যরা একমত, কিন্তু জোর দেন যে আরও কাজ করা দরকার। "এই কৌশলগুলির অনেকগুলি প্রকৃতপক্ষে বিনোদনমূলক গেমগুলির বাইরেও প্রাসঙ্গিক" বাস্তব-বিশ্বের অ্যাপ্লিকেশনগুলির জন্য, তিনি বলেছেন। "তবুও, কিছু সময়ে, নেতৃস্থানীয় AI গবেষণা ল্যাবগুলিকে বিনোদনমূলক সেটিংসের বাইরে যেতে হবে এবং আমরা আসলে যে স্কুইশিয়ার রিয়েল-ওয়ার্ল্ড 'গেম'গুলির বিষয়ে বৈজ্ঞানিক অগ্রগতি পরিমাপ করব তা খুঁজে বের করতে হবে।"

/মেটানিউজ.

সময় স্ট্যাম্প: ডিসেম্বর 12, 2022ডিসেম্বর 13, 2022

সময় স্ট্যাম্প: জুলাই 19, 2023

কেন সবাই ChatGPT চ্যাটবট পছন্দ করে

প্লেটো দ্বারা প্রকাশিত

অসম্পূর্ণ তথ্য

ন্যাশ অনুপ্রাণিত বট

চিত্তাকর্ষক ফলাফল

বাস্তব বিশ্বের আচরণ

থেকে আরো মেটানিউজ

এপিক মেটাভার্স চাইল্ড প্রোটেকশন ফিচার যোগ করে

ডাটা সেন্টারগুলো পানির গুজলার হিসেবে দ্বিগুণ হচ্ছে AI বন্ধ করে দিচ্ছে

এনএফটি লন্ডারিং এত বড় সমস্যা নাও হতে পারে যতটা একবার ভেবেছিল

অপেরা ChatGPT-চালিত AI সাইডবার আরিয়া উন্মোচন করেছে

ফোর্টনাইট মেটাভার্সে লেডি গাগা হেডলাইন মিউজিক ফেস্টিভ্যাল

বিটকয়েনের উপর অর্ডিন্যালসের প্রভাব সম্পর্কে গ্রেস্কেল বুলিশ

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব