কৃত্রিম বুদ্ধিমত্তার (এআই) জয় করার জন্য আরেকটি গেমটি অনেকদিন ধরেই খুব চ্যালেঞ্জিং বলে মনে করা হচ্ছে বটদের কাছে পড়েছে: স্ট্র্যাটেগো।
DeepNash, লন্ডন ভিত্তিক কোম্পানি দ্বারা তৈরি একটি AI DeepMind, এখন স্ট্র্যাটেগোতে বিশেষজ্ঞ মানুষের সাথে মেলে, একটি বোর্ড গেম যা অপূর্ণ তথ্যের বিরুদ্ধে দীর্ঘমেয়াদী কৌশলগত চিন্তার প্রয়োজন।
এই সর্বশেষ কীর্তিটি AIs-এর জন্য গেমগুলিতে আরও একটি বড় জয়ের পরিপ্রেক্ষিতে আসে যা আগে মানুষের শক্তি বলে মনে করা হয়েছিল।
মাত্র গত সপ্তাহে, মেটার সিসেরো, একটি এআই যে মানুষের খেলোয়াড়দের ছাড়িয়ে যেতে পারে কূটনীতির খেলায়, অনলাইনে প্রতিপক্ষকে ছাড়িয়ে যাওয়ার ইতিহাস তৈরি করেছে৷
"সাম্প্রতিক বছরগুলিতে AI দ্বারা গুণগতভাবে বিভিন্ন গেমের বৈশিষ্ট্যগুলিকে যে হারে জয় করা হয়েছে - বা নতুন স্তরে আয়ত্ত করা হয়েছে - তা বেশ লক্ষণীয়," অ্যান আর্বরের মিশিগান বিশ্ববিদ্যালয়ের মাইকেল ওয়েলম্যান বলেছেন, একজন কম্পিউটার বিজ্ঞানী যিনি কৌশলগত যুক্তি এবং গেম অধ্যয়ন করেন। তত্ত্ব
"কৌশল এবং কূটনীতি একে অপরের থেকে বেশ আলাদা, এবং চ্যালেঞ্জিং বৈশিষ্ট্যগুলিও রয়েছে যা গেমগুলির থেকে উল্লেখযোগ্যভাবে আলাদা যার জন্য সাদৃশ্যপূর্ণ মাইলফলক পৌঁছেছে," ওয়েলম্যান বলেছেন।
অসম্পূর্ণ তথ্য
গেমটিতে এমন বৈশিষ্ট্য রয়েছে যা সাধারণত দাবা, গো বা পোকারের চেয়ে অনেক বেশি জটিল। দাবা, গো এবং পোকার সবই এআই দ্বারা আয়ত্ত করা হয়েছে।
গেমটির উদ্দেশ্য হল প্রতিপক্ষকে নির্মূল করতে এবং একটি পতাকা ক্যাপচার করার জন্য টুকরো টুকরো করা।
স্ট্র্যাটেগোর গেম ট্রি - গেমটি যেভাবে যেতে পারে তার একটি গ্রাফ - Go এর 10535 এর বিপরীতে 10360টি স্টেট রয়েছে৷
যখন খেলার শুরুতে অসম্পূর্ণ তথ্যের কথা আসে, তখন স্ট্র্যাটেগোতে 1066 সম্ভাব্য ব্যক্তিগত অবস্থান রয়েছে, একটি চিত্র যা দুই-খেলোয়াড় টেক্সাস হোল্ড'ম পোকারে মাত্র 106টি এমন প্রারম্ভিক পরিস্থিতিকে বামন করে।
প্যারিসে অবস্থিত ডিপমাইন্ড গবেষক জুলিয়েন পেরোলাট বলেছেন, "স্ট্র্যাটেগোতে সম্ভাব্য ফলাফলের সংখ্যার নিছক জটিলতার অর্থ হল যে অ্যালগরিদমগুলি নিখুঁত-তথ্যযুক্ত গেমগুলিতে ভাল পারফর্ম করে, এবং এমনকি যেগুলি পোকারের জন্য কাজ করে, সেগুলিও কাজ করে না।"
ডিপনাশ পেরোলাট এবং তার সহকর্মীরা তৈরি করেছিলেন।
ন্যাশ অনুপ্রাণিত বট
বটটির নাম হল বিখ্যাত মার্কিন গণিতবিদ জন ন্যাশের প্রতি শ্রদ্ধা, যিনি ন্যাশ ভারসাম্য তত্ত্ব নিয়ে এসেছিলেন যা মনে করে যে "কৌশলের একটি স্থিতিশীল সেট" আছে যা খেলোয়াড়দের এমনভাবে অনুসরণ করা যেতে পারে যে কৌশল পরিবর্তন করে কোনো খেলোয়াড় উপকৃত হয় না। তাদের নিজেদের. যেমন, গেমগুলিতে শূন্য, এক বা একাধিক ন্যাশ ভারসাম্য থাকে।
DeepNash একটি ন্যাশ ভারসাম্য খুঁজে পেতে শক্তিবৃদ্ধি-শিক্ষার অ্যালগরিদম এবং একটি গভীর নিউরাল নেটওয়ার্ককে একত্রিত করে।
সাধারনত, রিইনফোর্সমেন্ট লার্নিং হল যেখানে একজন বুদ্ধিমান এজেন্ট (কম্পিউটার প্রোগ্রাম) পরিবেশের সাথে মিথস্ক্রিয়া করে এবং গেমের প্রতিটি স্টেটের জন্য ক্রিয়া নির্দেশ করার জন্য সর্বোত্তম নীতি শিখে।
একটি সর্বোত্তম নীতির জন্য, DeepNash নিজের বিরুদ্ধে মোট 5.5 বিলিয়ন গেম খেলেছে।
সংক্ষেপে, যদি এক পক্ষ শাস্তি পায়, অন্য পক্ষকে পুরস্কৃত করা হয়, এবং নিউরাল নেটওয়ার্কের ভেরিয়েবলগুলি - যা নীতির প্রতিনিধিত্ব করে - সেই অনুযায়ী টুইক করা হয়৷
কিছু পর্যায়ে, DeepNash একটি আনুমানিক ন্যাশ সাম্যাবস্থায় একত্রিত হয়। অন্যান্য বট থেকে ভিন্ন, DeepNash নিজেকে s ছাড়াই অপ্টিমাইজ করেখেলা গাছের মধ্য দিয়ে কান দেওয়া
দুই সপ্তাহের জন্য, ডিপনাশ অনলাইন গেম প্ল্যাটফর্ম, গ্র্যাভনে মানব স্ট্র্যাটেগো প্লেয়ারদের বিরুদ্ধে খেলেছে।
50টি ম্যাচে প্রতিদ্বন্দ্বিতা করার পর, Ai 2002 সাল থেকে সমস্ত গ্র্যাভন স্ট্র্যাটেগো খেলোয়াড়দের মধ্যে তৃতীয় স্থানে ছিল।
"আমাদের কাজ দেখায় যে স্ট্র্যাটেগোর মতো একটি জটিল গেম, অসম্পূর্ণ তথ্য জড়িত, এটি সমাধান করার জন্য অনুসন্ধান কৌশলগুলির প্রয়োজন হয় না," বলেছেন দলের সদস্য কার্ল টুয়েলস, প্যারিসে অবস্থিত ডিপমাইন্ড গবেষক৷ "এটি AI-তে একটি সত্যিই বড় পদক্ষেপ।"
অন্যান্য গবেষকরাও এই কৃতিত্ব দ্বারা মুগ্ধ।
চিত্তাকর্ষক ফলাফল
"ফলগুলি চিত্তাকর্ষক," নোম ব্রাউন সম্মত হন, মেটা এআই-এর একজন গবেষক, নিউ ইয়র্ক সিটিতে সদর দফতর এবং দলের একজন সদস্য যে 2019 সালে পোকার-বাজানো AI Pluribus4 রিপোর্ট করেছিল৷
মেটাতে, Facebook-এর মূল সংস্থা, ব্রাউন এবং তার সহকর্মীরা একটি AI তৈরি করেছে যা কূটনীতি খেলতে পারে, এমন একটি খেলা যেখানে সাতজন খেলোয়াড় একটি মানচিত্রের চারপাশে টুকরো টুকরো করে ইউরোপের ভৌগলিক নিয়ন্ত্রণের জন্য প্রতিযোগিতা করে।
কূটনীতিতে, লক্ষ্য হল ইউনিটগুলি (বহর এবং সেনাবাহিনী) সরানোর মাধ্যমে সরবরাহ কেন্দ্রগুলির নিয়ন্ত্রণ নেওয়া।
মেটা বলে যে সিসেরো বেশ তাৎপর্যপূর্ণ কারণ এআই অ-প্রতিকূল পরিবেশের উপর নির্ভর করে।
অতীতের বিপরীতে যেখানে মাল্টি-এজেন্ট এআই-এর পূর্বে বড় সাফল্যগুলি সম্পূর্ণরূপে প্রতিকূল পরিবেশে হয়েছে, যেমন দাবা, গো এবং পোকার, যেখানে যোগাযোগের কোন মূল্য নেই, সিসেরো একটি কৌশলগত যুক্তি ইঞ্জিন এবং নিয়ন্ত্রণযোগ্য সংলাপ মডিউল নিয়োগ করে।
"যখন আপনি দুই-খেলোয়াড়ের শূন্য-সমষ্টি গেমের বাইরে যান, তখন ন্যাশ ভারসাম্যের ধারণাটি মানুষের সাথে ভাল খেলার জন্য আর উপযোগী হয় না," ব্রাউন বলেছেন।
ব্রাউন এবং তার দল মানব খেলোয়াড়দের জড়িত কূটনীতির একটি অনলাইন সংস্করণের 125,261টি গেমের ডেটা ব্যবহার করে সিসেরোকে প্রশিক্ষণ দিয়েছে।
সেলফ-প্লে ডেটা এবং স্ট্র্যাটেজিক রিজনিং মডিউল (এসআরএম) ব্যবহার করে, সিসেরো গেমের অবস্থা এবং জমে থাকা বার্তা, অন্যান্য খেলোয়াড়দের সম্ভাব্য চাল এবং নীতির দ্বারা বিচার-বিবেচনা করতে শিখেছে।
মেটা বলে যে এটি webDiplomacy.net এ অনলাইনে খেলা কূটনীতির 125,261টি গেম থেকে ডেটা সংগ্রহ করেছে। এই গেমগুলির মধ্যে, মোট 40,408টি গেমে সংলাপ রয়েছে, যেখানে খেলোয়াড়দের মধ্যে মোট 12,901,662টি বার্তা আদান-প্রদান করা হয়েছে।
বাস্তব বিশ্বের আচরণ
ব্রাউন বিশ্বাস করেন যে সিসেরোর মতো গেম-প্লেয়িং বট মানুষের সাথে যোগাযোগ করতে পারে এবং "অনুপস্থিত বা এমনকি অযৌক্তিক মানুষের ক্রিয়াকলাপ বাস্তব-বিশ্বের অ্যাপ্লিকেশনগুলির জন্য পথ প্রশস্ত করতে পারে।"
"আপনি যদি একটি স্ব-ড্রাইভিং গাড়ি তৈরি করেন, তাহলে আপনি অনুমান করতে চান না যে রাস্তায় অন্য সব চালক পুরোপুরি যুক্তিবাদী, এবং সর্বোত্তম আচরণ করতে যাচ্ছেন," তিনি বলেছেন।
সিসেরো, তিনি যোগ করেছেন, এই দিকে একটি বড় পদক্ষেপ। "আমাদের এখনও খেলার জগতে এক পা আছে, কিন্তু এখন বাস্তব জগতেও আমাদের এক পা আছে।"
ওয়েলম্যানের মতো অন্যরা একমত, কিন্তু জোর দেন যে আরও কাজ করা দরকার। "এই কৌশলগুলির অনেকগুলি প্রকৃতপক্ষে বিনোদনমূলক গেমগুলির বাইরেও প্রাসঙ্গিক" বাস্তব-বিশ্বের অ্যাপ্লিকেশনগুলির জন্য, তিনি বলেছেন। "তবুও, কিছু সময়ে, নেতৃস্থানীয় AI গবেষণা ল্যাবগুলিকে বিনোদনমূলক সেটিংসের বাইরে যেতে হবে এবং আমরা আসলে যে স্কুইশিয়ার রিয়েল-ওয়ার্ল্ড 'গেম'গুলির বিষয়ে বৈজ্ঞানিক অগ্রগতি পরিমাপ করব তা খুঁজে বের করতে হবে।"
/মেটানিউজ.
- AI
- Bitcoin
- blockchain
- ব্লকচেইন সম্মতি
- chatbot
- চ্যাটজিপিটি
- কয়েনবেস
- coingenius
- কম্পিউটার শিক্ষা
- ঐক্য
- ক্রিপ্টো সম্মেলন
- ক্রিপ্টো খনির
- cryptocurrency
- বিকেন্দ্রীভূত
- Defi
- ডিজিটাল সম্পদ
- ethereum
- মেশিন লার্নিং
- মেটানিউজ
- অ ছত্রাকযুক্ত টোকেন
- Plato
- প্লেটো এআই
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- প্লেটোগেমিং
- বহুভুজ
- ঝুঁকি প্রমাণ
- W3
- zephyrnet