গুগল ডিপমাইন্ড দাবা এআই-তে 'কৃত্রিম মস্তিষ্কপ্রসূত' প্রশিক্ষণ দেয়

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

গুগল ডিপমাইন্ড দাবা AI-তে 'কৃত্রিম মগজ-মগজ' প্রশিক্ষণ দেয় | কোয়ান্টা ম্যাগাজিন প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

কোভিড -19 যখন 2020 সালের গোড়ার দিকে মানুষকে বাড়িতে পাঠিয়েছিল, তখন কম্পিউটার বিজ্ঞানী ড টম জাহাভি পুনরায় আবিষ্কৃত দাবা তিনি ছোটবেলায় খেলেছিলেন এবং সম্প্রতি গ্যারি কাসপারভের লেখা পড়েছিলেন গভীর চিন্তা, গ্র্যান্ডমাস্টারের 1997 সালের আইবিএম-এর দাবা খেলা কম্পিউটার, ডিপ ব্লু-এর বিরুদ্ধে ম্যাচের স্মৃতিকথা। তিনি ইউটিউবে দাবা খেলার ভিডিও দেখেছেন এবং রানির গাম্বিট নেটফ্লিক্সে।

তার নতুন করে আগ্রহ থাকা সত্ত্বেও, জাহাভি তার খেলা উন্নত করার উপায় খুঁজছিলেন না। তিনি বলেন, "আমি খুব ভালো খেলোয়াড় নই। "আমি দাবা ধাঁধায় ভাল" — টুকরোগুলির বিন্যাস, প্রায়শই কল্পনা করা হয় এবং একটি বাস্তব খেলার সময় ঘটতে পারে না, যা একজন খেলোয়াড়কে সুবিধা অর্জনের জন্য সৃজনশীল উপায় খুঁজে পেতে চ্যালেঞ্জ করে।

ধাঁধাগুলি খেলোয়াড়দের তাদের দক্ষতা তীক্ষ্ণ করতে সাহায্য করতে পারে, কিন্তু সম্প্রতি তারা দাবা প্রোগ্রামের লুকানো সীমাবদ্ধতা প্রকাশ করতে সাহায্য করেছে। 2017 সালে গণিতবিদ স্যার রজার পেনরোজ দ্বারা তৈরি করা সবচেয়ে কুখ্যাত ধাঁধাগুলির মধ্যে একটি, বোর্ডে শক্তিশালী কালো টুকরো (যেমন রানী এবং রুকস) রাখে, কিন্তু বিশ্রী অবস্থানে। একজন অভিজ্ঞ মানব খেলোয়াড়, সাদা খেলা, সহজেই খেলাটিকে ড্রয়ের দিকে নিয়ে যেতে পারে, কিন্তু শক্তিশালী কম্পিউটার দাবা প্রোগ্রাম বলে যে কালোদের একটি স্পষ্ট সুবিধা ছিল। জাহাভি বলেন, এই পার্থক্যটি পরামর্শ দিয়েছিল যে যদিও কম্পিউটারগুলি বিশ্বের সেরা মানব খেলোয়াড়দের পরাজিত করতে পারে, তারা এখনও চিনতে পারেনি এবং প্রতিটি ধরণের কঠিন সমস্যার মধ্য দিয়ে কাজ করতে পারেনি। সেই থেকে, পেনরোজ এবং অন্যরা ধাঁধার বিস্তৃত সংগ্রহ তৈরি করেছে যেগুলি সমাধান করতে কম্পিউটারগুলি সংগ্রাম করে।

দাবা দীর্ঘদিন ধরে নতুন ধারণা পরীক্ষা করার জন্য একটি টাচস্টোন হয়েছে কৃত্রিম বুদ্ধিমত্তা, এবং পেনরোজ এর ধাঁধা জাহাভির আগ্রহ জাগিয়েছিল। "আমি বোঝার চেষ্টা করছিলাম যে এই অবস্থানগুলি কম্পিউটারের জন্য এত কঠিন করে তোলে যখন তাদের মধ্যে অন্তত কিছু আমরা মানুষ হিসাবে সমাধান করতে পারি," তিনি বলেছিলেন। "আমি সম্পূর্ণ মুগ্ধ হয়েছিলাম।" এটি শীঘ্রই একটি পেশাদার আগ্রহে বিকশিত হয়েছে: Google DeepMind-এর একজন গবেষণা বিজ্ঞানী হিসাবে, Zahavy সৃজনশীল সমস্যা সমাধানের পদ্ধতিগুলি অন্বেষণ করে৷ লক্ষ্য হল একটি একক কাজ সম্পাদনের বাইরে সম্ভাব্য আচরণের একটি বর্ণালী সহ AI সিস্টেমগুলি তৈরি করা।

একটি ঐতিহ্যবাহী এআই দাবা প্রোগ্রাম, জেতার জন্য প্রশিক্ষিত, একটি পেনরোজ ধাঁধাকে বোঝাতে পারে না, তবে জাহাভি সন্দেহ করেছিলেন যে অনেকগুলি বৈচিত্র্যময় সিস্টেমের সমন্বয়ে গঠিত একটি প্রোগ্রাম, একটি গ্রুপ হিসাবে একসাথে কাজ করে, অগ্রসর হতে পারে। তাই তিনি এবং তার সহকর্মীরা ডিপমাইন্ডের শক্তিশালী দাবা প্রোগ্রাম আলফাজিরো থেকে শুরু করে বিভিন্ন কৌশলের জন্য অপ্টিমাইজ করা এবং প্রশিক্ষিত একাধিক (10 পর্যন্ত) সিদ্ধান্ত গ্রহণকারী AI সিস্টেমগুলিকে একত্রিত করার একটি উপায় তৈরি করেছেন। নতুন সিস্টেম, তারা আগস্টে রিপোর্ট, একা AlphaZero থেকে ভাল খেলেছে, এবং পেনরোজ এর ধাঁধা মোকাবেলায় এটি আরও দক্ষতা — এবং আরও সৃজনশীলতা দেখিয়েছে৷ এই ক্ষমতাগুলি, এক অর্থে, স্ব-সহযোগিতা থেকে এসেছে: যদি একটি পদ্ধতি একটি দেয়ালে আঘাত করে, প্রোগ্রামটি কেবল অন্যটিতে পরিণত হয়।

যে পদ্ধতির মৌলিকভাবে জ্ঞান করে তোলে, বলেন অ্যালিসন লিমহেটচারাত, DoorDash-এর একজন কম্পিউটার বিজ্ঞানী যিনি রোবোটিক্সে সমস্যা সমাধানের মাল্টি-এজেন্ট পদ্ধতির সাথে কাজ করেছেন। "এজেন্টদের জনসংখ্যার সাথে, ধাঁধাগুলি সেই ডোমেনে থাকার সম্ভাবনা বেশি যে এজেন্টদের মধ্যে অন্তত একজনকে প্রশিক্ষণ দেওয়া হয়েছিল।"

কাজটি পরামর্শ দেয় যে বিভিন্ন এআই সিস্টেমের দলগুলি গেম বোর্ডের বাইরেও কঠিন সমস্যাগুলি দক্ষতার সাথে মোকাবেলা করতে পারে। "এটি একটি দুর্দান্ত উদাহরণ যে একটি সমস্যা সমাধানের জন্য একাধিক উপায় সন্ধান করা - যেমন একটি দাবা খেলা জেতা - অনেক সুবিধা প্রদান করে," বলেছেন অ্যান্টোইন কুলি, ইম্পেরিয়াল কলেজ লন্ডনের একজন এআই গবেষক যিনি ডিপমাইন্ড প্রকল্পের সাথে জড়িত ছিলেন না। তিনি এটিকে মানুষের ব্রেনস্টর্মিং সেশনের একটি কৃত্রিম সংস্করণের সাথে তুলনা করেছেন। "এই চিন্তার প্রক্রিয়াটি সৃজনশীল এবং কার্যকর সমাধানের দিকে নিয়ে যায় যা এই অনুশীলনটি না করেও মিস করবে।"

ব্যর্থতা তাড়া

ডিপমাইন্ডে যোগদানের আগে, জাহাভি গভীর শক্তিবৃদ্ধি শেখার বিষয়ে আগ্রহী ছিলেন, কৃত্রিম বুদ্ধিমত্তার একটি ক্ষেত্র যেখানে একটি সিস্টেম ট্রায়াল এবং ত্রুটির মাধ্যমে কিছু কাজ শিখতে নিউরাল নেটওয়ার্ক ব্যবহার করে। এটি সবচেয়ে শক্তিশালী দাবা প্রোগ্রামের ভিত্তি (এবং স্ব-ড্রাইভিং গাড়ির মতো অন্যান্য AI অ্যাপ্লিকেশনগুলিতে ব্যবহৃত হয়)। সিস্টেমটি তার পরিবেশ দিয়ে শুরু হয়। দাবাতে, উদাহরণস্বরূপ, পরিবেশ গেম বোর্ড এবং সম্ভাব্য চালগুলি অন্তর্ভুক্ত করে। যদি কাজটি গাড়ি চালানো হয়, তবে পরিবেশ গাড়ির চারপাশের সবকিছু অন্তর্ভুক্ত করে। সিস্টেম তারপর সিদ্ধান্ত নেয়, পদক্ষেপ নেয় এবং মূল্যায়ন করে যে এটি তার লক্ষ্যের কতটা কাছাকাছি এসেছে। এটি লক্ষ্যের কাছাকাছি যাওয়ার সাথে সাথে এটি পুরষ্কার জমা করে এবং সিস্টেমটি পুরষ্কার বাড়াতে এটি তার কার্যকারিতা উন্নত করে। এই পদ্ধতির "গভীর" অংশটি আচরণ বিশ্লেষণ এবং মূল্যায়ন করতে ব্যবহৃত নিউরাল নেটওয়ার্কগুলিকে বর্ণনা করে।

রিইনফোর্সমেন্ট লার্নিং হল আলফাজিরো কিভাবে দাবা মাস্টার হতে শিখেছে। ডিপমাইন্ড রিপোর্ট যে প্রোগ্রামের প্রথম নয় ঘন্টার প্রশিক্ষণের সময়, ডিসেম্বর 2017 এ, এটি নিজের বিরুদ্ধে 44 মিলিয়ন গেম খেলেছে। প্রথমে, এর চালগুলি এলোমেলোভাবে নির্ধারিত হয়েছিল, কিন্তু সময়ের সাথে সাথে এটি চেকমেটের দিকে যাওয়ার সম্ভাবনা বেশি চালগুলি নির্বাচন করতে শিখেছে। মাত্র কয়েক ঘণ্টার প্রশিক্ষণের পর, আলফাজিরো যেকোনো মানব দাবা খেলোয়াড়কে পরাস্ত করার ক্ষমতা তৈরি করে।

কিন্তু রিইনফোর্সমেন্ট লার্নিং যতটা সফল হতে পারে, এটা সবসময় এমন কৌশলের দিকে নিয়ে যায় না যা গেমের সাধারণ বোঝাপড়াকে প্রতিফলিত করে। গত অর্ধ-দশক বা তারও বেশি সময় ধরে, জাহাভি এবং অন্যান্যরা পরীক্ষা এবং ত্রুটির সাথে প্রশিক্ষিত সিস্টেমে ঘটতে পারে এমন অদ্ভুত সমস্যাগুলির মধ্যে একটি উন্নতি লক্ষ্য করেছেন। একটি সিস্টেম যা ভিডিও গেম খেলে, উদাহরণস্বরূপ, একটি ফাঁক খুঁজে বের করতে পারে এবং কীভাবে প্রতারণা করতে হয় বা একটি স্তর এড়িয়ে যেতে হয়, অথবা এটি একইভাবে সহজে পুনরাবৃত্তিমূলক লুপে আটকে যেতে পারে। পেনরোজ-স্টাইলের পাজলগুলি একইভাবে আলফাজিরোতে এক ধরণের অন্ধ স্পট বা ত্রুটির পরামর্শ দিয়েছে - এটি আগে কখনও দেখা যায়নি এমন একটি সমস্যার সাথে কীভাবে যোগাযোগ করা যায় তা বোঝা যায় না।

কিন্তু হয়তো সব গ্লিচ শুধু ত্রুটি নয়। জাহাভি সন্দেহ করেছিলেন যে আলফাজিরোর অন্ধ দাগগুলি আসলে ছদ্মবেশে অন্য কিছু হতে পারে - সিস্টেমের অভ্যন্তরীণ পুরষ্কারের সাথে আবদ্ধ সিদ্ধান্ত এবং আচরণ। ডিপ রিইনফোর্সমেন্ট লার্নিং সিস্টেম, তিনি বলেন, কীভাবে ব্যর্থ হতে হয় - এমনকি কীভাবে ব্যর্থতাকে চিনতে হয় তাও জানেন না। ব্যর্থ হওয়ার ক্ষমতা দীর্ঘদিন ধরে সৃজনশীল সমস্যা সমাধানের সাথে যুক্ত। "সৃজনশীলতার একটি মানবিক গুণ রয়েছে," কাসপারভ লিখেছেন গভীর চিন্তা. "এটি ব্যর্থতার ধারণা গ্রহণ করে।"

এআই সিস্টেম সাধারণত তা করে না। এবং যদি একটি সিস্টেম সনাক্ত না করে যে এটি তার কাজটি সম্পূর্ণ করতে ব্যর্থ হয়েছে, তাহলে এটি অন্য কিছু চেষ্টা নাও করতে পারে। পরিবর্তে, এটি ইতিমধ্যে যা করা হয়েছে তা করার চেষ্টা চালিয়ে যাবে। এটি সম্ভবত ভিডিও গেমগুলিতে সেই শেষ পরিণতির দিকে পরিচালিত করেছিল - বা কিছু পেনরোজ চ্যালেঞ্জে আটকে গিয়েছিল, জাহাভি বলেছিলেন। সিস্টেমটি "অদ্ভুত ধরণের অভ্যন্তরীণ পুরষ্কার" এর পিছনে ছুটছিল, তিনি বলেছিলেন যে এটি প্রশিক্ষণের সময় বিকশিত হয়েছিল। যে জিনিসগুলি বাইরে থেকে ভুলের মতো দেখায় সেগুলি সম্ভবত সুনির্দিষ্ট কিন্তু শেষ পর্যন্ত ব্যর্থ কৌশল বিকাশের পরিণতি।

সিস্টেমটি এই অদ্ভুত পুরষ্কারগুলিকে বৃহত্তর লক্ষ্যের দিকে পদক্ষেপ হিসাবে বিবেচনা করে, যা এটি আসলে অর্জন করতে পারেনি এবং এটি নতুন কিছু চেষ্টা করতে জানে না। "আমি তাদের বোঝার চেষ্টা করছিলাম," জাহাভি বলেছেন।

একটি ভাল খেলা

এই ত্রুটিগুলি এত ফলপ্রসূ প্রমাণিত হতে পারে - এবং তাই দরকারী - কারণের একটি অংশ যা গবেষকরা সাধারণীকরণের সমস্যা হিসাবে স্বীকৃতি দেয়। যদিও রিইনফোর্সমেন্ট লার্নিং সিস্টেম একটি প্রদত্ত পরিস্থিতিকে একটি নির্দিষ্ট কর্মের সাথে সংযুক্ত করার জন্য একটি কার্যকর কৌশল তৈরি করতে পারে - যা গবেষকরা একটি "নীতি" বলে থাকেন - তারা বিভিন্ন সমস্যায় এটি প্রয়োগ করতে পারে না। "রিইনফোর্সমেন্ট লার্নিংয়ে সাধারণত যা ঘটতে থাকে, পদ্ধতিটি নির্বিশেষে, আপনি এমন নীতি পান যা আপনি যে সমস্যাটির উপর প্রশিক্ষণ নিচ্ছেন তার নির্দিষ্ট উদাহরণের সমাধান করে, কিন্তু এটি সাধারণীকরণ করে না," বলেন জুলিয়ান তোগেলিয়াস, নিউ ইয়র্ক বিশ্ববিদ্যালয়ের একজন কম্পিউটার বিজ্ঞানী এবং modl.ai-এর গবেষণা পরিচালক।

জাহাভি পেনরোজ পাজলগুলিকে এই ধরণের সাধারণীকরণের প্রয়োজন হিসাবে দেখেছিলেন। হয়তো আলফাজিরো বেশিরভাগ ধাঁধার সমাধান করতে পারেনি কারণ এটি পুরো গেম জেতার দিকে মনোনিবেশ করেছিল, শেষ করতে শুরু করুন। কিন্তু সেই পন্থাটি পেনরোজ পাজলগুলিতে টুকরোগুলির অসম্ভাব্য বিন্যাসের দ্বারা উন্মোচিত অন্ধ দাগের প্রবর্তন করেছিল। হতে পারে, তিনি যুক্তি দিয়েছিলেন, প্রোগ্রামটি ধাঁধাটি মারতে শিখতে পারে যদি এটিতে বুদ্ধিমত্তার জন্য যথেষ্ট সৃজনশীল জায়গা থাকে এবং বিভিন্ন প্রশিক্ষণের পদ্ধতি অ্যাক্সেস করতে পারে।

তাই তিনি এবং তার সহকর্মীরা প্রথমে 53টি পেনরোজ পাজল এবং 15টি অতিরিক্ত চ্যালেঞ্জ ধাঁধার একটি সেট সংগ্রহ করেন। নিজে থেকেই, আলফাজিরো পেনরোজ ধাঁধার 4% এবং বাকি 12% এর কম সমাধান করেছে। জাহাভি অবাক হননি: এই ধাঁধাগুলির অনেকগুলিই ইচ্ছাকৃতভাবে কম্পিউটারকে বিভ্রান্ত করার জন্য দাবা মাস্টাররা ডিজাইন করেছিলেন।

একটি পরীক্ষা হিসাবে, গবেষকরা সাধারণ গেমের সম্পূর্ণ বোর্ডের পরিবর্তে পেনরোজ ধাঁধার বিন্যাসকে শুরুর অবস্থান হিসাবে ব্যবহার করে আলফাজিরোকে নিজের বিরুদ্ধে খেলার প্রশিক্ষণ দেওয়ার চেষ্টা করেছিলেন। এর কর্মক্ষমতা নাটকীয়ভাবে উন্নত হয়েছে: এটি পেনরোজ ধাঁধার 96% এবং চ্যালেঞ্জ সেটের 76% সমাধান করেছে। সাধারণভাবে, যখন আলফাজিরো একটি নির্দিষ্ট ধাঁধার উপর প্রশিক্ষণ নিত, তখন এটি সেই ধাঁধাটি সমাধান করতে পারে, ঠিক যেমন এটি একটি পূর্ণাঙ্গ খেলায় প্রশিক্ষণ নিলে জিততে পারে। সম্ভবত, জাহাভি ভেবেছিলেন, যদি একটি দাবা প্রোগ্রাম কোনভাবে আলফাজিরোর সেই সমস্ত ভিন্ন সংস্করণে অ্যাক্সেস পেতে পারে, সেই বিভিন্ন অবস্থানে প্রশিক্ষিত, তাহলে সেই বৈচিত্র্য নতুন সমস্যাগুলিকে উত্পাদনশীলভাবে যোগাযোগ করার ক্ষমতাকে উদ্দীপিত করতে পারে। সম্ভবত এটি সাধারণীকরণ করতে পারে, অন্য কথায়, শুধুমাত্র পেনরোজ ধাঁধাই নয়, দাবা সংক্রান্ত যে কোনও বিস্তৃত সমস্যা সমাধান করতে পারে।

তার দল খুঁজে বের করার সিদ্ধান্ত নিয়েছে। তারা AlphaZero-এর নতুন, বৈচিত্র্যময় সংস্করণ তৈরি করেছে, যার মধ্যে একাধিক AI সিস্টেম রয়েছে যা স্বাধীনভাবে এবং বিভিন্ন পরিস্থিতিতে প্রশিক্ষিত। যে অ্যালগরিদম সামগ্রিক সিস্টেমকে পরিচালনা করে তা এক ধরনের ভার্চুয়াল ম্যাচমেকার হিসাবে কাজ করে, জাহাভি বলেছেন: একটি পদক্ষেপ নেওয়ার সময় কোন এজেন্টের সফল হওয়ার সর্বোত্তম সুযোগ রয়েছে তা সনাক্ত করার জন্য একটি ডিজাইন করা হয়েছে। তিনি এবং তার সহকর্মীরাও একটি "বৈচিত্র্য বোনাস"-এ কোড করেছেন - যখনই এটি পছন্দের একটি বৃহৎ নির্বাচন থেকে কৌশলগুলি টেনে নেয় তখন সিস্টেমের জন্য একটি পুরষ্কার৷

যখন নতুন সিস্টেমটি নিজস্ব গেম খেলার জন্য শিথিল করা হয়েছিল, দলটি প্রচুর বৈচিত্র্য পর্যবেক্ষণ করেছিল। বৈচিত্র্যময় এআই প্লেয়ারটি নতুন, কার্যকর ওপেনিং এবং উপন্যাসের সাথে পরীক্ষা-নিরীক্ষা করেছে - তবে সুনির্দিষ্ট কৌশল সম্পর্কে সিদ্ধান্ত নিয়েছে, যেমন কখন এবং কোথায় দুর্গ করতে হবে। বেশিরভাগ ম্যাচে, এটি আসল আলফাজিরোকে পরাজিত করেছে। দলটি আরও দেখেছে যে বৈচিত্রপূর্ণ সংস্করণটি আসলটির চেয়ে দ্বিগুণ চ্যালেঞ্জ ধাঁধা সমাধান করতে পারে এবং পেনরোজ পাজলের মোট ক্যাটালগের অর্ধেকেরও বেশি সমাধান করতে পারে।

"ধারণাটি হল যে একটি সমাধান বা একটি একক নীতি খোঁজার পরিবর্তে, যে কোনও খেলোয়াড়কে পরাজিত করবে, এখানে [এটি ব্যবহার করে] সৃজনশীল বৈচিত্র্যের ধারণা," কুলি বলেছিলেন।

আরও এবং বিভিন্ন খেলার গেমগুলিতে অ্যাক্সেসের সাথে, জাহাভি বলেছেন, বৈচিত্র্যময় আলফাজিরো যখন উদ্ভূত হয় তখন স্টিকি পরিস্থিতির জন্য আরও বিকল্প ছিল। "আপনি যদি এটি যে ধরণের গেমগুলি দেখেন তা নিয়ন্ত্রণ করতে পারেন তবে আপনি মূলত এটি কীভাবে সাধারণীকরণ করবেন তা নিয়ন্ত্রণ করতে পারেন," তিনি বলেছিলেন। এই অদ্ভুত অভ্যন্তরীণ পুরষ্কারগুলি (এবং তাদের সম্পর্কিত চালগুলি) বিভিন্ন আচরণের জন্য শক্তি হয়ে উঠতে পারে। তারপর সিস্টেমটি ভিন্ন পদ্ধতির মূল্যায়ন এবং মূল্যায়ন করতে শিখতে পারে এবং কখন তারা সবচেয়ে সফল হয়েছিল তা দেখতে পারে। "আমরা দেখেছি যে এজেন্টদের এই দলটি আসলে এই অবস্থানগুলিতে একটি চুক্তিতে আসতে পারে।"

এবং, গুরুত্বপূর্ণভাবে, প্রভাবগুলি দাবার বাইরেও প্রসারিত।

বাস্তব জীবনের সৃজনশীলতা

কুলি বলেছিলেন যে একটি বৈচিত্র্যময় পদ্ধতি যে কোনও এআই সিস্টেমকে সাহায্য করতে পারে, কেবলমাত্র শক্তিবৃদ্ধি শেখার উপর ভিত্তি করে নয়। তিনি দীর্ঘকাল ধরে শারীরিক সিস্টেমগুলিকে প্রশিক্ষণের জন্য বৈচিত্র্য ব্যবহার করেছেন, একটি সহ ছয় পায়ের রোবট যেটি ইচ্ছাকৃতভাবে এটিকে "আহত" করার আগে বিভিন্ন ধরণের আন্দোলনের অন্বেষণ করার অনুমতি দেওয়া হয়েছিল, এটি আগে তৈরি করা কিছু কৌশল ব্যবহার করে চলতে চলতে অনুমতি দেয়। "আমরা কেবল সমাধানগুলি খুঁজে বের করার চেষ্টা করছিলাম যা আমরা এখন পর্যন্ত পাওয়া আগের সমস্ত সমাধানগুলির থেকে আলাদা।" সম্প্রতি, তিনি প্রতিশ্রুতিশীল নতুন ওষুধ প্রার্থীদের সনাক্ত করতে এবং কার্যকর স্টক-ট্রেডিং কৌশল বিকাশ করতে বৈচিত্র্য ব্যবহার করতে গবেষকদের সাথে সহযোগিতা করছেন।

"লক্ষ্য হল সম্ভাব্য হাজার হাজার বিভিন্ন সমাধানের একটি বৃহৎ সংগ্রহ তৈরি করা, যেখানে প্রতিটি সমাধান পরের থেকে খুব আলাদা," কুলি বলেন। তাই — যেমন বৈচিত্র্যময় দাবা খেলোয়াড় করতে শিখেছে — প্রতিটি ধরণের সমস্যার জন্য, সামগ্রিক সিস্টেমটি সম্ভাব্য সর্বোত্তম সমাধান বেছে নিতে পারে। তিনি বলেন, জাহাভির এআই সিস্টেম স্পষ্টভাবে দেখায় যে কীভাবে "বিভিন্ন কৌশল অনুসন্ধান করা বাক্সের বাইরে চিন্তা করতে এবং সমাধান খুঁজে পেতে সহায়তা করে।"

জাহাভি সন্দেহ করেন যে AI সিস্টেমগুলি সৃজনশীলভাবে চিন্তা করার জন্য, গবেষকদের কেবল তাদের আরও বিকল্প বিবেচনা করতে হবে। এই অনুমানটি মানুষ এবং মেশিনের মধ্যে একটি কৌতূহলী সংযোগের পরামর্শ দেয়: হয়তো বুদ্ধিমত্তা শুধুমাত্র গণনা ক্ষমতার একটি বিষয়। একটি AI সিস্টেমের জন্য, সম্ভবত সৃজনশীলতা বিবেচনা করার এবং বিকল্পগুলির একটি বৃহৎ বুফে থেকে নির্বাচন করার ক্ষমতার উপর নির্ভর করে। যেহেতু সিস্টেমটি বিভিন্ন ধরনের সর্বোত্তম কৌশল বেছে নেওয়ার জন্য পুরষ্কার লাভ করে, এই ধরনের সৃজনশীল সমস্যা-সমাধান আরও শক্তিশালী এবং শক্তিশালী হয়। শেষ পর্যন্ত, তাত্ত্বিকভাবে, এটি মানুষের মধ্যে একটি সৃজনশীল হিসাবে স্বীকৃত যে কোনও ধরণের সমস্যা সমাধানের কৌশল অনুকরণ করতে পারে। সৃজনশীলতা একটি গণনাগত সমস্যা হয়ে উঠবে।

Liemhetcharat উল্লেখ করেছেন যে একটি বৈচিত্র্যময় AI সিস্টেম মেশিন লার্নিংয়ে বিস্তৃত সাধারণীকরণ সমস্যার সম্পূর্ণরূপে সমাধান করার সম্ভাবনা কম। কিন্তু এটা সঠিক পথে একটি পদক্ষেপ। "এটি ত্রুটিগুলির মধ্যে একটিকে প্রশমিত করছে," তিনি বলেছিলেন।

আরও কার্যত, জাহাভির ফলাফল সাম্প্রতিক প্রচেষ্টার সাথে প্রতিধ্বনিত হয় যা দেখায় যে কীভাবে সহযোগিতা মানুষের মধ্যে কঠিন কাজগুলিতে আরও ভাল পারফরম্যান্সের দিকে নিয়ে যেতে পারে। বিলবোর্ড 100 তালিকার বেশিরভাগ হিট গীতিকারদের দল দ্বারা লেখা হয়েছিল, উদাহরণস্বরূপ, ব্যক্তি নয়। এবং উন্নতির জন্য এখনও জায়গা আছে. বৈচিত্র্যময় পদ্ধতিটি বর্তমানে গণনাগতভাবে ব্যয়বহুল, কারণ এটিকে একটি সাধারণ সিস্টেমের চেয়ে অনেক বেশি সম্ভাবনা বিবেচনা করতে হবে। জাহাভিও নিশ্চিত নন যে এমনকি বৈচিত্র্যময় আলফাজিরো সম্ভাবনার সম্পূর্ণ বর্ণালী ক্যাপচার করে।

"আমি এখনও [মনে করি] বিভিন্ন সমাধান খুঁজে বের করার জায়গা আছে," তিনি বলেছিলেন। "এটা আমার কাছে স্পষ্ট নয় যে বিশ্বের সমস্ত ডেটা দেওয়া হলে, প্রতিটি প্রশ্নের একটি [কেবল] উত্তর আছে।"

কোয়ান্টা আমাদের শ্রোতাদের আরও ভালভাবে পরিবেশন করার জন্য সমীক্ষার একটি সিরিজ পরিচালনা করছে। আমাদের নিন কম্পিউটার বিজ্ঞান পাঠক জরিপ এবং আপনি বিনামূল্যে জিততে প্রবেশ করা হবে কোয়ান্টা পণ্যদ্রব্য.

এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
প্লেটোইএসজি। কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
উত্স: https://www.quantamagazine.org/google-deepmind-trains-artificial-brainstorming-in-chess-ai-20231115/

সময় স্ট্যাম্প: নভেম্বর 15, 2023

সময় স্ট্যাম্প: নভেম্বর 1, 2023

গুগল ডিপমাইন্ড দাবা AI-তে 'কৃত্রিম মগজ-মগজ' প্রশিক্ষণ দেয় | কোয়ান্টা ম্যাগাজিন

প্লেটো দ্বারা প্রকাশিত

ব্যর্থতা তাড়া

একটি ভাল খেলা

বাস্তব জীবনের সৃজনশীলতা

থেকে আরো কোয়ান্টাম্যাগাজিন

দুটি স্বাধীন গোষ্ঠীর দ্বারা পাওয়া নবম ডেডেকাইন্ড সংখ্যা | কোয়ান্টা ম্যাগাজিন

ক্রিপ্টোগ্রাফার যিনি নিশ্চিত করেন যে আমরা আমাদের কম্পিউটারগুলিকে বিশ্বাস করতে পারি | কোয়ান্টা ম্যাগাজিন

মানুষের মস্তিষ্ক অধ্যয়ন করা কঠিন। তিনি দরকারী বিকল্প বৃদ্ধি.

ব্রাউনি বেক অফ এবং সমান এলাকাগুলির পিছনে সরল জ্যামিতি

গ্যালাক্সিতে জীবন শুরু করার জন্য সেরা প্রতিবেশী | কোয়ান্টা ম্যাগাজিন

গ্যালাক্সিগুলিকে কী চালিত করে? মিল্কিওয়ের ব্ল্যাক হোল মূল হতে পারে।

কম্পিউটার বিজ্ঞানী যিনি গেমে জীবনের পাঠ খুঁজে পান

গোপন সংযোগ যা সংখ্যা তত্ত্ব পরিবর্তন করে | কোয়ান্টা ম্যাগাজিন

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব

ভূমিকা

ব্যর্থতা তাড়া

একটি ভাল খেলা

বাস্তব জীবনের সৃজনশীলতা

থেকে আরো কোয়ান্টাম্যাগাজিন

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব