বিজ্ঞান PlatoBlockchain ডেটা বুদ্ধিমত্তার জন্য কিভাবে একটি GPT-3 তৈরি করবেন। উল্লম্ব অনুসন্ধান. আ.

কিভাবে বিজ্ঞানের জন্য একটি GPT-3 তৈরি করবেন

এর একটি ইমেজ তৈরি করতে চান 1932 সালের "লাঞ্চ অ্যাটপ এ স্কাইস্ক্র্যাপার" এর স্টাইলে একটি আকাশচুম্বী অট্টালিকায় কাজ করা ভেলোসিরাপ্টর? DALL-E ব্যবহার করুন। একটি কাল্পনিক তৈরি করতে চান পিটার থিয়েল, এলন মাস্ক এবং ল্যারি পেজের স্ট্যান্ডআপ কমেডি শো? GPT-3 ব্যবহার করুন। COVID-19 গবেষণা গভীরভাবে বুঝতে এবং প্রমাণের ভিত্তিতে আপনার প্রশ্নের উত্তর দিতে চান? কিভাবে একটি বুলিয়ান অনুসন্ধান করতে হয় তা শিখুন, বৈজ্ঞানিক কাগজপত্র পড়ুন এবং পিএইচডি পেতে পারেন, কারণ বৈজ্ঞানিক গবেষণা প্রকাশনার বিশাল অংশে প্রশিক্ষিত কোন জেনারেটিভ এআই মডেল নেই। যদি থাকে, প্রমাণ-সমর্থিত, বৈজ্ঞানিক প্রশ্নের সরল-ভাষায় উত্তর পাওয়া সহজ সুবিধার মধ্যে থাকবে। বিজ্ঞানের জন্য জেনারেটিভ এআই এর বিপরীতে সাহায্য করতে পারে বিজ্ঞানে উদ্ভাবনের হ্রাস by এটি তৈরি সহজ এবং সস্তা নতুন ধারণা খুঁজে পেতে। এই ধরনের মডেলগুলি থেরাপিউটিক অনুমানগুলির ডেটা-ব্যাকড সতর্কতাও প্রদান করতে পারে যেগুলি ব্যর্থ হওয়ার জন্য নিশ্চিত, মানুষের পক্ষপাতকে ভারসাম্যহীন করে এবং বিলিয়ন-ডলার এড়িয়ে যায়, কয়েক দশকের অন্ধ গলি. অবশেষে, এই ধরনের মডেল যুদ্ধ করতে পারে প্রজননযোগ্যতা সংকট গবেষণার ফলাফল ম্যাপিং, ওজন এবং প্রাসঙ্গিককরণ করে, বিশ্বাসযোগ্যতার উপর একটি স্কোর প্রদান করে।

তাহলে কেন আমাদের বিজ্ঞানের জন্য DALL-E বা GPT-3 নেই? এর কারণ যদিও বৈজ্ঞানিক গবেষণা হচ্ছে বিশ্বের সবচেয়ে মূল্যবান সামগ্রী, এটি বিশ্বের সর্বনিম্ন অ্যাক্সেসযোগ্য এবং বোধগম্য সামগ্রী। বিজ্ঞানের জন্য জেনারেটিভ এআইকে সম্ভব করার জন্য স্কেল এ বৈজ্ঞানিক ডেটা আনলক করতে কী লাগবে এবং আমরা গবেষণার সাথে যুক্ত হওয়ার উপায়কে কীভাবে রূপান্তরিত করবে তা আমি ব্যাখ্যা করব। 

কি বৈজ্ঞানিক গবেষণা তথ্য চ্যালেঞ্জিং করে তোলে

গবেষণা প্রকাশনাগুলি এখন পর্যন্ত তৈরি করা বিষয়বস্তু এবং তথ্যের জন্য বিশ্বের সবচেয়ে গুরুত্বপূর্ণ ভান্ডার। তারা সময় এবং শৃঙ্খলা জুড়ে ধারণা এবং অনুসন্ধানগুলিকে একত্রে বেঁধে রাখে এবং লাইব্রেরির নেটওয়ার্ক দ্বারা চিরকালের জন্য সংরক্ষিত থাকে। তারা প্রমাণ, বিশ্লেষণ, বিশেষজ্ঞ অন্তর্দৃষ্টি, এবং পরিসংখ্যানগত সম্পর্ক দ্বারা সমর্থিত হয়। এগুলি অত্যন্ত মূল্যবান, তবুও সেগুলি মূলত ওয়েব থেকে লুকানো থাকে এবং খুব অদক্ষভাবে ব্যবহার করা হয়৷ ওয়েবটি চতুর, আদর করা বিড়ালের ভিডিওতে ভরপুর কিন্তু বেশিরভাগ ক্ষেত্রেই ক্যান্সার গবেষণার অত্যাধুনিক গবেষণা নেই। একটি উদাহরণ হিসাবে, বিজ্ঞানের ওয়েব বৈজ্ঞানিক জ্ঞানের সবচেয়ে ব্যাপক সূচকগুলির মধ্যে একটি। এটি প্রায় কয়েক দশক ধরে চলে আসছে, তবে এটি সম্ভবত এমন কিছু যা বেশিরভাগ পাঠক এমনকি কখনও শোনেননি, এর সাথে আলাপচারিতা করা যাক। আমাদের মধ্যে বেশিরভাগেরই গবেষণাপত্রে অ্যাক্সেস নেই, এবং এমনকি যখন আমরা করি, সেগুলি ঘন, বোঝা কঠিন এবং পিডিএফ হিসাবে প্যাকেজ করা হয় — একটি ফর্ম্যাট যা মুদ্রণের জন্য ডিজাইন করা হয়েছে, ওয়েবের জন্য নয়।

বৈজ্ঞানিক কাগজপত্র সহজে অ্যাক্সেসযোগ্য না হওয়ায়, আমরা GPT-3 বা DALL-E-এর মতো জেনারেটিভ মডেলগুলিকে প্রশিক্ষণ দিতে সহজে ডেটা ব্যবহার করতে পারি না। পারবে তুমি কল্পনা করুন যদি একজন গবেষক একটি পরীক্ষার প্রস্তাব দিতে পারে এবং একটি এআই মডেল তাৎক্ষণিকভাবে তাদের বলতে পারে যে এটি আগে করা হয়েছে কিনা (এবং আরও ভাল, তাদের ফলাফল দিন)? তারপর, একবার তাদের কাছে একটি অভিনব পরীক্ষা থেকে ডেটা পাওয়া গেলে, এআই ফলাফলের উপর ভিত্তি করে একটি ফলো-আপ পরীক্ষার পরামর্শ দিতে পারে। পরিশেষে, গবেষকরা তাদের ফলাফল আপলোড করতে পারলে এবং এআই মডেলের জন্য ফলস্বরূপ পাণ্ডুলিপি লিখতে পারলে যে সময়টি সংরক্ষণ করা যেতে পারে তা কল্পনা করুন তাদের বিজ্ঞানের DALL-E-এর সবচেয়ে কাছের মানুষটি হল Google Scholar, কিন্তু এটি একটি টেকসই বা মাপযোগ্য সমাধান নয়৷ IBM Watson এছাড়াও আমি এখানে যা বর্ণনা করেছি তার অনেক কিছু অর্জন করতে প্রস্তুত, কিন্তু বেশিরভাগ কাজই বৃহৎ ভাষার মডেলগুলিতে সাম্প্রতিক অগ্রগতির আগে এসেছিল এবং মার্কেটিং হাইপের সাথে মেলে উপযুক্ত বা পর্যাপ্ত ডেটা ব্যবহার করেনি।

আমি যে ধরনের মান আনলক করছি তার জন্য আমাদের দীর্ঘমেয়াদী বিনিয়োগ, প্রতিশ্রুতি এবং দৃষ্টি প্রয়োজন। প্রস্তাবিত হিসাবে সম্প্রতি in ভবিষ্যৎ, আমাদের বৈজ্ঞানিক প্রকাশনাগুলিকে সাবস্ট্রেট হিসাবে বিবেচনা করতে হবে এবং স্কেলে বিশ্লেষণ করতে হবে। একবার আমরা বাধাগুলি সরিয়ে ফেললে, আমরা ডেটা-ক্ষুধার্ত জেনারেটিভ এআই মডেলগুলিকে খাওয়ানোর জন্য বিজ্ঞান ব্যবহার করতে সক্ষম হব। এই মডেলগুলির বিজ্ঞানকে ত্বরান্বিত করার এবং বৈজ্ঞানিক সাক্ষরতা বৃদ্ধির অপার সম্ভাবনা রয়েছে, যেমন নতুন বৈজ্ঞানিক ধারণা তৈরি করার জন্য তাদের প্রশিক্ষণের মাধ্যমে, বিজ্ঞানীদের বিশাল বৈজ্ঞানিক সাহিত্য পরিচালনা ও নেভিগেট করতে, ত্রুটিপূর্ণ বা এমনকি মিথ্যা গবেষণা শনাক্ত করতে সাহায্য করে এবং জটিল গবেষণার ফলাফলগুলিকে সংশ্লেষিত ও অনুবাদ করে। সাধারণ মানুষের বক্তৃতা।

কিভাবে আমরা বিজ্ঞানের জন্য একটি DALL-E বা GPT-3 পেতে পারি?

আপনি যদি প্রযুক্তিতে থাকেন, তাহলে বন্ধুদের আউটপুট দেখান জেনারেটিভ এআই মডেল থেকে ডাল-ই or GPT-3 তাদের যাদু দেখানোর মত। এই টুলগুলি ওয়েবের পরবর্তী প্রজন্মের প্রতিনিধিত্ব করে। তারা একটি সাধারণ সংযোগের বাইরে বিপুল পরিমাণ তথ্যের সংশ্লেষণ থেকে উদ্ভূত হয়, যাতে উৎপন্ন ক্ষমতা সহ সরঞ্জাম তৈরি করা যায়। তাহলে কীভাবে আমরা বিজ্ঞানে একইরকম জাদুকরী অভিজ্ঞতা তৈরি করতে পারি, যেখানে কেউ বৈজ্ঞানিক সাহিত্যের একটি প্রশ্ন সরল ভাষায় জিজ্ঞাসা করতে পারে এবং প্রমাণ দ্বারা সমর্থিত একটি বোধগম্য উত্তর পেতে পারে? কিভাবে আমরা গবেষকদের তাদের অনুমান তৈরি, বিকাশ, পরিমার্জন এবং পরীক্ষা করতে সাহায্য করতে পারি? কিভাবে আমরা সম্ভাব্য বিলিয়ন ডলার অপচয় এড়াতে পারি আল্জ্হেইমের গবেষণায় ব্যর্থ অনুমান এবং জেনেটিক্স এবং হতাশার মধ্যে ভুল সংযোগ

এই প্রশ্নগুলির সমাধানগুলি বিজ্ঞান কল্পকাহিনীর মতো শোনাতে পারে, তবে প্রমাণ রয়েছে যে আমরা আশ্চর্যজনক এবং অকল্পনীয় জিনিসগুলি করতে পারি যখন বৈজ্ঞানিক কাজগুলি এর অংশগুলির যোগফলের চেয়ে বেশি ব্যবহার করা হয়। প্রকৃতপক্ষে, প্রায় 200,000 প্রোটিন কাঠামো ব্যবহার করে মধ্যে প্রোটিন ডেটা ব্যাংক দেওয়া হয়েছে আলফাফোল্ড সক্ষমতা প্রোটিন গঠন সঠিকভাবে ভবিষ্যদ্বাণী করার জন্য, এমন কিছু যা এইমাত্র করা হয়েছিল প্রতিটি প্রোটিন কখনও নথিভুক্ত (200 মিলিয়নেরও বেশি!) প্রোটিন স্ট্রাকচারের অনুরূপ পদ্ধতিতে গবেষণা পত্রগুলি ব্যবহার করা একটি স্বাভাবিক পরবর্তী পদক্ষেপ হবে। 

তাদের ন্যূনতম উপাদান মধ্যে কাগজপত্র পচন

গবেষণাপত্রগুলি মূল্যবান তথ্যে পরিপূর্ণ, যার মধ্যে পরিসংখ্যান, চার্ট, পরিসংখ্যানগত সম্পর্ক এবং অন্যান্য কাগজগুলির উল্লেখ রয়েছে। এগুলিকে বিভিন্ন উপাদানে বিভক্ত করা এবং স্কেলে ব্যবহার করা আমাদের বিভিন্ন ধরণের বিজ্ঞান-সম্পর্কিত চাকরি, প্রম্পট বা প্রশ্নের জন্য মেশিনগুলিকে প্রশিক্ষণ দিতে সহায়তা করতে পারে। একটি উপাদানের প্রকারের প্রশিক্ষণের মাধ্যমে সহজ প্রশ্নের উত্তর দেওয়া যেতে পারে, তবে আরও জটিল প্রশ্ন বা প্রম্পটের জন্য একাধিক উপাদানের প্রকারের অন্তর্ভুক্তি এবং একে অপরের সাথে তাদের সম্পর্কের বোঝার প্রয়োজন হবে।  

জটিল সম্ভাব্য প্রম্পটের কিছু উদাহরণ হল:

"আমাকে বলুন কেন এই অনুমানটি ভুল"
"আমাকে বলুন কেন আমার চিকিত্সার ধারণা কাজ করবে না"
"একটি নতুন চিকিত্সা ধারণা তৈরি করুন"
"সামাজিক নীতি X সমর্থন করার জন্য কি প্রমাণ আছে?"
"কে এই ক্ষেত্রে সবচেয়ে নির্ভরযোগ্য গবেষণা প্রকাশ করেছে?"
"আমার তথ্যের উপর ভিত্তি করে আমাকে একটি বৈজ্ঞানিক কাগজ লিখুন"

কিছু গোষ্ঠী এই দৃষ্টিভঙ্গি নিয়ে অগ্রসর হচ্ছে। উদাহরণ স্বরূপ, প্রকাশ করা গবেষকদের প্রশ্নের উত্তর দিতে সাহায্য করার জন্য লক্ষ লক্ষ কাগজের শিরোনাম এবং বিমূর্তগুলিতে GPT-3 প্রয়োগ করে — যেমন আলেক্সার মতো, কিন্তু বিজ্ঞানের জন্য। পদ্ধতি সত্তার মধ্যে পরিসংখ্যানগত সম্পর্ক বের করে দেখায় যে কীভাবে বিভিন্ন ধারণা এবং সত্তা সংযুক্ত রয়েছে। কার্তুজ গবেষণাপত্রের উপর ফোকাস করে না, তবে এটি arXiv-এর সাথে কাজ করে এবং অনেক উৎস থেকে প্রচুর পরিমাণে ডেটা সংশ্লেষণ এবং বোঝার জন্য কর্পোরেশন এবং সরকার দ্বারা ব্যবহৃত তথ্যের একটি ড্যাশবোর্ড প্রদান করে। 

সমস্ত উপাদান অ্যাক্সেস

দুর্ভাগ্যবশত, এই গোষ্ঠীগুলি প্রাথমিকভাবে শুধুমাত্র শিরোনাম এবং বিমূর্তগুলির উপর নির্ভর করে, সম্পূর্ণ পাঠ্য নয়, যেহেতু ছয়টি নিবন্ধের মধ্যে প্রায় পাঁচটি অবাধে বা সহজে অ্যাক্সেসযোগ্য নয়। ওয়েব অফ সায়েন্স এবং গুগলের মতো গ্রুপগুলির জন্য যাদের ডেটা বা কাগজপত্র রয়েছে, তাদের লাইসেন্স এবং ব্যবহারের সুযোগ রয়েছে সীমিত বা অনির্ধারিত. Google-এর ক্ষেত্রে, Google Scholar-এ পূর্ণ-পাঠ্য বৈজ্ঞানিক গবেষণায় AI মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য কেন কোনও প্রকাশ্যে ঘোষিত প্রচেষ্টা করা হয়নি তা অস্পষ্ট। আশ্চর্যজনকভাবে, এটি এমনকি COVID-19 মহামারীর মধ্যেও পরিবর্তিত হয়নি, যা বিশ্বকে স্থবির করে দিয়েছে। Google AI টিম এগিয়েছে, জনসাধারণের জিজ্ঞাসা করার একটি উপায় প্রোটোটাইপ করে৷ COVID-19 সম্পর্কে. কিন্তু — এবং এখানেই কিকার — তারা তা করেছে শুধুমাত্র PubMed থেকে খোলা অ্যাক্সেস পেপার ব্যবহার করে, Google Scholar নয়। 

কাগজপত্রগুলিতে অ্যাক্সেস পাওয়ার এবং সেগুলিকে একবারে পড়ার চেয়ে বেশি ব্যবহার করার বিষয়টি এমন একটি বিষয় যা দলগুলি কয়েক দশক ধরে সমর্থন করে আসছে৷ আমি ব্যক্তিগতভাবে প্রায় এক দশক ধরে এটিতে কাজ করেছি, একটি ওপেন অ্যাক্সেস প্রকাশনা প্ল্যাটফর্ম চালু করেছি বিজয়ী আমার পিএইচডির শেষ বছরে, এবং তারপরে তৈরি করার জন্য কাজ করছি ভবিষ্যতের নিবন্ধ অন্য একটি স্টার্টআপে Authorea. যদিও এই উদ্যোগগুলির কোনওটিই আমি যেভাবে চেয়েছিলাম সেভাবে সম্পূর্ণরূপে প্যান করেনি, তারা আমাকে আমার বর্তমান কাজের দিকে নিয়ে গেছে স্কাইট, যা, অন্তত আংশিকভাবে, প্রকাশকদের সাথে সরাসরি কাজ করার মাধ্যমে অ্যাক্সেস সমস্যা সমাধান করেছে৷ 

উপাদান সংযুক্ত করুন এবং সম্পর্ক সংজ্ঞায়িত করুন

আমাদের লক্ষ্য স্কাইট পরিচয় করিয়ে দিতে হয় উদ্ধৃতি পরবর্তী প্রজন্ম — যাকে বলা হয় স্মার্ট উদ্ধৃতি — যা দেখায় যে কীভাবে এবং কেন কোনও নিবন্ধ, গবেষক, জার্নাল বা বিষয় উদ্ধৃত করা হয়েছে এবং সাহিত্যে আরও সাধারণভাবে আলোচনা করা হয়েছে। প্রকাশকদের সাথে কাজ করে, আমরা সরাসরি পূর্ণ-পাঠ্য নিবন্ধগুলি থেকে বাক্যগুলি বের করি যেখানে তারা পাঠ্যের মধ্যে তাদের উল্লেখ ব্যবহার করে। এই বাক্যগুলি নতুন কাজের দ্বারা কীভাবে কাগজপত্রগুলি উদ্ধৃত করা হয়েছিল তার একটি গুণগত অন্তর্দৃষ্টি প্রদান করে। এটি গবেষণার জন্য কিছুটা পচা টমেটোর মতো।

এর জন্য পূর্ণ-পাঠ্য নিবন্ধগুলিতে অ্যাক্সেস এবং প্রকাশকদের সাথে সহযোগিতা প্রয়োজন, যাতে আমরা স্কেলে উদ্ধৃতি বিবৃতিগুলি বের করতে এবং বিশ্লেষণ করতে মেশিন লার্নিং ব্যবহার করতে পারি। যেহেতু শুরু করার জন্য যথেষ্ট ওপেন অ্যাক্সেস নিবন্ধ ছিল, আমরা ধারণার প্রমাণ তৈরি করতে সক্ষম হয়েছি এবং একে একে আমরা প্রকাশকদের কাছে আমাদের সিস্টেমে সূচীকৃত নিবন্ধগুলির বর্ধিত আবিষ্কারযোগ্যতা প্রদর্শন করেছি এবং তাদের একটি সিস্টেম সরবরাহ করেছি ভাল মেট্রিক্স দেখান আরও দায়িত্বশীল গবেষণা মূল্যায়নের জন্য। আমরা বিশেষজ্ঞের বিবৃতি হিসাবে যা দেখেছি, তারা তাদের নিবন্ধগুলির পূর্বরূপ হিসাবে দেখেছে। প্রকাশকরা এখন ব্যাপকভাবে স্বাক্ষর করেছেন এবং আমরা প্রকাশিত সমস্ত নিবন্ধের অর্ধেকেরও বেশি থেকে 1.1 বিলিয়নেরও বেশি স্মার্ট উদ্ধৃতি সূচী করেছি।

AI মডেলকে প্রশিক্ষণ দিতে রিলেশনাল ডেটা ব্যবহার করুন

কাগজপত্র থেকে প্রাপ্ত উপাদান এবং সম্পর্ক গবেষণার জন্য নতুন বড় ভাষার মডেল প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে। GPT-3, যদিও খুব শক্তিশালী, বিজ্ঞানের উপর কাজ করার জন্য নির্মিত হয়নি আপনি SAT এ দেখতে পারেন এমন প্রশ্নের উত্তর দিতে খারাপ করে. যখন GPT-2 (GPT-3 এর আগের সংস্করণ) ছিল লক্ষ লক্ষ গবেষণা পত্রের উপর প্রশিক্ষণ দিয়ে অভিযোজিত, এটি নির্দিষ্ট জ্ঞানের কাজগুলিতে একা GPT-2 এর চেয়ে ভাল কাজ করেছে। এটি হাইলাইট করে যে মডেলগুলিকে প্রশিক্ষণের জন্য ব্যবহৃত ডেটা অত্যন্ত গুরুত্বপূর্ণ। 

 সম্প্রতি কয়েকটি দল করেছে একাডেমিক কাগজপত্র লিখতে GPT-3 ব্যবহার করা হয়, এবং এটি চিত্তাকর্ষক হলেও, তারা যে তথ্য বা যুক্তি দেখাতে পারে তা খুব ভুল হতে পারে। যদি মডেলটি সাধারণ SAT-শৈলীর প্রশ্নগুলি সঠিকভাবে পেতে না পারে, তাহলে আমরা একটি পূর্ণ কাগজ লিখতে বিশ্বাস করতে পারি? SCIgen, যা প্রায় 3 বছর আগে GPT-20 পূর্ববর্তী, দেখিয়েছে যে বাস্তব দেখায় এমন কাগজপত্র তৈরি করা তুলনামূলকভাবে সহজ। তাদের সিস্টেম, যদিও অনেক সহজ, উত্পন্ন কাগজপত্র যে ছিল বিভিন্ন সম্মেলনে গৃহীত. আমাদের এমন একটি মডেল দরকার যা দেখতে শুধু বৈজ্ঞানিক নয় বরং বৈজ্ঞানিক, এবং এর জন্য মেশিন এবং মানুষের দাবি যাচাই করার জন্য একটি সিস্টেম প্রয়োজন। মেটা সম্প্রতি একটি চালু উইকিপিডিয়া উদ্ধৃতি যাচাই করার জন্য সিস্টেম, কিছু কিছু প্রকাশক কণ্ঠে আছে তারা পাণ্ডিত্যপূর্ণ প্রকাশনা পেতে চান.

বর্তমান অগ্রগতি

আবার, এই সিস্টেমটিকে সফল করার জন্য একটি মূল ব্লকার হল এটি তৈরি করার জন্য কাগজপত্র এবং সংস্থানগুলিতে অ্যাক্সেসের অভাব। যেখানে কাগজপত্র বা তথ্য স্কেলে ব্যবহারের জন্য উপলব্ধ হয়, আমরা দেখতে পাই টুলস এবং নতুন মডেলের বিকাশ। গুগল পেটেন্ট টিম ব্যবহার করেছে 100 মিলিয়ন পেটেন্ট পেটেন্ট বিশ্লেষণে সাহায্যের জন্য একটি সিস্টেমকে প্রশিক্ষণ দিতে, কার্যকরভাবে একটি GooglePatentBERT। অন্যদের মত মডেল চালু হয়েছে বায়োবার্ট এবং SciBERT, এবং তারা শুধুমাত্র নির্দিষ্ট বিষয়ের ডোমেনে প্রায় ~1% বৈজ্ঞানিক পাঠ্যের উপর প্রশিক্ষিত হওয়া সত্ত্বেও, তারা আমাদের সাইটের উদ্ধৃতি শ্রেণীবিন্যাস ব্যবস্থা সহ পণ্ডিতমূলক কাজগুলিতে চিত্তাকর্ষক। 

আরো সম্প্রতি, একটি ScholarBERT মডেল প্রকাশ করা হয়েছে, যা কার্যকরভাবে BERT-কে প্রশিক্ষণের জন্য সমস্ত বৈজ্ঞানিক সাহিত্য ব্যবহার করে। তারা অ্যাক্সেসের সমস্যাটি কাটিয়ে উঠতে পারে তবে কীভাবে তাদের ব্যবহারকে "অ-ব্যবহারযোগ্য" হওয়ার জন্য জোর দেয় সে সম্পর্কে উল্লেখযোগ্যভাবে নীরব। এই ব্যবহারের ক্ষেত্রে দরজা খুলতে পারে অন্যরা প্রকাশকদের কাছ থেকে স্পষ্ট অনুমতি ছাড়াই নিবন্ধ ব্যবহার করে এবং বিজ্ঞানের DALL-E তৈরির ক্ষেত্রে একটি গুরুত্বপূর্ণ পদক্ষেপ হতে পারে। আশ্চর্যজনকভাবে, তবে, স্কলারবার্ট বিভিন্ন বিশেষ জ্ঞানের কাজগুলিতে SciBERT-এর মতো ছোট বিজ্ঞান ভাষার মডেলের চেয়ে খারাপ করেছে। 

গুরুত্বপূর্ণভাবে, BERT-শৈলীর মডেলগুলি GPT-3-এর মতো বৃহৎ ভাষার মডেলগুলির তুলনায় অনেক ছোট স্কেল, এবং তারা একই ধরনের জেনেরিক প্রম্পটিং এবং ইন-কনটেক্সট শেখার অনুমতি দেয় না যা GPT-3 হাইপকে অনেকটাই চালিত করেছে। প্রশ্ন থেকে যায়: আমরা যদি GPT-3-এর মতো স্কেল-আপ জেনারেটিভ মডেলকে প্রশিক্ষণ দেওয়ার জন্য ScholarBERT থেকে একই ডেটা প্রয়োগ করি? আমরা যদি কোনোভাবে দেখাতে পারি যে মেশিন থেকে উত্তরগুলি কোথায় পাওয়া গেছে, সম্ভবত সেগুলি সরাসরি সাহিত্যের সাথে (যেমন স্মার্ট উদ্ধৃতিগুলি) সংযুক্ত করে?

এখন কেন?

সৌভাগ্যবশত, কাগজপত্র আরও খোলা হয়ে উঠছে এবং মেশিনগুলি আরও শক্তিশালী হয়ে উঠছে। আমরা এখন কাগজপত্র এবং সংযুক্ত সংগ্রহস্থলের মধ্যে থাকা ডেটা ব্যবহার করে মেশিনকে প্রশ্নের উত্তর দিতে এবং গবেষণার উপর ভিত্তি করে নতুন ধারণা সংশ্লেষণ করতে প্রশিক্ষণ দেওয়া শুরু করতে পারি। এটি স্বাস্থ্যসেবা, নীতি, প্রযুক্তি এবং আমাদের চারপাশের সবকিছুর জন্য রূপান্তরকারী হতে পারে। কল্পনা করুন, যদি আমরা শুধু নথির শিরোনাম অনুসন্ধান না করি তবে বিশেষভাবে উত্তরের জন্য, তাহলে কীভাবে এটি সমস্ত শাখায় গবেষণা এবং কর্মপ্রবাহকে প্রভাবিত করবে। 

 অ্যাক্সেসিবিলিটি এবং বোধগম্যতার জোড়া বাধা থেকে বিশ্বের বৈজ্ঞানিক জ্ঞানকে মুক্ত করা ক্লিক, ভিউ, লাইক, এবং প্রমাণ, ডেটা এবং সত্যতার উপর দৃষ্টি নিবদ্ধ করে এমন একটি ওয়েব থেকে পরিবর্তন করতে সাহায্য করবে। ফার্মা স্পষ্টতই এটিকে ফলপ্রসূ করতে উদ্বুদ্ধ করা হয়েছে, তাই AI ব্যবহার করে সম্ভাব্য ওষুধের লক্ষ্য চিহ্নিত করার ক্রমবর্ধমান সংখ্যক স্টার্টআপ - কিন্তু আমি বিশ্বাস করি জনগণ, সরকার এবং Google ব্যবহারকারী যে কেউ বিশ্বাস এবং সময়ের জন্য বিনামূল্যে অনুসন্ধানগুলি পরিত্যাগ করতে ইচ্ছুক হতে পারে- সংরক্ষণ বিশ্বের এমন একটি ব্যবস্থার নিদারুণ প্রয়োজন, এবং এটি দ্রুত প্রয়োজন। 


 

 

18 আগস্ট, 2022 এ পোস্ট করা হয়েছে

প্রযুক্তি, উদ্ভাবন, এবং ভবিষ্যত, যারা এটি তৈরি করে বলেছে।

সাইন আপ করার জন্য ধন্যবাদ.

একটি স্বাগত নোটের জন্য আপনার ইনবক্স চেক করুন.

সময় স্ট্যাম্প:

থেকে আরো আন্দ্রেসেন হরোয়েজ্জ