ভাষা মডেল নিরাপত্তা এবং অপব্যবহার PlatoBlockchain ডেটা বুদ্ধিমত্তা সম্পর্কে শেখা পাঠ। উল্লম্ব অনুসন্ধান. আ.

ভাষা মডেল নিরাপত্তা এবং অপব্যবহার উপর শেখা পাঠ

ভাষা মডেল নিরাপত্তা এবং অপব্যবহার উপর শেখা পাঠ

শক্তিশালী AI সিস্টেমের মোতায়েন নিরাপত্তা এবং অপব্যবহারের বিষয়ে আমাদের বোঝাপড়াকে সমৃদ্ধ করেছে যা শুধুমাত্র গবেষণার মাধ্যমেই সম্ভব হতো। লক্ষণীয়ভাবে:

  • API-ভিত্তিক ভাষার মডেলের অপব্যবহার প্রায়শই বিভিন্ন আকারে আসে যা আমরা সবচেয়ে বেশি ভয় পাই।
  • আমরা বিদ্যমান ভাষা মডেল মূল্যায়নে সীমাবদ্ধতা চিহ্নিত করেছি যা আমরা অভিনব বেঞ্চমার্ক এবং শ্রেণীবিভাগ দিয়ে সমাধান করছি।
  • মৌলিক নিরাপত্তা গবেষণা এআই সিস্টেমের বাণিজ্যিক উপযোগের জন্য উল্লেখযোগ্য সুবিধা প্রদান করে।

এখানে, আমরা অন্যান্য AI ডেভেলপারদের সুরক্ষা এবং স্থাপন করা মডেলগুলির অপব্যবহার মোকাবেলায় সহায়তা করার আশায় আমাদের সর্বশেষ চিন্তাভাবনা বর্ণনা করি।


Oগত দুই বছর ধরে, আমরা ভাষার মডেলগুলি কীভাবে ব্যবহার করা যায় এবং অপব্যবহার করা যায় সে সম্পর্কে অনেক কিছু শিখেছি—অন্তর্দৃষ্টি যা আমরা বাস্তব-বিশ্ব স্থাপনার অভিজ্ঞতা ছাড়া অর্জন করতে পারতাম না। 2020 সালের জুনে, আমরা ডেভেলপার এবং গবেষকদের অ্যাক্সেস দিতে শুরু করি ওপেনএআইআই, OpenAI দ্বারা উন্নত নতুন AI মডেলগুলির উপরে অ্যাপ্লিকেশনগুলি অ্যাক্সেস এবং নির্মাণের জন্য একটি ইন্টারফেস। GPT-3, কোডেক্স, এবং অন্যান্য মডেলগুলিকে এমনভাবে স্থাপন করা যাতে ক্ষতির ঝুঁকি হ্রাস পায় তা বিভিন্ন প্রযুক্তিগত এবং নীতিগত চ্যালেঞ্জ তৈরি করেছে।

আমাদের মডেল স্থাপনা পদ্ধতির ওভারভিউ

বৃহৎ ভাষার মডেলগুলি এখন কার্য সম্পাদন করতে সক্ষম কাজ খুব বিস্তৃত পরিসীমা, প্রায়শই বাক্সের বাইরে। তাদের ঝুঁকি প্রোফাইল, সম্ভাব্য অ্যাপ্লিকেশন, এবং সমাজের উপর ব্যাপক প্রভাব থাকা দুর্বল বোঝা. ফলস্বরূপ, আমাদের স্থাপনার পদ্ধতি ক্রমাগত পুনরাবৃত্তির উপর জোর দেয়, এবং সংশ্লিষ্ট ঝুঁকিগুলি হ্রাস করার সাথে সাথে স্থাপনার সুবিধাগুলি সর্বাধিক করার লক্ষ্যে নিম্নলিখিত কৌশলগুলি ব্যবহার করে:

  • প্রাক-নিয়োজন ঝুঁকি বিশ্লেষণ, নিরাপত্তা মূল্যায়নের ক্রমবর্ধমান সেট এবং রেড টিমিং টুলস ব্যবহার করে (যেমন, মূল্যায়ন ব্যবহার করে কোনো নিরাপত্তার অবনতির জন্য আমরা আমাদের InstructGPT পরীক্ষা করেছি নীচে আলোচনা করা হয়েছে)
  • একটি ছোট ব্যবহারকারী বেস দিয়ে শুরু হচ্ছে (যেমন, GPT-3 এবং আমাদের উভয়ই জিপিটি নির্দেশ করুন ব্যক্তিগত বেটা হিসাবে সিরিজ শুরু হয়েছিল)
  • অভিনব ব্যবহারের ক্ষেত্রে পাইলটগুলির ফলাফল অধ্যয়ন করা (যেমন, এমন অবস্থার অন্বেষণ করা যার অধীনে আমরা নিরাপদে দীর্ঘফর্ম সামগ্রী তৈরি করতে সক্ষম হতে পারি, অল্প সংখ্যক গ্রাহকের সাথে কাজ করে)
  • প্রয়োগ করা প্রক্রিয়া যা ব্যবহারের উপর একটি স্পন্দন রাখতে সাহায্য করে (যেমন, ব্যবহারের ক্ষেত্রে পর্যালোচনা, টোকেন কোটা এবং হারের সীমা)
  • বিশদ পূর্ববর্তী পর্যালোচনা পরিচালনা করা (যেমন, নিরাপত্তা ঘটনা এবং প্রধান স্থাপনার)
ভাষা মডেল নিরাপত্তা এবং অপব্যবহার উপর শেখা পাঠ


নোট করুন যে এই চিত্রটি মডেল বিকাশ এবং স্থাপনার ক্রমাগত প্রক্রিয়ায় প্রতিক্রিয়া লুপের প্রয়োজনীয়তা এবং প্রতিটি পর্যায়ে সুরক্ষাকে একীভূত করা আবশ্যক তা দৃশ্যত বোঝানোর উদ্দেশ্যে করা হয়েছে। এটি আমাদের বা অন্য কোন সংস্থার প্রক্রিয়ার একটি সম্পূর্ণ বা আদর্শ চিত্র প্রকাশ করার উদ্দেশ্যে নয়।

দায়িত্বশীল স্থাপনার জন্য কোন সিলভার বুলেট নেই, তাই আমরা উন্নয়ন ও স্থাপনার প্রতিটি পর্যায়ে আমাদের মডেলের সীমাবদ্ধতা এবং অপব্যবহারের সম্ভাব্য উপায় সম্পর্কে জানার চেষ্টা করি। এই পদ্ধতির সাহায্যে আমরা ছোট পরিসরে নিরাপত্তা এবং নীতি সংক্রান্ত সমস্যাগুলি সম্পর্কে যতটা শিখতে পারি এবং বৃহত্তর-স্কেল স্থাপনা চালু করার আগে সেই অন্তর্দৃষ্টিগুলিকে অন্তর্ভুক্ত করতে পারি।


দায়িত্বশীল স্থাপনার জন্য কোন সিলভার বুলেট নেই।

সম্পূর্ণ না হলেও, কিছু ক্ষেত্র যেখানে আমরা এখন পর্যন্ত বিনিয়োগ করেছি সেগুলি অন্তর্ভুক্ত৷[1]:

যেহেতু হস্তক্ষেপের প্রতিটি পর্যায়ে সীমাবদ্ধতা রয়েছে, তাই একটি সামগ্রিক পদ্ধতির প্রয়োজন।

এমন কিছু ক্ষেত্র রয়েছে যেখানে আমরা আরও কিছু করতে পারতাম এবং যেখানে আমাদের এখনও উন্নতির জায়গা রয়েছে। উদাহরণস্বরূপ, যখন আমরা প্রথম GPT-3 এ কাজ করি, তখন আমরা এটিকে উৎপাদন ব্যবস্থার পরিবর্তে একটি অভ্যন্তরীণ গবেষণা শিল্পকর্ম হিসেবে দেখেছিলাম এবং বিষাক্ত প্রশিক্ষণ ডেটা ফিল্টার করার ক্ষেত্রে আমরা ততটা আক্রমনাত্মক ছিলাম না যতটা আমরা অন্যথায় হতে পারতাম। আমরা পরবর্তী মডেলগুলির জন্য এই ধরনের উপাদান গবেষণা এবং অপসারণে আরও বিনিয়োগ করেছি। আমরা কিছু ক্ষেত্রে অপব্যবহারের কিছু দৃষ্টান্ত মোকাবেলা করতে বেশি সময় নিয়েছি যেখানে আমাদের এই বিষয়ে স্পষ্ট নীতি ছিল না, এবং সেই নীতিগুলির পুনরাবৃত্তিতে আমরা আরও ভাল হয়েছি। এবং আমরা সুরক্ষা প্রয়োজনীয়তার প্যাকেজের দিকে পুনরাবৃত্তি করতে থাকি যা ঝুঁকি মোকাবেলায় সর্বাধিক কার্যকর, পাশাপাশি বিকাশকারীদের কাছে স্পষ্টভাবে যোগাযোগ করা হয় এবং অত্যধিক ঘর্ষণ কমিয়ে দেয়।

তারপরও, আমরা বিশ্বাস করি যে আমাদের পদ্ধতি আমাদেরকে ভাষা মডেলের ব্যবহার থেকে বিভিন্ন ধরনের ক্ষতি পরিমাপ করতে এবং কমাতে সক্ষম করেছে আরও হ্যান্ড-অফ পদ্ধতির তুলনায়, একই সাথে আমাদের বিস্তৃত পণ্ডিত, শৈল্পিক এবং বাণিজ্যিক অ্যাপ্লিকেশনগুলিকে সক্ষম করেছে মডেল[2]

ভাষার মডেল অপব্যবহারের অনেক আকার এবং আকার

ওপেনএআই আমাদের প্রাথমিক কাজ থেকে এআই অপব্যবহারের ঝুঁকি নিয়ে গবেষণায় সক্রিয় AI এর দূষিত ব্যবহার 2018 তে এবং GPT-2-এ 2019 সালে, এবং আমরা AI সিস্টেমের উপর বিশেষ মনোযোগ দিয়েছি যা প্রভাব ক্রিয়াকলাপকে শক্তিশালী করে। আমাদের আছে সঙ্গে কাজ বিকাশের জন্য বহিরাগত বিশেষজ্ঞ ধারণার প্রমাণ এবং পদোন্নতি সাবধান বিশ্লেষণ তৃতীয় পক্ষের দ্বারা যেমন ঝুঁকি. আমরা ভাষা মডেল-সক্ষম প্রভাব ক্রিয়াকলাপের সাথে যুক্ত ঝুঁকি মোকাবেলায় প্রতিশ্রুতিবদ্ধ এবং সম্প্রতি এই বিষয়ে একটি কর্মশালা সহ-সংগঠিত করেছি।[3]

তবুও আমরা শনাক্ত করেছি এবং বন্ধ করেছি শত শত অভিনেতা যারা প্রভাব ক্রিয়াকলাপের জন্য বিভ্রান্তি তৈরির চেয়ে অনেক বেশি বিস্তৃত উদ্দেশ্যে GPT-3 অপব্যবহার করার চেষ্টা করছে, যার মধ্যে এমন উপায়গুলি সহ যা আমরা প্রত্যাশা করিনি বা যা আমরা প্রত্যাশা করেছিলাম কিন্তু আশা করিনি। তাই প্রচলিত[4] আমাদের ক্ষেত্রে নির্দেশিকা ব্যবহার করুন, বিষয়বস্তু নির্দেশিকা, এবং অভ্যন্তরীণ সনাক্তকরণ এবং প্রতিক্রিয়া পরিকাঠামো প্রাথমিকভাবে ঝুঁকিগুলির দিকে ভিত্তিক ছিল যা আমরা অভ্যন্তরীণ এবং বাহ্যিক গবেষণার উপর ভিত্তি করে প্রত্যাশিত, যেমন GPT-3 এর সাথে বিভ্রান্তিকর রাজনৈতিক সামগ্রী তৈরি করা বা কোডেক্সের সাথে ম্যালওয়্যার তৈরি করা। আমাদের সনাক্তকরণ এবং প্রতিক্রিয়া প্রচেষ্টা সময়ের সাথে সাথে "বন্যের মধ্যে" সম্মুখীন অপব্যবহারের বাস্তব ঘটনার প্রতিক্রিয়া হিসাবে বিকশিত হয়েছে যা আমাদের প্রাথমিক ঝুঁকি মূল্যায়নে প্রভাব ক্রিয়াকলাপের মতো বিশিষ্টভাবে বৈশিষ্ট্যযুক্ত নয়। উদাহরণগুলির মধ্যে রয়েছে সন্দেহজনক চিকিৎসা পণ্যগুলির জন্য স্প্যাম প্রচার এবং বর্ণবাদী কল্পনাগুলির ভূমিকা পালন করা৷

ভাষার মডেল অপব্যবহার এবং এর প্রশমনের অধ্যয়নকে সমর্থন করার জন্য, আমরা ভাষা মডেল অপব্যবহার সম্পর্কে আলোচনাকে সুসংহত করার জন্য এই বছর নিরাপত্তার ঘটনাগুলির পরিসংখ্যান ভাগ করার সুযোগগুলি সক্রিয়ভাবে অন্বেষণ করছি৷

ঝুঁকি এবং প্রভাব পরিমাপের অসুবিধা

ভাষা মডেলের ঝুঁকি এবং প্রভাবের অনেক দিক পরিমাপ করা কঠিন এবং তাই একটি জবাবদিহিমূলক উপায়ে নিরীক্ষণ, হ্রাস এবং প্রকাশ করা কঠিন। আমরা ভাষার মডেল মূল্যায়নের জন্য বিদ্যমান একাডেমিক বেঞ্চমার্কগুলির সক্রিয় ব্যবহার করেছি এবং বাহ্যিক কাজের উপর বিল্ডিং চালিয়ে যেতে আগ্রহী, কিন্তু আমরা এটাও দেখেছি যে বিদ্যমান বেঞ্চমার্ক ডেটাসেটগুলি প্রায়শই আমরা অনুশীলনে যে নিরাপত্তা এবং অপব্যবহারের ঝুঁকি দেখি তার প্রতিফলন করে না।[5]

এই ধরনের সীমাবদ্ধতাগুলি এই সত্যটিকে প্রতিফলিত করে যে একাডেমিক ডেটাসেটগুলি খুব কমই তৈরি করা হয় ভাষা মডেলগুলির উত্পাদন ব্যবহার সম্পর্কে অবহিত করার জন্য, এবং এই ধরনের মডেলগুলিকে স্কেলে স্থাপন করার মাধ্যমে অর্জিত অভিজ্ঞতা থেকে উপকৃত হয় না। ফলস্বরূপ, আমরা আমাদের মডেলগুলির নিরাপত্তা পরিমাপের জন্য নতুন মূল্যায়ন ডেটাসেট এবং কাঠামো তৈরি করছি, যা আমরা শীঘ্রই প্রকাশ করার পরিকল্পনা করছি৷ বিশেষত, আমরা মডেল আউটপুটগুলিতে বিষাক্ততা পরিমাপের জন্য নতুন মূল্যায়ন মেট্রিক্স তৈরি করেছি এবং আমাদের লঙ্ঘন করে এমন সামগ্রী সনাক্ত করার জন্য ইন-হাউস ক্লাসিফায়ারও তৈরি করেছি বিষয়বস্তু নীতি, যেমন কামোত্তেজক বিষয়বস্তু, ঘৃণামূলক বক্তব্য, সহিংসতা, হয়রানি, এবং আত্ম-ক্ষতি। আমাদের প্রি-ট্রেনিং ডেটার উন্নতির জন্য এই উভয়ই পালাক্রমে লিভারেজ করা হয়েছে[6]—বিশেষত, ডেটাসেট হস্তক্ষেপের প্রভাব পরিমাপ করতে সামগ্রী এবং মূল্যায়ন মেট্রিক্স ফিল্টার করার জন্য শ্রেণীবদ্ধকারী ব্যবহার করে।

নির্ভরযোগ্যভাবে পৃথক মডেল আউটপুটগুলিকে বিভিন্ন মাত্রায় শ্রেণীবদ্ধ করা কঠিন, এবং OpenAI API এর স্কেলে তাদের সামাজিক প্রভাব পরিমাপ করা আরও কঠিন। আমরা এই ধরনের পরিমাপের জন্য একটি প্রাতিষ্ঠানিক পেশী তৈরি করার জন্য বেশ কয়েকটি অভ্যন্তরীণ অধ্যয়ন পরিচালনা করেছি, কিন্তু এটি প্রায়শই উত্তরের চেয়ে বেশি প্রশ্ন উত্থাপন করেছে।

আমরা আমাদের মডেলগুলির অর্থনৈতিক প্রভাব এবং সেই প্রভাবগুলির বিতরণকে আরও ভালভাবে বুঝতে বিশেষভাবে আগ্রহী৷ আমাদের বিশ্বাস করার উপযুক্ত কারণ রয়েছে যে বর্তমান মডেলগুলি স্থাপনের ফলে শ্রমবাজারের প্রভাবগুলি ইতিমধ্যেই নিখুঁত পদে তাৎপর্যপূর্ণ হতে পারে এবং আমাদের মডেলগুলির সক্ষমতা এবং নাগালের সাথে সাথে সেগুলি বৃদ্ধি পাবে। আমরা এখন পর্যন্ত বিভিন্ন ধরনের স্থানীয় প্রভাব সম্পর্কে শিখেছি, যার মধ্যে রয়েছে কপিরাইটিং এবং সংক্ষিপ্তকরণ (কখনও কখনও চাকরি স্থানচ্যুতি এবং সৃষ্টিতে অবদান রাখা) এর মতো বিদ্যমান কাজগুলিতে ব্যাপক উত্পাদনশীলতার উন্নতি, সেইসাথে এমন ক্ষেত্রে যেখানে API নতুন অ্যাপ্লিকেশনগুলিকে আনলক করেছে যা পূর্বে অসম্ভব ছিল। , যেমন বড় আকারের গুণগত প্রতিক্রিয়ার সংশ্লেষণ. কিন্তু আমাদের নেট ইফেক্ট সম্পর্কে ভালো ধারণার অভাব রয়েছে।

আমরা বিশ্বাস করি যে যারা শক্তিশালী AI প্রযুক্তির বিকাশ ও স্থাপনা করছেন তাদের জন্য তাদের কাজের ইতিবাচক এবং নেতিবাচক উভয় প্রভাবকে মোকাবেলা করা গুরুত্বপূর্ণ। আমরা এই পোস্টের সমাপ্তি বিভাগে সেই দিকে কিছু পদক্ষেপ নিয়ে আলোচনা করেছি।

এআই সিস্টেমের নিরাপত্তা এবং উপযোগের মধ্যে সম্পর্ক

আমাদের মাঝে সনন্দ, 2018 সালে প্রকাশিত, আমরা বলি যে আমরা "পর্যাপ্ত নিরাপত্তা সতর্কতার জন্য সময় ছাড়াই দেরী পর্যায়ের AGI বিকাশ একটি প্রতিযোগিতামূলক দৌড়ে পরিণত হওয়ার বিষয়ে উদ্বিগ্ন।" আমরা তারপর প্রকাশিত প্রতিযোগিতামূলক এআই বিকাশের একটি বিশদ বিশ্লেষণ এবং আমরা ঘনিষ্ঠভাবে অনুসরণ করেছি পরবর্তী গবেষণা একই সময়ে, ওপেনএআই এপিআই-এর মাধ্যমে এআই সিস্টেম স্থাপন করা নিরাপত্তা এবং উপযোগিতার মধ্যে সমন্বয় সম্পর্কে আমাদের বোঝাপড়াকে আরও গভীর করেছে।

উদাহরণ স্বরূপ, ডেভেলপাররা আমাদের InstructGPT মডেলগুলিকে অত্যধিক পছন্দ করে—যা ব্যবহারকারীর উদ্দেশ্যগুলি অনুসরণ করার জন্য সূক্ষ্মভাবে তৈরি[7]-বেস GPT-3 মডেলের উপরে। উল্লেখযোগ্যভাবে, যাইহোক, InstructGPT মডেলগুলি মূলত বাণিজ্যিক বিবেচনার দ্বারা অনুপ্রাণিত ছিল না, বরং দীর্ঘমেয়াদী অগ্রগতির লক্ষ্য ছিল প্রান্তিককরণ সমস্যা. ব্যবহারিক পরিভাষায়, এর মানে হল যে গ্রাহকরা, সম্ভবত আশ্চর্যজনক নয়, এমন মডেলগুলিকে বেশি পছন্দ করে যেগুলি কাজ করে থাকে এবং ব্যবহারকারীর অভিপ্রায় বুঝতে পারে এবং এমন মডেলগুলিকে পছন্দ করে যেগুলি ক্ষতিকারক বা ভুল আউটপুট তৈরি করার সম্ভাবনা কম৷[8] অন্যান্য মৌলিক গবেষণা, যেমন আমাদের কাজ তথ্যের সুবিধা আরও সত্যতার সাথে প্রশ্নের উত্তর দেওয়ার জন্য ইন্টারনেট থেকে পুনরুদ্ধার করা হয়েছে, এছাড়াও এআই সিস্টেমের বাণিজ্যিক উপযোগিতা উন্নত করার সম্ভাবনা রয়েছে।[9]

এই সমন্বয় সবসময় ঘটবে না. উদাহরণস্বরূপ, আরও শক্তিশালী সিস্টেমগুলি প্রায়শই মূল্যায়ন করতে এবং কার্যকরভাবে সারিবদ্ধ করতে আরও বেশি সময় নেয়, লাভের জন্য তাত্ক্ষণিক সুযোগের পূর্বাভাস দেয়। এবং নেতিবাচক বাহ্যিকতার কারণে ব্যবহারকারীর ইউটিলিটি এবং সমাজের সাথে সারিবদ্ধ নাও হতে পারে—সম্পূর্ণ স্বয়ংক্রিয় কপিরাইটিং বিবেচনা করুন, যা বিষয়বস্তু নির্মাতাদের জন্য উপকারী কিন্তু সামগ্রিকভাবে তথ্য বাস্তুতন্ত্রের জন্য খারাপ।

নিরাপত্তা এবং ইউটিলিটির মধ্যে দৃঢ় সমন্বয়ের ঘটনাগুলি দেখতে উত্সাহিত করা হয়, কিন্তু আমরা নিরাপত্তা এবং নীতি গবেষণায় বিনিয়োগ করতে প্রতিশ্রুতিবদ্ধ এমনকি যখন তারা বাণিজ্যিক উপযোগের সাথে ব্যবসা করে।


আমরা নিরাপত্তা এবং নীতি গবেষণায় বিনিয়োগ করতে প্রতিশ্রুতিবদ্ধ এমনকি যখন তারা বাণিজ্যিক উপযোগের বিরুদ্ধে ব্যবসা করে।

জড়িত পেতে উপায়

উপরের প্রতিটি পাঠ তার নিজস্ব নতুন প্রশ্ন উত্থাপন করে। কি ধরনের নিরাপত্তা ঘটনা আমরা এখনও সনাক্ত করতে এবং অনুমান করতে ব্যর্থ হতে পারে? কীভাবে আমরা ঝুঁকি এবং প্রভাবগুলিকে আরও ভালভাবে পরিমাপ করতে পারি? কীভাবে আমরা আমাদের মডেলগুলির নিরাপত্তা এবং উপযোগিতা উভয়ের উন্নতি চালিয়ে যেতে পারি এবং যখন এই দুটির মধ্যে ট্রেডঅফ নেভিগেট করতে পারি?

ভাষা মডেল স্থাপনকারী অন্যান্য কোম্পানিগুলির সাথে আমরা সক্রিয়ভাবে এই বিষয়গুলির অনেকগুলি নিয়ে আলোচনা করছি৷ কিন্তু আমরা এটাও জানি যে কোনও সংস্থা বা সংস্থার সেটের কাছেই সমস্ত উত্তর নেই, এবং আমরা এমন কয়েকটি উপায় হাইলাইট করতে চাই যাতে পাঠকরা আমাদের অত্যাধুনিক AI সিস্টেমের স্থাপনা বোঝার এবং গঠনে আরও জড়িত হতে পারে।

প্রথমত, অত্যাধুনিক এআই সিস্টেমের সাথে ইন্টারঅ্যাক্ট করার অভিজ্ঞতা অর্জন করা তাদের ক্ষমতা এবং প্রভাব বোঝার জন্য অমূল্য। অপব্যবহারের কার্যকরভাবে সনাক্তকরণ এবং প্রতিক্রিয়া জানাতে আমাদের ক্ষমতার উপর আরও আত্মবিশ্বাস তৈরি করার পরে আমরা সম্প্রতি API অপেক্ষা তালিকা শেষ করেছি। মধ্যে ব্যক্তি সমর্থিত দেশ এবং অঞ্চল সাইন আপ করে দ্রুত OpenAI API-তে অ্যাক্সেস পেতে পারেন এখানে.

দ্বিতীয়ত, গবেষকরা আমাদের বিশেষ আগ্রহের বিষয় যেমন পক্ষপাত এবং অপব্যবহার এবং যারা আর্থিক সহায়তা থেকে উপকৃত হবেন, তারা ভর্তুকিযুক্ত API ক্রেডিটগুলির জন্য আবেদন করতে পারেন এই তালিকা. এই বহুমুখী সিস্টেম সম্পর্কে আমাদের বোধগম্যতা, সেইসাথে বৃহত্তর জনসাধারণের বোঝাপড়ার জন্য বাহ্যিক গবেষণা গুরুত্বপূর্ণ।

অবশেষে, আজ আমরা একটি প্রকাশ করছি গবেষণা এজেন্ডা আমাদের কোডেক্স মডেলের পরিবারের সাথে যুক্ত শ্রমবাজারের প্রভাবগুলি অন্বেষণ করা এবং এই গবেষণাটি চালানোর জন্য বহিরাগত সহযোগীদের জন্য একটি আহ্বান৷ যথাযথ নীতিগত হস্তক্ষেপ জানাতে এবং শেষ পর্যন্ত আমাদের চিন্তাভাবনাকে কোড জেনারেশন থেকে অন্যান্য পদ্ধতিতে প্রসারিত করার জন্য আমাদের প্রযুক্তির প্রভাবগুলি অধ্যয়ন করার জন্য স্বাধীন গবেষকদের সাথে কাজ করতে আমরা উত্তেজিত।

আপনি যদি অত্যাধুনিক এআই প্রযুক্তিগুলিকে দায়িত্বের সাথে মোতায়েন করতে কাজ করতে আগ্রহী হন, প্রয়োগ করা OpenAI এ কাজ করতে!


স্বীকার

ধন্যবাদ লিলিয়ান ওয়েং, রোজি ক্যাম্পবেল, আনা মাকাঞ্জু, বব ম্যাকগ্রু, হান্না ওং, রায়ান লো, স্টিভ ডাউলিং, মিরা মুরাতি, স্যাম অল্টম্যান, গ্রেগ ব্রকম্যান, ইলিয়া সুটস্কেভার, পার্সি লিয়াং, পিটার ওয়েলিন্ডার, ইথান পেরেজ, এলি ইভান্স, হেলেন এনগো, হেলেন টোনার, জাস্টিন জে ওয়াং, জ্যাক ক্লার্ক, ঋষি বোমাসানি, গিরিশ সাস্ত্রি, সারা শোকার, ম্যাট নাইট, বিয়াঙ্কা মার্টিন, বব রটস্টেড, লামা আহমেদ, টোকি শেরবাকভ, এবং অন্যান্যরা এই পোস্ট এবং সম্পর্কিত কাজের প্রতিক্রিয়া দেওয়ার জন্য।


পাদটিকা

  1. এই পোস্টটি একটি API-এর মাধ্যমে ভাষা মডেল স্থাপনের জন্য আমাদের পদ্ধতির উপর ভিত্তি করে তৈরি করা হয়েছে, এবং যেমন বর্ণনা করা পাঠ এবং প্রশমনগুলি API-ভিত্তিক স্থাপনা অনুসরণকারীদের জন্য সবচেয়ে প্রাসঙ্গিক। যাইহোক, আমরা আশা করি যে কিছু আলোচনা তাদের জন্য প্রাসঙ্গিক হবে যারা ভাষা মডেল ব্যবহার করে প্রথম-পক্ষের অ্যাপ্লিকেশন তৈরি করে এবং যারা ভাষা মডেলের ওপেন সোর্স প্রকাশের কথা বিবেচনা করে। ↩︎

  2. এই পোস্টের উদ্দেশ্য হল আমাদের পন্থা থেকে শিক্ষাগুলি ব্যাখ্যা করা এবং শেয়ার করা, সব অভিনেতাদের অবশ্যই একই পন্থা অবলম্বন করা উচিত বা একই পদ্ধতি সমস্ত সম্ভাব্য AI সিস্টেমের ক্ষেত্রে প্রযোজ্য। বিভিন্ন স্থাপনার পদ্ধতির সাথে সম্পর্কিত সুবিধা এবং খরচ রয়েছে, বিভিন্ন মডেল স্থাপনের আগে অধ্যয়ন থেকে কমবেশি উপকৃত হবে এবং কিছু ক্ষেত্রে এটি বিভিন্ন অভিনেতাদের দ্বারা অনুসরণ করা স্বতন্ত্র স্থাপনার পথের জন্য মূল্যবান হতে পারে। ↩︎

  3. এই কর্মশালার উপর আরো বিস্তারিত এটির উপর ভিত্তি করে আসন্ন প্রকাশনায় অন্তর্ভুক্ত করা হবে। ↩︎

  4. অপব্যবহারের প্রতিক্রিয়ায় আমরা যে প্রশমনের উপর জোর দিই তাও বিকশিত হয়েছে। উদাহরণস্বরূপ, আমরা প্রাথমিকভাবে একটি হুমকি ভেক্টর হিসাবে দীর্ঘ ফর্ম টেক্সট জেনারেশনের উপর ফোকাস করেছি, প্রভাব ক্রিয়াকলাপের পূর্বের ক্ষেত্রে দেওয়া হয়েছে যাতে লোকেরা ম্যানুয়ালি দীর্ঘ ফর্ম বিভ্রান্তিকর বিষয়বস্তু লিখতে জড়িত ছিল। এই জোর দেওয়া, আমরা উৎপন্ন পাঠ্যের জন্য সর্বাধিক আউটপুট দৈর্ঘ্য সেট করি। দীর্ঘ ফর্ম জেনারেশনের একটি পাইলট স্টাডির উপর ভিত্তি করে, যাইহোক, আমরা দেখেছি যে নীতি লঙ্ঘনের উপর আউটপুট বিধিনিষেধ খুব কম প্রভাব ফেলেছিল—আমরা এর পরিবর্তে বিশ্বাস করতে পেরেছি যে বিভ্রান্তিকর বিষয়বস্তুতে সংক্ষিপ্ত আকারের বিষয়বস্তু প্রসারিত করা বা বৃদ্ধি করা আরও বেশি ঝুঁকি হতে পারে। ↩︎

  5. বিদ্যমান ডেটাসেটের সীমাবদ্ধতার উদাহরণ, বাস্তব ভাষার মডেল আউটপুটগুলির নিরাপত্তার সামগ্রিক মূল্যায়নের জন্য অনুশীলনকারীদের দৃষ্টিকোণ থেকে, নিম্নলিখিতগুলি অন্তর্ভুক্ত করে: একটি অত্যধিক সংকীর্ণ ফোকাস (যেমন, শুধুমাত্র পেশাগত লিঙ্গ পক্ষপাত পরিমাপ করা), একটি অত্যধিক বিস্তৃত ফোকাস (যেমন, "বিষাক্ততা" এর ছত্রছায়ায় সবকিছু পরিমাপ করা), ব্যবহার এবং প্রসঙ্গের সুনির্দিষ্ট বিষয়গুলিকে বিমূর্ত করার প্রবণতা, পরিমাপ করতে ব্যর্থতা সৃজক ভাষা মডেল ব্যবহারের মাত্রা (যেমন, একাধিক পছন্দের শৈলী ব্যবহার করে), প্রম্পট যা সাধারণত বাস্তব ভাষার মডেল ব্যবহারের ক্ষেত্রে ব্যবহৃত হয় সেগুলি থেকে স্টাইলিস্টিকভাবে আলাদা, অনুশীলনে গুরুত্বপূর্ণ নিরাপত্তার মাত্রাগুলি ক্যাপচার করে না (যেমন, একটি আউটপুট অনুসরণ করা বা নিরাপত্তা উপেক্ষা করা- নির্দেশে অনুপ্রাণিত সীমাবদ্ধতা), বা আউটপুট ধরনের ক্যাপচার না করাকে আমরা অপব্যবহারের (যেমন, কামুক বিষয়বস্তু) সাথে সম্পর্কযুক্ত বলে খুঁজে পেয়েছি। ↩︎

  6. যদিও আমাদের প্রচেষ্টাগুলি বিদ্যমান বেঞ্চমার্ক এবং আমাদের নিজস্ব মডেলগুলিতে সীমাবদ্ধতাগুলিকে মোকাবেলার দিকে বিশেষভাবে ভিত্তিক, আমরা এটাও স্বীকার করি যে ক্লাসিফায়ার-ভিত্তিক ডেটা পরিস্রাবণের মতো আমরা যে পদ্ধতিগুলি ব্যবহার করি তার সীমাবদ্ধতা রয়েছে৷ উদাহরণস্বরূপ, পরিস্রাবণের মাধ্যমে আমরা যে বিষয়বস্তুর ক্ষেত্রগুলি সনাক্ত করতে চাই তা কার্যকরীভাবে সংজ্ঞায়িত করা চ্যালেঞ্জিং এবং পরিস্রাবণ নিজেই ক্ষতিকারক পক্ষপাতের পরিচয় দিতে পারে। উপরন্তু, বিষাক্ত ডেটার লেবেলিং এই কাজের একটি গুরুত্বপূর্ণ উপাদান এবং এই লেবেলারদের মানসিক স্বাস্থ্য নিশ্চিত করা একটি শিল্প-ব্যাপী চ্যালেঞ্জ। ↩︎

  7. আমাদের API-এর প্রাসঙ্গিক "ব্যবহারকারী" হতে পারে একজন ডেভেলপার একটি অ্যাপ্লিকেশন তৈরি করছেন বা প্রসঙ্গের উপর নির্ভর করে এমন একটি অ্যাপ্লিকেশনের সাথে ইন্টারঅ্যাক্ট করছেন একজন শেষ ব্যবহারকারী। আমাদের সারিবদ্ধ মডেলগুলি যে মানগুলি প্রতিফলিত করে সেগুলি সম্পর্কে গভীর প্রশ্ন রয়েছে এবং আমরা আশা করি যে ভাষা মডেলগুলিকে আরও সহায়ক, আরও সত্য এবং কম ক্ষতিকারক হওয়ার জন্য সারিবদ্ধ করার সময় সম্ভাব্য ব্যবহারকারীদের এবং প্রতিযোগিতামূলক উদ্দেশ্যগুলির বিস্তৃত পরিসরের মানগুলির মধ্যে কীভাবে ভারসাম্য বজায় রাখা যায় সে সম্পর্কে আমরা আরও সূক্ষ্ম ধারণা তৈরি করতে চাই৷ ↩︎

  8. আরও সারিবদ্ধ মডেলগুলির আরও ব্যবহারিক সুবিধা রয়েছে যেমন "প্রম্পট ইঞ্জিনিয়ারিং" এর প্রয়োজনীয়তা হ্রাস করা (মডেলটিকে সঠিক দিকে নিয়ে যাওয়ার জন্য পছন্দসই আচরণের উদাহরণ প্রদান করা), মডেলের প্রসঙ্গ উইন্ডোতে স্থান সংরক্ষণ করা যা অন্যান্য উদ্দেশ্যে ব্যবহার করা যেতে পারে। ↩︎

  9. গবেষণার বাইরে, আমরা দেখেছি যে অন্যান্য নিরাপত্তা-প্রণোদিত হস্তক্ষেপ কখনও কখনও গ্রাহকদের জন্য অপ্রত্যাশিত সুবিধা দেয়। উদাহরণস্বরূপ, স্প্যাম বা বিভ্রান্তিকর বিষয়বস্তু রোধ করার উদ্দেশ্যে রেট সীমা গ্রাহকদের খরচ নিয়ন্ত্রণ করতে সাহায্য করে। ↩︎

সময় স্ট্যাম্প:

থেকে আরো OpenAI