প্রতিষ্ঠানের জন্য কোডিং সঙ্গী কাস্টমাইজ করা | আমাজন ওয়েব সার্ভিসেস

প্রতিষ্ঠানের জন্য কোডিং সঙ্গী কাস্টমাইজ করা | আমাজন ওয়েব সার্ভিসেস

প্রতিষ্ঠানের জন্য কোডিং সঙ্গী কাস্টমাইজ করা | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

কোডিং সঙ্গীদের জন্য জেনারেটিভ এআই মডেলগুলি বেশিরভাগই সর্বজনীনভাবে উপলব্ধ সোর্স কোড এবং প্রাকৃতিক ভাষার পাঠ্যের উপর প্রশিক্ষিত। যদিও প্রশিক্ষণ কর্পাসের বড় আকার মডেলগুলিকে সাধারণত ব্যবহৃত কার্যকারিতার জন্য কোড তৈরি করতে সক্ষম করে, এই মডেলগুলি ব্যক্তিগত সংগ্রহস্থলের কোড এবং তাদের সাথে বিকাশ করার সময় প্রয়োগ করা হয় এমন কোডিং শৈলী সম্পর্কে অবগত নয়। ফলস্বরূপ, উত্পন্ন পরামর্শগুলি একটি অভ্যন্তরীণ সংগ্রহস্থলে অন্তর্ভুক্তির জন্য উপযুক্ত হওয়ার আগে পুনরায় লেখার প্রয়োজন হতে পারে।

আমরা এই ব্যবধানটি পূরণ করতে পারি এবং পাবলিক কোডে প্রশিক্ষিত ভাষা মডেলের উপরে ব্যক্তিগত সংগ্রহস্থল থেকে কোড জ্ঞান এম্বেড করে অতিরিক্ত ম্যানুয়াল সম্পাদনা কমাতে পারি। এই কারণেই আমরা এর জন্য একটি কাস্টমাইজেশন ক্ষমতা তৈরি করেছি আমাজন কোড হুইস্পার. এই পোস্টে, আমরা আপনাকে পুনরুদ্ধার অগমেন্টেড জেনারেশন এবং ফাইন-টিউনিং ব্যবহার করে কোডিং সঙ্গীদের কাস্টমাইজ করার দুটি সম্ভাব্য উপায় দেখাই।

CodeWhisperer কাস্টমাইজেশন ক্ষমতার সাথে আমাদের লক্ষ্য হল সংস্থাগুলিকে তাদের ব্যক্তিগত সংগ্রহস্থল এবং লাইব্রেরিগুলি ব্যবহার করে CodeWhisperer মডেলটি তৈরি করতে সক্ষম করা যাতে সংগঠন-নির্দিষ্ট কোড সুপারিশ তৈরি করা যায় যা সময় বাঁচায়, সাংগঠনিক শৈলী এবং নিয়মাবলী অনুসরণ করে এবং বাগ বা সুরক্ষা দুর্বলতাগুলি এড়ায়৷ এটি এন্টারপ্রাইজ সফ্টওয়্যার বিকাশকে উপকৃত করে এবং নিম্নলিখিত চ্যালেঞ্জগুলি অতিক্রম করতে সহায়তা করে:

  1. অভ্যন্তরীণ লাইব্রেরি এবং API-এর জন্য স্পারস ডকুমেন্টেশন বা তথ্য যা ডেভেলপারদের ব্যবহার প্রতিলিপি করার জন্য পূর্বে লিখিত কোড পরীক্ষা করার জন্য সময় ব্যয় করতে বাধ্য করে।
  2. এন্টারপ্রাইজ-নির্দিষ্ট কোডিং অনুশীলন, শৈলী এবং নিদর্শন বাস্তবায়নে সচেতনতা এবং ধারাবাহিকতার অভাব।
  3. ডেভেলপারদের দ্বারা অবহেলিত কোড এবং API এর অসাবধানতাবশত ব্যবহার।

অতিরিক্ত প্রশিক্ষণের জন্য অভ্যন্তরীণ কোড সংগ্রহস্থলগুলি ব্যবহার করে যেগুলি ইতিমধ্যে কোড পর্যালোচনার মধ্য দিয়ে গেছে, ভাষা মডেলটি অভ্যন্তরীণ API এবং কোড ব্লকগুলির ব্যবহার দেখাতে পারে যা সমস্যাগুলির পূর্ববর্তী তালিকাকে অতিক্রম করে। যেহেতু রেফারেন্স কোডটি ইতিমধ্যে পর্যালোচনা করা হয়েছে এবং গ্রাহকের উচ্চ দণ্ড পূরণ করে, বাগ বা নিরাপত্তা দুর্বলতা প্রবর্তনের সম্ভাবনাও ন্যূনতম হয়৷ এবং, কাস্টমাইজেশনের জন্য ব্যবহৃত সোর্স ফাইলগুলি সাবধানতার সাথে নির্বাচন করে, সংস্থাগুলি অপ্রচলিত কোডের ব্যবহার কমাতে পারে।

চ্যালেঞ্জ ডিজাইন

একটি প্রতিষ্ঠানের ব্যক্তিগত সংগ্রহস্থলের উপর ভিত্তি করে কোড পরামর্শ কাস্টমাইজ করার অনেক আকর্ষণীয় ডিজাইন চ্যালেঞ্জ রয়েছে। সারফেস কোড সাজেশনে বৃহৎ ভাষা মডেল (LLMs) মোতায়েন করা টোকেনের সংখ্যার উপর ভিত্তি করে অনুমানের কারণে প্রাপ্যতা এবং পরিবর্তনশীল খরচের জন্য নির্দিষ্ট খরচ রয়েছে। অতএব, প্রতিটি গ্রাহকের জন্য পৃথক কাস্টমাইজেশন থাকা এবং তাদের পৃথকভাবে হোস্ট করা, যার ফলে অতিরিক্ত স্থির খরচ বহন করা নিষেধমূলকভাবে ব্যয়বহুল হতে পারে। অন্যদিকে, একই সিস্টেমে একই সাথে একাধিক কাস্টমাইজেশন থাকার ফলে প্রতিটি গ্রাহকের জন্য মালিকানা কোড আলাদা করার জন্য বহু-ভাড়াটে পরিকাঠামোর প্রয়োজন হয়। উপরন্তু, কাস্টমাইজেশন ক্ষমতা বিভিন্ন মেট্রিক্স ব্যবহার করে অভ্যন্তরীণ সংগ্রহস্থল থেকে উপযুক্ত প্রশিক্ষণ উপসেট নির্বাচন সক্ষম করতে নবগুলিকে পৃষ্ঠ করা উচিত (উদাহরণস্বরূপ, কম বাগ বা কোডের ইতিহাস সহ ফাইল যা সম্প্রতি সংগ্রহস্থলে প্রতিশ্রুতিবদ্ধ হয়েছে)। এই মেট্রিক্সের উপর ভিত্তি করে কোড নির্বাচন করে, কাস্টমাইজেশনকে উচ্চ-মানের কোড ব্যবহার করে প্রশিক্ষণ দেওয়া যেতে পারে যা কোড সাজেশনের গুণমান উন্নত করতে পারে। অবশেষে, ক্রমাগত বিকশিত কোড রিপোজিটরির সাথেও, কাস্টমাইজেশনের সাথে যুক্ত খরচ ন্যূনতম হওয়া উচিত যাতে এন্টারপ্রাইজগুলিকে বিকাশকারীর উত্পাদনশীলতা বৃদ্ধি থেকে খরচ সঞ্চয় করতে সহায়তা করে।

কাস্টমাইজেশন তৈরির একটি বেসলাইন পদ্ধতি হতে পারে মডেলটিকে একটি একক প্রশিক্ষণ কর্পাসে প্রি-ট্রেন করা যা বিদ্যমান (পাবলিক) প্রাক-প্রশিক্ষণ ডেটাসেট সহ (ব্যক্তিগত) এন্টারপ্রাইজ কোডের সমন্বয়ে গঠিত। যদিও এই পদ্ধতিটি অনুশীলনে কাজ করে, এর জন্য প্রতিটি এন্টারপ্রাইজের জন্য পাবলিক ডেটাসেট ব্যবহার করে (অপ্রয়োজনীয়) পৃথক প্রশিক্ষণের প্রয়োজন হয়। এটি প্রতিটি গ্রাহকের জন্য একটি কাস্টমাইজড মডেল হোস্ট করার সাথে যুক্ত অপ্রয়োজনীয় স্থাপনার খরচ প্রয়োজন যা শুধুমাত্র সেই গ্রাহকের কাছ থেকে উদ্ভূত ক্লায়েন্ট অনুরোধগুলিকে পরিবেশন করে। পাবলিক এবং প্রাইভেট কোডের প্রশিক্ষণকে ডিকপল করে এবং মাল্টি-টেন্যান্ট সিস্টেমে কাস্টমাইজেশন স্থাপন করে, এই অপ্রয়োজনীয় খরচগুলি এড়ানো যেতে পারে।

কীভাবে কাস্টমাইজ করা যায়

একটি উচ্চ স্তরে, দুটি ধরণের সম্ভাব্য কাস্টমাইজেশন কৌশল রয়েছে: পুনরুদ্ধার-অগমেন্টেড জেনারেশন (RAG) এবং ফাইন-টিউনিং (FT)।

  • পুনরুদ্ধার-বর্ধিত প্রজন্ম: RAG একটি রিপোজিটরির মধ্যে কোডের ম্যাচিং টুকরা খুঁজে পায় যা একটি প্রদত্ত কোড খণ্ডের অনুরূপ (উদাহরণস্বরূপ, কোড যা অবিলম্বে IDE-তে কার্সারের পূর্বে থাকে) এবং এই মিলিত কোড স্নিপেটগুলির সাথে LLM-কে জিজ্ঞাসা করার জন্য ব্যবহৃত প্রম্পটকে বৃদ্ধি করে। এটি মডেলটিকে আরও প্রাসঙ্গিক কোড তৈরি করতে সাহায্য করার জন্য প্রম্পটকে সমৃদ্ধ করে। এই লাইনগুলির সাথে সাহিত্যে অন্বেষণ করা কয়েকটি কৌশল রয়েছে। দেখা জ্ঞান-নিবিড় এনএলপি টাস্কের জন্য পুনরুদ্ধার-অগমেন্টেড জেনারেশন, তা REALM-, kNN-LM এবং বিপরীতমুখী.

প্রতিষ্ঠানের জন্য কোডিং সঙ্গী কাস্টমাইজ করা | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

  • ফাইন-টিউনিং: FT একটি প্রাক-প্রশিক্ষিত এলএলএম নেয় এবং উপযুক্ত সংগ্রহস্থলের জন্য এটিকে খাপ খাইয়ে নেওয়ার জন্য একটি নির্দিষ্ট, ছোট কোডবেস (প্রিট্রেইনিং ডেটাসেটের তুলনায়) এর উপর আরও প্রশিক্ষণ দেয়। ফাইন-টিউনিং এই প্রশিক্ষণের উপর ভিত্তি করে এলএলএম-এর ওজনকে সামঞ্জস্য করে, এটিকে সংস্থার অনন্য চাহিদার সাথে আরও উপযোগী করে তোলে।

এলএলএম-ভিত্তিক কাস্টমাইজেশনের কর্মক্ষমতা বাড়ানোর জন্য RAG এবং ফাইন-টিউনিং উভয়ই শক্তিশালী টুল। কম প্রশিক্ষণ জটিলতা এবং খরচ সহ RAG দ্রুত প্রাইভেট লাইব্রেরি বা API-এর সাথে মানিয়ে নিতে পারে। যাইহোক, প্রম্পটে পুনরুদ্ধার করা কোড স্নিপেটগুলি অনুসন্ধান করা এবং বৃদ্ধি করা রানটাইমে লেটেন্সি বাড়ায়। পরিবর্তে, সূক্ষ্ম-টিউনিংয়ের জন্য প্রেক্ষাপটের কোনো বৃদ্ধির প্রয়োজন হয় না কারণ মডেলটি ইতিমধ্যেই ব্যক্তিগত লাইব্রেরি এবং API-তে প্রশিক্ষিত। যাইহোক, এটি মডেল পরিবেশন করার ক্ষেত্রে উচ্চতর প্রশিক্ষণের খরচ এবং জটিলতার দিকে নিয়ে যায়, যখন একাধিক কাস্টম মডেলকে একাধিক এন্টারপ্রাইজ গ্রাহকদের মধ্যে সমর্থন করতে হয়। যেহেতু আমরা পরে আলোচনা করব, এই উদ্বেগগুলিকে আরও অপ্টিমাইজ করার মাধ্যমে প্রতিকার করা যেতে পারে৷

পুনরুদ্ধার বর্ধিত প্রজন্ম

RAG এর সাথে জড়িত কয়েকটি ধাপ রয়েছে:

ইন্ডেক্সিং

প্রশাসক দ্বারা ইনপুট হিসাবে একটি ব্যক্তিগত সংগ্রহস্থল দেওয়া, একটি সূচক তৈরি করা হয় সোর্স কোড ফাইলগুলিকে খণ্ডে বিভক্ত করে। সহজভাবে বললে, খণ্ড করা কোড স্নিপেটগুলিকে হজমযোগ্য টুকরোগুলিতে পরিণত করে যা মডেলের জন্য সবচেয়ে তথ্যপূর্ণ হতে পারে এবং প্রসঙ্গ দেওয়া হলে পুনরুদ্ধার করা সহজ। একটি খণ্ডের আকার এবং এটি একটি ফাইল থেকে কীভাবে বের করা হয় তা ডিজাইনের পছন্দ যা চূড়ান্ত ফলাফলকে প্রভাবিত করে। উদাহরণস্বরূপ, খণ্ডগুলিকে কোডের লাইনের উপর ভিত্তি করে বা সিনট্যাকটিক ব্লকের উপর ভিত্তি করে বিভক্ত করা যেতে পারে, ইত্যাদি।

অ্যাডমিনিস্ট্রেটর ওয়ার্কফ্লো

প্রতিষ্ঠানের জন্য কোডিং সঙ্গী কাস্টমাইজ করা | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.
প্রাসঙ্গিক অনুসন্ধান

কার্সারের উপরে কোডের কয়েকটি লাইনের উপর ভিত্তি করে সূচীকৃত কোড স্নিপেটগুলির একটি সেট অনুসন্ধান করুন এবং প্রাসঙ্গিক কোড স্নিপেটগুলি পুনরুদ্ধার করুন। এই পুনরুদ্ধার বিভিন্ন অ্যালগরিদম ব্যবহার করে ঘটতে পারে. এই পছন্দ অন্তর্ভুক্ত হতে পারে:

  • শব্দের ব্যাগ (BM25) - একটি ব্যাগ-অফ-শব্দ পুনরুদ্ধার ফাংশন যা কোয়েরি শব্দের ফ্রিকোয়েন্সি এবং কোড স্নিপেট দৈর্ঘ্যের উপর ভিত্তি করে কোড স্নিপেটগুলির একটি সেটকে স্থান দেয়।

BM25-ভিত্তিক পুনরুদ্ধার

প্রতিষ্ঠানের জন্য কোডিং সঙ্গী কাস্টমাইজ করা | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

নিচের চিত্রটি ব্যাখ্যা করে কিভাবে BM25 কাজ করে। BM25 ব্যবহার করার জন্য, প্রথমে একটি উল্টানো সূচক তৈরি করা হয়। এটি এমন একটি ডেটা স্ট্রাকচার যা কোড স্নিপেটগুলির মধ্যে বিভিন্ন পদকে ম্যাপ করে যেগুলি সেই পদগুলিতে আসে৷ অনুসন্ধানের সময়, আমরা কোয়েরিতে উপস্থিত পদগুলির উপর ভিত্তি করে কোড স্নিপেটগুলি সন্ধান করি এবং ফ্রিকোয়েন্সির উপর ভিত্তি করে সেগুলিকে স্কোর করি৷

শব্দার্থিক পুনরুদ্ধার

প্রতিষ্ঠানের জন্য কোডিং সঙ্গী কাস্টমাইজ করা | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

BM25 আভিধানিক মিলের উপর দৃষ্টি নিবদ্ধ করে। অতএব, "অ্যাড" এর পরিবর্তে "মুছে ফেলুন" ক্যোয়ারির শর্তাবলীর উপর ভিত্তি করে BM25 স্কোর পরিবর্তন নাও হতে পারে, তবে পুনরুদ্ধারকৃত কার্যকারিতা যা প্রয়োজন তার বিপরীত হতে পারে। বিপরীতে, শব্দার্থিক পুনরুদ্ধার কোড স্নিপেটের কার্যকারিতার উপর ফোকাস করে যদিও পরিবর্তনশীল এবং API নামগুলি ভিন্ন হতে পারে। সাধারণত, BM25 এবং শব্দার্থিক পুনরুদ্ধারের সংমিশ্রণ আরও ভাল ফলাফল প্রদানের জন্য একসাথে ভালভাবে কাজ করতে পারে।

বর্ধিত অনুমান

যখন বিকাশকারীরা কোড লেখেন, তখন তাদের বিদ্যমান প্রোগ্রামটি একটি প্রশ্ন তৈরি করতে ব্যবহৃত হয় যা পুনরুদ্ধার সূচকে পাঠানো হয়। উপরে আলোচিত কৌশলগুলির একটি ব্যবহার করে একাধিক কোড স্নিপেট পুনরুদ্ধার করার পরে, আমরা সেগুলিকে মূল প্রম্পটে প্রিপেন্ড করি। এখানে অনেকগুলি ডিজাইনের পছন্দ রয়েছে, যার মধ্যে রয়েছে স্নিপেটের সংখ্যা পুনরুদ্ধার করা, প্রম্পটে স্নিপেটগুলির আপেক্ষিক স্থান নির্ধারণ এবং স্নিপেটের আকার। চূড়ান্ত নকশা পছন্দ প্রাথমিকভাবে অন্তর্নিহিত ভাষা মডেলের সাথে বিভিন্ন পদ্ধতির অন্বেষণ করে অভিজ্ঞতামূলক পর্যবেক্ষণ দ্বারা চালিত হয় এবং পদ্ধতির যথার্থতা নির্ধারণে মূল ভূমিকা পালন করে। প্রত্যাবর্তিত খণ্ড থেকে বিষয়বস্তু এবং মূল কোড একত্রিত করা হয় এবং কাস্টমাইজড কোড পরামর্শ পেতে মডেলে পাঠানো হয়।

বিকাশকারী কর্মপ্রবাহ

প্রতিষ্ঠানের জন্য কোডিং সঙ্গী কাস্টমাইজ করা | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

ফাইন টিউনিং:

ফাইন-টিউনিং একটি ভাষা মডেল জন্য করা হয় প্রশিক্ষণ স্থানান্তর যেখানে একটি প্রাক-প্রশিক্ষিত মডেলের ওজন নতুন ডেটার উপর প্রশিক্ষিত হয়। লক্ষ্য হল একটি বৃহৎ কর্পাসে ইতিমধ্যে প্রশিক্ষিত একটি মডেল থেকে উপযুক্ত জ্ঞান ধরে রাখা এবং নতুন কর্পাস থেকে নতুন জ্ঞানকে পরিমার্জন করা, প্রতিস্থাপন করা বা যোগ করা - আমাদের ক্ষেত্রে, একটি নতুন কোডবেস। শুধু একটি নতুন কোডবেস উপর প্রশিক্ষণ বাড়ে বিপর্যয়কর ভুলে যাওয়া. উদাহরণস্বরূপ, ভাষা মডেল হতে পারে নিরাপত্তা সম্পর্কে এর জ্ঞান "ভুলে যাও" অথবা APIs যা আজ পর্যন্ত এন্টারপ্রাইজ কোডবেসে খুব কম ব্যবহার করা হয়েছে। মত কৌশল বিভিন্ন আছে অভিজ্ঞতা রিপ্লে, জহর, এবং পিপি-টিএফ যারা এই চ্যালেঞ্জ মোকাবেলা করতে নিযুক্ত করা হয়.

ফাইন টিউনিং

প্রতিষ্ঠানের জন্য কোডিং সঙ্গী কাস্টমাইজ করা | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

ফাইন-টিউনিংয়ের দুটি উপায় রয়েছে। একটি পদ্ধতি হল মডেলটিকে ফাইন-টিউন করার জন্য প্রম্পটকে বৃদ্ধি না করে অতিরিক্ত ডেটা ব্যবহার করা। আরেকটি পদ্ধতি হল প্রাসঙ্গিক কোড পরামর্শ পুনরুদ্ধার করে সূক্ষ্ম-টিউনিংয়ের সময় প্রম্পট বৃদ্ধি করা। এটি পুনরুদ্ধার করা কোড স্নিপেটগুলির উপস্থিতিতে আরও ভাল পরামর্শ প্রদানের মডেলের ক্ষমতা উন্নত করতে সহায়তা করে৷ মডেলটিকে প্রশিক্ষিত করার পর উদাহরণের একটি সংকলনের ভিত্তিতে মূল্যায়ন করা হয়। পরবর্তীকালে, কাস্টমাইজড মডেলটি মোতায়েন করা হয় এবং কোড পরামর্শ তৈরির জন্য ব্যবহার করা হয়।

প্রাইভেট রিপোজিটরিতে কোড জেনারেট করার জন্য ডেডিকেটেড LLM ব্যবহার করার সুবিধা থাকা সত্ত্বেও, খরচ ছোট এবং মাঝারি আকারের প্রতিষ্ঠানের জন্য নিষিদ্ধ হতে পারে। এর কারণ হল ডেডিকেটেড কম্পিউট রিসোর্স প্রয়োজন যদিও সেগুলি দলের আকারের কারণে কম ব্যবহার করা যেতে পারে। খরচ দক্ষতা অর্জনের একটি উপায় হল একই কম্পিউটে একাধিক মডেল পরিবেশন করা (উদাহরণস্বরূপ, সেজমেকার মাল্টি-টেনেন্সি) যাইহোক, ল্যাংগুয়েজ মডেলের লেটেন্সি এবং থ্রুপুট সীমাবদ্ধতাগুলি পরিচালনা করার জন্য একাধিক অঞ্চল জুড়ে এক বা একাধিক ডেডিকেটেড জিপিইউ প্রয়োজন। তাই, প্রতিটি জিপিইউতে সম্পূর্ণ মডেল হোস্টিংয়ের মাল্টি-টেনেন্সি অসম্ভাব্য।

আমরা ছোট ব্যবহার করে একই কম্পিউটে একাধিক গ্রাহককে পরিবেশন করে এই সমস্যাটি কাটিয়ে উঠতে পারি অ্যাডাপ্টার এলএলএম পর্যন্ত। প্যারামিটার-দক্ষ ফাইন-টিউনিং (PEFT) কৌশলের মতো প্রম্পট টিউনিং, উপসর্গ টিউনিং, এবং নিম্ন-র্যাঙ্ক অভিযোজন (LoRA) সঠিকতার কোন ক্ষতি ছাড়াই প্রশিক্ষণের খরচ কমাতে ব্যবহৃত হয়। LoRA, বিশেষ করে, পূর্ণ-মডেল ফাইন-টিউনিংয়ের চেয়ে অনুরূপ (বা ভাল) নির্ভুলতা অর্জনে দুর্দান্ত সাফল্য দেখেছে। মূল ধারণাটি হল একটি নিম্ন-র্যাঙ্ক ম্যাট্রিক্স ডিজাইন করা যা তারপরে মডেলের লক্ষ্যযুক্ত স্তরগুলির মূল ম্যাট্রিক্স ওজনের সাথে ম্যাট্রিসে যোগ করা হয়। সাধারণত, এই অ্যাডাপ্টারগুলি পরিবেশনের জন্য আসল মডেলের ওজনের সাথে একত্রিত হয়। এটি মূল নিউরাল নেটওয়ার্কের মতো একই আকার এবং আর্কিটেকচারের দিকে নিয়ে যায়। অ্যাডাপ্টারগুলিকে আলাদা রেখে, আমরা অনেকগুলি মডেল অ্যাডাপ্টারের সাথে একই বেস মডেল পরিবেশন করতে পারি। এটি আমাদের ছোট এবং মাঝারি আকারের গ্রাহকদের কাছে স্কেলের অর্থনীতি ফিরিয়ে আনে।

নিম্ন-র্যাঙ্ক অভিযোজন (LoRA)

প্রতিষ্ঠানের জন্য কোডিং সঙ্গী কাস্টমাইজ করা | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

কাস্টমাইজেশন কার্যকারিতা পরিমাপ

কাস্টমাইজড সমাধানের কার্যকারিতা মূল্যায়ন করার জন্য আমাদের মূল্যায়ন মেট্রিক্সের প্রয়োজন। অফলাইন মূল্যায়ন মেট্রিক্স ডিফল্ট মডেলের তুলনায় সাবপার শিপিং কাস্টমাইজেশনের বিরুদ্ধে রক্ষক হিসাবে কাজ করে। প্রদত্ত সংগ্রহস্থলের মধ্যে থেকে একটি হোল্ড-আউট ডেটাসেট থেকে ডেটাসেট তৈরি করে, কার্যকারিতা পরিমাপ করতে এই ডেটাসেটে কাস্টমাইজেশন পদ্ধতি প্রয়োগ করা যেতে পারে। কাস্টমাইজড কোড সাজেশনের সাথে বিদ্যমান সোর্স কোডের তুলনা কাস্টমাইজেশনের উপযোগিতাকে পরিমাপ করে। এই পরিমাণ নির্ধারণের জন্য ব্যবহৃত সাধারণ ব্যবস্থাগুলির মধ্যে মেট্রিক্সের মতো অন্তর্ভুক্ত সাদৃশ্য সম্পাদনা করুন, সঠিক মিল, এবং কোডব্লিইউ.

কাস্টমাইজেশনের মাধ্যমে কত ঘন ঘন অভ্যন্তরীণ API গুলিকে আহ্বান করা হয়েছে তা পরিমাপ করে এবং পূর্ব-বিদ্যমান উত্সের আহ্বানের সাথে এটি তুলনা করে উপযোগিতা পরিমাপ করাও সম্ভব। অবশ্যই, একটি সফল সমাপ্তির জন্য উভয় দিক সঠিক হওয়া গুরুত্বপূর্ণ। আমাদের কাস্টমাইজেশন পদ্ধতির জন্য, আমরা কাস্টমাইজেশন কোয়ালিটি ইনডেক্স (CQI) নামে পরিচিত একটি টেইলর-মেড মেট্রিক ডিজাইন করেছি, 1 থেকে 10 এর মধ্যে একটি একক ব্যবহারকারী-বান্ধব পরিমাপ। CQI মেট্রিক কোডের তুলনায় কাস্টমাইজড মডেলের পরামর্শের উপযোগিতা দেখায়। একটি সাধারণ পাবলিক মডেলের সাথে পরামর্শ।

সারাংশ

আমরা এই ব্লগ পোস্টে আলোচিত নেতৃস্থানীয় প্রযুক্তিগত কৌশলগুলির মিশ্রণের উপর ভিত্তি করে Amazon CodeWhisperer কাস্টমাইজেশন ক্ষমতা তৈরি করেছি এবং Persistent Systems দ্বারা পরিচালিত ডেভেলপার উৎপাদনশীলতার উপর ব্যবহারকারীর অধ্যয়নের মাধ্যমে এটিকে মূল্যায়ন করেছি। এডব্লিউএস দ্বারা পরিচালিত এই দুটি গবেষণায়, বিকাশকারীদের জাভাতে একটি মেডিকেল সফ্টওয়্যার অ্যাপ্লিকেশন তৈরি করতে বলা হয়েছিল যাতে তাদের অভ্যন্তরীণ লাইব্রেরি ব্যবহারের প্রয়োজন হয়। প্রথম গবেষণায়, CodeWhisperer-এ অ্যাক্সেস ছাড়াই ডেভেলপাররা টাস্ক সম্পূর্ণ করতে (গড়ে) ~8.2 ঘন্টা সময় নিয়েছে, যখন CodeWhisperer ব্যবহার করেছে (কাস্টমাইজেশন ছাড়া) তারা (গড়ে) ~62 ঘণ্টায় 3.1 শতাংশ দ্রুত কাজটি সম্পন্ন করেছে।

বিকাশকারী দলগুলির একটি ভিন্ন সেটের সাথে দ্বিতীয় গবেষণায়, CodeWhisperer ব্যবহারকারী বিকাশকারীরা যেগুলিকে তাদের ব্যক্তিগত কোডবেস ব্যবহার করে কাস্টমাইজ করা হয়েছে তারা গড়ে 2.5 ঘন্টার মধ্যে কাজটি সম্পন্ন করেছে, যারা কাস্টমাইজেশন ছাড়াই CodeWhisperer ব্যবহার করছে তাদের তুলনায় 28 শতাংশ দ্রুত এবং ~3.5-এ কাজটি সম্পন্ন করেছে গড়ে ঘন্টা। আমরা দৃঢ়ভাবে বিশ্বাস করি যে আপনার কোডবেসে কাস্টমাইজ করা CodeWhisperer-এর মতো টুলগুলি ডেভেলপারের উৎপাদনশীলতাকে আরও বাড়ানোর জন্য একটি মুখ্য ভূমিকা পালন করে এবং এটিকে চালানোর সুপারিশ করে। আরও তথ্যের জন্য এবং শুরু করতে, দেখুন Amazon CodeWhisperer পেজ.


লেখক সম্পর্কে

প্রতিষ্ঠানের জন্য কোডিং সঙ্গী কাস্টমাইজ করা | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.কিং সান তিনি AWS AI ল্যাবে একজন সিনিয়র ফলিত বিজ্ঞানী এবং AWS CodeWhisperer-এ কাজ করেন, একটি জেনারেটিভ AI-চালিত কোডিং সহকারী৷ তার গবেষণার আগ্রহ প্রাকৃতিক ভাষা প্রক্রিয়াকরণ, AI4Code এবং জেনারেটিভ AI-তে নিহিত। অতীতে, তিনি কম্প্রিহেন্ড মেডিকেল, অ্যামাজন হেলথ এআই-এর একটি মেডিকেল ডায়াগনসিস সিস্টেম এবং মেটা এআই-এ মেশিন ট্রান্সলেশন সিস্টেমের মতো বেশ কয়েকটি এনএলপি-ভিত্তিক পরিষেবাগুলিতে কাজ করেছেন। তিনি 2017 সালে ভার্জিনিয়া টেক থেকে তার পিএইচডি পেয়েছিলেন।

প্রতিষ্ঠানের জন্য কোডিং সঙ্গী কাস্টমাইজ করা | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.আরাশ ফারাহানি Amazon CodeWhisperer-এর একজন ফলিত বিজ্ঞানী। তার বর্তমান আগ্রহ জেনারেটিভ এআই, অনুসন্ধান এবং ব্যক্তিগতকরণে। আরাশ এমন সমাধান তৈরি করার বিষয়ে উত্সাহী যা বিকাশকারীর ব্যথার পয়েন্টগুলি সমাধান করে। তিনি CodeWhisperer-এর মধ্যে একাধিক বৈশিষ্ট্যের উপর কাজ করেছেন, এবং সমস্ত Amazon বিকাশকারীদের স্পর্শ করে এমন বিভিন্ন অভ্যন্তরীণ ওয়ার্কস্ট্রিমগুলিতে NLP সমাধান প্রবর্তন করেছেন। তিনি 2017 সালে আরবানা-চ্যাম্পেইনের ইলিনয় বিশ্ববিদ্যালয় থেকে পিএইচডি অর্জন করেন।

প্রতিষ্ঠানের জন্য কোডিং সঙ্গী কাস্টমাইজ করা | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.জিয়াওফি মা AWS AI ল্যাবসে একজন ফলিত বিজ্ঞান ব্যবস্থাপক। তিনি 2016 সালে SCOT সংস্থার মধ্যে একজন ফলিত বিজ্ঞানী হিসাবে অ্যামাজনে যোগদান করেন এবং তারপরে 2018 সালে AWS AI ল্যাবসে অ্যামাজন কেন্দ্রে কাজ করেন। Xiaofei কেন্দ্র, কন্টাক্ট লেন্স এবং অতি সম্প্রতি CodeWhisperer এবং CodeGuru সিকিউরিটি সহ বেশ কয়েকটি পরিষেবার জন্য বিজ্ঞান ব্যবস্থাপক হিসাবে কাজ করছে। তার গবেষণার আগ্রহ AI4Code এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণের ক্ষেত্রে নিহিত। তিনি 2010 সালে ইউনিভার্সিটি অফ মেরিল্যান্ড, কলেজ পার্ক থেকে পিএইচডি লাভ করেন।

প্রতিষ্ঠানের জন্য কোডিং সঙ্গী কাস্টমাইজ করা | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.মুরলী কৃষ্ণ রামনাথন তিনি AWS AI ল্যাব-এ একজন প্রধান ফলিত বিজ্ঞানী এবং AWS CodeWhisperer-এর সহ-নেতৃত্ব করেন, একটি জেনারেটিভ এআই-চালিত কোডিং সঙ্গী। তিনি সফ্টওয়্যার সরঞ্জাম এবং কর্মপ্রবাহ তৈরির বিষয়ে উত্সাহী যা বিকাশকারীর উত্পাদনশীলতা উন্নত করতে সহায়তা করে। অতীতে, তিনি পিরানহা তৈরি করেছিলেন, একটি স্বয়ংক্রিয় রিফ্যাক্টরিং টুল যা কোড মুছে ফেলার জন্য বাসি বৈশিষ্ট্যের পতাকাগুলির কারণে এবং উবার প্রকৌশলে কোড মানের উদ্যোগের নেতৃত্ব দেয়। তিনি Google ফ্যাকাল্টি পুরস্কার (2015), ACM SIGSOFT বিশিষ্ট কাগজ পুরস্কার (ISSTA 2016) এবং মরিস হালস্টেড পুরস্কার (Purdue 2006) প্রাপক। তিনি 2008 সালে পারডু বিশ্ববিদ্যালয় থেকে কম্পিউটার সায়েন্সে পিএইচডি ডিগ্রি লাভ করেন।

প্রতিষ্ঠানের জন্য কোডিং সঙ্গী কাস্টমাইজ করা | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.রমেশ নল্লাপতি তিনি AWS AI ল্যাবসের একজন সিনিয়র প্রিন্সিপাল অ্যাপ্লাইড সায়েন্টিস্ট এবং CodeWhisperer, একটি জেনারেটিভ AI-চালিত কোডিং সঙ্গী এবং AWS-এ টাইটান লার্জ ল্যাঙ্গুয়েজ মডেলের সহ-নেতৃত্ব করেন। তার আগ্রহ মূলত প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং জেনারেটিভ এআই এর ক্ষেত্রে। অতীতে, রমেশ কেন্দ্র, কুইকসাইট কিউ এবং কন্টাক্ট লেন্সের মতো অনেক এনএলপি-ভিত্তিক AWS পণ্য সরবরাহে বিজ্ঞান নেতৃত্ব প্রদান করেছেন। তিনি স্ট্যানফোর্ড, সিএমইউ এবং আইবিএম রিসার্চে গবেষণার পদে অধিষ্ঠিত ছিলেন এবং পিএইচডি লাভ করেন। 2006 সালে ম্যাসাচুসেটস আমহার্স্ট বিশ্ববিদ্যালয় থেকে কম্পিউটার বিজ্ঞানে।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং

প্রযুক্তি উদ্ভাবন ইনস্টিটিউট Amazon SageMaker-এ অত্যাধুনিক ফ্যালকন LLM 40B ফাউন্ডেশন মডেলকে প্রশিক্ষণ দেয় | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1846484
সময় স্ট্যাম্প: জুন 7, 2023

পিজিএ ট্যুরের জেনারেটিভ এআই ভার্চুয়াল সহকারীর যাত্রা, ধারণা থেকে বিকাশ পর্যন্ত প্রোটোটাইপ পর্যন্ত | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1956285
সময় স্ট্যাম্প: মার্চ 14, 2024