মাইক্রোসফ্ট ফি-3 মিনি দিয়ে AIকে পকেট আকারে সঙ্কুচিত করে

মাইক্রোসফ্ট ফি-3 মিনি দিয়ে AIকে পকেট আকারে সঙ্কুচিত করে

Microsoft shrinks AI down to pocket size with Phi-3 Mini PlatoBlockchain Data Intelligence. Vertical Search. Ai.

মাইক্রোসফ্ট দাবি করে যে তার লাইটওয়েট ফি-3 মিনি এআই মডেলের প্রতিদ্বন্দ্বী প্রতিদ্বন্দ্বী যেমন GPT-3.5 ফোনে মোতায়েন করার মতো যথেষ্ট ছোট।

Phi-3 Mini হল একটি 3.8 বিলিয়ন-প্যারামিটার ভাষার মডেল যা 3.3 ট্রিলিয়ন টোকেনে প্রশিক্ষিত। এই সংখ্যা Phi-2.7 এর 2 বিলিয়ন প্যারামিটার থেকে বেশি, যা মাইক্রোসফ্ট উপস্থাপিত ডিসেম্বর 2023 এ

প্রশিক্ষণের মডেলগুলিতে যতটা সম্ভব খোঁচা দেওয়ার পরিবর্তে, যুক্তির দিকে মনোযোগ দেওয়া হয়েছিল। মাইক্রোসফ্ট বলেছে: "উদাহরণ হিসাবে, একটি নির্দিষ্ট দিনে প্রিমিয়ার লিগে একটি খেলার ফলাফল ফ্রন্টিয়ার মডেলগুলির জন্য ভাল প্রশিক্ষণের ডেটা হতে পারে, তবে ছোট আকারের মডেলগুলির জন্য 'যুক্তি' করার জন্য আরও মডেল ক্ষমতা ছেড়ে দেওয়ার জন্য আমাদের এই তথ্যগুলি সরিয়ে ফেলতে হবে। "

লক্ষ্যযুক্ত পদ্ধতির অর্থ হল যে যদিও Phi-3 এর প্রতিযোগীদের জ্ঞানের নিখুঁত প্রশস্ততা নাও থাকতে পারে, তবে যুক্তির ক্ষেত্রে এটি অন্তত ততটা ভাল, যদি ভাল না হয়, বা মাইক্রোসফ্ট দাবি করে। ক গবেষণা পত্র [পিডিএফ], মাইক্রোসফ্ট নোট করেছে যে এটি তার ছোট ভাষার মডেলকে "উদাহরণস্বরূপ GPT-3.5 বা Mixtral-এর মতো অত্যন্ত সক্ষম মডেলের স্তরে পৌঁছানোর অনুমতি দিয়েছে (যদিও Mixtral-এর মোট প্যারামিটার রয়েছে 3.8B)।"

গবেষণায় আরও উল্লেখ করা হয়েছে যে প্রশিক্ষণ ডেটা ব্যবহার করা হয়েছে "ভারীভাবে ফিল্টার করা ওয়েব ডেটা ... বিভিন্ন উন্মুক্ত ইন্টারনেট উত্স থেকে" এবং এলএলএম-উত্পন্ন ডেটা। এলএলএম প্রশিক্ষণের জন্য ব্যবহৃত ডেটা উত্সের বিষয় বেশ কয়েকটি মামলা.

Phi-3 Mini এর ছোট আকারের মানে এটি একটি স্মার্টফোনে অফলাইনে চলতে পারে, আমাদের বলা হয়েছে। গবেষকরা বলেছেন যে এটি প্রায় 1.8 গিগাবাইট মেমরি দখল করার জন্য তৈরি করা যেতে পারে এবং এটি একটি আইফোন 14-এ একটি ডিভাইসে স্থানীয়ভাবে চালানো একটি A16 বায়োনিক চিপ সহ অফলাইনে চেষ্টা করে দেখেছে। গবেষণাপত্রে, গবেষকরা Phi-3 Mini-এর স্ক্রিনশটগুলি দেখান যা একটি কবিতা লিখে এবং হিউস্টনে কিছু করার পরামর্শ দিচ্ছে৷

গবেষকরা ভাষা বোঝার এবং যুক্তির উপর ফোকাস করার অন্তর্নিহিত ডাউনসাইডগুলিও তুলে ধরেন। "মডেলটির খুব বেশি 'তথ্যগত জ্ঞান' সঞ্চয় করার ক্ষমতা নেই," এমন কিছু যা একটি সার্চ ইঞ্জিনের মাধ্যমে এটিকে বাড়িয়ে একটি নির্দিষ্ট পরিমাণে প্রশমিত করা যেতে পারে। যাইহোক, এটি অফলাইনে চালাতে সক্ষম হওয়ার বিষয়টিকে পরাজিত করবে।

ভাষাটি বর্তমানে বেশিরভাগই ইংরেজিতে সীমাবদ্ধ, এবং বেশিরভাগ এলএলএম-এর অন্তর্নিহিত সমস্যাগুলি - হ্যালুসিনেশন, পক্ষপাতের পরিবর্ধন এবং অনুপযুক্ত বিষয়বস্তু তৈরি - এছাড়াও Phi-3 মিনিতে পাওয়া যেতে পারে।

গবেষকরা গবেষণাপত্রে বলেছেন: "এই চ্যালেঞ্জগুলি সম্পূর্ণরূপে মোকাবেলা করার জন্য সামনে উল্লেখযোগ্য কাজ রয়েছে।"

বৃহত্তর মডেলগুলি - তুলনামূলকভাবে বলতে গেলে - যথাক্রমে 3 এবং 3 বিলিয়ন প্যারামিটার সহ Phi-7 ছোট এবং Phi-14 মাঝারি আকারে ঘোষণা করা হয়েছে।

ভিক্টর বোটেভ, সিটিও এবং সহ-প্রতিষ্ঠাতা Iris.ai, আমাদের বলেছেন: “Microsoft-এর Phi-3 মডেলের ঘোষণা AI উন্নয়নে একটি অব্যাহত প্রবণতাকে প্রতিনিধিত্ব করে৷ সর্বদা বড় মডেলের পেছনে ছুটে যাওয়ার পরিবর্তে, মাইক্রোসফ্ট আরও সাবধানে কিউরেট করা ডেটা এবং বিশেষ প্রশিক্ষণ সহ সরঞ্জামগুলি তৈরি করছে৷ এটি ট্রিলিয়ন প্যারামিটার সহ মডেলগুলির বিশাল গণনামূলক খরচ ছাড়াই উন্নত কর্মক্ষমতা এবং যুক্তির ক্ষমতার জন্য অনুমতি দেয়। এই প্রতিশ্রুতি পূরণ করার অর্থ হবে AI সমাধানের সন্ধানকারী ব্যবসাগুলির জন্য একটি বিশাল দত্তক বাধাকে ভেঙে ফেলা।

“মাইক্রোসফ্ট বুদ্ধিমানের সাথে 'বড় ইজ বেটার' মানসিকতার বাইরে তাকিয়ে আছে। বিস্তৃত ব্যবসা এবং ভোক্তা AI অ্যাপ্লিকেশনের জন্য, সম্ভাব্যতা এবং নির্দিষ্টতা বিশাল পরামিতি গণনার চেয়ে বেশি গুরুত্বপূর্ণ। Phi-3-এর মতো মডেলগুলি স্পষ্টভাবে প্রমাণ করে যে সঠিক ডেটা এবং প্রশিক্ষণ পদ্ধতির সাথে, উন্নত AI ক্ষমতাগুলির জন্য কখনও বড় মডেল তৈরির প্রয়োজন নেই - ব্যবসার জন্য একটি সিদ্ধান্তকারী ফ্যাক্টর যেখানে খরচ-থেকে-গুণমানের অনুপাত গুরুত্বপূর্ণ।" ®

সময় স্ট্যাম্প:

থেকে আরো নিবন্ধনকর্মী