হুইস্পার প্রবর্তন করা হচ্ছে

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

আমরা হুইস্পার নামক একটি নিউরাল নেটকে প্রশিক্ষণ দিয়েছি এবং ওপেন-সোর্সিং করছি যা ইংরেজি বক্তৃতা শনাক্তকরণে মানুষের স্তরের দৃঢ়তা এবং নির্ভুলতার সাথে যোগাযোগ করে।

কাগজ পড়ুন

কোড দেখুন

মডেল কার্ড দেখুন

Whisper হল একটি স্বয়ংক্রিয় স্পিচ রিকগনিশন (ASR) সিস্টেম যা ওয়েব থেকে সংগৃহীত 680,000 ঘন্টা বহুভাষিক এবং বহুমুখী তত্ত্বাবধানে থাকা ডেটার উপর প্রশিক্ষিত। আমরা দেখাই যে এত বড় এবং বৈচিত্র্যময় ডেটাসেটের ব্যবহার উচ্চারণ, ব্যাকগ্রাউন্ড নয়েজ এবং প্রযুক্তিগত ভাষাতে উন্নত দৃঢ়তার দিকে পরিচালিত করে। অধিকন্তু, এটি একাধিক ভাষায় ট্রান্সক্রিপশন সক্ষম করে, সেইসাথে সেই ভাষাগুলি থেকে ইংরেজিতে অনুবাদ। আমরা ওপেন-সোর্সিং মডেল এবং অনুমান কোডগুলি দরকারী অ্যাপ্লিকেশনগুলি তৈরি করার জন্য এবং শক্তিশালী স্পিচ প্রসেসিংয়ের উপর আরও গবেষণার জন্য একটি ভিত্তি হিসাবে কাজ করে।

হুইস্পার আর্কিটেকচার হল একটি সহজ এন্ড-টু-এন্ড পদ্ধতি, যা একটি এনকোডার-ডিকোডার ট্রান্সফরমার হিসাবে প্রয়োগ করা হয়। ইনপুট অডিও 30-সেকেন্ডের খণ্ডে বিভক্ত হয়, একটি লগ-মেল স্পেকট্রোগ্রামে রূপান্তরিত হয় এবং তারপর একটি এনকোডারে পাস করা হয়। একটি ডিকোডারকে সংশ্লিষ্ট টেক্সট ক্যাপশনের ভবিষ্যদ্বাণী করার জন্য প্রশিক্ষিত করা হয়, বিশেষ টোকেনগুলির সাথে মিশ্রিত করা হয় যা একক মডেলকে ভাষা সনাক্তকরণ, বাক্যাংশ-স্তরের টাইমস্ট্যাম্প, বহুভাষিক বক্তৃতা প্রতিলিপি, এবং থেকে-ইংরেজি বক্তৃতা অনুবাদের মতো কাজগুলি সম্পাদন করতে নির্দেশ করে।

অন্যান্য বিদ্যমান পদ্ধতিগুলি প্রায়শই ছোট, আরও ঘনিষ্ঠভাবে যুক্ত অডিও-টেক্সট প্রশিক্ষণ ডেটাসেট ব্যবহার করে, অথবা বিস্তৃত কিন্তু তত্ত্বাবধানহীন অডিও প্রিট্রেনিং ব্যবহার করুন. যেহেতু হুইস্পারকে একটি বৃহৎ এবং বৈচিত্র্যময় ডেটাসেটের উপর প্রশিক্ষিত করা হয়েছিল এবং কোনও নির্দিষ্ট ডেটাসেটের সাথে সূক্ষ্ম সুর করা হয়নি, তাই এটি এমন মডেলগুলিকে হারাতে পারে না যেগুলি LibriSpeech পারফরম্যান্সে বিশেষজ্ঞ, বক্তৃতা স্বীকৃতিতে একটি বিখ্যাত প্রতিযোগিতামূলক বেঞ্চমার্ক৷ যাইহোক, যখন আমরা অনেক বৈচিত্র্যময় ডেটাসেট জুড়ে হুইস্পারের শূন্য-শট কর্মক্ষমতা পরিমাপ করি তখন আমরা দেখতে পাই যে এটি অনেক বেশি শক্তিশালী এবং সেই মডেলগুলির তুলনায় 50% কম ত্রুটি করে।

হুইস্পারের অডিও ডেটাসেটের প্রায় এক তৃতীয়াংশ অ-ইংরেজি, এবং এটিকে পর্যায়ক্রমে মূল ভাষায় প্রতিলিপি বা ইংরেজিতে অনুবাদ করার কাজ দেওয়া হয়। আমরা এই পদ্ধতিটি পাঠ্য অনুবাদ থেকে বক্তৃতা শেখার ক্ষেত্রে বিশেষভাবে কার্যকর বলে মনে করি এবং CoVoST2 থেকে ইংরেজি অনুবাদ জিরো-শট-এ তত্ত্বাবধানে থাকা SOTA-কে ছাড়িয়ে যায়।

আমরা আশা করি হুইস্পারের উচ্চ নির্ভুলতা এবং ব্যবহারের সহজতা ডেভেলপারদের অনেক বেশি বিস্তৃত অ্যাপ্লিকেশনগুলিতে ভয়েস ইন্টারফেস যোগ করার অনুমতি দেবে। চেক আউট কাগজ, মডেল কার্ড, এবং কোড আরও বিশদ জানতে এবং হুইস্পার চেষ্টা করার জন্য।

সময় স্ট্যাম্প: সেপ্টেম্বর 21, 2022সেপ্টেম্বর 21, 2022

সময় স্ট্যাম্প: জুন 2, 2022

হুইস্পার প্রবর্তন করা হচ্ছে

প্লেটো দ্বারা প্রকাশিত

ফিসফিস উদাহরণ:

থেকে আরো OpenAI

সোরা: প্রথম ছাপ

ChatGPT এন্টারপ্রাইজের সাথে পরিচয়

DALL·E এখন অপেক্ষা তালিকা ছাড়াই উপলব্ধ

20 মার্চ চ্যাটজিপিটি বিভ্রাট: এখানে যা ঘটেছে

নতুন GPT-3 ক্ষমতা: সম্পাদনা এবং সন্নিবেশ

বড় নিউরাল নেটওয়ার্ক প্রশিক্ষণের কৌশল

DevDay এ ঘোষণা করা নতুন মডেল এবং ডেভেলপার পণ্য

বড় মডেলের মাধ্যমে বিবর্তন

ওপেনএআই এবং এলন মাস্ক

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব