হুইস্পার প্রবর্তন করা হচ্ছে

আমরা হুইস্পার নামক একটি নিউরাল নেটকে প্রশিক্ষণ দিয়েছি এবং ওপেন-সোর্সিং করছি যা ইংরেজি বক্তৃতা শনাক্তকরণে মানুষের স্তরের দৃঢ়তা এবং নির্ভুলতার সাথে যোগাযোগ করে।

কাগজ পড়ুন


কোড দেখুন


মডেল কার্ড দেখুন

ফিসফিস উদাহরণ:

Whisper হল একটি স্বয়ংক্রিয় স্পিচ রিকগনিশন (ASR) সিস্টেম যা ওয়েব থেকে সংগৃহীত 680,000 ঘন্টা বহুভাষিক এবং বহুমুখী তত্ত্বাবধানে থাকা ডেটার উপর প্রশিক্ষিত। আমরা দেখাই যে এত বড় এবং বৈচিত্র্যময় ডেটাসেটের ব্যবহার উচ্চারণ, ব্যাকগ্রাউন্ড নয়েজ এবং প্রযুক্তিগত ভাষাতে উন্নত দৃঢ়তার দিকে পরিচালিত করে। অধিকন্তু, এটি একাধিক ভাষায় ট্রান্সক্রিপশন সক্ষম করে, সেইসাথে সেই ভাষাগুলি থেকে ইংরেজিতে অনুবাদ। আমরা ওপেন-সোর্সিং মডেল এবং অনুমান কোডগুলি দরকারী অ্যাপ্লিকেশনগুলি তৈরি করার জন্য এবং শক্তিশালী স্পিচ প্রসেসিংয়ের উপর আরও গবেষণার জন্য একটি ভিত্তি হিসাবে কাজ করে।

ভাবমূর্তি
ভাবমূর্তি

হুইস্পার আর্কিটেকচার হল একটি সহজ এন্ড-টু-এন্ড পদ্ধতি, যা একটি এনকোডার-ডিকোডার ট্রান্সফরমার হিসাবে প্রয়োগ করা হয়। ইনপুট অডিও 30-সেকেন্ডের খণ্ডে বিভক্ত হয়, একটি লগ-মেল স্পেকট্রোগ্রামে রূপান্তরিত হয় এবং তারপর একটি এনকোডারে পাস করা হয়। একটি ডিকোডারকে সংশ্লিষ্ট টেক্সট ক্যাপশনের ভবিষ্যদ্বাণী করার জন্য প্রশিক্ষিত করা হয়, বিশেষ টোকেনগুলির সাথে মিশ্রিত করা হয় যা একক মডেলকে ভাষা সনাক্তকরণ, বাক্যাংশ-স্তরের টাইমস্ট্যাম্প, বহুভাষিক বক্তৃতা প্রতিলিপি, এবং থেকে-ইংরেজি বক্তৃতা অনুবাদের মতো কাজগুলি সম্পাদন করতে নির্দেশ করে।

ভাবমূর্তি
ভাবমূর্তি

অন্যান্য বিদ্যমান পদ্ধতিগুলি প্রায়শই ছোট, আরও ঘনিষ্ঠভাবে যুক্ত অডিও-টেক্সট প্রশিক্ষণ ডেটাসেট ব্যবহার করে, অথবা বিস্তৃত কিন্তু তত্ত্বাবধানহীন অডিও প্রিট্রেনিং ব্যবহার করুন. যেহেতু হুইস্পারকে একটি বৃহৎ এবং বৈচিত্র্যময় ডেটাসেটের উপর প্রশিক্ষিত করা হয়েছিল এবং কোনও নির্দিষ্ট ডেটাসেটের সাথে সূক্ষ্ম সুর করা হয়নি, তাই এটি এমন মডেলগুলিকে হারাতে পারে না যেগুলি LibriSpeech পারফরম্যান্সে বিশেষজ্ঞ, বক্তৃতা স্বীকৃতিতে একটি বিখ্যাত প্রতিযোগিতামূলক বেঞ্চমার্ক৷ যাইহোক, যখন আমরা অনেক বৈচিত্র্যময় ডেটাসেট জুড়ে হুইস্পারের শূন্য-শট কর্মক্ষমতা পরিমাপ করি তখন আমরা দেখতে পাই যে এটি অনেক বেশি শক্তিশালী এবং সেই মডেলগুলির তুলনায় 50% কম ত্রুটি করে।

হুইস্পারের অডিও ডেটাসেটের প্রায় এক তৃতীয়াংশ অ-ইংরেজি, এবং এটিকে পর্যায়ক্রমে মূল ভাষায় প্রতিলিপি বা ইংরেজিতে অনুবাদ করার কাজ দেওয়া হয়। আমরা এই পদ্ধতিটি পাঠ্য অনুবাদ থেকে বক্তৃতা শেখার ক্ষেত্রে বিশেষভাবে কার্যকর বলে মনে করি এবং CoVoST2 থেকে ইংরেজি অনুবাদ জিরো-শট-এ তত্ত্বাবধানে থাকা SOTA-কে ছাড়িয়ে যায়।

ভাবমূর্তি
ভাবমূর্তি

আমরা আশা করি হুইস্পারের উচ্চ নির্ভুলতা এবং ব্যবহারের সহজতা ডেভেলপারদের অনেক বেশি বিস্তৃত অ্যাপ্লিকেশনগুলিতে ভয়েস ইন্টারফেস যোগ করার অনুমতি দেবে। চেক আউট কাগজ, মডেল কার্ড, এবং কোড আরও বিশদ জানতে এবং হুইস্পার চেষ্টা করার জন্য।

সময় স্ট্যাম্প:

থেকে আরো OpenAI