আমরা হুইস্পার নামক একটি নিউরাল নেটকে প্রশিক্ষণ দিয়েছি এবং ওপেন-সোর্সিং করছি যা ইংরেজি বক্তৃতা শনাক্তকরণে মানুষের স্তরের দৃঢ়তা এবং নির্ভুলতার সাথে যোগাযোগ করে।
কোড দেখুন
মডেল কার্ড দেখুন
ফিসফিস উদাহরণ:
Whisper হল একটি স্বয়ংক্রিয় স্পিচ রিকগনিশন (ASR) সিস্টেম যা ওয়েব থেকে সংগৃহীত 680,000 ঘন্টা বহুভাষিক এবং বহুমুখী তত্ত্বাবধানে থাকা ডেটার উপর প্রশিক্ষিত। আমরা দেখাই যে এত বড় এবং বৈচিত্র্যময় ডেটাসেটের ব্যবহার উচ্চারণ, ব্যাকগ্রাউন্ড নয়েজ এবং প্রযুক্তিগত ভাষাতে উন্নত দৃঢ়তার দিকে পরিচালিত করে। অধিকন্তু, এটি একাধিক ভাষায় ট্রান্সক্রিপশন সক্ষম করে, সেইসাথে সেই ভাষাগুলি থেকে ইংরেজিতে অনুবাদ। আমরা ওপেন-সোর্সিং মডেল এবং অনুমান কোডগুলি দরকারী অ্যাপ্লিকেশনগুলি তৈরি করার জন্য এবং শক্তিশালী স্পিচ প্রসেসিংয়ের উপর আরও গবেষণার জন্য একটি ভিত্তি হিসাবে কাজ করে।
হুইস্পার আর্কিটেকচার হল একটি সহজ এন্ড-টু-এন্ড পদ্ধতি, যা একটি এনকোডার-ডিকোডার ট্রান্সফরমার হিসাবে প্রয়োগ করা হয়। ইনপুট অডিও 30-সেকেন্ডের খণ্ডে বিভক্ত হয়, একটি লগ-মেল স্পেকট্রোগ্রামে রূপান্তরিত হয় এবং তারপর একটি এনকোডারে পাস করা হয়। একটি ডিকোডারকে সংশ্লিষ্ট টেক্সট ক্যাপশনের ভবিষ্যদ্বাণী করার জন্য প্রশিক্ষিত করা হয়, বিশেষ টোকেনগুলির সাথে মিশ্রিত করা হয় যা একক মডেলকে ভাষা সনাক্তকরণ, বাক্যাংশ-স্তরের টাইমস্ট্যাম্প, বহুভাষিক বক্তৃতা প্রতিলিপি, এবং থেকে-ইংরেজি বক্তৃতা অনুবাদের মতো কাজগুলি সম্পাদন করতে নির্দেশ করে।
অন্যান্য বিদ্যমান পদ্ধতিগুলি প্রায়শই ছোট, আরও ঘনিষ্ঠভাবে যুক্ত অডিও-টেক্সট প্রশিক্ষণ ডেটাসেট ব্যবহার করে, অথবা বিস্তৃত কিন্তু তত্ত্বাবধানহীন অডিও প্রিট্রেনিং ব্যবহার করুন. যেহেতু হুইস্পারকে একটি বৃহৎ এবং বৈচিত্র্যময় ডেটাসেটের উপর প্রশিক্ষিত করা হয়েছিল এবং কোনও নির্দিষ্ট ডেটাসেটের সাথে সূক্ষ্ম সুর করা হয়নি, তাই এটি এমন মডেলগুলিকে হারাতে পারে না যেগুলি LibriSpeech পারফরম্যান্সে বিশেষজ্ঞ, বক্তৃতা স্বীকৃতিতে একটি বিখ্যাত প্রতিযোগিতামূলক বেঞ্চমার্ক৷ যাইহোক, যখন আমরা অনেক বৈচিত্র্যময় ডেটাসেট জুড়ে হুইস্পারের শূন্য-শট কর্মক্ষমতা পরিমাপ করি তখন আমরা দেখতে পাই যে এটি অনেক বেশি শক্তিশালী এবং সেই মডেলগুলির তুলনায় 50% কম ত্রুটি করে।
হুইস্পারের অডিও ডেটাসেটের প্রায় এক তৃতীয়াংশ অ-ইংরেজি, এবং এটিকে পর্যায়ক্রমে মূল ভাষায় প্রতিলিপি বা ইংরেজিতে অনুবাদ করার কাজ দেওয়া হয়। আমরা এই পদ্ধতিটি পাঠ্য অনুবাদ থেকে বক্তৃতা শেখার ক্ষেত্রে বিশেষভাবে কার্যকর বলে মনে করি এবং CoVoST2 থেকে ইংরেজি অনুবাদ জিরো-শট-এ তত্ত্বাবধানে থাকা SOTA-কে ছাড়িয়ে যায়।
আমরা আশা করি হুইস্পারের উচ্চ নির্ভুলতা এবং ব্যবহারের সহজতা ডেভেলপারদের অনেক বেশি বিস্তৃত অ্যাপ্লিকেশনগুলিতে ভয়েস ইন্টারফেস যোগ করার অনুমতি দেবে। চেক আউট কাগজ, মডেল কার্ড, এবং কোড আরও বিশদ জানতে এবং হুইস্পার চেষ্টা করার জন্য।
- AI
- ai শিল্প
- এআই আর্ট জেনারেটর
- আইআই রোবট
- কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তা সার্টিফিকেশন
- ব্যাংকিং এ কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তা সফ্টওয়্যার
- blockchain
- ব্লকচেইন সম্মেলন এআই
- coingenius
- কথোপকথন কৃত্রিম বুদ্ধিমত্তা
- ক্রিপ্টো সম্মেলন এআই
- ডাল-ই
- গভীর জ্ঞানার্জন
- গুগল আই
- মেশিন লার্নিং
- OpenAI
- Plato
- প্লেটো এআই
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটো গেম
- প্লেটোডাটা
- প্লেটোগেমিং
- গবেষণা
- স্কেল ai
- বাক্য গঠন
- zephyrnet