آمازون رونوشت یک سرویس کاملاً مدیریت شده تشخیص گفتار خودکار (ASR) است که اضافه کردن قابلیت های گفتار به نوشتار را به برنامه های خود آسان می کند. امروز، ما خوشحالیم که نسل بعدی سیستم مبتنی بر مدل پایه گفتار با پارامتر چند میلیاردی را معرفی کنیم که تشخیص خودکار گفتار را به بیش از حد افزایش می دهد. زبانهای 100. در این پست، برخی از مزایای این سیستم، نحوه استفاده شرکت ها از آن و نحوه شروع را مورد بحث قرار می دهیم. ما همچنین نمونه ای از خروجی رونویسی را در زیر ارائه می دهیم.
مدل پایه گفتار رونویسی با استفاده از بهترین الگوریتمهای خود نظارت شده در کلاس آموزش داده میشود تا الگوهای جهانی ذاتی گفتار انسان در بین زبانها و لهجهها را بیاموزد. این برنامه بر روی میلیون ها ساعت داده های صوتی بدون برچسب از بیش از 100 زبان آموزش داده شده است. دستور العمل های آموزشی از طریق نمونه گیری داده های هوشمند بهینه شده اند تا داده های آموزشی بین زبان ها را متعادل کنند و اطمینان حاصل شود که زبان های سنتی که کمتر ارائه می شوند نیز به سطوح دقت بالایی می رسند.
Carbyne یک شرکت نرمافزاری است که راهحلهای مرکز تماس مبتنی بر ابر و ماموریت حیاتی را برای پاسخگویان به تماسهای اضطراری توسعه میدهد. ماموریت Carbyne کمک به امدادگران اضطراری برای نجات جان افراد است و زبان نمی تواند مانع از رسیدن به اهداف آنها شود. در اینجا نحوه استفاده از رونویسی آمازون برای پیگیری ماموریت خود آورده شده است:
«ترجمه صوتی زنده Carbyne مبتنی بر هوش مصنوعی به طور مستقیم با هدف کمک به بهبود واکنش اضطراری برای ۶۸ میلیون آمریکایی که در خانه به زبانی غیر از انگلیسی صحبت میکنند، علاوه بر بیش از ۷۹ میلیون بازدیدکننده خارجی سالانه به کشور، کمک میکند. با استفاده از مدل پایه چندزبانه جدید Amazon Transcribe که دارای ASR است، Carbyne حتی برای دموکراتیزه کردن خدمات اضطراری نجات بخش مجهزتر خواهد شد، زیرا Every. شخص به حساب می آید.»
– الکس دیزنگوف، یکی از بنیانگذاران و CTO Carbyne.
با استفاده از مدل پایه گفتار، رونویسی آمازون بهبود قابل توجهی در دقت بین 20٪ تا 50٪ در بیشتر زبان ها ارائه می دهد. در گفتار تلفنی، که حوزه ای چالش برانگیز و کم داده است، بهبود دقت بین 30 تا 70 درصد است. علاوه بر بهبود قابل توجه دقت، این مدل ASR بزرگ همچنین بهبودهایی را در خوانایی با نشانه گذاری و حروف بزرگ تر ارائه می دهد. با ظهور هوش مصنوعی مولد، هزاران شرکت از Amazon Transcript برای باز کردن بینش های غنی از محتوای صوتی خود استفاده می کنند. با بهبود قابل توجه دقت و پشتیبانی از بیش از 100 زبان، رونویسی آمازون تأثیر مثبتی بر همه این موارد استفاده خواهد داشت. همه مشتریان فعلی و جدید که از Amazon Transcribe در حالت دستهای استفاده میکنند، میتوانند بدون نیاز به تغییر در نقطه پایانی API یا پارامترهای ورودی، به تشخیص گفتار مبتنی بر مدل پایه گفتار دسترسی داشته باشند.
سیستم جدید ASR چندین ویژگی کلیدی را در بیش از 100 زبان مرتبط با سهولت استفاده، سفارشیسازی، ایمنی کاربر و حریم خصوصی ارائه میدهد. این ویژگیها شامل ویژگیهایی مانند نقطهگذاری خودکار، واژگان سفارشی، شناسایی خودکار زبان، دیاریزاسیون گوینده، امتیازات اطمینان در سطح کلمه و فیلتر واژگان سفارشی است. پشتیبانی گسترده این سیستم از لهجههای مختلف، محیطهای نویز و شرایط آکوستیک به شما امکان میدهد خروجیهای دقیقتری تولید کنید و در نتیجه به شما کمک میکند فناوریهای صوتی را به طور موثر در برنامههای خود جاسازی کنید.
با دقت بالای Amazon Transcript در لهجهها و شرایط نویز مختلف، پشتیبانی از تعداد زیادی زبان و وسعت مجموعه ویژگیهای ارزش افزوده آن، هزاران شرکت این اختیار را خواهند داشت که بینش های غنی از محتوای صوتی خود را باز کنید، و همچنین دسترسی و کشف محتوای صوتی و تصویری خود را در دامنه های مختلف افزایش دهید. برای مثال، مراکز تماس، تماسهای مشتریان را رونویسی و تجزیه و تحلیل میکنند تا بینشها را شناسایی کرده و متعاقباً تجربه مشتری و بهرهوری نماینده را بهبود بخشند. تولیدکنندگان محتوا و توزیعکنندگان رسانه بهطور خودکار با استفاده از Amazon Transcript زیرنویس تولید میکنند تا دسترسی به محتوا را بهبود بخشند.
با آمازون رونویسی شروع کنید
شما می توانید با استفاده از رابط خط فرمان AWS (AWS CLI)، کنسول مدیریت AWS، و موارد مختلف SDK های AWS برای رونویسی دسته ای و به استفاده از همان ادامه دهید StartTranscriptionJob
API برای دریافت مزایای عملکرد از مدل پیشرفته ASR بدون نیاز به تغییر کد یا پارامتر در انتهای خود. برای اطلاعات بیشتر در مورد استفاده از AWS CLI و کنسول، مراجعه کنید رونویسی با AWS CLI و رونویسی با کنسول مدیریت AWSبود.
اولین قدم این است که فایل های رسانه ای خود را در یک فایل آپلود کنید سرویس ذخیره سازی ساده آمازون سطل (Amazon S3)، یک سرویس ذخیره سازی اشیاء که برای ذخیره و بازیابی هر مقدار داده از هر کجا ساخته شده است. آمازون S3 دوام، در دسترس بودن، عملکرد، امنیت و مقیاس پذیری تقریبا نامحدود را با هزینه بسیار کم ارائه می دهد. شما می توانید انتخاب کنید که رونوشت خود را در سطل S3 خود ذخیره کنید یا از Amazon Transcript از یک سطل پیش فرض ایمن استفاده کنید. برای کسب اطلاعات بیشتر در مورد استفاده از سطل های S3، مراجعه کنید ایجاد، پیکربندی و کار با سطل های آمازون S3.
خروجی رونویسی
Amazon Transcript از نمایش JSON برای خروجی خود استفاده می کند. این نتیجه رونویسی را در دو قالب مختلف ارائه می دهد: قالب متن و قالب بندی. هیچ چیز با توجه به نقطه پایانی API یا پارامترهای ورودی تغییر نمی کند.
قالب متن رونوشت را به عنوان یک بلوک متن ارائه می دهد، در حالی که قالب بندی شده رونوشت را به صورت موارد رونویسی شده به موقع سفارش داده شده، همراه با فراداده اضافی برای هر مورد ارائه می دهد. هر دو فرمت به صورت موازی در فایل خروجی وجود دارند.
بسته به ویژگی هایی که هنگام ایجاد کار رونویسی انتخاب می کنید، Amazon Transcript نماهای اضافی و غنی شده ای از نتیجه رونویسی ایجاد می کند. کد نمونه زیر را ببینید:
دیدگاه ها به شرح زیر است:
- متن – با نمایندگی
transcripts
عنصر، فقط شامل قالب متن رونوشت است. در سناریوهای چند بلندگو و چند کاناله، الحاق همه رونوشت ها به صورت یک بلوک ارائه می شود. - بلندگو – با نمایندگی
speaker_labels
عنصر، حاوی متن و قالبهای موردی رونوشت است که بر اساس گوینده گروهبندی شدهاند. تنها زمانی در دسترس است که ویژگی چند بلندگو فعال باشد. - کانال ها – با نمایندگی
channel_labels
عنصر، حاوی متن و قالبهای موردی رونوشت است که بر اساس کانال گروهبندی شدهاند. این تنها زمانی در دسترس است که ویژگی چند کانالی فعال باشد. - موارد – با نمایندگی
items
عنصر، فقط شامل قالب موردی رونوشت است. در سناریوهای چند بلندگو و چند کاناله، آیتم ها با ویژگی های اضافی غنی می شوند که نشان دهنده بلندگو و کانال است. - بخش – با نمایندگی
segments
عنصر، حاوی متن و قالبهای جزئی رونوشت است که بر اساس رونویسی جایگزین گروهبندی شدهاند. تنها زمانی در دسترس است که ویژگی نتایج جایگزین فعال باشد.
نتیجه
در AWS، ما دائماً از طرف مشتریان خود در حال نوآوری هستیم. با گسترش پشتیبانی زبان در آمازون رونویسی به بیش از 100 زبان، ما مشتریان خود را قادر میسازیم تا به کاربرانی با پیشینههای زبانی مختلف خدمات ارائه دهند. این نه تنها دسترسی را افزایش می دهد، بلکه راه های جدیدی را برای ارتباطات و تبادل اطلاعات در مقیاس جهانی باز می کند. برای کسب اطلاعات بیشتر در مورد ویژگی های مورد بحث در این پست، بررسی کنید صفحه ویژگی ها و پست جدید چیه.
درباره نویسندگان
سومیت کومار مدیر محصول اصلی، فنی در تیم خدمات زبان AWS AI است. او 10 سال تجربه مدیریت محصول در حوزه های مختلف دارد و علاقه زیادی به هوش مصنوعی/ML دارد. سامیت خارج از محل کار، عاشق سفر است و از بازی کریکت و تنیس روی چمن لذت می برد.
ویوک سینگ یک مدیر ارشد، مدیریت محصول در تیم خدمات زبان AWS AI است. او تیم محصول آمازون رونویسی را رهبری می کند. او قبل از پیوستن به AWS، نقشهای مدیریت محصول را در سازمانهای مختلف آمازون مانند پرداختهای مصرفکننده و خردهفروشی بر عهده داشت. Vivek در سیاتل، WA زندگی می کند و از دویدن و پیاده روی لذت می برد.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://aws.amazon.com/blogs/machine-learning/amazon-transcribe-announces-a-new-speech-foundation-model-powered-asr-system-that-expands-support-to-over-100-languages/
- : دارد
- :است
- :نه
- $UP
- 10
- 100
- 14
- 24
- 7
- a
- درباره ما
- دسترسی
- دسترسی
- دقت
- دقیق
- در میان
- اضافه کردن
- اضافه
- اضافی
- ظهور
- عامل
- AI
- AI / ML
- هدف
- الکس
- الگوریتم
- معرفی
- در امتداد
- همچنین
- جایگزین
- آمازون
- آمازون رونوشت
- آمازون خدمات وب
- آمریکایی
- مقدار
- an
- تحلیل
- و
- اعلام
- اعلام
- سالانه
- هر
- هر جا
- API
- برنامه های کاربردی
- هستند
- AS
- At
- سمعی
- اتوماتیک
- بطور خودکار
- دسترس پذیری
- در دسترس
- راه ها
- AWS
- پس زمینه
- برج میزان
- BE
- زیرا
- از طرف
- در زیر
- مزایای
- بهتر
- میان
- مسدود کردن
- هر دو
- وسعت
- ساخته
- اما
- by
- صدا
- تماس ها
- CAN
- قابلیت های
- سرمایه گذاری
- موارد
- مرکز
- مراکز
- به چالش کشیدن
- تغییر دادن
- تبادل
- کانال
- کانال
- بررسی
- را انتخاب کنید
- بنیانگذاران
- رمز
- ارتباط
- شرکت
- شرکت
- تکمیل شده
- شرایط
- اعتماد به نفس
- پیکربندی
- کنسول
- به طور مداوم
- مصرف کننده
- تماس
- تماس با مرکز
- شامل
- محتوا
- ادامه دادن
- هزینه
- کشور
- ایجاد
- ایجاد
- کریکت
- CTO
- سفارشی
- مشتری
- تجربه مشتری
- مشتریان
- سفارشی سازی
- داده ها
- به طور پیش فرض
- ارائه
- دموکراتیک کردن
- توسعه
- مختلف
- مستقیما
- بحث و تبادل نظر
- بحث کردیم
- توزیع کنندگان
- مختلف
- دامنه
- حوزه
- دوام
- سهولت
- راحتی در استفاده
- به طور موثر
- هر دو
- عنصر
- جاسازی کردن
- اورژانس
- قدرت
- قادر ساختن
- فعال
- را قادر می سازد
- پایان
- نقطه پایانی
- انگلیسی
- افزایش
- افزایش می یابد
- غنی شده
- حصول اطمینان از
- شرکت
- محیط
- مجهز بودن
- حتی
- هر
- مثال
- تبادل
- وجود داشته باشد
- موجود
- منبسط
- گسترش می یابد
- تجربه
- گسترش
- ویژگی
- امکانات
- پرونده
- فایل ها
- فیلتر
- نام خانوادگی
- پیروی
- به دنبال آن است
- برای
- خارجی
- فرم
- قالب
- پایه
- از جانب
- کاملا
- تولید می کنند
- مولد
- هوش مصنوعی مولد
- دریافت کنید
- جهانی
- مقیاس جهانی
- اهداف
- خوشحال
- آیا
- he
- برگزار شد
- کمک
- کمک
- کمک می کند
- اینجا کلیک نمایید
- hi
- زیاد
- صفحه اصلی
- ساعت ها
- چگونه
- چگونه
- HTML
- HTTP
- HTTPS
- انسان
- شناسایی
- شناسایی
- تأثیر
- بهبود
- بهبود یافته
- بهبود
- ارتقاء
- in
- شامل
- افزایش
- پیشرو در صنعت
- اطلاعات
- ذاتی
- نوآوری
- ورودی
- بینش
- نمونه
- به
- IT
- اقلام
- ITS
- کار
- پیوستن
- JPG
- json
- کلید
- زبان
- زبان ها
- بزرگ
- منجر می شود
- یاد گرفتن
- سطح
- بهره برداری
- لاین
- زنده
- زندگی
- دوست دارد
- کم
- ساخت
- باعث می شود
- اداره می شود
- مدیریت
- مدیر
- رسانه ها
- متاداده
- میلیون
- میلیون ها نفر
- ماموریت
- حالت
- مدل
- بیش
- اکثر
- نیازمند
- جدید
- نسل بعدی
- سر و صدا
- هیچ چی
- عدد
- هدف
- of
- پیشنهادات
- on
- فقط
- باز می شود
- بهینه
- or
- سازمان های
- دیگر
- ما
- خارج
- تولید
- خروجی
- خارج از
- روی
- خود
- موازی
- پارامتر
- پارامترهای
- احساساتی
- الگوهای
- مبلغ پرداختی
- برای
- کارایی
- شخص
- افلاطون
- هوش داده افلاطون
- PlatoData
- بازی
- مثبت
- پست
- صفحه اصلی
- اصلی
- قبلا
- خلوت
- تولید کردن
- تولید
- محصول
- مدیریت تولید
- مدیر تولید
- بهره وری
- املاک
- ارائه
- ارائه
- فراهم می کند
- دنبال کردن
- رسیدن به
- به رسمیت شناختن
- مراجعه
- مربوط
- نمایندگی
- نمایندگی
- احترام
- به ترتیب
- پاسخ
- نتیجه
- نتایج
- خرده فروشی
- غنی
- نقش
- در حال اجرا
- ایمنی
- همان
- ذخیره
- مقیاس پذیری
- مقیاس
- سناریوها
- سیاتل
- امن
- تیم امنیت لاتاری
- دیدن
- بخش ها
- را انتخاب کنید
- ارشد
- خدمت
- سرویس
- خدمات
- مجموعه
- چند
- قابل توجه
- به طور قابل توجهی
- ساده
- تنها
- هوشمند
- نرم افزار
- مزایا
- برخی از
- سخن گفتن
- گوینده
- سخنرانان
- سخنرانی - گفتار
- تشخیص گفتار
- گفتار به متن
- آغاز شده
- وضعیت
- گام
- ذخیره سازی
- opbevare
- ساده
- متعاقبا
- قابل توجه
- زیرنویس
- چنین
- پشتیبانی
- سیستم
- تیم
- فنی
- فن آوری
- متن
- نسبت به
- که
- La
- شان
- در نتیجه
- اینها
- آنها
- این
- هزاران نفر
- از طریق
- بموقع
- به
- امروز
- به طور سنتی
- آموزش دیده
- آموزش
- رونوشت
- ترجمه
- سفر
- دو
- جهانی
- نا محدود
- باز
- استفاده کنید
- کاربر
- کاربران
- استفاده
- با استفاده از
- تنوع
- مختلف
- بسیار
- تصویری
- نمایش ها
- عملا
- بازدید کنندگان
- صدا
- مسیر..
- we
- وب
- خدمات وب
- خوش آمد
- خوب
- چه زمانی
- در حالیکه
- که
- WHO
- اراده
- با
- بدون
- مهاجرت کاری
- کارگر
- سال
- شما
- شما
- زفیرنت