شناسایی خودکار زبان ها در صوتی چند زبانه با استفاده از رونویسی آمازون

بازنشر افلاطون

دنبال: 0

اگر در کشوری با چندین زبان رسمی یا در چندین منطقه فعالیت می‌کنید، فایل‌های صوتی شما می‌توانند حاوی زبان‌های مختلفی باشند. شرکت‌کنندگان ممکن است به زبان‌های کاملاً متفاوتی صحبت کنند یا ممکن است بین زبان‌ها جابجا شوند. یک تماس با خدمات مشتری را در نظر بگیرید تا مشکلی را در منطقه ای با جمعیت چندزبانه قابل توجهی گزارش کنید. اگرچه مکالمه می‌تواند به یک زبان آغاز شود، اما بسته به سطح راحتی یا ترجیحات استفاده از زبان‌های دیگر، ممکن است مشتری برای توصیف مشکل به زبان دیگری تغییر کند. در روشی مشابه، نماینده خدمات مشتری ممکن است هنگام انتقال دستورالعمل‌های عملیاتی یا عیب‌یابی بین زبان‌ها جابه‌جا شود.

با حداقل 3 ثانیه صدا، آمازون رونوشت می تواند به طور خودکار رونوشت هایی را به زبان هایی که در صدا صحبت می شود بدون نیاز به انسان برای تعیین زبان ها شناسایی و تولید کند. این مورد در موارد استفاده مختلف مانند رونویسی تماس‌های مشتری، تبدیل پست‌های صوتی به متن، عکس‌برداری از تعاملات جلسه، ردیابی ارتباطات انجمن کاربر، یا نظارت بر تولید محتوای رسانه‌ای و جریان‌های کاری بومی‌سازی اعمال می‌شود.

در این پست مراحل رونویسی یک فایل صوتی چند زبانه با استفاده از Amazon Transcript شرح داده شده است. ما در مورد نحوه در دسترس قرار دادن فایل‌های صوتی در Amazon Transcript و فعال کردن رونویسی فایل‌های صوتی چندزبانه هنگام فراخوانی Amazon Transcript API بحث می‌کنیم.

بررسی اجمالی راه حل

Amazon Transcript یک سرویس AWS است که تبدیل گفتار به متن را برای شما آسان می کند. افزودن عملکرد گفتار به متن به هر برنامه کاربردی با کمک Amazon Transcript، یک سرویس تشخیص خودکار گفتار (ASR) ساده است. می‌توانید ورودی صوتی را با استفاده از Amazon Transcript دریافت کنید، رونوشت‌های واضحی ایجاد کنید که خواندن و بررسی آنها آسان باشد، دقت را با سفارشی‌سازی افزایش دهید، و اطلاعات را برای محافظت از حریم خصوصی مشتری فیلتر کنید.

راه حل نیز استفاده می کند سرویس ذخیره سازی ساده آمازون (Amazon S3)، یک سرویس ذخیره سازی اشیا که برای ذخیره و بازیابی هر مقدار داده از هر کجا ساخته شده است. این یک سرویس ذخیره سازی ساده است که دوام، در دسترس بودن، عملکرد، امنیت و مقیاس پذیری تقریبا نامحدود را با هزینه بسیار کم ارائه می دهد. هنگامی که داده‌ها را در آمازون S3 ذخیره می‌کنید، با منابعی کار می‌کنید که به عنوان شناخته می‌شوند سطل ها و اشیاء. سطل ظرفی برای اشیا است. یک شی یک فایل و هر ابرداده ای است که فایل را توصیف می کند.

در این پست، مراحل زیر را برای پیاده سازی راه حل رونویسی صوتی چند زبانه به شما آموزش می دهیم:

یک سطل S3 ایجاد کنید.
فایل صوتی خود را در سطل آپلود کنید.
کار رونویسی را ایجاد کنید.
خروجی کار را مرور کنید.

پیش نیازها

برای این راهنما، شما باید پیش نیازهای زیر را داشته باشید:

Amazon Transcribe گزینه ای را برای ذخیره خروجی رونویسی در سطل S3 مدیریت شده یا مدیریت شده توسط مشتری ارائه می دهد. برای این پست، ما از آمازون رونویسی داریم که نتایج را در سطل S3 مدیریت شده سرویس بنویسد.

توجه داشته باشید که Amazon Transcribe یک سرویس منطقه ای است و نقاط پایانی Amazon Transcribe API که فراخوانی می شوند باید در همان منطقه ای باشند که سطل های S3 هستند.

یک سطل S3 برای ذخیره فایل های ورودی صوتی خود ایجاد کنید

برای ایجاد سطل S3 خود، مراحل زیر را انجام دهید:

در کنسول آمازون S3، را انتخاب کنید سطل ایجاد کنید.
برای نام سطل، یک نام منحصر به فرد جهانی برای سطل وارد کنید.
برای منطقه AWS، همان منطقه ای را انتخاب کنید که نقاط پایانی آمازون رونویسی API خود را انتخاب کنید.
همه پیش فرض ها را همانطور که هست بگذارید.
را انتخاب کنید سطل ایجاد کنید.

فایل صوتی خود را در سطل S3 آپلود کنید

فایل صوتی چند زبانه خود را در سطل S3 در حساب AWS خود آپلود کنید. برای این تمرین از نمونه زیر استفاده می کنیم فایل صوتی چند زبانه. این یک تماس با پشتیبانی مشتری شامل زبان های انگلیسی و اسپانیایی می گیرد.

در کنسول آمازون S3، را انتخاب کنید سطل در صفحه ناوبری
سطلی را که قبلا برای ذخیره فایل های صوتی ورودی ایجاد کرده اید انتخاب کنید.
را انتخاب کنید بارگذاری.
را انتخاب کنید اضافه کردن فایل.
فایل صوتی مورد نظر برای رونویسی را از رایانه محلی خود انتخاب کنید.
را انتخاب کنید بارگذاری.

فایل صوتی شما به زودی در سطل S3 در دسترس خواهد بود.

کار رونویسی را ایجاد کنید

با آپلود فایل صوتی، اکنون یک کار رونویسی ایجاد می کنیم.

در کنسول آمازون رونویسی، انتخاب کنید مشاغل رونویسی در صفحه ناوبری
را انتخاب کنید ایجاد شغل.
برای نام، یک نام منحصر به فرد برای کار وارد کنید.
این نام فایل رونوشت خروجی نیز خواهد بود.
برای تنظیمات زبان، انتخاب کنید شناسایی خودکار چندین زبان.
این ویژگی آمازون رونویسی را قادر می سازد تا به طور خودکار تمام زبان های صحبت شده در فایل صوتی را شناسایی و رونویسی کند.
برای گزینه های زبان برای شناسایی خودکار زبان، آن را بدون انتخاب رها کنید.
Amazon Transcript به طور خودکار تمام زبان های صحبت شده در صدا را شناسایی و رونویسی می کند. برای بهبود دقت رونویسی، می‌توانید به صورت اختیاری دو یا چند زبان را که می‌دانید در صدا صحبت می‌شوند انتخاب کنید.
برای نوع مدل، فقط مدل کلی این گزینه در زمان نوشتن این پست موجود است.
برای داده های ورودی، انتخاب کنید S3 را مرور کنید.
فایل منبع صوتی را که قبلا آپلود کرده بودیم انتخاب کنید.
برای داده های خروجی، می توانید هرکدام را انتخاب کنید سطل S3 با مدیریت خدمات or سطل S3 مشخص شده توسط مشتری. برای این پست انتخاب کنید سطل S3 با مدیریت خدمات.
را انتخاب کنید بعدی.
را انتخاب کنید ایجاد شغل.

خروجی کار را مرور کنید

وقتی کار رونویسی کامل شد، کار رونویسی را باز کنید.

به پایین بروید پیش نمایش رونویسی بخش. رونویسی صوتی روی صفحه نمایش داده می شود متن برگه رونویسی شامل هر دو بخش انگلیسی و اسپانیایی مکالمه است.

می‌توانید به‌صورت اختیاری یک نسخه از رونوشت را به‌عنوان یک فایل JSON بارگیری کنید، که می‌توانید برای کارهای بیشتر از آن استفاده کنید تجزیه و تحلیل پس از تماس.

پاک کردن

برای جلوگیری از تحمیل هزینه های بعدی، سطل S3 را که برای ذخیره فایل منبع صوتی ورودی ایجاد کرده اید خالی و حذف کنید. مطمئن شوید که فایل‌ها را در جای دیگری ذخیره کرده‌اید، زیرا با این کار تمام اشیاء موجود در سطل برای همیشه حذف می‌شوند. در کنسول آمازون رونویسی، شغلی را که قبلا برای رونویسی ایجاد شده بود انتخاب و حذف کنید.

نتیجه

در این پست، یک گردش کار پایان به انتها برای شناسایی خودکار و رونویسی فایل‌های صوتی چند زبانه، بدون نوشتن کد ایجاد کردیم. ما از قابلیت جدید در Amazon Transcript برای شناسایی خودکار زبان های مختلف در یک فایل صوتی و رونویسی صحیح هر زبان استفاده کردیم.

برای اطلاعات بیشتر به مراجعه کنید شناسایی زبان با کارهای رونویسی دسته ای.

درباره نویسنده

مرتوزا بوتوالا یک معمار ارشد راه حل در AWS با علاقه به فناوری های AI/ML است. او از کار با مشتریان برای کمک به آنها برای دستیابی به نتایج تجاری خود لذت می برد. خارج از محل کار، او از فعالیت های بیرون از خانه و گذراندن وقت با خانواده لذت می برد.

ویکتور قرمز علاقه زیادی به هوش مصنوعی/ML و توسعه نرم افزار دارد. او به راه اندازی و راه اندازی آمازون الکسا در ایالات متحده و مکزیک کمک کرد. او همچنین متن آمازون را به شرکای AWS آورد و اطلاعات مرکز تماس AWS (CCI) را از زمین خارج کرد. او در حال حاضر رهبر فناوری جهانی برای شرکای هوش مصنوعی مکالمه است.

بابو سرینیواسان یک AWS Sr. Specialist SA (خدمات هوش مصنوعی زبان) مستقر در شیکاگو است. او بر روی Amazon Transcript (گفتار به متن) تمرکز می کند و به مشتریان ما کمک می کند از خدمات هوش مصنوعی برای حل مشکلات تجاری استفاده کنند. در خارج از کار، او از نجاری و اجرای نمایش های جادویی لذت می برد.

تمبر زمان: دسامبر 14، 2022دسامبر 14، 2022

تمبر زمان: سپتامبر 20، 2023

شناسایی خودکار زبان ها در صدای چند زبانه با استفاده از Amazon Transcript

بازنشر افلاطون

بررسی اجمالی راه حل

پیش نیازها

یک سطل S3 برای ذخیره فایل های ورودی صوتی خود ایجاد کنید

فایل صوتی خود را در سطل S3 آپلود کنید

کار رونویسی را ایجاد کنید

خروجی کار را مرور کنید

پاک کردن

نتیجه

درباره نویسنده

بیشتر از آموزش ماشین AWS

InformedIQ تأییدیه‌های وام‌دهی خودکار Origence را با استفاده از یادگیری ماشینی خودکار می‌کند

با استفاده از Kubeflow در AWS، گردش کار یادگیری ماشینی سرتاسر قابل تکرار، ایمن و قابل توسعه بسازید.

با استفاده از Amazon Comprehend و Amazon Kinesis Data Firehose داده‌های حساس را از جریان داده‌ها در زمان تقریباً واقعی ویرایش کنید.

بهینه سازی هایپرپارامتر برای تنظیم دقیق مدل های ترانسفورماتور از پیش آموزش دیده از Hugging Face

آموزش و استقرار مدل های ML در یک محیط چند ابری با استفاده از Amazon SageMaker | خدمات وب آمازون

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب