اگر در کشوری با چندین زبان رسمی یا در چندین منطقه فعالیت میکنید، فایلهای صوتی شما میتوانند حاوی زبانهای مختلفی باشند. شرکتکنندگان ممکن است به زبانهای کاملاً متفاوتی صحبت کنند یا ممکن است بین زبانها جابجا شوند. یک تماس با خدمات مشتری را در نظر بگیرید تا مشکلی را در منطقه ای با جمعیت چندزبانه قابل توجهی گزارش کنید. اگرچه مکالمه میتواند به یک زبان آغاز شود، اما بسته به سطح راحتی یا ترجیحات استفاده از زبانهای دیگر، ممکن است مشتری برای توصیف مشکل به زبان دیگری تغییر کند. در روشی مشابه، نماینده خدمات مشتری ممکن است هنگام انتقال دستورالعملهای عملیاتی یا عیبیابی بین زبانها جابهجا شود.
با حداقل 3 ثانیه صدا، آمازون رونوشت می تواند به طور خودکار رونوشت هایی را به زبان هایی که در صدا صحبت می شود بدون نیاز به انسان برای تعیین زبان ها شناسایی و تولید کند. این مورد در موارد استفاده مختلف مانند رونویسی تماسهای مشتری، تبدیل پستهای صوتی به متن، عکسبرداری از تعاملات جلسه، ردیابی ارتباطات انجمن کاربر، یا نظارت بر تولید محتوای رسانهای و جریانهای کاری بومیسازی اعمال میشود.
در این پست مراحل رونویسی یک فایل صوتی چند زبانه با استفاده از Amazon Transcript شرح داده شده است. ما در مورد نحوه در دسترس قرار دادن فایلهای صوتی در Amazon Transcript و فعال کردن رونویسی فایلهای صوتی چندزبانه هنگام فراخوانی Amazon Transcript API بحث میکنیم.
بررسی اجمالی راه حل
Amazon Transcript یک سرویس AWS است که تبدیل گفتار به متن را برای شما آسان می کند. افزودن عملکرد گفتار به متن به هر برنامه کاربردی با کمک Amazon Transcript، یک سرویس تشخیص خودکار گفتار (ASR) ساده است. میتوانید ورودی صوتی را با استفاده از Amazon Transcript دریافت کنید، رونوشتهای واضحی ایجاد کنید که خواندن و بررسی آنها آسان باشد، دقت را با سفارشیسازی افزایش دهید، و اطلاعات را برای محافظت از حریم خصوصی مشتری فیلتر کنید.
راه حل نیز استفاده می کند سرویس ذخیره سازی ساده آمازون (Amazon S3)، یک سرویس ذخیره سازی اشیا که برای ذخیره و بازیابی هر مقدار داده از هر کجا ساخته شده است. این یک سرویس ذخیره سازی ساده است که دوام، در دسترس بودن، عملکرد، امنیت و مقیاس پذیری تقریبا نامحدود را با هزینه بسیار کم ارائه می دهد. هنگامی که دادهها را در آمازون S3 ذخیره میکنید، با منابعی کار میکنید که به عنوان شناخته میشوند سطل ها و اشیاء. سطل ظرفی برای اشیا است. یک شی یک فایل و هر ابرداده ای است که فایل را توصیف می کند.
در این پست، مراحل زیر را برای پیاده سازی راه حل رونویسی صوتی چند زبانه به شما آموزش می دهیم:
- یک سطل S3 ایجاد کنید.
- فایل صوتی خود را در سطل آپلود کنید.
- کار رونویسی را ایجاد کنید.
- خروجی کار را مرور کنید.
پیش نیازها
برای این راهنما، شما باید پیش نیازهای زیر را داشته باشید:
Amazon Transcribe گزینه ای را برای ذخیره خروجی رونویسی در سطل S3 مدیریت شده یا مدیریت شده توسط مشتری ارائه می دهد. برای این پست، ما از آمازون رونویسی داریم که نتایج را در سطل S3 مدیریت شده سرویس بنویسد.
توجه داشته باشید که Amazon Transcribe یک سرویس منطقه ای است و نقاط پایانی Amazon Transcribe API که فراخوانی می شوند باید در همان منطقه ای باشند که سطل های S3 هستند.
یک سطل S3 برای ذخیره فایل های ورودی صوتی خود ایجاد کنید
برای ایجاد سطل S3 خود، مراحل زیر را انجام دهید:
- در کنسول آمازون S3، را انتخاب کنید سطل ایجاد کنید.
- برای نام سطل، یک نام منحصر به فرد جهانی برای سطل وارد کنید.
- برای منطقه AWS، همان منطقه ای را انتخاب کنید که نقاط پایانی آمازون رونویسی API خود را انتخاب کنید.
- همه پیش فرض ها را همانطور که هست بگذارید.
- را انتخاب کنید سطل ایجاد کنید.
فایل صوتی خود را در سطل S3 آپلود کنید
فایل صوتی چند زبانه خود را در سطل S3 در حساب AWS خود آپلود کنید. برای این تمرین از نمونه زیر استفاده می کنیم فایل صوتی چند زبانه. این یک تماس با پشتیبانی مشتری شامل زبان های انگلیسی و اسپانیایی می گیرد.
- در کنسول آمازون S3، را انتخاب کنید سطل در صفحه ناوبری
- سطلی را که قبلا برای ذخیره فایل های صوتی ورودی ایجاد کرده اید انتخاب کنید.
- را انتخاب کنید بارگذاری.
- را انتخاب کنید اضافه کردن فایل.
- فایل صوتی مورد نظر برای رونویسی را از رایانه محلی خود انتخاب کنید.
- را انتخاب کنید بارگذاری.
فایل صوتی شما به زودی در سطل S3 در دسترس خواهد بود.
کار رونویسی را ایجاد کنید
با آپلود فایل صوتی، اکنون یک کار رونویسی ایجاد می کنیم.
- در کنسول آمازون رونویسی، انتخاب کنید مشاغل رونویسی در صفحه ناوبری
- را انتخاب کنید ایجاد شغل.
- برای نام، یک نام منحصر به فرد برای کار وارد کنید.
این نام فایل رونوشت خروجی نیز خواهد بود. - برای تنظیمات زبان، انتخاب کنید شناسایی خودکار چندین زبان.
این ویژگی آمازون رونویسی را قادر می سازد تا به طور خودکار تمام زبان های صحبت شده در فایل صوتی را شناسایی و رونویسی کند. - برای گزینه های زبان برای شناسایی خودکار زبان، آن را بدون انتخاب رها کنید.
Amazon Transcript به طور خودکار تمام زبان های صحبت شده در صدا را شناسایی و رونویسی می کند. برای بهبود دقت رونویسی، میتوانید به صورت اختیاری دو یا چند زبان را که میدانید در صدا صحبت میشوند انتخاب کنید. - برای نوع مدل، فقط مدل کلی این گزینه در زمان نوشتن این پست موجود است.
- برای داده های ورودی، انتخاب کنید S3 را مرور کنید.
- فایل منبع صوتی را که قبلا آپلود کرده بودیم انتخاب کنید.
- برای داده های خروجی، می توانید هرکدام را انتخاب کنید سطل S3 با مدیریت خدمات or سطل S3 مشخص شده توسط مشتری. برای این پست انتخاب کنید سطل S3 با مدیریت خدمات.
- را انتخاب کنید بعدی.
- را انتخاب کنید ایجاد شغل.
خروجی کار را مرور کنید
وقتی کار رونویسی کامل شد، کار رونویسی را باز کنید.
به پایین بروید پیش نمایش رونویسی بخش. رونویسی صوتی روی صفحه نمایش داده می شود متن برگه رونویسی شامل هر دو بخش انگلیسی و اسپانیایی مکالمه است.
میتوانید بهصورت اختیاری یک نسخه از رونوشت را بهعنوان یک فایل JSON بارگیری کنید، که میتوانید برای کارهای بیشتر از آن استفاده کنید تجزیه و تحلیل پس از تماس.
پاک کردن
برای جلوگیری از تحمیل هزینه های بعدی، سطل S3 را که برای ذخیره فایل منبع صوتی ورودی ایجاد کرده اید خالی و حذف کنید. مطمئن شوید که فایلها را در جای دیگری ذخیره کردهاید، زیرا با این کار تمام اشیاء موجود در سطل برای همیشه حذف میشوند. در کنسول آمازون رونویسی، شغلی را که قبلا برای رونویسی ایجاد شده بود انتخاب و حذف کنید.
نتیجه
در این پست، یک گردش کار پایان به انتها برای شناسایی خودکار و رونویسی فایلهای صوتی چند زبانه، بدون نوشتن کد ایجاد کردیم. ما از قابلیت جدید در Amazon Transcript برای شناسایی خودکار زبان های مختلف در یک فایل صوتی و رونویسی صحیح هر زبان استفاده کردیم.
برای اطلاعات بیشتر به مراجعه کنید شناسایی زبان با کارهای رونویسی دسته ای.
درباره نویسنده
مرتوزا بوتوالا یک معمار ارشد راه حل در AWS با علاقه به فناوری های AI/ML است. او از کار با مشتریان برای کمک به آنها برای دستیابی به نتایج تجاری خود لذت می برد. خارج از محل کار، او از فعالیت های بیرون از خانه و گذراندن وقت با خانواده لذت می برد.
ویکتور قرمز علاقه زیادی به هوش مصنوعی/ML و توسعه نرم افزار دارد. او به راه اندازی و راه اندازی آمازون الکسا در ایالات متحده و مکزیک کمک کرد. او همچنین متن آمازون را به شرکای AWS آورد و اطلاعات مرکز تماس AWS (CCI) را از زمین خارج کرد. او در حال حاضر رهبر فناوری جهانی برای شرکای هوش مصنوعی مکالمه است.
بابو سرینیواسان یک AWS Sr. Specialist SA (خدمات هوش مصنوعی زبان) مستقر در شیکاگو است. او بر روی Amazon Transcript (گفتار به متن) تمرکز می کند و به مشتریان ما کمک می کند از خدمات هوش مصنوعی برای حل مشکلات تجاری استفاده کنند. در خارج از کار، او از نجاری و اجرای نمایش های جادویی لذت می برد.
- AI
- آی هنر
- مولد هنر ai
- ربات ai
- آمازون رونوشت
- هوش مصنوعی
- گواهی هوش مصنوعی
- هوش مصنوعی در بانکداری
- ربات هوش مصنوعی
- ربات های هوش مصنوعی
- نرم افزار هوش مصنوعی
- آموزش ماشین AWS
- بلاکچین
- کنفرانس بلاک چین ai
- coingenius
- هوش مصنوعی محاوره ای
- کنفرانس کریپتو ai
- دل-ه
- یادگیری عمیق
- گوگل ai
- متوسط (200)
- فراگیری ماشین
- افلاطون
- افلاطون آی
- هوش داده افلاطون
- بازی افلاطون
- PlatoData
- بازی پلاتو
- مقیاس Ai
- نحو
- نحوه فنی
- زفیرنت