دیاریزاسیون بلندگو، یک فرآیند ضروری در تجزیه و تحلیل صدا، یک فایل صوتی را بر اساس هویت گوینده تقسیم می کند. این پست به ادغام PyAnnote Hugging Face برای دیاریشن بلندگو می پردازد آمازون SageMaker نقاط انتهایی ناهمزمان
ما یک راهنمای جامع در مورد نحوه استقرار راه حل های تقسیم بندی بلندگو و خوشه بندی با استفاده از SageMaker در AWS Cloud ارائه می دهیم. میتوانید از این راهحل برای برنامههایی که با ضبطهای صوتی با چند بلندگو (بیش از 100) سروکار دارند، استفاده کنید.
بررسی اجمالی راه حل
آمازون رونوشت سرویس پیشرو برای دیاریزاسیون بلندگو در AWS است. با این حال، برای زبانهایی که پشتیبانی نمیشوند، میتوانید از مدلهای دیگری (در مورد ما، PyAnnote) استفاده کنید که برای استنباط در SageMaker مستقر میشوند. برای فایلهای صوتی کوتاه که استنتاج تا 60 ثانیه طول میکشد، میتوانید استفاده کنید استنتاج بلادرنگ. به مدت بیش از 60 ثانیه، ناهمگام استنتاج باید استفاده شود مزیت اضافه استنتاج ناهمزمان، صرفه جویی در هزینه با مقیاس خودکار تعداد نمونه ها تا صفر زمانی است که هیچ درخواستی برای پردازش وجود ندارد.
در آغوش کشیدن صورت یک هاب منبع باز محبوب برای مدل های یادگیری ماشین (ML) است. AWS و Hugging Face دارای یک مشارکت که امکان ادغام یکپارچه را از طریق SageMaker با مجموعه ای از ظروف یادگیری عمیق (DLC) AWS برای آموزش و استنباط در PyTorch یا TensorFlow و برآوردگرها و پیش بینی کننده های Hugging Face برای SageMaker Python SDK فراهم می کند. ویژگیها و قابلیتهای SageMaker به توسعهدهندگان و دانشمندان داده کمک میکند تا به راحتی با پردازش زبان طبیعی (NLP) در AWS شروع کنند.
ادغام برای این راه حل شامل استفاده از مدل از پیش آموزش داده شده بیانگر Hugging Face با استفاده از کتابخانه PyAnnote. PyAnnote یک جعبه ابزار متن باز است که در پایتون برای دیاریشن بلندگو نوشته شده است. این مدل که بر روی مجموعه داده های صوتی نمونه آموزش داده شده است، پارتیشن بندی موثر بلندگو را در فایل های صوتی امکان پذیر می کند. این مدل در SageMaker به عنوان یک راهاندازی نقطه پایانی ناهمزمان مستقر شده است که پردازش کارآمد و مقیاسپذیر وظایف دیاریزاسیون را ارائه میکند.
نمودار زیر معماری راه حل را نشان می دهد.
برای این پست از فایل صوتی زیر استفاده می کنیم.
فایل های صوتی استریو یا چند کاناله به طور خودکار با میانگین کانال ها به مونو میکس می شوند. فایلهای صوتی نمونهبرداری شده با سرعت متفاوت، پس از بارگذاری، بهطور خودکار به ۱۶ کیلوهرتز نمونهگیری میشوند.
پیش نیازها
پیش نیازهای زیر را کامل کنید:
- یک دامنه SageMaker ایجاد کنید.
- اطمینان حاصل کنید که شما هویت AWS و مدیریت دسترسی کاربر (IAM) مجوزهای دسترسی لازم برای ایجاد a را دارد نقش SageMaker.
- مطمئن شوید که حساب AWS دارای سهمیه خدماتی برای میزبانی نقطه پایانی SageMaker برای نمونه ml.g5.2xlarge است.
یک تابع مدل برای دسترسی به diarization بلندگو PyAnnote از Hugging Face ایجاد کنید
شما می توانید از Hugging Face Hub برای دسترسی به آموزش های قبلی مورد نظر استفاده کنید مدل دیاریزاسیون بلندگو PyAnnote. هنگام ایجاد نقطه پایانی SageMaker از همان اسکریپت برای دانلود فایل مدل استفاده می کنید.
کد زیر را ببینید:
کد مدل را بسته بندی کنید
فایل های ضروری مانند inference.py را که حاوی کد استنتاج است آماده کنید:
آماده کن یک requirements.txt
فایلی که حاوی کتابخانه های پایتون لازم برای اجرای استنتاج است:
در نهایت، را فشرده کنید inference.py
و فایل های requirement.txt و ذخیره کنید model.tar.gz
:
یک مدل SageMaker را پیکربندی کنید
یک منبع مدل SageMaker را با مشخص کردن URI تصویر، مکان داده مدل در آن تعریف کنید سرویس ذخیره سازی ساده آمازون (S3) و نقش SageMaker:
مدل را در آمازون S3 آپلود کنید
فایل زیپ شده PyAnnote Hugging Face را در یک سطل S3 آپلود کنید:
یک نقطه پایانی ناهمزمان SageMaker ایجاد کنید
یک نقطه پایانی ناهمزمان را برای استقرار مدل در SageMaker با استفاده از پیکربندی استنتاج ناهمزمان ارائه شده پیکربندی کنید:
نقطه پایانی را تست کنید
عملکرد نقطه پایانی را با ارسال یک فایل صوتی برای diarization و بازیابی خروجی JSON ذخیره شده در مسیر خروجی S3 مشخص شده ارزیابی کنید:
برای استقرار این راه حل در مقیاس، پیشنهاد می کنیم از آن استفاده کنید AWS لامبدا, سرویس اطلاع رسانی ساده آمازون (Amazon SNS)، یا سرویس صف ساده آمازون (Amazon SQS). این سرویس ها برای مقیاس پذیری، معماری های رویداد محور و استفاده کارآمد از منابع طراحی شده اند. آنها می توانند به جدا کردن فرآیند استنتاج ناهمزمان از پردازش نتیجه کمک کنند و به شما این امکان را می دهند که هر جزء را به طور مستقل مقیاس بندی کنید و انبوه درخواست های استنتاج را به طور موثرتری مدیریت کنید.
نتایج
خروجی مدل در ذخیره می شود s3://sagemaker-xxxx /async_inference/output/.
خروجی نشان می دهد که ضبط صدا به سه ستون تقسیم شده است:
- شروع (زمان شروع به ثانیه)
- پایان (زمان پایان بر حسب ثانیه)
- بلندگو (برچسب بلندگو)
کد زیر نمونه ای از نتایج ما را نشان می دهد:
پاک کردن
می توانید با تنظیم MinCapacity روی 0، یک خط مشی مقیاس بندی را صفر کنید. استنتاج ناهمزمان به شما امکان می دهد بدون هیچ درخواستی مقیاس خودکار را به صفر برسانید. شما نیازی به حذف نقطه پایانی ندارید، آن را مقیاس ها از صفر در صورت نیاز مجدد، کاهش هزینه ها در صورت عدم استفاده. کد زیر را ببینید:
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://aws.amazon.com/blogs/machine-learning/deploy-a-hugging-face-pyannote-speaker-diarization-model-on-amazon-sagemaker-as-an-asynchronous-endpoint/
- : دارد
- :است
- :نه
- :جایی که
- $UP
- 1
- 10
- 100
- 11
- 118
- 12
- 13
- 14
- 16
- 17
- 23
- 25
- ٪۱۰۰
- 27
- 28
- 31
- 60
- 7
- 8
- 9
- a
- درباره ما
- دسترسی
- دسترسی
- سازگار
- حساب
- در میان
- اضافه کردن
- اضافه
- تنظیم می کند
- پیشرفته
- از نو
- AI
- خدمات هوش مصنوعی
- AI / ML
- اجازه دادن
- اجازه می دهد تا
- همچنین
- آمازون
- آمازون SageMaker
- آمازون خدمات وب
- an
- تحلیل
- علم تجزیه و تحلیل
- و
- هر
- کاربرد
- برنامه های کاربردی
- روش
- معماری
- معماری
- هستند
- دور و بر
- AS
- At
- تلاشها
- سمعی
- خودکار
- بطور خودکار
- میانگین
- AWS
- مستقر
- BE
- بوده
- سود
- مزایای
- میان
- کسب و کار
- کسب و کار
- by
- CAN
- قابلیت های
- مورد
- موارد
- تبادل
- کانال
- کلاس
- مشتری
- ابر
- خوشه بندی
- رمز
- ستون ها
- نظرات
- مشترک
- جزء
- جامع
- مفهوم
- رقیب
- پیکر بندی
- ظروف
- شامل
- گروه شاهد
- هزینه
- صرفه جویی در هزینه
- هزینه
- تعداد دفعات مشاهده
- ایجاد
- ایجاد
- مشتریان
- داده ها
- معامله
- عمیق
- یادگیری عمیق
- تعريف كردن
- ارائه
- غوطه ور شدن
- تظاهرات
- گسترش
- مستقر
- استقرار
- طرح
- طراحی
- مطلوب
- توسعه
- توسعه دهنده
- توسعه دهندگان
- پروژه
- نمودار
- مختلف
- دیجیتال
- دگرگونی های دیجیتال
- فهرست راهنما
- اسناد و مدارک
- آیا
- دانلود
- بطور پویا
- هر
- سهولت
- موثر
- به طور موثر
- موثر
- موثر
- را قادر می سازد
- پایان
- نقطه پایانی
- خطا
- ضروری است
- مثال
- جز
- تجربه
- اکتشاف
- چهره
- امکانات
- پرونده
- فایل ها
- پیروی
- برای
- قالب
- از جانب
- تابع
- قابلیت
- مولد
- دریافت کنید
- گرفتن
- GitHub
- راهنمایی
- دسته
- آیا
- he
- کمک
- کمک کرد
- کمک می کند
- خود را
- میزبانی وب
- چگونه
- چگونه
- اما
- HTML
- HTTP
- HTTPS
- قطب
- صورت در آغوش گرفته
- صدها نفر
- هویت
- if
- نشان می دهد
- تصویر
- اجرا
- واردات
- in
- به طور مستقل
- هندوستان
- نمونه
- ادغام
- ادغام
- به
- شامل
- IT
- سفر
- JPG
- json
- کلید
- برچسب
- زبان
- زبان ها
- بزرگ
- راه اندازی
- یادگیری
- اجازه می دهد تا
- کتابخانه ها
- پسندیدن
- بار
- بارگیری
- محل
- دیگر
- دستگاه
- فراگیری ماشین
- به معنی
- ML
- مدل
- مدل
- بیش
- چندگانه
- طبیعی
- پردازش زبان طبیعی
- لازم
- نیاز
- ضروری
- nlp
- نه
- هیچ
- اخطار
- عدد
- هدف
- of
- پیشنهادات
- on
- باز کن
- منبع باز
- بهینه سازی می کند
- or
- OS
- دیگر
- ما
- خارج
- تولید
- روی
- به طور کلی
- خود
- پانداها
- بخش
- مسیر
- مجوز
- خط لوله
- سکو
- افلاطون
- هوش داده افلاطون
- PlatoData
- سیاست
- محبوب
- پست
- صفحه اصلی
- پیش بینی
- پیش نیازها
- روند
- در حال پردازش
- پروژه ها
- اثبات
- ارائه
- ارائه
- فراهم می کند
- ارائه
- عمومی
- قرار دادن
- پــایتــون
- مارماهی
- سوالات
- نرخ
- رسیدن به
- زمان واقعی
- ضبط
- را کاهش می دهد
- کاهش
- منابع
- منطقه
- ثبت نام
- قابل اعتماد
- جایگزین کردن
- نمایندگی
- درخواست
- ضروری
- مورد نیاز
- منابع
- منابع
- پاسخ
- نتیجه
- نتایج
- برگشت
- نقش
- دویدن
- در حال اجرا
- حکیم ساز
- حراجی
- همان
- نمونه
- ذخیره
- پس انداز
- مقیاس پذیری
- مقیاس پذیر
- مقیاس
- مقیاس گذاری
- دانشمندان
- خط
- اسکریپت
- sdk
- بدون درز
- یکپارچه
- ثانیه
- بخش
- دیدن
- تقسیم بندی
- بخش ها
- در حال ارسال
- جدا کردن
- سرویس
- خدمات
- جلسه
- جلسات
- تنظیم
- محیط
- برپایی
- چند
- شکل
- کوتاه
- باید
- نشان می دهد
- ساده
- تنها
- نرم افزار
- توسعه نرم افزار
- راه حل
- مزایا
- منبع
- گوینده
- متخصص
- خاص
- مشخص شده
- مشخص کردن
- صرف می کند
- انشعاب
- شروع
- آغاز شده
- ذخیره سازی
- ذخیره شده
- ساده
- استراتژیک
- موفقیت
- نشان می دهد
- مطمئن
- سیستم
- طول می کشد
- وظایف
- فن آوری
- جریان تنسور
- نسبت به
- که
- La
- آنجا.
- اینها
- آنها
- این
- هزاران نفر
- سه
- از طریق
- زمان
- به
- امروز
- ابزار
- موضوع
- مشعل
- آموزش دیده
- آموزش
- دگرگونی
- ترانسفورماتور
- امتحان
- دور زدن
- بر
- استفاده کنید
- استفاده
- کاربر
- استفاده
- با استفاده از
- نوع دیگر
- نسخه
- فیلم های
- W
- صبر کنيد
- می خواهم
- we
- وب
- خدمات وب
- چه زمانی
- که
- WHO
- اراده
- با
- کارگر
- کتبی
- سال
- شما
- شما
- زفیرنت
- صفر