स्पीकर डायराइज़ेशन, ऑडियो विश्लेषण में एक आवश्यक प्रक्रिया, स्पीकर की पहचान के आधार पर एक ऑडियो फ़ाइल को खंडित करता है। यह पोस्ट स्पीकर डायराइजेशन के लिए हगिंग फेस के PyAnnote को एकीकृत करने पर प्रकाश डालती है अमेज़न SageMaker अतुल्यकालिक समापनबिंदु.
हम एडब्ल्यूएस क्लाउड पर सेजमेकर का उपयोग करके स्पीकर सेगमेंटेशन और क्लस्टरिंग समाधानों को तैनात करने के तरीके पर एक व्यापक गाइड प्रदान करते हैं। आप इस समाधान का उपयोग मल्टी-स्पीकर (100 से अधिक) ऑडियो रिकॉर्डिंग से संबंधित अनुप्रयोगों के लिए कर सकते हैं।
समाधान अवलोकन
Amazon Transcribe AWS में स्पीकर डायराइज़ेशन के लिए सर्वप्रमुख सेवा है। हालाँकि, गैर-समर्थित भाषाओं के लिए, आप अन्य मॉडल (हमारे मामले में, PyAnnote) का उपयोग कर सकते हैं जिन्हें अनुमान के लिए SageMaker में तैनात किया जाएगा। छोटी ऑडियो फ़ाइलों के लिए जहां अनुमान लगाने में 60 सेकंड तक का समय लगता है, आप इसका उपयोग कर सकते हैं वास्तविक समय अनुमान. 60 सेकंड से अधिक समय तक, अतुल्यकालिक अनुमान का प्रयोग करना चाहिए। एसिंक्रोनस अनुमान का अतिरिक्त लाभ यह है कि जब प्रक्रिया के लिए कोई अनुरोध नहीं होता है तो इंस्टेंस गिनती को स्वचालित रूप से शून्य पर स्केल करके लागत बचत होती है।
गले लगना मशीन लर्निंग (एमएल) मॉडल के लिए एक लोकप्रिय ओपन सोर्स हब है। AWS और हगिंग फेस में एक है साझेदारी जो PyTorch या TensorFlow में प्रशिक्षण और अनुमान के लिए AWS डीप लर्निंग कंटेनर्स (DLCs) के एक सेट के साथ SageMaker के माध्यम से एक सहज एकीकरण की अनुमति देता है, और SageMaker Python SDK के लिए हगिंग फेस अनुमानक और भविष्यवक्ता। सेजमेकर की विशेषताएं और क्षमताएं डेवलपर्स और डेटा वैज्ञानिकों को एडब्ल्यूएस पर प्राकृतिक भाषा प्रसंस्करण (एनएलपी) आसानी से शुरू करने में मदद करती हैं।
इस समाधान के एकीकरण में हगिंग फेस के पूर्व-प्रशिक्षित स्पीकर डायराइजेशन मॉडल का उपयोग करना शामिल है पायअनोट लाइब्रेरी. PyAnnote स्पीकर डायराइजेशन के लिए पायथन में लिखा गया एक ओपन सोर्स टूलकिट है। नमूना ऑडियो डेटासेट पर प्रशिक्षित यह मॉडल, ऑडियो फ़ाइलों में प्रभावी स्पीकर विभाजन को सक्षम बनाता है। मॉडल को सेजमेकर पर एक एसिंक्रोनस एंडपॉइंट सेटअप के रूप में तैनात किया गया है, जो डायराइजेशन कार्यों की कुशल और स्केलेबल प्रोसेसिंग प्रदान करता है।
निम्नलिखित चित्र समाधान वास्तुकला को दर्शाता है।
इस पोस्ट के लिए, हम निम्नलिखित ऑडियो फ़ाइल का उपयोग करते हैं।
स्टीरियो या मल्टी-चैनल ऑडियो फ़ाइलें चैनलों के औसत से स्वचालित रूप से मोनो में डाउनमिक्स हो जाती हैं। अलग-अलग दर पर सैंपल की गई ऑडियो फ़ाइलें लोड होने पर स्वचालित रूप से 16kHz पर पुनः सैंपल हो जाती हैं।
.. पूर्वापेक्षाएँ
निम्नलिखित पूर्वापेक्षाएँ पूरी करें:
- एक सेजमेकर डोमेन बनाएं.
- सुनिश्चित करें कि आपका AWS पहचान और अभिगम प्रबंधन (IAM) उपयोगकर्ता के पास इसे बनाने के लिए आवश्यक एक्सेस अनुमतियाँ हैं सेजमेकर की भूमिका.
- सुनिश्चित करें कि AWS खाते में ml.g5.2xlarge इंस्टेंस के लिए SageMaker एंडपॉइंट होस्ट करने के लिए एक सेवा कोटा है।
हगिंग फेस से PyAnnote स्पीकर डायराइजेशन तक पहुंचने के लिए एक मॉडल फ़ंक्शन बनाएं
वांछित पूर्व-प्रशिक्षित तक पहुंचने के लिए आप हगिंग फेस हब का उपयोग कर सकते हैं PyAnnote स्पीकर डायराइज़ेशन मॉडल. सेजमेकर एंडपॉइंट बनाते समय आप मॉडल फ़ाइल डाउनलोड करने के लिए उसी स्क्रिप्ट का उपयोग करते हैं।
निम्नलिखित कोड देखें:
मॉडल कोड पैकेज करें
Inference.py जैसी आवश्यक फ़ाइलें तैयार करें, जिसमें अनुमान कोड शामिल है:
एक तैयार करें requirements.txt
फ़ाइल, जिसमें अनुमान को चलाने के लिए आवश्यक आवश्यक पायथन लाइब्रेरी शामिल हैं:
अंत में, संपीड़ित करें inference.py
और require.txt फ़ाइलें बनाएं और इसे इस रूप में सहेजें model.tar.gz
:
सेजमेकर मॉडल कॉन्फ़िगर करें
छवि यूआरआई, मॉडल डेटा स्थान निर्दिष्ट करके सेजमेकर मॉडल संसाधन को परिभाषित करें अमेज़न सरल भंडारण सेवा (एस3), और सेजमेकर भूमिका:
मॉडल को Amazon S3 पर अपलोड करें
ज़िपित PyAnnote हगिंग फेस मॉडल फ़ाइल को S3 बकेट में अपलोड करें:
एक सेजमेकर एसिंक्रोनस एंडपॉइंट बनाएं
दिए गए एसिंक्रोनस अनुमान कॉन्फ़िगरेशन का उपयोग करके सेजमेकर पर मॉडल को तैनात करने के लिए एक एसिंक्रोनस एंडपॉइंट कॉन्फ़िगर करें:
समापन बिंदु का परीक्षण करें
डायराइज़ेशन के लिए एक ऑडियो फ़ाइल भेजकर और निर्दिष्ट S3 आउटपुट पथ में संग्रहीत JSON आउटपुट को पुनः प्राप्त करके एंडपॉइंट कार्यक्षमता का मूल्यांकन करें:
इस समाधान को बड़े पैमाने पर तैनात करने के लिए, हम इसका उपयोग करने का सुझाव देते हैं AWS लाम्बा, अमेज़न सरल अधिसूचना सेवा (अमेज़ॅन एसएनएस), या अमेज़ॅन सरल कतार सेवा (अमेज़ॅन एसक्यूएस)। ये सेवाएँ स्केलेबिलिटी, इवेंट-संचालित आर्किटेक्चर और कुशल संसाधन उपयोग के लिए डिज़ाइन की गई हैं। वे परिणाम प्रसंस्करण से अतुल्यकालिक अनुमान प्रक्रिया को अलग करने में मदद कर सकते हैं, जिससे आप प्रत्येक घटक को स्वतंत्र रूप से स्केल कर सकते हैं और अनुमान अनुरोधों के विस्फोट को अधिक प्रभावी ढंग से संभाल सकते हैं।
परिणाम
मॉडल आउटपुट को संग्रहीत किया जाता है s3://sagemaker-xxxx /async_inference/output/.
आउटपुट से पता चलता है कि ऑडियो रिकॉर्डिंग को तीन कॉलम में विभाजित किया गया है:
- प्रारंभ (प्रारंभ समय सेकंड में)
- समाप्ति (अंत समय सेकंड में)
- स्पीकर (स्पीकर लेबल)
निम्नलिखित कोड हमारे परिणामों का एक उदाहरण दिखाता है:
क्लीन अप
आप MinCapacity को 0 पर सेट करके स्केलिंग नीति को शून्य पर सेट कर सकते हैं; अतुल्यकालिक अनुमान आपको बिना किसी अनुरोध के स्वचालित रूप से शून्य पर स्केल करने की सुविधा देता है। आपको समापन बिंदु को हटाने की आवश्यकता नहीं है तराजू आवश्यकता पड़ने पर फिर से शून्य से, उपयोग में न होने पर लागत कम करना। निम्नलिखित कोड देखें:
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/deploy-a-hugging-face-pyannote-speaker-diarization-model-on-amazon-sagemaker-as-an-asynchronous-endpoint/
- :हैस
- :है
- :नहीं
- :कहाँ
- $यूपी
- 1
- 10
- 100
- 11
- 118
- 12
- 13
- 14
- 16
- 17
- 23
- 25
- 26% तक
- 27
- 28
- 31
- 60
- 7
- 8
- 9
- a
- About
- पहुँच
- तक पहुँचने
- मिलनसार
- लेखा
- के पार
- जोड़ना
- जोड़ा
- समायोजित
- उन्नत
- फिर
- AI
- ऐ सेवा
- ऐ / एमएल
- की अनुमति दे
- की अनुमति देता है
- भी
- वीरांगना
- अमेज़न SageMaker
- अमेज़ॅन वेब सेवा
- an
- विश्लेषण
- विश्लेषिकी
- और
- कोई
- आवेदन
- अनुप्रयोगों
- दृष्टिकोण
- स्थापत्य
- आर्किटेक्चर
- हैं
- चारों ओर
- AS
- At
- प्रयास
- ऑडियो
- स्वत:
- स्वतः
- औसत
- एडब्ल्यूएस
- आधारित
- BE
- किया गया
- लाभ
- लाभ
- के बीच
- व्यापार
- व्यवसायों
- by
- कर सकते हैं
- क्षमताओं
- मामला
- मामलों
- परिवर्तन
- चैनलों
- कक्षा
- ग्राहक
- बादल
- गुच्छन
- कोड
- स्तंभ
- टिप्पणियाँ
- सामान्य
- अंग
- व्यापक
- संकल्पना
- समवर्ती
- विन्यास
- कंटेनरों
- शामिल हैं
- नियंत्रण
- लागत
- लागत बचत
- लागत
- गणना
- बनाना
- बनाना
- ग्राहक
- तिथि
- व्यवहार
- गहरा
- ध्यान लगा के पढ़ना या सीखना
- परिभाषित
- उद्धार
- विशद जानकारी देता है
- प्रदर्शन
- तैनात
- तैनात
- तैनाती
- डिज़ाइन
- बनाया गया
- वांछित
- विकसित
- डेवलपर
- डेवलपर्स
- विकास
- आरेख
- विभिन्न
- डिजिटल
- डिजिटल परिवर्तन
- डायरेक्टरी
- दस्तावेजों
- dont
- डाउनलोडिंग
- गतिशील
- से प्रत्येक
- आराम
- प्रभावी
- प्रभावी रूप से
- कुशल
- कुशलता
- सक्षम बनाता है
- समाप्त
- endpoint
- त्रुटि
- आवश्यक
- उदाहरण
- सिवाय
- अनुभव
- का पता लगाने
- चेहरा
- विशेषताएं
- पट्टिका
- फ़ाइलें
- निम्नलिखित
- के लिए
- प्रारूप
- से
- समारोह
- कार्यक्षमता
- उत्पादक
- मिल
- मिल रहा
- GitHub
- गाइड
- संभालना
- है
- he
- मदद
- मदद की
- मदद करता है
- उसके
- होस्टिंग
- कैसे
- How To
- तथापि
- एचटीएमएल
- http
- HTTPS
- हब
- हगिंग फ़ेस
- सैकड़ों
- पहचान
- if
- दिखाता है
- की छवि
- कार्यान्वित
- आयात
- in
- स्वतंत्र रूप से
- इंडिया
- उदाहरण
- घालमेल
- एकीकरण
- में
- शामिल
- IT
- यात्रा
- जेपीजी
- JSON
- कुंजी
- लेबल
- भाषा
- भाषाऐं
- बड़ा
- लांच
- सीख रहा हूँ
- चलें
- पुस्तकालयों
- पसंद
- भार
- लोड हो रहा है
- स्थान
- लंबे समय तक
- मशीन
- यंत्र अधिगम
- साधन
- ML
- आदर्श
- मॉडल
- अधिक
- विभिन्न
- प्राकृतिक
- प्राकृतिक भाषा संसाधन
- आवश्यक
- आवश्यकता
- जरूरत
- NLP
- नहीं
- कोई नहीं
- अधिसूचना
- संख्या
- वस्तु
- of
- ऑफर
- on
- खुला
- खुला स्रोत
- अनुकूलन
- or
- OS
- अन्य
- हमारी
- आउट
- उत्पादन
- के ऊपर
- कुल
- अपना
- पांडा
- भाग
- पथ
- अनुमतियाँ
- पाइपलाइन
- मंच
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- नीति
- लोकप्रिय
- पद
- संचालित
- भविष्यवाणियों
- आवश्यक शर्तें
- प्रक्रिया
- प्रसंस्करण
- परियोजनाओं
- सबूत
- प्रदान करना
- बशर्ते
- प्रदान करता है
- प्रदान कर
- सार्वजनिक
- रखना
- अजगर
- pytorch
- प्रशन
- मूल्यांकन करें
- पहुंच
- वास्तविक समय
- रिकॉर्डिंग
- कम कर देता है
- को कम करने
- संदर्भ
- क्षेत्र
- रजिस्टर
- विश्वसनीय
- की जगह
- का प्रतिनिधित्व
- अनुरोधों
- अपेक्षित
- आवश्यकताएँ
- संसाधन
- उपयुक्त संसाधन चुनें
- प्रतिक्रिया
- परिणाम
- परिणाम
- वापसी
- भूमिका
- रन
- दौड़ना
- sagemaker
- विक्रय
- वही
- नमूना
- सहेजें
- बचत
- अनुमापकता
- स्केलेबल
- स्केल
- स्केलिंग
- वैज्ञानिकों
- लिपि
- लिपियों
- एसडीके
- निर्बाध
- मूल
- सेकंड
- सेक्टर
- देखना
- विभाजन
- खंड
- भेजना
- पृथक करना
- सेवा
- सेवाएँ
- सत्र
- सत्र
- सेट
- की स्थापना
- व्यवस्था
- कई
- आकार
- कम
- चाहिए
- दिखाता है
- सरल
- एक
- सॉफ्टवेयर
- सॉफ्टवेयर विकास
- समाधान
- समाधान ढूंढे
- स्रोत
- वक्ता
- विशेषज्ञ
- विशिष्ट
- विनिर्दिष्ट
- निर्दिष्ट करना
- बिताता
- विभाजित
- प्रारंभ
- शुरू
- भंडारण
- संग्रहित
- सरल
- सामरिक
- सफलता
- सुझाव
- निश्चित
- प्रणाली
- लेता है
- कार्य
- तकनीक
- tensorflow
- से
- कि
- RSI
- वहाँ।
- इन
- वे
- इसका
- हजारों
- तीन
- यहाँ
- पहर
- सेवा मेरे
- आज
- टूलकिट
- विषय
- मशाल
- प्रशिक्षित
- प्रशिक्षण
- परिवर्तन
- ट्रान्सफ़ॉर्मर
- कोशिश
- मोड़
- के ऊपर
- उपयोग
- प्रयुक्त
- उपयोगकर्ता
- का उपयोग करता है
- का उपयोग
- प्रकार
- संस्करण
- वीडियो
- W
- प्रतीक्षा
- करना चाहते हैं
- we
- वेब
- वेब सेवाओं
- कब
- कौन कौन से
- कौन
- मर्जी
- साथ में
- काम कर रहे
- लिखा हुआ
- साल
- आप
- आपका
- जेफिरनेट
- शून्य