Amazon Rekognition PlatoBlockchain Data Intelligence के साथ ऑडियो इवेंट का पता लगाएं। लंबवत खोज। ऐ.

Amazon Rekognition के साथ ऑडियो इवेंट का पता लगाएं

जब अधिकांश लोग ऑडियो डेटा के साथ मशीन लर्निंग (एमएल) का उपयोग करने के बारे में सोचते हैं, तो आमतौर पर दिमाग में आने वाला मामला है प्रतिलेखन, जिसे वाक्-से-पाठ के रूप में भी जाना जाता है। हालाँकि, अन्य उपयोगी अनुप्रयोग हैं, जिनमें ध्वनियों का पता लगाने के लिए ML का उपयोग करना शामिल है।

ध्वनि का पता लगाने के लिए सॉफ्टवेयर का उपयोग करना कहलाता है ऑडियो घटना का पता लगाना, और इसमें कई अनुप्रयोग हैं। उदाहरण के लिए, मान लीजिए कि आप एक शोरगुल वाली फैक्ट्री के फर्श से आवाज़ों की निगरानी करना चाहते हैं, एक अलार्म घंटी सुनना जो मशीन के साथ एक समस्या का संकेत देती है। स्वास्थ्य देखभाल के माहौल में, आप किसी मरीज की आवाज़ को निष्क्रिय रूप से सुनने के लिए ऑडियो इवेंट डिटेक्शन का उपयोग कर सकते हैं जो एक गंभीर स्वास्थ्य समस्या का संकेत देता है। मीडिया वर्कलोड इस तकनीक के लिए उपयुक्त हैं, उदाहरण के लिए यह पता लगाने के लिए कि किसी स्पोर्ट्स वीडियो में रेफरी की सीटी कब बजती है। और निश्चित रूप से, आप इस तकनीक का उपयोग विभिन्न निगरानी कार्यभार में कर सकते हैं, जैसे कि बंदूक की गोली सुनना या शहर की सड़क के ऊपर लगे माइक्रोफ़ोन से कार दुर्घटना की आवाज़।

यह पोस्ट बताती है कि एक ऑडियो फ़ाइल में ध्वनियों का पता कैसे लगाया जाए, भले ही एक ही समय में महत्वपूर्ण पृष्ठभूमि ध्वनियाँ हो रही हों। क्या अधिक है, शायद आश्चर्यजनक रूप से, हम कंप्यूटर विज़न-आधारित तकनीकों का उपयोग करके पता लगाने के लिए उपयोग करते हैं अमेज़ॅन रेकग्निशन.

मशीन लर्निंग के साथ ऑडियो डेटा का उपयोग करना

ऑडियो इवेंट का पता लगाने में पहला कदम यह समझना है कि ऑडियो डेटा का प्रतिनिधित्व कैसे किया जाता है। इस पोस्ट के प्रयोजनों के लिए, हम केवल रिकॉर्ड किए गए ऑडियो से निपटते हैं, हालांकि ये तकनीक स्ट्रीमिंग ऑडियो के साथ काम करती हैं।

रिकॉर्ड किए गए ऑडियो को आम तौर पर ध्वनि के नमूनों के अनुक्रम के रूप में संग्रहीत किया जाता है, जो समय के साथ रिकॉर्डिंग के दौरान माइक्रोफ़ोन से टकराने वाली ध्वनि तरंगों की तीव्रता को मापता है। इन नमूनों को संग्रहीत करने के लिए कई प्रकार के प्रारूप हैं, लेकिन एक सामान्य दृष्टिकोण प्रति सेकंड 10,000, 20,000, या यहां तक ​​कि 40,000 नमूनों को संग्रहीत करना है, जिसमें प्रत्येक नमूना 0-65535 (दो बाइट्स) से एक पूर्णांक है। चूंकि प्रत्येक नमूना किसी विशेष क्षण में केवल ध्वनि तरंगों की तीव्रता को मापता है, ध्वनि डेटा आमतौर पर एमएल प्रक्रियाओं के लिए सहायक नहीं होता है क्योंकि इसकी कच्ची अवस्था में कोई उपयोगी विशेषता नहीं होती है।

उस डेटा को उपयोगी बनाने के लिए, ध्वनि के नमूने को एक छवि में परिवर्तित किया जाता है जिसे a . कहा जाता है spectrogram, जो ऑडियो डेटा का एक प्रतिनिधित्व है जो समय के साथ विभिन्न आवृत्ति बैंड की तीव्रता को दर्शाता है। निम्न छवि एक उदाहरण दिखाती है।

इस छवि का एक्स अक्ष समय का प्रतिनिधित्व करता है, जिसका अर्थ है कि छवि का बायां किनारा ध्वनि की शुरुआत है, और छवि का दायां किनारा अंत है। छवि के भीतर डेटा का प्रत्येक स्तंभ विभिन्न आवृत्ति बैंड (छवि के बाईं ओर पैमाने द्वारा इंगित) का प्रतिनिधित्व करता है, और प्रत्येक बिंदु पर रंग उस समय में उस आवृत्ति की तीव्रता का प्रतिनिधित्व करता है।

स्पेक्ट्रोग्राम के लिए लंबवत स्केलिंग को अन्य अभ्यावेदन में बदला जा सकता है। उदाहरण के लिए, रैखिक स्केलिंग का अर्थ है कि Y अक्ष समान रूप से आवृत्तियों पर विभाजित है, लॉगरिदमिक स्केलिंग एक लॉग स्केल का उपयोग करता है, और आगे। इन अभ्यावेदन का उपयोग करने में समस्या यह है कि ध्वनि फ़ाइल में आवृत्तियों को आमतौर पर समान रूप से वितरित नहीं किया जाता है, इसलिए अधिकांश जानकारी जिसमें हम रुचि रखते हैं, छवि के निचले भाग (निचली आवृत्तियों) के पास क्लस्टर की जा सकती हैं।

उस समस्या को हल करने के लिए, हमारी नमूना छवि एक उदाहरण है मेल स्पेक्ट्रोग्राम, जिसे बारीकी से अनुमान लगाया जाता है कि मनुष्य ध्वनि को कैसे देखता है। छवि के बाईं ओर आवृत्ति संकेतकों पर ध्यान दें - वे एक विचार देते हैं कि उन्हें लंबवत रूप से कैसे वितरित किया जाता है, और यह स्पष्ट है कि यह एक गैर-रेखीय पैमाना है।

इसके अतिरिक्त, हम मापी जा रही ऑडियो की विभिन्न विशेषताओं को बढ़ाने के लिए आवृत्ति द्वारा तीव्रता के माप को समय के अनुसार संशोधित कर सकते हैं। मेल स्पेक्ट्रोग्राम द्वारा कार्यान्वित वाई अक्ष स्केलिंग के साथ, अन्य 12 विशिष्ट पिच वर्गों की तीव्रता जैसी सुविधाओं पर जोर देते हैं जिनका उपयोग संगीत (क्रोमा) का अध्ययन करने के लिए किया जाता है। एक अन्य वर्ग क्षैतिज (हार्मोनिक) विशेषताओं या लंबवत (टक्कर) सुविधाओं पर जोर देता है। जिस प्रकार की ध्वनि का पता लगाया जा रहा है, उसे डिटेक्शन सिस्टम के लिए उपयोग किए जाने वाले स्पेक्ट्रोग्राम के प्रकार को चलाना चाहिए।

पहले का उदाहरण स्पेक्ट्रोग्राम एक संगीत क्लिप का प्रतिनिधित्व करता है जो सिर्फ 2 मिनट से अधिक लंबी है। ज़ूम इन करने से अधिक विवरण का पता चलता है, जैसा कि निम्न छवि में दिखाया गया है।

Amazon Rekognition PlatoBlockchain Data Intelligence के साथ ऑडियो इवेंट का पता लगाएं। लंबवत खोज। ऐ.

छवि के शीर्ष के साथ संख्याएं ऑडियो फ़ाइल की शुरुआत से सेकंड की संख्या दिखाती हैं। आप स्पष्ट रूप से ध्वनियों का एक क्रम देख सकते हैं जो प्रति सेकंड चार बार से अधिक दोहराते हुए प्रतीत होते हैं, जो छवि के निचले भाग के पास चमकीले रंगों द्वारा इंगित किया गया है।

जैसा कि आप देख सकते हैं, यह ऑडियो को स्पेक्ट्रोग्राम में परिवर्तित करने के लाभों में से एक है - विशिष्ट ध्वनियाँ अक्सर नग्न आंखों से आसानी से दिखाई देती हैं, और यदि वे नहीं भी हैं, तो उन्हें अक्सर कंप्यूटर विज़न ऑब्जेक्ट डिटेक्शन एल्गोरिदम का उपयोग करके पता लगाया जा सकता है। वास्तव में, ध्वनियों का पता लगाने के लिए हम ठीक यही प्रक्रिया अपनाते हैं।

एक स्पेक्ट्रोग्राम में असतत ध्वनियों की तलाश में

हम जिस ऑडियो फ़ाइल की खोज कर रहे हैं उसकी लंबाई के आधार पर, एक या दो सेकंड तक चलने वाली असतत ध्वनि ढूंढना एक चुनौती है। हमारे द्वारा साझा किया गया पहला स्पेक्ट्रोग्राम देखें—क्योंकि हम पूरे 3:30 मिनट का डेटा देख रहे हैं, जो विवरण केवल एक सेकंड या उससे अधिक समय तक चलता है, वह दिखाई नहीं देता है। दूसरी छवि में दिखाई गई लय को देखने के लिए हमने काफी ज़ूम किया। स्पष्ट रूप से, बड़ी ध्वनि फ़ाइलों (और इसलिए बहुत बड़े स्पेक्ट्रोग्राम) के साथ, हम जल्दी से समस्याओं में भाग लेते हैं जब तक कि हम एक अलग दृष्टिकोण का उपयोग नहीं करते। उस दृष्टिकोण को कहा जाता है विंडोइंग.

विंडिंग एक स्लाइडिंग विंडो का उपयोग करने को संदर्भित करता है जो पूरे स्पेक्ट्रोग्राम में चलता है, एक समय में कुछ सेकंड (या उससे कम) को अलग करता है। समग्र छवि के कुछ हिस्सों को बार-बार अलग करके, हमें छोटी छवियां मिलती हैं जो खोजी जाने वाली ध्वनि की उपस्थिति के लिए खोजी जा सकती हैं। क्योंकि प्रत्येक विंडो का परिणाम उस छवि के केवल एक भाग में हो सकता है जिसे हम ढूंढ रहे हैं (जैसे किसी ध्वनि की खोज के मामले में जो विंडो की शुरुआत में बिल्कुल शुरू नहीं होती है), विंडोिंग अक्सर सफल विंडो ओवरलैप होने के साथ की जाती है। उदाहरण के लिए, पहली विंडो 0:00 बजे शुरू होती है और 2 सेकंड तक चलती है, फिर दूसरी विंडो 0:01 से शुरू होती है और 2 सेकंड तक चलती है, और तीसरी विंडो 0:02 से शुरू होती है और 2 सेकंड तक चलती है, और इसी तरह।

विंडिंग एक स्पेक्ट्रोग्राम छवि को क्षैतिज रूप से विभाजित करता है। हम छवि के केवल कुछ लंबवत भागों को काटकर या खोजकर कुछ आवृत्ति बैंड को अलग करके पता लगाने की प्रक्रिया की प्रभावशीलता में सुधार कर सकते हैं। उदाहरण के लिए, यदि आप जानते हैं कि आप जिस अलार्म घंटी का पता लगाना चाहते हैं, वह एक विशिष्ट आवृत्ति से दूसरी तक की ध्वनि उत्पन्न करती है, तो आप केवल उन आवृत्ति श्रेणियों पर विचार करने के लिए वर्तमान विंडो को संशोधित कर सकते हैं। यह हेरफेर किए जाने वाले डेटा की मात्रा को बहुत कम कर देता है, और परिणाम बहुत तेज़ खोज में होता है। यह सटीकता में भी सुधार करता है, क्योंकि यह वांछित सीमा के बाहर फ़्रीक्वेंसी बैंड में होने वाले संभावित झूठे सकारात्मक मैचों को समाप्त कर रहा है। निम्न चित्र पूर्ण Y अक्ष (बाएं) की तुलना सीमित Y अक्ष (दाएं) से करते हैं।

पूर्ण वाई अक्ष

पूर्ण वाई अक्ष

लिमिटेड वाई एक्सिस

लिमिटेड वाई एक्सिस

अब जब हम जानते हैं कि कैसे एक विंडोिंग दृष्टिकोण के साथ एक स्पेक्ट्रोग्राम पर पुनरावृति करना है और कुछ आवृत्ति बैंड को फ़िल्टर करना है, तो अगला कदम ध्वनि की वास्तविक खोज करना है। उसके लिए, हम उपयोग करते हैं अमेज़ॅन रेकग्निशन कस्टम लेबल. रिकॉग्निशन कस्टम लेबल फीचर Amazon Rekognition की मौजूदा क्षमताओं का निर्माण करता है, जो पहले से ही कई श्रेणियों में लाखों छवियों पर प्रशिक्षित है। हजारों छवियों के बजाय, आपको केवल प्रशिक्षण छवियों का एक छोटा सेट अपलोड करने की आवश्यकता है (आमतौर पर कुछ सौ छवियां, लेकिन मॉडल के तहत या अधिक प्रशिक्षण से बचने के लिए विशिष्ट उपयोग के मामले के आधार पर इष्टतम प्रशिक्षण डेटासेट आकार प्रयोगात्मक रूप से आना चाहिए। ) जो आपके उपयोग के मामले के लिए विशिष्ट हैं, पहचान कस्टम लेबल कंसोल के माध्यम से।

यदि आपकी छवियों पर पहले से ही लेबल लगा हुआ है, तो Amazon Rekognition प्रशिक्षण कुछ ही क्लिक में उपलब्ध है। वैकल्पिक रूप से, आप छवियों को सीधे Amazon Rekognition लेबलिंग इंटरफ़ेस में लेबल कर सकते हैं, या उपयोग कर सकते हैं अमेज़ॅन सैजमेकर ग्राउंड ट्रुथ उन्हें आपके लिए लेबल करने के लिए। जब Amazon Rekognition आपके छवि सेट से प्रशिक्षण शुरू करता है, तो यह कुछ ही घंटों में आपके लिए एक कस्टम छवि विश्लेषण मॉडल तैयार करता है। पर्दे के पीछे, पहचान कस्टम लेबल स्वचालित रूप से प्रशिक्षण डेटा लोड और निरीक्षण करता है, सही एमएल एल्गोरिदम का चयन करता है, एक मॉडल को प्रशिक्षित करता है, और मॉडल प्रदर्शन मीट्रिक प्रदान करता है। फिर आप के माध्यम से अपने कस्टम मॉडल का उपयोग कर सकते हैं मान्यता कस्टम लेबल API और इसे अपने अनुप्रयोगों में एकीकृत करें।

प्रशिक्षण डेटा को इकट्ठा करना और एक पहचान कस्टम लेबल मॉडल का प्रशिक्षण

में इस पोस्ट से जुड़े GitHub रेपो, आपको वह कोड मिलेगा जो दिखाता है कि पृष्ठभूमि शोर की परवाह किए बिना धूम्रपान अलार्म की आवाज़ को कैसे सुनना है। इस मामले में, हमारा रिकॉग्निशन कस्टम लेबल मॉडल एक बाइनरी वर्गीकरण मॉडल है, जिसका अर्थ है कि परिणाम या तो "स्मोक अलार्म साउंड का पता चला था" या "स्मोक अलार्म साउंड का पता नहीं चला था।"

एक कस्टम मॉडल बनाने के लिए, हमें प्रशिक्षण डेटा की आवश्यकता होती है। उस प्रशिक्षण डेटा में दो मुख्य प्रकार होते हैं: पर्यावरणीय ध्वनियाँ, और वे ध्वनियाँ जिनका आप पता लगाना चाहते हैं (जैसे धूम्रपान अलार्म बंद होना)।

पर्यावरण डेटा को विभिन्न प्रकार के ध्वनियों का प्रतिनिधित्व करना चाहिए जो उस वातावरण के लिए विशिष्ट हैं जिसमें आप ध्वनि का पता लगाना चाहते हैं। उदाहरण के लिए, यदि आप फ़ैक्टरी वातावरण में धूम्रपान अलार्म ध्वनि का पता लगाना चाहते हैं, तो उस फ़ैक्टरी वातावरण में रिकॉर्ड की गई ध्वनियों के साथ शुरू करें। विभिन्न स्थितियों (बेशक, धूम्रपान अलार्म बजने के बिना)।

यदि संभव हो तो आप जिन ध्वनियों का पता लगाना चाहते हैं, उन्हें अलग-थलग कर दिया जाना चाहिए, जिसका अर्थ है कि रिकॉर्डिंग बिना किसी पर्यावरणीय पृष्ठभूमि की ध्वनि के ही होनी चाहिए। हमारे उदाहरण के लिए, यह स्मोक अलार्म के बंद होने की आवाज़ है।

आपके द्वारा इन ध्वनियों को एकत्र करने के बाद, GitHub रेपो में कोड दिखाता है कि पर्यावरणीय ध्वनियों को विभिन्न तरीकों से धूम्रपान अलार्म ध्वनियों के साथ कैसे संयोजित किया जाए (और फिर उन्हें स्पेक्ट्रोग्राम में परिवर्तित किया जाए) ताकि पर्यावरणीय ध्वनियों का प्रतिनिधित्व करने वाली कई छवियां बनाई जा सकें। धूम्रपान अलार्म के साथ और बिना उन पर मढ़ा हुआ लगता है। निम्न छवि कुछ पर्यावरणीय ध्वनियों का एक उदाहरण है जिसके ऊपर स्मोक अलार्म ध्वनि (चमकदार क्षैतिज पट्टियाँ) मढ़ा हुआ है।

Amazon Rekognition PlatoBlockchain Data Intelligence के साथ ऑडियो इवेंट का पता लगाएं। लंबवत खोज। ऐ.

प्रशिक्षण और परीक्षण डेटा एक में संग्रहीत किया जाता है अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) बाल्टी। बकेट के भीतर डेटा को व्यवस्थित करने के लिए निम्नलिखित निर्देशिका संरचना एक अच्छा प्रारंभिक बिंदु है।

Amazon Rekognition PlatoBlockchain Data Intelligence के साथ ऑडियो इवेंट का पता लगाएं। लंबवत खोज। ऐ.

गिटहब रेपो में नमूना कोड आपको यह चुनने की अनुमति देता है कि कितनी प्रशिक्षण छवियां बनाना है। पहचान कस्टम लेबल के लिए बड़ी संख्या में प्रशिक्षण छवियों की आवश्यकता नहीं होती है। 200-500 छवियों का एक प्रशिक्षण सेट पर्याप्त होना चाहिए।

एक पहचान कस्टम लेबल प्रोजेक्ट बनाने के लिए आवश्यक है कि आप S3 फ़ोल्डर के URI को निर्दिष्ट करें जिसमें प्रशिक्षण डेटा और (वैकल्पिक रूप से) परीक्षण डेटा शामिल है। प्रशिक्षण कार्य के लिए डेटा स्रोत निर्दिष्ट करते समय, विकल्पों में से एक है स्वचालित लेबलिंग, जैसा कि निम्नलिखित स्क्रीनशॉट में दिखाया गया है।

Amazon Rekognition PlatoBlockchain Data Intelligence के साथ ऑडियो इवेंट का पता लगाएं। लंबवत खोज। ऐ.

इस विकल्प का उपयोग करने का अर्थ है कि Amazon Rekognition फ़ोल्डरों के नामों को लेबल नामों के रूप में उपयोग करता है। हमारे स्मोक अलार्म डिटेक्शन यूज केस के लिए, ट्रेन के अंदर फोल्डर की संरचना और टेस्ट फोल्डर निम्न स्क्रीनशॉट की तरह दिखते हैं।

Amazon Rekognition PlatoBlockchain Data Intelligence के साथ ऑडियो इवेंट का पता लगाएं। लंबवत खोज। ऐ.

प्रशिक्षण डेटा छवियां उन फ़ोल्डरों में जाती हैं, जिनमें स्पेक्ट्रोग्राम होते हैं जिनमें अलार्म फ़ोल्डर में धूम्रपान अलार्म की ध्वनि होती है, और स्पेक्ट्रोग्राम जिनमें धूम्रपान अलार्म ध्वनि नहीं होती है no_alarm फ़ोल्डर। Amazon Rekognition उन नामों का उपयोग कस्टम लेबल मॉडल के आउटपुट क्लास नामों के रूप में करता है।

एक कस्टम लेबल मॉडल को प्रशिक्षित करने में आमतौर पर 30-90 मिनट लगते हैं। उस प्रशिक्षण के अंत में, आपको प्रशिक्षित मॉडल शुरू करना होगा ताकि यह उपयोग के लिए उपलब्ध हो सके।

ध्वनि का पता लगाने के लिए एंड-टू-एंड आर्किटेक्चर

अपना मॉडल बनाने के बाद, अगला कदम एक अनुमान पाइपलाइन स्थापित करना है, इसलिए हम यह पता लगाने के लिए मॉडल का उपयोग कर सकते हैं कि ऑडियो फ़ाइल में धूम्रपान अलार्म ध्वनि मौजूद है या नहीं। ऐसा करने के लिए, इनपुट ध्वनि को एक स्पेक्ट्रोग्राम में बदल दिया जाना चाहिए और फिर आवृत्ति द्वारा विंडो और फ़िल्टर किया जाना चाहिए, जैसा कि प्रशिक्षण प्रक्रिया के लिए किया गया था। स्पेक्ट्रोग्राम की प्रत्येक विंडो मॉडल को दी जाती है, जो एक वर्गीकरण देता है जो इंगित करता है कि धूम्रपान अलार्म बज रहा है या नहीं।

निम्नलिखित आरेख एक उदाहरण वास्तुकला दिखाता है जो इस अनुमान पाइपलाइन को लागू करता है।

Amazon Rekognition PlatoBlockchain Data Intelligence के साथ ऑडियो इवेंट का पता लगाएं। लंबवत खोज। ऐ.

यह आर्किटेक्चर एक ऑडियो फ़ाइल को S3 बकेट में रखे जाने की प्रतीक्षा करता है, जो तब एक AWS लाम्बा समारोह का आह्वान किया। लैम्ब्डा एक सर्वर रहित, घटना-संचालित कंप्यूट सेवा है जो आपको सर्वर के प्रावधान या प्रबंधन के बिना वस्तुतः किसी भी प्रकार के एप्लिकेशन या बैकएंड सेवा के लिए कोड चलाने देती है। आप 200 से अधिक AWS सेवाओं और सॉफ़्टवेयर से एक सेवा (SaaS) अनुप्रयोगों के रूप में एक लैम्ब्डा फ़ंक्शन को ट्रिगर कर सकते हैं, और केवल आपके द्वारा उपयोग किए जाने वाले भुगतान के लिए भुगतान कर सकते हैं।

लैम्ब्डा फ़ंक्शन बकेट का नाम और ऑडियो फ़ाइल की कुंजी (या फ़ाइल नाम) का नाम प्राप्त करता है। फ़ाइल को Amazon S3 से फ़ंक्शन की मेमोरी में डाउनलोड किया जाता है, जो तब इसे एक स्पेक्ट्रोग्राम में परिवर्तित करता है और विंडोिंग और फ़्रीक्वेंसी फ़िल्टरिंग करता है। स्पेक्ट्रोग्राम के प्रत्येक विंडो वाले हिस्से को फिर अमेज़ॅन रिकॉग्निशन को भेजा जाता है, जो ध्वनि का पता लगाने के लिए पहले से प्रशिक्षित अमेज़ॅन कस्टम लेबल मॉडल का उपयोग करता है। यदि वह ध्वनि पाई जाती है, तो लैम्ब्डा फ़ंक्शन संकेत देता है कि a . का उपयोग करके अमेज़न सरल अधिसूचना सेवा (अमेज़ॅन एसएनएस) अधिसूचना। अमेज़ॅन एसएनएस एक पब/उप दृष्टिकोण प्रदान करता है जहां सूचनाएं भेजी जा सकती हैं अमेज़ॅन सरल कतार सेवा (अमेज़ॅन एसक्यूएस) कतार, लैम्ब्डा फ़ंक्शन, एचटीटीपीएस एंडपॉइंट, ईमेल पते, मोबाइल पुश, और बहुत कुछ।

निष्कर्ष

आप ऑडियो डेटा के साथ मशीन लर्निंग का उपयोग यह निर्धारित करने के लिए कर सकते हैं कि कुछ ध्वनियाँ कब होती हैं, तब भी जब एक ही समय में अन्य ध्वनियाँ आ रही हों। ऐसा करने के लिए ध्वनि को एक स्पेक्ट्रोग्राम छवि में परिवर्तित करने की आवश्यकता होती है, और फिर आवृत्ति बैंड द्वारा विंडोिंग और फ़िल्टरिंग द्वारा उस स्पेक्ट्रोग्राम के विभिन्न हिस्सों में होमिंग की आवश्यकता होती है। पहचान कस्टम लेबल ध्वनि पहचान के लिए कस्टम मॉडल को प्रशिक्षित करना आसान बनाता है।

आप का उपयोग कर सकते हैं गीथहब रेपो इस पोस्ट के उदाहरण कोड को अपने स्वयं के प्रयोगों के लिए एक प्रारंभिक बिंदु के रूप में शामिल करना। ऑडियो इवेंट डिटेक्शन के बारे में अधिक जानकारी के लिए, देखें ध्वनि घटना का पता लगाना: एक ट्यूटोरियल.


लेखक के बारे में

Amazon Rekognition PlatoBlockchain Data Intelligence के साथ ऑडियो इवेंट का पता लगाएं। लंबवत खोज। ऐ.ग्रेग सोमरविले एडब्ल्यूएस प्रोटोटाइपिंग और क्लाउड इंजीनियरिंग टीम में एक वरिष्ठ प्रोटोटाइप आर्किटेक्ट हैं, जहां वे एडब्ल्यूएस ग्राहकों को मशीन लर्निंग, आईओटी और सर्वर रहित प्रौद्योगिकियों के साथ चुनौतीपूर्ण समस्याओं के लिए अभिनव समाधान लागू करने में मदद करते हैं। वह मिशिगन के एन आर्बर में रहता है और योग का अभ्यास करना, अपने कुत्तों को खाना खिलाना और पोकर खेलना पसंद करता है।

Amazon Rekognition PlatoBlockchain Data Intelligence के साथ ऑडियो इवेंट का पता लगाएं। लंबवत खोज। ऐ.जेफ हरमन एडब्ल्यूएस प्रोटोटाइपिंग और क्लाउड इंजीनियरिंग टीम में एक वरिष्ठ प्रोटोटाइप आर्किटेक्ट हैं, जहां वह एडब्ल्यूएस ग्राहकों को चुनौतीपूर्ण समस्याओं के लिए अभिनव समाधान लागू करने में मदद करते हैं। वह यूनियनविले, कनेक्टिकट में रहता है और वुडवर्किंग, ब्लैकस्मिथिंग और माइनक्राफ्ट का आनंद लेता है।

समय टिकट:

से अधिक AWS मशीन लर्निंग

अमेज़ॅन सैजमेकर खर्च का विश्लेषण करें और उपयोग के आधार पर लागत अनुकूलन अवसरों का निर्धारण करें, भाग 4: प्रशिक्षण नौकरियां | अमेज़न वेब सेवाएँ

स्रोत नोड: 1843423
समय टिकट: 30 मई 2023