অ্যামাজন স্বীকৃতি দিয়ে অডিও ইভেন্টগুলি সনাক্ত করুন৷

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

যখন বেশিরভাগ মানুষ অডিও ডেটার সাথে মেশিন লার্নিং (ML) ব্যবহার করার কথা ভাবেন, তখন সাধারণত মনে আসে ব্যবহারের ক্ষেত্রে প্রতিলিপির গ্রহণ, স্পিচ-টু-টেক্সট নামেও পরিচিত। যাইহোক, শব্দ সনাক্ত করতে ML ব্যবহার সহ অন্যান্য দরকারী অ্যাপ্লিকেশন রয়েছে।

শব্দ শনাক্ত করতে সফ্টওয়্যার ব্যবহার করা বলা হয় অডিও ইভেন্ট সনাক্তকরণ, এবং এটিতে অনেকগুলি অ্যাপ্লিকেশন রয়েছে৷ উদাহরণস্বরূপ, ধরুন আপনি একটি শোরগোল কারখানার মেঝে থেকে শব্দগুলি নিরীক্ষণ করতে চান, একটি অ্যালার্ম বেল শুনতে চান যা একটি মেশিনে সমস্যা নির্দেশ করে। একটি স্বাস্থ্যসেবা পরিবেশে, আপনি অডিও ইভেন্ট সনাক্তকরণ ব্যবহার করতে পারেন প্যাসিভভাবে একজন রোগীর শব্দ শোনার জন্য যা একটি তীব্র স্বাস্থ্য সমস্যা নির্দেশ করে। মিডিয়া ওয়ার্কলোডগুলি এই কৌশলটির জন্য উপযুক্ত, উদাহরণস্বরূপ যখন একটি ক্রীড়া ভিডিওতে রেফারির বাঁশি বাজানো হয় তা সনাক্ত করা। এবং অবশ্যই, আপনি এই কৌশলটি বিভিন্ন নজরদারি কাজের চাপে ব্যবহার করতে পারেন, যেমন শহরের রাস্তার উপরে বসানো মাইক্রোফোন থেকে বন্দুকের গুলি শোনা বা গাড়ি দুর্ঘটনার শব্দ শোনা।

এই পোস্টটি বর্ণনা করে যে কীভাবে একটি অডিও ফাইলে শব্দ শনাক্ত করা যায় এমনকি একই সময়ে উল্লেখযোগ্য পটভূমির শব্দগুলি ঘটলেও। আরও কি, সম্ভবত আশ্চর্যজনকভাবে, আমরা সনাক্তকরণের জন্য কম্পিউটার দৃষ্টি-ভিত্তিক কৌশল ব্যবহার করি, ব্যবহার করে আমাজন রেকোনিশন.

মেশিন লার্নিং সহ অডিও ডেটা ব্যবহার করা

অডিও ইভেন্ট সনাক্ত করার প্রথম ধাপ হল অডিও ডেটা কীভাবে উপস্থাপন করা হয় তা বোঝা। এই পোস্টের উদ্দেশ্যে, আমরা শুধুমাত্র রেকর্ড করা অডিও নিয়ে কাজ করি, যদিও এই কৌশলগুলি স্ট্রিমিং অডিওর সাথে কাজ করে।

রেকর্ড করা অডিও সাধারণত শব্দ নমুনার ক্রম হিসাবে সংরক্ষণ করা হয়, যা সময়ের সাথে সাথে রেকর্ডিংয়ের সময় মাইক্রোফোনে আঘাতকারী শব্দ তরঙ্গের তীব্রতা পরিমাপ করে। এই নমুনাগুলি সংরক্ষণ করার জন্য বিভিন্ন ধরণের বিন্যাস রয়েছে, তবে একটি সাধারণ পদ্ধতি হল প্রতি সেকেন্ডে 10,000, 20,000 বা এমনকি 40,000 নমুনা সংরক্ষণ করা, প্রতিটি নমুনা 0-65535 (দুই বাইট) থেকে একটি পূর্ণসংখ্যা। যেহেতু প্রতিটি নমুনা একটি নির্দিষ্ট মুহুর্তে শুধুমাত্র শব্দ তরঙ্গের তীব্রতা পরিমাপ করে, শব্দ ডেটা সাধারণত ML প্রক্রিয়াগুলির জন্য সহায়ক নয় কারণ এটির কাঁচা অবস্থায় কোনও দরকারী বৈশিষ্ট্য নেই।

সেই ডেটাকে উপযোগী করতে, শব্দের নমুনাটিকে একটি ছবিতে রূপান্তরিত করা হয় যাকে বলা হয় বর্ণালীগ্রাম, যা অডিও ডেটার একটি উপস্থাপনা যা সময়ের সাথে বিভিন্ন ফ্রিকোয়েন্সি ব্যান্ডের তীব্রতা দেখায়। নিম্নলিখিত চিত্র একটি উদাহরণ দেখায়.

এই চিত্রের X অক্ষটি সময়কে প্রতিনিধিত্ব করে, যার অর্থ চিত্রের বাম প্রান্তটি শব্দের একেবারে শুরু এবং চিত্রের ডান প্রান্তটি শেষ। চিত্রের মধ্যে ডেটার প্রতিটি কলাম বিভিন্ন ফ্রিকোয়েন্সি ব্যান্ডগুলিকে প্রতিনিধিত্ব করে (চিত্রের বাম দিকের স্কেল দ্বারা নির্দেশিত), এবং প্রতিটি বিন্দুতে রঙ সেই মুহূর্তে সেই কম্পাঙ্কের তীব্রতাকে প্রতিনিধিত্ব করে।

বর্ণালীগ্রামের জন্য উল্লম্ব স্কেলিং অন্যান্য উপস্থাপনা পরিবর্তন করা যেতে পারে. উদাহরণস্বরূপ, রৈখিক স্কেলিং মানে Y অক্ষটি ফ্রিকোয়েন্সিগুলির উপর সমানভাবে বিভক্ত, লগারিদমিক স্কেলিং একটি লগ স্কেল ব্যবহার করে এবং আরও অনেক কিছু। এই উপস্থাপনাগুলি ব্যবহার করার ক্ষেত্রে সমস্যা হল যে একটি সাউন্ড ফাইলের ফ্রিকোয়েন্সিগুলি সাধারণত সমানভাবে বিতরণ করা হয় না, তাই আমরা আগ্রহী হতে পারি এমন বেশিরভাগ তথ্য চিত্রের নীচের (নিম্ন ফ্রিকোয়েন্সি) কাছে ক্লাস্টার করা হয়।

যে সমস্যা সমাধানের জন্য, আমাদের নমুনা চিত্র একটি উদাহরণ মেল স্পেকট্রোগ্রাম, যা ঘনিষ্ঠভাবে আনুমানিক কিভাবে মানুষ শব্দ উপলব্ধি করা হয় স্কেল করা হয়. চিত্রের বাম দিকের ফ্রিকোয়েন্সি সূচকগুলি লক্ষ্য করুন—এগুলি কীভাবে উল্লম্বভাবে বিতরণ করা হয় তার একটি ধারণা দেয় এবং এটি স্পষ্ট যে এটি একটি নন-লিনিয়ার স্কেল।

অতিরিক্তভাবে, আমরা পরিমাপ করা অডিওর বিভিন্ন বৈশিষ্ট্যগুলিকে উন্নত করতে সময়ের সাথে ফ্রিকোয়েন্সি দ্বারা তীব্রতার পরিমাপ পরিবর্তন করতে পারি। মেল স্পেকট্রোগ্রাম দ্বারা বাস্তবায়িত Y অক্ষের স্কেলিং এর মতো, অন্যরা সঙ্গীত (ক্রোমা) অধ্যয়নের জন্য ব্যবহৃত 12টি স্বতন্ত্র পিচ ক্লাসের তীব্রতার মতো বৈশিষ্ট্যগুলির উপর জোর দেয়। আরেকটি শ্রেণী অনুভূমিক (হারমোনিক) বৈশিষ্ট্য বা উল্লম্ব (পরকাসিভ) বৈশিষ্ট্যের উপর জোর দেয়। যে ধরণের শব্দ সনাক্ত করা হচ্ছে তা সনাক্তকরণ সিস্টেমের জন্য ব্যবহৃত বর্ণালীগ্রামের ধরণকে চালিত করা উচিত।

আগের উদাহরণ স্পেকট্রোগ্রাম একটি মিউজিক ক্লিপ উপস্থাপন করে যা মাত্র 2 মিনিটের বেশি দীর্ঘ। জুম ইন করলে আরো বিস্তারিত জানা যায়, যেমনটি নিচের ছবিতে দেখানো হয়েছে।

চিত্রের শীর্ষ বরাবর সংখ্যাগুলি অডিও ফাইলের শুরু থেকে সেকেন্ডের সংখ্যা দেখায়। আপনি স্পষ্টভাবে শব্দের একটি ক্রম দেখতে পাচ্ছেন যা প্রতি সেকেন্ডে চারবারের বেশি পুনরাবৃত্তি হচ্ছে বলে মনে হচ্ছে, চিত্রের নীচের দিকে উজ্জ্বল রং দ্বারা নির্দেশিত৷

আপনি দেখতে পাচ্ছেন, এটি একটি বর্ণালীগ্রামে অডিও রূপান্তর করার সুবিধাগুলির মধ্যে একটি - স্বতন্ত্র শব্দগুলি প্রায়শই খালি চোখে সহজে দৃশ্যমান হয়, এবং এমনকি যদি সেগুলি নাও থাকে তবে কম্পিউটার দৃষ্টি বস্তু সনাক্তকরণ অ্যালগরিদম ব্যবহার করে প্রায়শই সনাক্ত করা যেতে পারে৷ আসলে, শব্দ শনাক্ত করার জন্য আমরা এই প্রক্রিয়াটি অনুসরণ করি।

একটি বর্ণালীগ্রামে পৃথক শব্দের সন্ধান করা হচ্ছে

আমরা যে অডিও ফাইলটি অনুসন্ধান করছি তার দৈর্ঘ্যের উপর নির্ভর করে, একটি বিচ্ছিন্ন শব্দ খুঁজে পাওয়া যা মাত্র এক বা দুই সেকেন্ড স্থায়ী হয় একটি চ্যালেঞ্জ। আমাদের ভাগ করা প্রথম স্পেকট্রোগ্রামটি পড়ুন-কারণ আমরা একটি সম্পূর্ণ 3:30 মিনিটের ডেটা দেখছি, বিশদ বিবরণ যা মাত্র এক সেকেন্ড বা তার বেশি স্থায়ী হয় তা দৃশ্যমান নয়৷ দ্বিতীয় চিত্রে যে ছন্দটি দেখানো হয়েছে তা দেখার জন্য আমরা প্রচুর পরিমাণে জুম করেছি। স্পষ্টতই, বৃহত্তর সাউন্ড ফাইল (এবং অনেক বড় স্পেকট্রোগ্রাম) সহ, আমরা দ্রুত সমস্যায় পড়ি যদি না আমরা একটি ভিন্ন পদ্ধতি ব্যবহার করি। সেই পন্থা বলা হয় জানালা.

Windowing বলতে বোঝায় একটি স্লাইডিং উইন্ডো ব্যবহার করা যা পুরো স্পেকট্রোগ্রাম জুড়ে চলে, এক সময়ে কয়েক সেকেন্ড (বা কম) বিচ্ছিন্ন করে। সামগ্রিক চিত্রের অংশগুলিকে বারবার বিচ্ছিন্ন করার মাধ্যমে, আমরা ছোট চিত্রগুলি পাই যা শনাক্ত করার জন্য শব্দের উপস্থিতির জন্য অনুসন্ধানযোগ্য। কারণ প্রতিটি উইন্ডোর ফলে আমরা যে চিত্রটি খুঁজছি তার শুধুমাত্র একটি অংশ হতে পারে (যেমন একটি শব্দ অনুসন্ধানের ক্ষেত্রে যা একটি উইন্ডোর শুরুতে ঠিক শুরু হয় না), উইন্ডো করা প্রায়ই সফল উইন্ডোগুলিকে ওভারল্যাপ করার সাথে সঞ্চালিত হয়। উদাহরণস্বরূপ, প্রথম উইন্ডোটি 0:00 এ শুরু হয় এবং 2 সেকেন্ড প্রসারিত হয়, তারপরে দ্বিতীয় উইন্ডোটি 0:01 এ শুরু হয় এবং 2 সেকেন্ড প্রসারিত হয় এবং তৃতীয় উইন্ডোটি 0:02 এ শুরু হয় এবং 2 সেকেন্ড প্রসারিত হয় এবং আরও অনেক কিছু।

উইন্ডো করা একটি বর্ণালী চিত্রকে অনুভূমিকভাবে বিভক্ত করে। আমরা নির্দিষ্ট ফ্রিকোয়েন্সি ব্যান্ডগুলিকে বিচ্ছিন্ন করে শনাক্তকরণ প্রক্রিয়ার কার্যকারিতা উন্নত করতে পারি কেবলমাত্র চিত্রের নির্দিষ্ট কিছু উল্লম্ব অংশগুলি কাটা বা অনুসন্ধান করে। উদাহরণস্বরূপ, যদি আপনি জানেন যে আপনি যে অ্যালার্ম বেলটি সনাক্ত করতে চান তা একটি নির্দিষ্ট ফ্রিকোয়েন্সি থেকে অন্য সীমার মধ্যে শব্দ তৈরি করে, আপনি শুধুমাত্র সেই ফ্রিকোয়েন্সি রেঞ্জগুলি বিবেচনা করতে বর্তমান উইন্ডোটি পরিবর্তন করতে পারেন। এটি হেরফের করা ডেটার পরিমাণকে ব্যাপকভাবে হ্রাস করে এবং এর ফলে অনেক দ্রুত অনুসন্ধান হয়৷ এটি নির্ভুলতাকেও উন্নত করে, কারণ এটি পছন্দসই সীমার বাইরে ফ্রিকোয়েন্সি ব্যান্ডগুলিতে ঘটতে পারে এমন সম্ভাব্য মিথ্যা ইতিবাচক মিলগুলিকে নির্মূল করে। নিম্নলিখিত চিত্রগুলি একটি সম্পূর্ণ Y অক্ষের (বাম) সাথে একটি সীমিত Y অক্ষের (ডান) সাথে তুলনা করে।

সম্পূর্ণ Y অক্ষ

লিমিটেড ওয়াই অক্ষ

এখন যেহেতু আমরা জানি কিভাবে একটি স্পেকট্রোগ্রামের উপর একটি উইন্ডোিং পদ্ধতির সাথে পুনরাবৃত্তি করতে হয় এবং নির্দিষ্ট ফ্রিকোয়েন্সি ব্যান্ডগুলিতে ফিল্টার করতে হয়, পরবর্তী পদক্ষেপটি হল শব্দের জন্য প্রকৃত অনুসন্ধান করা। এর জন্য, আমরা ব্যবহার করি অ্যামাজন স্বীকৃতি কাস্টম লেবেল. স্বীকৃতি কাস্টম লেবেল বৈশিষ্ট্যটি Amazon Recognition-এর বিদ্যমান ক্ষমতাগুলিকে তৈরি করে, যা ইতিমধ্যেই অনেকগুলি বিভাগে লক্ষ লক্ষ ছবির উপর প্রশিক্ষিত। হাজার হাজার চিত্রের পরিবর্তে, আপনাকে কেবল প্রশিক্ষণের চিত্রগুলির একটি ছোট সেট আপলোড করতে হবে (সাধারণত কয়েকশ ছবি, তবে সর্বোত্তম প্রশিক্ষণ ডেটাসেটের আকার পরীক্ষামূলকভাবে নির্দিষ্ট ব্যবহারের ক্ষেত্রে আসা উচিত যাতে মডেলটির কম বা অতিরিক্ত প্রশিক্ষণ এড়ানো যায়। ) যেগুলি স্বীকৃতি কাস্টম লেবেল কনসোলের মাধ্যমে আপনার ব্যবহারের ক্ষেত্রে নির্দিষ্ট৷

যদি আপনার ছবিগুলি ইতিমধ্যেই লেবেলযুক্ত থাকে, তবে Amazon Recognition প্রশিক্ষণ মাত্র কয়েকটি ক্লিকে অ্যাক্সেসযোগ্য৷ বিকল্পভাবে, আপনি সরাসরি অ্যামাজন রিকগনিশন লেবেলিং ইন্টারফেসের মধ্যে ছবিগুলিকে লেবেল করতে পারেন বা ব্যবহার করতে পারেন আমাজন সেজমেকার গ্রাউন্ড ট্রুথ আপনার জন্য তাদের লেবেল করতে। যখন Amazon Recognition আপনার ইমেজ সেট থেকে প্রশিক্ষণ শুরু করে, এটি মাত্র কয়েক ঘন্টার মধ্যে আপনার জন্য একটি কাস্টম ইমেজ বিশ্লেষণ মডেল তৈরি করে। পর্দার আড়ালে, স্বীকৃতি কাস্টম লেবেলগুলি স্বয়ংক্রিয়ভাবে প্রশিক্ষণের ডেটা লোড করে এবং পরিদর্শন করে, সঠিক ML অ্যালগরিদম নির্বাচন করে, একটি মডেলকে প্রশিক্ষণ দেয় এবং মডেল কর্মক্ষমতা মেট্রিক্স প্রদান করে। তারপর আপনি এর মাধ্যমে আপনার কাস্টম মডেল ব্যবহার করতে পারেন স্বীকৃতি কাস্টম লেবেল API এবং এটি আপনার অ্যাপ্লিকেশনের সাথে একত্রিত করুন।

প্রশিক্ষণ তথ্য একত্রিত করা এবং একটি স্বীকৃতি কাস্টম লেবেল মডেল প্রশিক্ষণ

মধ্যে এই পোস্টের সাথে যুক্ত GitHub রেপো, আপনি এমন কোড পাবেন যা দেখায় যে পটভূমির আওয়াজ নির্বিশেষে কীভাবে একটি ধোঁয়া অ্যালার্ম বন্ধ হওয়ার শব্দ শুনতে হয়। এই ক্ষেত্রে, আমাদের স্বীকৃতি কাস্টম লেবেল মডেল একটি বাইনারি শ্রেণীবিভাগ মডেল, যার অর্থ হল ফলাফলগুলি হয় "ধোঁয়া অ্যালার্ম শব্দ সনাক্ত করা হয়েছে" বা "ধোঁয়া অ্যালার্ম শব্দ সনাক্ত করা যায়নি।"

একটি কাস্টম মডেল তৈরি করতে, আমাদের প্রশিক্ষণ ডেটা প্রয়োজন। এই প্রশিক্ষণের ডেটা দুটি প্রধান প্রকারের সমন্বয়ে গঠিত: পরিবেশগত শব্দ এবং আপনি যে শব্দগুলি সনাক্ত করতে চান (যেমন একটি ধোঁয়া অ্যালার্ম বন্ধ হয়ে যাচ্ছে)।

পরিবেশগত ডেটা বিভিন্ন ধরণের সাউন্ডস্কেপের প্রতিনিধিত্ব করে যা আপনি যে পরিবেশে শব্দ সনাক্ত করতে চান তার জন্য সাধারণ। উদাহরণস্বরূপ, আপনি যদি কারখানার পরিবেশে একটি ধোঁয়া অ্যালার্ম শব্দ সনাক্ত করতে চান তবে সেই কারখানার পরিবেশে রেকর্ড করা শব্দগুলি দিয়ে শুরু করুন বিভিন্ন পরিস্থিতিতে (অবশ্যই ধোঁয়া অ্যালার্ম বাজানো ছাড়া)।

আপনি যে শব্দগুলি সনাক্ত করতে চান তা সম্ভব হলে বিচ্ছিন্ন করা উচিত, যার অর্থ রেকর্ডিংগুলি পরিবেশগত পটভূমির শব্দ ছাড়াই কেবল শব্দ হওয়া উচিত। আমাদের উদাহরণের জন্য, এটি একটি ধোঁয়া অ্যালার্ম বন্ধ হওয়ার শব্দ।

আপনি এই শব্দগুলি সংগ্রহ করার পরে, GitHub রেপোতে কোডটি দেখায় যে কীভাবে পরিবেশগত শব্দগুলিকে প্রতিনিধিত্ব করে এমন অনেকগুলি চিত্র তৈরি করতে বিভিন্ন উপায়ে (এবং তারপরে সেগুলিকে স্পেকট্রোগ্রামে রূপান্তরিত করে) স্মোক অ্যালার্ম শব্দগুলির সাথে পরিবেশগত শব্দগুলিকে একত্রিত করা যায়। সঙ্গে এবং ছাড়া ধোঁয়া অ্যালার্ম তাদের উপর আবৃত শব্দ. নিচের চিত্রটি কিছু পরিবেশগত শব্দের একটি উদাহরণ যার উপরে একটি ধোঁয়া অ্যালার্ম শব্দ (উজ্জ্বল অনুভূমিক বারগুলি) এটির উপরে আবৃত।

প্রশিক্ষণ এবং পরীক্ষার তথ্য সংরক্ষিত হয় একটি আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) বালতি। বালতির মধ্যে ডেটা সংগঠিত করার জন্য নিম্নলিখিত ডিরেক্টরি কাঠামোটি একটি ভাল সূচনা পয়েন্ট।

GitHub রেপোতে নমুনা কোড আপনাকে কতগুলি প্রশিক্ষণ চিত্র তৈরি করতে হবে তা চয়ন করতে দেয়। স্বীকৃতি কাস্টম লেবেলগুলির জন্য প্রচুর সংখ্যক প্রশিক্ষণ চিত্রের প্রয়োজন হয় না৷ 200-500 ছবির একটি প্রশিক্ষণ সেট যথেষ্ট হওয়া উচিত।

একটি স্বীকৃতি কাস্টম লেবেল প্রকল্প তৈরি করার জন্য আপনাকে S3 ফোল্ডারের URI উল্লেখ করতে হবে যাতে প্রশিক্ষণের ডেটা এবং (ঐচ্ছিকভাবে) পরীক্ষার ডেটা রয়েছে৷ প্রশিক্ষণ কাজের জন্য ডেটা উত্স নির্দিষ্ট করার সময়, বিকল্পগুলির মধ্যে একটি স্বয়ংক্রিয় লেবেলিং, নিম্নলিখিত স্ক্রিনশট হিসাবে দেখানো হয়েছে।

এই বিকল্পটি ব্যবহার করার মানে হল যে Amazon Recognition ফোল্ডারগুলির নাম লেবেল নাম হিসাবে ব্যবহার করে। আমাদের ধোঁয়া অ্যালার্ম সনাক্তকরণ ব্যবহারের ক্ষেত্রে, ট্রেনের ভিতরের ফোল্ডারের গঠন এবং পরীক্ষার ফোল্ডারগুলি নিম্নলিখিত স্ক্রিনশটের মতো দেখাচ্ছে৷

প্রশিক্ষণের ডেটা চিত্রগুলি সেই ফোল্ডারগুলিতে যায়, যেখানে অ্যালার্ম ফোল্ডারে ধোঁয়া অ্যালার্মের শব্দ থাকে এবং স্পেকট্রোগ্রামগুলি যেগুলিতে ধোঁয়া অ্যালার্মের শব্দ থাকে না। no_alarm ফোল্ডার Amazon Recognition কাস্টম লেবেল মডেলের জন্য আউটপুট শ্রেণীর নাম হিসাবে সেই নামগুলি ব্যবহার করে।

একটি কাস্টম লেবেল মডেল প্রশিক্ষণ সাধারণত 30-90 মিনিট সময় নেয়। সেই প্রশিক্ষণের শেষে, আপনাকে অবশ্যই প্রশিক্ষিত মডেলটি শুরু করতে হবে যাতে এটি ব্যবহারের জন্য উপলব্ধ হয়।

শব্দ সনাক্তকরণের জন্য এন্ড-টু-এন্ড আর্কিটেকচার

আমরা আমাদের মডেল তৈরি করার পরে, পরবর্তী পদক্ষেপটি হল একটি অনুমান পাইপলাইন সেট আপ করা, যাতে আমরা মডেলটি ব্যবহার করে সনাক্ত করতে পারি যে একটি অডিও ফাইলে স্মোক অ্যালার্ম সাউন্ড আছে কিনা। এটি করার জন্য, ইনপুট সাউন্ডকে একটি স্পেকট্রোগ্রামে পরিণত করতে হবে এবং তারপরে উইন্ডো করা এবং ফ্রিকোয়েন্সি দ্বারা ফিল্টার করা উচিত, যেমনটি প্রশিক্ষণ প্রক্রিয়ার জন্য করা হয়েছিল। স্পেকট্রোগ্রামের প্রতিটি উইন্ডো মডেলকে দেওয়া হয়, যা একটি শ্রেণিবিন্যাস প্রদান করে যা নির্দেশ করে যে ধোঁয়া অ্যালার্ম বেজেছে কিনা।

নিম্নলিখিত চিত্রটি একটি উদাহরণ আর্কিটেকচার দেখায় যা এই অনুমান পাইপলাইনটি প্রয়োগ করে।

এই আর্কিটেকচারটি একটি S3 বালতিতে একটি অডিও ফাইল স্থাপন করার জন্য অপেক্ষা করে, যার ফলে একটি এডাব্লুএস ল্যাম্বদা ফাংশন আহ্বান করা হবে. Lambda হল একটি সার্ভারবিহীন, ইভেন্ট-চালিত কম্পিউট পরিষেবা যা আপনাকে কার্যত যেকোন ধরনের অ্যাপ্লিকেশন বা ব্যাকএন্ড পরিষেবার জন্য সার্ভারের ব্যবস্থা বা পরিচালনা ছাড়াই কোড চালাতে দেয়। আপনি 200 টিরও বেশি AWS পরিষেবা এবং সফ্টওয়্যার থেকে একটি পরিষেবা (SaaS) অ্যাপ্লিকেশন হিসাবে একটি Lambda ফাংশন ট্রিগার করতে পারেন এবং শুধুমাত্র আপনি যা ব্যবহার করেন তার জন্য অর্থ প্রদান করতে পারেন।

Lambda ফাংশনটি বালতির নাম এবং অডিও ফাইলের কী (বা ফাইলের নাম) এর নাম গ্রহণ করে। ফাইলটি Amazon S3 থেকে ফাংশনের মেমরিতে ডাউনলোড করা হয়, যা পরে এটিকে একটি স্পেকট্রোগ্রামে রূপান্তর করে এবং উইন্ডোিং এবং ফ্রিকোয়েন্সি ফিল্টারিং সঞ্চালন করে। স্পেকট্রোগ্রামের প্রতিটি উইন্ডোযুক্ত অংশ তারপরে অ্যামাজন রেকগনিশনে পাঠানো হয়, যা শব্দ সনাক্ত করতে পূর্বে প্রশিক্ষিত অ্যামাজন কাস্টম লেবেল মডেল ব্যবহার করে। যদি সেই শব্দ পাওয়া যায়, ল্যাম্বডা ফাংশন একটি ব্যবহার করে যে সংকেত দেয় অ্যামাজন সাধারণ বিজ্ঞপ্তি পরিষেবা (Amazon SNS) বিজ্ঞপ্তি। Amazon SNS একটি পাব/সাব পদ্ধতির অফার করে যেখানে বিজ্ঞপ্তি পাঠানো যেতে পারে অ্যামাজন সরল সারি পরিষেবা (Amazon SQS) সারি, Lambda ফাংশন, HTTPS এন্ডপয়েন্ট, ইমেল ঠিকানা, মোবাইল পুশ, এবং আরও অনেক কিছু।

উপসংহার

আপনি অডিও ডেটা সহ মেশিন লার্নিং ব্যবহার করতে পারেন নির্দিষ্ট শব্দ কখন আসে, এমনকি যখন একই সময়ে অন্যান্য শব্দগুলি ঘটছে তা নির্ধারণ করতে। এটি করার জন্য শব্দটিকে একটি স্পেকট্রোগ্রাম ছবিতে রূপান্তর করতে হবে এবং তারপরে ফ্রিকোয়েন্সি ব্যান্ড দ্বারা উইন্ডো এবং ফিল্টার করে সেই স্পেকট্রোগ্রামের বিভিন্ন অংশে হোমিং করতে হবে। স্বীকৃতি কাস্টম লেবেল শব্দ সনাক্তকরণের জন্য একটি কাস্টম মডেলকে প্রশিক্ষণ দেওয়া সহজ করে তোলে।

আপনি ব্যবহার করতে পারেন গিটহুব রেপো আপনার নিজের পরীক্ষার জন্য একটি সূচনা পয়েন্ট হিসাবে এই পোস্টের জন্য উদাহরণ কোড ধারণকারী. অডিও ইভেন্ট সনাক্তকরণ সম্পর্কে আরও তথ্যের জন্য, পড়ুন শব্দ ইভেন্ট সনাক্তকরণ: একটি টিউটোরিয়াল.

লেখক সম্পর্কে

Amazon Recognition PlatoBlockchain ডেটা ইন্টেলিজেন্স দিয়ে অডিও ইভেন্টগুলি সনাক্ত করুন৷ উল্লম্ব অনুসন্ধান. আ. গ্রেগ সোমারভিল তিনি AWS প্রোটোটাইপিং এবং ক্লাউড ইঞ্জিনিয়ারিং দলের একজন সিনিয়র প্রোটোটাইপিং আর্কিটেক্ট, যেখানে তিনি AWS গ্রাহকদের মেশিন লার্নিং, IoT এবং সার্ভারহীন প্রযুক্তির সাথে চ্যালেঞ্জিং সমস্যার উদ্ভাবনী সমাধান বাস্তবায়নে সহায়তা করেন। তিনি মিশিগানের অ্যান আর্বারে থাকেন এবং যোগব্যায়াম অনুশীলন, তার কুকুরদের খাওয়ানো এবং জুজু খেলা উপভোগ করেন।

জেফ হারম্যান তিনি AWS প্রোটোটাইপিং এবং ক্লাউড ইঞ্জিনিয়ারিং দলের একজন সিনিয়র প্রোটোটাইপিং আর্কিটেক্ট, যেখানে তিনি AWS গ্রাহকদের চ্যালেঞ্জিং সমস্যার উদ্ভাবনী সমাধান বাস্তবায়নে সহায়তা করেন। তিনি ইউনিয়নভিলে, কানেকটিকাটের বাস করেন এবং কাঠের কাজ, কামার এবং মাইনক্রাফ্ট উপভোগ করেন।

সময় স্ট্যাম্প: সেপ্টেম্বর 6, 2022সেপ্টেম্বর 6, 2022

সময় স্ট্যাম্প: আগস্ট 3, 2023

Amazon Recognition এর মাধ্যমে অডিও ইভেন্ট সনাক্ত করুন

প্লেটো দ্বারা প্রকাশিত

মেশিন লার্নিং সহ অডিও ডেটা ব্যবহার করা

একটি বর্ণালীগ্রামে পৃথক শব্দের সন্ধান করা হচ্ছে

প্রশিক্ষণ তথ্য একত্রিত করা এবং একটি স্বীকৃতি কাস্টম লেবেল মডেল প্রশিক্ষণ

শব্দ সনাক্তকরণের জন্য এন্ড-টু-এন্ড আর্কিটেকচার

উপসংহার

লেখক সম্পর্কে

থেকে আরো এডাব্লুএস মেশিন লার্নিং

অ্যামাজন সেজমেকার আমাজন ওয়েব সার্ভিসেস

Amazon SageMaker ফিচার স্টোর ফিচার প্রসেসর ব্যবহার করে ML অন্তর্দৃষ্টি আনলক করুন | আমাজন ওয়েব সার্ভিসেস

Amazon SageMaker-এ Amazon Redshift এবং RStudio সংযোগ করা হচ্ছে

Amazon SageMaker | এর সাথে হাজার হাজার এমএল মডেলের স্কেল প্রশিক্ষণ এবং অনুমান আমাজন ওয়েব সার্ভিসেস

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব