टेक्स्ट-टू-टेक्स्ट एनालिटिक्स प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए भाषण को स्वचालित करके गुणात्मक अनुसंधान को बदलना। लंबवत खोज। ऐ.

भाषण को टेक्स्ट-टू-टेक्स्ट एनालिटिक्स में स्वचालित करके गुणात्मक शोध को बदलना

इस पोस्ट को सतीश झा, इंटेलिजेंट ऑटोमेशन मैनेजर, मैट डोचेर्टी, डेटा साइंस मैनेजर, जयेश मुले, एसोसिएट कंसल्टेंट और तपन वोरा, रैपिड प्रोटोटाइप, ZS एसोसिएट्स द्वारा लिखा गया है।

ZS Associates में, हम महत्वपूर्ण मात्रा में गुणात्मक बाज़ार अनुसंधान करते हैं। काम में प्रासंगिक विषयों (जैसे स्वास्थ्य देखभाल पेशेवरों और बिक्री प्रतिनिधियों) का साक्षात्कार और साक्षात्कार डेटा पर बीस्पोक विश्लेषण विकसित करना शामिल है। हमने एआई, मशीन लर्निंग (एमएल) और क्लाउड कंप्यूटिंग में हुई प्रगति का फायदा उठाते हुए गुणात्मक बाजार अनुसंधान की फिर से कल्पना की है और एक ऐसा स्केलेबल समाधान विकसित किया है, जो देश में वाक्-से-पाठ रूपांतरण और प्राकृतिक भाषा प्रसंस्करण (एनएलपी) करने के लिए सुसज्जित है। साक्षात्कार किए गए विषयों की ऑडियो रिकॉर्डिंग। समाधान इस क्षेत्र में प्रतिस्पर्धात्मक लाभ देते हुए काम करने के मौजूदा तरीकों (मैनुअल व्याख्या) की तुलना में बेहतर, सस्ता और तेज है।

यह पोस्ट चर्चा करती है कि ZS कैसे उपयोग करता है Amazon Transcribe, अमेज़न कॉम्प्रिहेंड मेडिकल, और टेक्स्ट संक्षेपण और ग्राफ़ विज़ुअलाइज़ेशन के लिए कस्टम एनएलपी एक स्केलेबल, स्वचालित समाधान बनाने के लिए जो हमें तेज़, बेहतर और अधिक कुशल तरीके से अंतर्दृष्टि प्रदान करने में मदद करता है।

पृष्ठभूमि मूल्यांकन

गुणात्मक बाजार अनुसंधान करने की पारंपरिक पद्धति में मानवीय हस्तक्षेप और व्याख्या की आवश्यकता होती है, जो प्रकृति में अत्यधिक व्यक्तिपरक है। हमने एक ऐसा प्लेटफॉर्म विकसित करने के लिए उन्नत AI और ML का उपयोग किया है जो निम्नलिखित में सक्षम है:

  • वाक्-से-पाठ रूपांतरण करना; विशेष रूप से उच्च परिशुद्धता के साथ, गुणात्मक बाजार अनुसंधान के उद्देश्य से आयोजित साक्षात्कार ऑडियो रिकॉर्डिंग को परिवर्तित करना
  • अत्याधुनिक एनएलपी मॉडल का उपयोग करके रूपांतरित पाठ से विश्लेषणात्मक अंतर्दृष्टि प्राप्त करना

इसे प्राप्त करने के लिए, हमने अत्याधुनिक एडब्ल्यूएस एआई सेवाओं और क्लाउड कंप्यूटिंग क्षमताओं को हमारे औचित्य एनएलपी और टेक्स्ट सारांशीकरण एल्गोरिदम के साथ जोड़ दिया ताकि बड़े पैमाने पर प्रभाव चलाया जा सके।

समाधान अवलोकन

अपने समाधान का निर्माण करने के लिए, हमने छोटे से शुरू करने, मूल्य को हाइलाइट करने और तेजी से स्केलिंग करने की पद्धति को अपनाया। हमने एक प्रमुख उपयोगकर्ता समूह की पहचान की और स्वचालित स्पीच-टू-टेक्स्ट और एनालिटिक्स करने के समाधान के चरण एक को परिभाषित किया। हमने एक प्रमुख यूजर इंटरफेस को परिभाषित किया और समाधान के लिए प्रौद्योगिकी वास्तुकला विकसित की। क्योंकि ZS एक AWS पार्टनर है और पहले से ही हमारे एंटरप्राइज़ उत्पादों और समाधानों के लिए कई AWS क्लाउड सेवाओं का उपयोग कर रहा है, AWS इस परियोजना के लिए पसंदीदा विकल्प था। हमने ट्रांसक्रिप्शन और थीम पहचान उद्देश्यों के लिए Amazon Transcribe और Amazon Comprehend Medical का उपयोग किया। कस्टम एनएलपी एनालिटिक्स एपीआई की मेजबानी के लिए, हमने सर्वर रहित बुनियादी ढांचे का उपयोग किया अमेज़ॅन एपीआई गेटवे, AWS लाम्बा, तथा अमेज़ॅन इलास्टिक कंटेनर सेवा (अमेज़ॅन ईसीएस) के साथ AWS फरगेट. ये सेवाएं एचआईपीएए-योग्य हैं और फार्मा नियामक आवश्यकताओं के अनुरूप हैं।

प्रक्रिया में निम्नलिखित चरण शामिल हैं:

  • अमेज़न S3 पर फ़ाइल अपलोड करें - प्रक्रिया तब शुरू होती है जब उपयोगकर्ता उस साइट पर ट्रांसक्रिप्शन के लिए एक या अधिक ऑडियो रिकॉर्डिंग फ़ाइलें अपलोड करता है जिस पर हमारा टूल होस्ट किया जाता है। फ़ाइलों को अपलोड करने के लिए अमेज़न सरल भंडारण सेवा (अमेज़ॅन एस 3), उपयोगकर्ता को एपीआई गेटवे का उपयोग करके एक अस्थायी लिखित टोकन या पूर्व-हस्ताक्षरित यूआरएल प्रदान किया जाता है, जो अमेज़ॅन एस 3 एक्सेस प्रदान करता है।
  • ऑडियो ट्रांसक्रिप्शन - अपलोड की गई फ़ाइल के प्रकार के आधार पर, उपयुक्त कार्यप्रवाह आरंभ करने के लिए विभिन्न ट्रिगर मौजूद हैं:
    • बिना डिक्शनरी फ़ाइल के अपलोड की गई ऑडियो फ़ाइलें - यदि उपयोगकर्ता ने डिक्शनरी फ़ाइल प्रदान नहीं की है, तो टूल Amazon Transcribe का उपयोग करके ऑडियो फ़ाइल को प्रोसेस करता है।
    • शब्दकोश फ़ाइल के साथ अपलोड की गई ऑडियो फ़ाइलें - यदि उपयोगकर्ता ने एक शब्दकोश फ़ाइल प्रदान की है, तो निश्चित AWS स्टेप फ़ंक्शंस चरणों को ट्रिगर किया जाता है, इसके बाद Amazon Transcribe का उपयोग करके डिक्शनरी फ़ाइल को संसाधित किया जाता है। जब डिक्शनरी प्रोसेसिंग पूरी हो जाती है, तो टूल Amazon Transcribe का उपयोग करके ऑडियो फ़ाइल को ट्रांसक्रिप्ट करता है।
  • ट्रांसक्रिप्ट फ़ाइल जनरेशन - पिछले दो मामलों में से किसी एक में, जब ट्रांसक्रिप्शन प्रगति पर होता है, तो टूल का उपयोग करता है अमेज़न CloudWatch ईवेंट ट्रांसक्रिप्शन स्थिति को अद्यतन करने के लिए। लैम्ब्डा फ़ंक्शन आरडीबीएमएस पर स्थिति को अपडेट करने के लिए टूल को ट्रिगर करता है और सॉकेट का उपयोग करके टूल के यूआई के माध्यम से उपयोगकर्ता को स्थिति बताता है। जब ट्रांसक्रिप्शन पूरा हो जाता है, तो अंतिम आउटपुट फाइल Amazon S3 में स्टोर हो जाती है।
  • फ़ाइल प्रकार रूपांतरण - आउटपुट फ़ाइल जनरेट होने के बाद, टूल .doc या .xlsx फ़ाइल बनाने के लिए ट्रिगर का उपयोग करता है, जिसे Amazon S3 में फिर से संग्रहीत किया जाता है।
  • विश्लेषणात्मक अंतर्दृष्टि उत्पन्न करना - अमेज़ॅन कॉम्प्रिहेंड मेडिकल और कुछ जेडएस इन-हाउस एनएलपी टूल्स के साथ, टूल ट्रांसक्राइब किए गए डेटा के आधार पर एनालिटिक्स तैयार करता है और वास्तविक समय में उन्हें एक्सेस करने के लिए हमारी साइट पर डैशबोर्ड अपडेट करता है।
  • Amazon Transcribe के साथ ऑडियो स्ट्रीमिंग - हम प्रयोग करते हैं अमेज़न CloudFront ऑडियो स्ट्रीमिंग को हमारी अंतिम आउटपुट फ़ाइल के साथ जोड़ा जाता है, जो कि Amazon Transcribe से उत्पन्न होती है। उपयोगकर्ता एक साथ रिकॉर्डिंग सुन सकता है और प्रतिलेख पढ़ सकता है।

निम्न आरेख उच्च-स्तरीय वास्तुकला और वर्कफ़्लो दिखाता है।

टेक्स्ट-टू-टेक्स्ट एनालिटिक्स प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए भाषण को स्वचालित करके गुणात्मक अनुसंधान को बदलना। लंबवत खोज। ऐ.

प्लेटफ़ॉर्म को वास्तविक समय में बड़ी संख्या में फ़ाइलों को संसाधित करने के लिए डिज़ाइन किया गया है। इसलिए, समाधान प्रक्रिया को और अधिक कुशल बनाकर और इसे पूरी तरह से नया आयाम देकर हमारी वर्तमान ZS गुणात्मक अनुसंधान टीम के काम को बहुत बढ़ाता है!

कुल मिलाकर, हमारे समाधान में निम्नलिखित विशेषताएं हैं:

  • एकल या एकाधिक ऑडियो फ़ाइलें अपलोड करने की क्षमता
  • स्वचालित वाक्-से-पाठ रूपांतरण, एक कस्टम शब्दकोश जोड़ने की क्षमता के साथ
  • अपलोड किए गए ऑडियो को सुनने और टेक्स्ट को परिष्कृत करने की क्षमता
  • पाठ सारांश और विश्लेषण

नक्शे को संसाधित करें

निम्नलिखित आरेख निम्नलिखित चरणों के साथ हमारे विकसित समाधान का एक उच्च-स्तरीय दृश्य देता है:

  • ऑडियो अपलोड करें - यह प्रक्रिया उपयोगकर्ता द्वारा अपनी ऑडियो रिकॉर्डिंग (शब्दकोश फ़ाइल के साथ या बिना) को टूल पर अपलोड करने से शुरू होती है
  • पाठ को भाषण - इन अपलोड की गई ऑडियो फाइलों को भाषण को टेक्स्ट में बदलकर ट्रांसक्राइब किया जाता है
  • सुनें और परिष्कृत करें - उपयोगकर्ता एक साथ रिकॉर्डिंग सुन सकता है और प्रतिलेख पढ़ सकता है और जहां आवश्यक हो वहां परिवर्तन कर सकता है
  • वाक्-से-पाठ आउटपुट - समेकित फ़ाइल में रूपांतरित प्रतिलेख और उसके संगत विश्लेषण शामिल हैं

टेक्स्ट-टू-टेक्स्ट एनालिटिक्स प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए भाषण को स्वचालित करके गुणात्मक अनुसंधान को बदलना। लंबवत खोज। ऐ.

चार सदस्यीय टीम के साथ अंत तक इस समाधान को विकसित करने में हमें लगभग 5-6 महीने लगे। आज इसका उपयोग 300 से अधिक लोगों द्वारा किया जा रहा है, और इस उपकरण ने हजारों घंटे के ऑडियो को संसाधित किया है।

एडब्ल्यूएस सेवाओं का इस्तेमाल किया

समाधान कई AWs सेवाओं का उपयोग करता है:

  • AWS लाम्बा और एपीआई गेटवे - सर्वर रहित एपीआई और कार्यों की मेजबानी की।
    • हमने ढीले युग्मन और बाहरी एपीआई के साथ आसान एकीकरण सुनिश्चित करने के लिए कई एपीआई गेटवे विकसित किए हैं। टोकन-आधारित प्रमाणीकरण को सक्षम करने और वेब सामग्री तक अनधिकृत पहुंच को प्रतिबंधित करने के लिए कस्टम प्राधिकरणों को लागू किया गया था।
    • हमने लैम्ब्डा एपीआई (पायथन और नोडजेएस का उपयोग करके) भी बनाया है जो ईसीएस कंटेनरों पर होस्ट की गई वेबसाइट के साथ आसानी से इंटरैक्ट कर सकता है और इसे आसानी से जोड़ा जा सकता है PostgreSQL के लिए Amazon रिलेशनल डेटाबेस सर्विस (Amazon RDS). हमारे समाधान में लैम्ब्डा फ़ंक्शंस के उपयोग ने हमें लोड संतुलन, पुनर्स्थापना, और क्लस्टर प्रयासों को रोकने और समग्र लागत को कम करने में मदद की, क्योंकि क्लस्टर केवल तभी चलते थे जब फ़ंक्शन चल रहे थे। इसके अतिरिक्त, हम सर्वर रहित आर्किटेक्चर के कारण अपने समाधान को आसानी से स्केल करने में सक्षम थे।
  • Amazon Transcribe - हमें एक बार में 100 तक की ऑडियो फाइलों के बैच प्रोसेसिंग को आसानी से कॉन्फ़िगर करने और यहां तक ​​कि इसके अंतर्निर्मित कतार तंत्र का उपयोग करके एक बड़ा लोड स्केल करने के विकल्प प्रदान किए। इसने हमें ऑडियो डेटा को अधिक सटीक रूप से ट्रांसक्रिप्ट करने के लिए एक कस्टम डिक्शनरी लोड करने की भी अनुमति दी।
  • अमेज़न कॉम्प्रिहेंड मेडिकल - मूल्यवान जानकारी के लिए पाठ के माध्यम से छाँटने के लिए इसकी अंतर्निहित एनएलपी क्षमताओं का उपयोग करके टेक्स्ट डेटा से विश्लेषणात्मक अंतर्दृष्टि उत्पन्न की।
  • एडब्ल्यूएस CloudFormation - हमने इस्तेमाल किया एडब्ल्यूएस CloudFormation चरण चर का उपयोग करके लैम्ब्डा फ़ंक्शंस और एपीआई को पूरे वातावरण (विभिन्न S3 बाल्टी और एक ही बाल्टी में कई वातावरण, जैसे उत्पादन और विकास) में तैनात करने के लिए।
  • एडब्ल्यूएस कोडबिल्ड, एडब्ल्यूएस कोड डिप्लॉय और एडब्ल्यूएस कोडपाइपलाइन - हमने इस्तेमाल किया एडब्ल्यूएस कोडबिल्ड, AWS कोडडिप्लोय, तथा AWS कोडपिपलीन ईसीएस क्लस्टर में फ्रंट एंड और एनालिटिक्स बैकएंड की निरंतर तैनाती करने के लिए।

निम्नलिखित चित्र इन सेवाओं की वास्तुकला को दर्शाता है।

टेक्स्ट-टू-टेक्स्ट एनालिटिक्स प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए भाषण को स्वचालित करके गुणात्मक अनुसंधान को बदलना। लंबवत खोज। ऐ.

निष्कर्ष

हमने एक ऐसा प्लेटफॉर्म विकसित करने के लिए AWS सेवाओं का उपयोग किया, जिससे हमारी टीमों को अपनी परियोजनाओं में अत्याधुनिक AI लागू करने में मदद मिली। इसने हमारी टीमों को निम्नलिखित कार्य करने में मदद की है:

  • वाक्-से-पाठ रूपांतरण की प्रक्रिया को स्वचालित करें और केवल कम सटीकता वाले पहलुओं पर ध्यान दें।
  • एनएलपी एल्गोरिदम के साथ अंतर्दृष्टि का स्वचालन ड्राइव करें।
  • स्वयं सेवा चलाओ। क्योंकि हमें किसी विशेष सर्वर को लॉन्च करने की आवश्यकता नहीं है, हम आसानी से लैम्ब्डा फ़ंक्शन बना सकते हैं, फ़्लाई पर कोड में परिवर्तन कर सकते हैं, और प्लग एंड प्ले के रूप में प्रमुख एमएल सेवाएं प्रदान कर सकते हैं ताकि उपयोगकर्ताओं को डेटा वैज्ञानिक होने की आवश्यकता न हो।

आज समाधान का उपयोग 300 से अधिक लोगों द्वारा किया जाता है, और हमने हजारों घंटे के ऑडियो को संसाधित किया है। अब हम अपने समाधान को अन्य अनुप्रयोगों के साथ एकीकृत कर रहे हैं ताकि उपयोगकर्ताओं को या तो ट्रांसक्रिप्शन के लिए ऑडियो फ़ाइलें अपलोड करने या विश्लेषणात्मक अंतर्दृष्टि प्राप्त करने के लिए ट्रांसक्राइब की गई फ़ाइलों को सीधे अपलोड करने की सुविधा प्रदान की जा सके।

हमने AWS के साथ अपना प्लेटफ़ॉर्म बनाने से कई लाभ प्राप्त किए:

  • एंड-टू-एंड क्लाउड-आधारित आर्किटेक्चर का उपयोग करना व्यावसायिक अनुप्रयोगों के लिए प्रबंधन वातावरण के संदर्भ में फायदेमंद साबित हुआ
  • CloudWatch, AWS CloudFormation, CodeBuild, CodeDeploy और CodePipeline जैसे प्रबंधन टूल के साथ, विकास परिवर्तनों की निगरानी, ​​ट्रैक और परिनियोजन करना आसान था
  • हमने वर्चुअल प्राइवेट क्लाउड के साथ AWS की अंतर्निहित सुरक्षा और अनुकूलित नीतियों के साथ पहचान प्रबंधन का उपयोग किया
  • हम त्वरित होस्टिंग और परिनियोजन के अतिरिक्त लाभ के साथ मूल्यवान माइक्रोसर्विसेज पर लोड को कम करने में सक्षम थे

ZS . के बारे में

ZS एसोसिएट्स एक परामर्श और पेशेवर सेवा फर्म है जो परामर्श, सॉफ्टवेयर और प्रौद्योगिकी पर ध्यान केंद्रित कर रही है, जिसका मुख्यालय इवान्स्टन, इलिनोइस में है, जो फार्मा, स्वास्थ्य देखभाल और प्रौद्योगिकी में ग्राहकों के लिए सेवाएं प्रदान करता है। फर्म उत्तरी अमेरिका, दक्षिण अमेरिका, यूरोप और एशिया में 10,000 कार्यालयों में 30 से अधिक कर्मचारियों को रोजगार देती है। ZS 49 सबसे बड़े दवा निर्माताओं में से 50 और 17 सबसे बड़े चिकित्सा उपकरण निर्माताओं में से 20 के साथ काम करता है और उपभोक्ता उत्पादों, वित्तीय सेवाओं, औद्योगिक उत्पादों, दूरसंचार, परिवहन और रसद उद्योगों की सेवा करता है।

Disclaimer: एडब्ल्यूएस इस पोस्ट की सामग्री या सटीकता के लिए ज़िम्मेदार नहीं है। इस पोस्ट की सामग्री और राय केवल तीसरे पक्ष के लेखक की हैं। यह निर्धारित करना प्रत्येक ग्राहक की जिम्मेदारी है कि क्या वे HIPAA के अधीन हैं, और यदि हां, तो HIPAA और इसके कार्यान्वयन नियमों का सर्वोत्तम पालन कैसे करें। सुरक्षित स्वास्थ्य जानकारी के संबंध में AWS का उपयोग करने से पहले, ग्राहकों को AWS Business Associate Addendum (BAA) दर्ज करना होगा और इसकी कॉन्फ़िगरेशन आवश्यकताओं का पालन करना होगा।


लेखक के बारे में

टेक्स्ट-टू-टेक्स्ट एनालिटिक्स प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए भाषण को स्वचालित करके गुणात्मक अनुसंधान को बदलना। लंबवत खोज। ऐ. सतीश झा ZS Associates में मैनेजर हैं। वह फर्म के इंटेलिजेंट ऑटोमेशन प्रैक्टिस में अग्रणी है, जहां वह कई फार्मा क्लाइंट्स के साथ कंधे से कंधा मिलाकर काम करता है ताकि ऑपरेशन्स को बदला जा सके और प्रभाव को बढ़ाया जा सके।

टेक्स्ट-टू-टेक्स्ट एनालिटिक्स प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए भाषण को स्वचालित करके गुणात्मक अनुसंधान को बदलना। लंबवत खोज। ऐ.मैट डोचेर्टी फिलाडेल्फिया कार्यालय में ZS Associates के साथ डेटा साइंस मैनेजर हैं। वह फार्मास्युटिकल उद्योग में डेटा साइंस को लागू करने पर केंद्रित है।

टेक्स्ट-टू-टेक्स्ट एनालिटिक्स प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए भाषण को स्वचालित करके गुणात्मक अनुसंधान को बदलना। लंबवत खोज। ऐ.जयेश मुले जेडएस एसोसिएट्स के साथ प्रक्रिया उत्कृष्टता और परिवर्तन के लिए एक सहयोगी सलाहकार है। उनके पास फ़ार्मा क्लाइंट्स को फोरकास्टिंग, प्रोसेस एक्सीलेंस और डिजिटल ट्रांसफ़ॉर्मेशन स्पेस में सलाह देने का 4 साल का अनुभव है। उन्होंने ZS के ऑटोमेशन सेंटर ऑफ एक्सीलेंस की स्थापना में महत्वपूर्ण भूमिका निभाई। वह हमेशा नई तकनीकों को सीखने के लिए उत्सुक रहते हैं और हमेशा अपनी भूमिका में विकसित होते रहते हैं।

टेक्स्ट-टू-टेक्स्ट एनालिटिक्स प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए भाषण को स्वचालित करके गुणात्मक अनुसंधान को बदलना। लंबवत खोज। ऐ.तपन वोरा ZS Associates के साथ रैपिड प्रोटोटाइप के लिए मैनेजर हैं। तपन के पास 14 साल से अधिक का प्रौद्योगिकी और इंजीनियरिंग प्रबंधन का अनुभव है। वह टीम में कई भूमिकाएँ निभाता है, जैसे कि व्यापार विश्लेषक, लोग प्रबंधक, समाधान डिजाइनर, डेटा विश्लेषक और उत्पाद नेता।

समय टिकट:

से अधिक AWS मशीन लर्निंग