पहचान दस्तावेजों प्लेटोब्लॉकचैन डेटा इंटेलिजेंस पर ऑप्टिकल कैरेक्टर रिकग्निशन करने के लिए एमएलओप्स के लिए अमेज़ॅन सेजमेकर प्रोजेक्ट्स के साथ ऑनबोर्ड पैडलओसीआर। लंबवत खोज। ऐ.

पहचान दस्तावेजों पर ऑप्टिकल कैरेक्टर रिकग्निशन करने के लिए एमएलओप्स के लिए अमेज़ॅन सेजमेकर प्रोजेक्ट्स के साथ ऑनबोर्ड पैडलओसीआर

ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) मुद्रित या हस्तलिखित पाठ को मशीन-एन्कोडेड पाठ में परिवर्तित करने का कार्य है। OCR का व्यापक रूप से विभिन्न परिदृश्यों में उपयोग किया गया है, जैसे दस्तावेज़ इलेक्ट्रॉनिकीकरण और पहचान प्रमाणीकरण। चूंकि ओसीआर महत्वपूर्ण सूचनाओं को पंजीकृत करने के लिए मैनुअल प्रयास को बहुत कम कर सकता है और दस्तावेजों की बड़ी मात्रा को समझने के लिए एक प्रवेश चरण के रूप में कार्य करता है, इसलिए एक सटीक ओसीआर प्रणाली डिजिटल परिवर्तन के युग में एक महत्वपूर्ण भूमिका निभाती है।

ओपन-सोर्स समुदाय और शोधकर्ता इस बात पर ध्यान केंद्रित कर रहे हैं कि ओसीआर सटीकता, उपयोग में आसानी, पूर्व-प्रशिक्षित मॉडल के साथ एकीकरण, विस्तार और लचीलेपन में सुधार कैसे किया जाए। कई प्रस्तावित रूपरेखाओं में, PaddleOCR ने हाल ही में अधिक ध्यान आकर्षित किया है। प्रस्तावित ढांचा कम्प्यूटेशनल दक्षता को संतुलित करते हुए उच्च सटीकता प्राप्त करने पर केंद्रित है। इसके अलावा, चीनी और अंग्रेजी के लिए पूर्व-प्रशिक्षित मॉडल इसे चीनी भाषा-आधारित बाजार में लोकप्रिय बनाते हैं। देखें PaddleOCR GitHub रेपो अधिक जानकारी के लिए.

एडब्ल्यूएस में, हमने एकीकृत एआई सेवाओं का भी प्रस्ताव रखा है जो बिना मशीन लर्निंग (एमएल) विशेषज्ञता के उपयोग के लिए तैयार हैं। दस्तावेज़ों से टेक्स्ट और संरचित डेटा जैसे तालिकाओं और प्रपत्रों को निकालने के लिए, आप उपयोग कर सकते हैं अमेज़न टेक्सट्रेक. यह किसी भी प्रकार के दस्तावेज़ को पढ़ने और संसाधित करने के लिए एमएल तकनीकों का उपयोग करता है, बिना किसी मैन्युअल प्रयास के टेक्स्ट, लिखावट, टेबल और अन्य डेटा को सटीक रूप से निकालता है।

डेटा वैज्ञानिकों के लिए जो आपके अपने ओसीआर मॉडल को विकसित करने के लिए एक ओपन-सोर्स फ्रेमवर्क का उपयोग करने के लिए लचीलापन चाहते हैं, हम पूरी तरह से प्रबंधित एमएल सेवा भी प्रदान करते हैं। अमेज़न SageMaker. सेजमेकर आपको एमएलओपीएस सर्वोत्तम प्रथाओं को पूरे एमएल जीवनचक्र में लागू करने में सक्षम बनाता है, और एमएल परियोजनाओं को उत्पादन में लगाने के लिए अविभाजित भारी भारोत्तोलन को कम करने के लिए टेम्पलेट और टूलसेट प्रदान करता है।

इस पोस्ट में, हम सेजमेकर पर पैडलओसीआर ढांचे के भीतर अनुकूलित मॉडल विकसित करने पर ध्यान केंद्रित करते हैं। हम एमएल विकास जीवनचक्र के माध्यम से यह वर्णन करने के लिए चलते हैं कि कैसे सेजमेकर आपको एक मॉडल बनाने और प्रशिक्षित करने में मदद कर सकता है, और अंततः मॉडल को एक वेब सेवा के रूप में तैनात कर सकता है। यद्यपि हम इस समाधान को PaddleOCR के साथ चित्रित करते हैं, सामान्य मार्गदर्शन SageMaker पर उपयोग किए जाने वाले मनमाने ढांचे के लिए सही है। इस पोस्ट में साथ देने के लिए, हम में नमूना कोड भी प्रदान करते हैं गिटहब भंडार.

पैडलओसीआर ढांचा

व्यापक रूप से अपनाए गए OCR ढांचे के रूप में, PaddleOCR में रिच टेक्स्ट डिटेक्शन, टेक्स्ट रिकग्निशन और एंड-टू-एंड एल्गोरिदम शामिल हैं। यह बुनियादी पहचान और पहचान मॉडल के रूप में डिफरेंशियल बिनराइजेशन (डीबी) और कन्वेक्शनल रिकरंट न्यूरल नेटवर्क (सीआरएनएन) को चुनता है, और अनुकूलन रणनीतियों की एक श्रृंखला के बाद औद्योगिक अनुप्रयोगों के लिए पीपी-ओसीआर नामक मॉडलों की एक श्रृंखला का प्रस्ताव करता है।

पीपी-ओसीआर मॉडल सामान्य परिदृश्यों के उद्देश्य से है और विभिन्न भाषाओं का एक मॉडल पुस्तकालय बनाता है। इसमें तीन भाग होते हैं: टेक्स्ट डिटेक्शन, बॉक्स डिटेक्शन एंड रेक्टिफिकेशन, और टेक्स्ट रिकग्निशन, पैडलओसीआर पर निम्न आकृति में दिखाया गया है आधिकारिक गिटहब भंडार. आप शोध पत्र का भी उल्लेख कर सकते हैं पीपी-ओसीआर: एक व्यावहारिक अल्ट्रा लाइटवेट ओसीआर सिस्टम देखें।

अधिक विशिष्ट होने के लिए, PaddleOCR में लगातार तीन कार्य होते हैं:

  • पाठ का पता लगाना - टेक्स्ट डिटेक्शन का उद्देश्य इमेज में टेक्स्ट एरिया का पता लगाना है। ऐसे कार्य एक साधारण विभाजन नेटवर्क पर आधारित हो सकते हैं।
  • बॉक्स का पता लगाने और सुधार - प्रत्येक टेक्स्ट बॉक्स को बाद में टेक्स्ट रिकग्निशन के लिए एक हॉरिजॉन्टल रेक्टेंगल बॉक्स में बदलने की जरूरत है। ऐसा करने के लिए, PaddleOCR पाठ दिशा निर्धारित करने के लिए एक पाठ दिशा क्लासिफायरियर (छवि वर्गीकरण कार्य) को प्रशिक्षित करने का प्रस्ताव करता है।
  • पाठ मान्यता - टेक्स्ट बॉक्स का पता चलने के बाद, टेक्स्ट पहचानकर्ता मॉडल प्रत्येक टेक्स्ट बॉक्स पर अनुमान लगाता है और टेक्स्ट बॉक्स स्थान के अनुसार परिणाम आउटपुट करता है। PaddleOCR व्यापक रूप से उपयोग की जाने वाली विधि CRNN को अपनाता है।

PaddleOCR उच्च-गुणवत्ता वाले पूर्व-प्रशिक्षित मॉडल प्रदान करता है जो व्यावसायिक प्रभावों के लिए तुलनीय हैं। आप या तो एक डिटेक्शन मॉडल, डायरेक्शन क्लासिफायर, या रिकग्निशन मॉडल के लिए पूर्व-प्रशिक्षित मॉडल का उपयोग कर सकते हैं, या आप अपने उपयोग के मामले की सेवा के लिए प्रत्येक व्यक्तिगत मॉडल को ठीक कर सकते हैं और फिर से प्रशिक्षित कर सकते हैं। पारंपरिक चीनी और अंग्रेजी का पता लगाने की दक्षता और प्रभावशीलता बढ़ाने के लिए, हम वर्णन करते हैं कि टेक्स्ट पहचान मॉडल को कैसे ठीक किया जाए। हमारे द्वारा चुना गया पूर्व-प्रशिक्षित मॉडल है ch_ppocr_mobile_v2.0_rec_train, जो एक हल्का मॉडल है, जो चीनी, अंग्रेजी और संख्या पहचान का समर्थन करता है। हांगकांग पहचान पत्र का उपयोग करते हुए एक उदाहरण अनुमान परिणाम निम्नलिखित है।

पहचान दस्तावेजों प्लेटोब्लॉकचैन डेटा इंटेलिजेंस पर ऑप्टिकल कैरेक्टर रिकग्निशन करने के लिए एमएलओप्स के लिए अमेज़ॅन सेजमेकर प्रोजेक्ट्स के साथ ऑनबोर्ड पैडलओसीआर। लंबवत खोज। ऐ.

निम्नलिखित अनुभागों में, हम सेजमेकर का उपयोग करके पूर्व-प्रशिक्षित मॉडल को फाइन-ट्यून करने के तरीके के बारे में बताएंगे।

MLOps सेजमेकर के साथ सर्वोत्तम अभ्यास

सेजमेकर पूरी तरह से प्रबंधित एमएल सेवा है। सेजमेकर के साथ, डेटा वैज्ञानिक और डेवलपर्स एमएल मॉडल को जल्दी और आसानी से बना सकते हैं और प्रशिक्षित कर सकते हैं, और फिर उन्हें सीधे उत्पादन-तैयार प्रबंधित वातावरण में तैनात कर सकते हैं।

कई डेटा वैज्ञानिक एमएल जीवनचक्र को तेज करने के लिए सेजमेकर का उपयोग करते हैं। इस खंड में, हम बताते हैं कि कैसे सेजमेकर आपको प्रयोग से लेकर एमएल के उत्पादन में मदद कर सकता है। एक एमएल प्रोजेक्ट के मानक चरणों का पालन करते हुए, प्रायोगिक वाक्यांश (कोड विकास और प्रयोग) से, परिचालन वाक्यांश (मॉडल बिल्ड वर्कफ़्लो और परिनियोजन पाइपलाइनों का स्वचालितकरण) तक, सेजमेकर निम्नलिखित चरणों में दक्षता ला सकता है:

  1. डेटा का अन्वेषण करें और इसके साथ एमएल कोड बनाएं अमेज़ॅन सैजमेकर स्टूडियो नोटबुक
  2. सेजमेकर प्रशिक्षण कार्य के साथ मॉडल को प्रशिक्षित और ट्यून करें।
  3. मॉडल को पेश करने के लिए सेजमेकर एंडपॉइंट के साथ मॉडल को परिनियोजित करें।
  4. के साथ कार्यप्रवाह को व्यवस्थित करें अमेज़न SageMaker पाइपलाइन.

निम्नलिखित आरेख इस वास्तुकला और कार्यप्रवाह को दिखाता है।

पहचान दस्तावेजों प्लेटोब्लॉकचैन डेटा इंटेलिजेंस पर ऑप्टिकल कैरेक्टर रिकग्निशन करने के लिए एमएलओप्स के लिए अमेज़ॅन सेजमेकर प्रोजेक्ट्स के साथ ऑनबोर्ड पैडलओसीआर। लंबवत खोज। ऐ.

यह ध्यान रखना महत्वपूर्ण है कि आप सेजमेकर का उपयोग मॉड्यूलर तरीके से कर सकते हैं। उदाहरण के लिए, आप स्थानीय एकीकृत विकास वातावरण (आईडीई) के साथ अपना कोड बना सकते हैं और सेजमेकर पर अपने मॉडल को प्रशिक्षित और तैनात कर सकते हैं, या आप अपने मॉडल को अपने क्लस्टर कंप्यूट स्रोतों में विकसित और प्रशिक्षित कर सकते हैं, और वर्कफ़्लो ऑर्केस्ट्रेशन के लिए सेजमेकर पाइपलाइन का उपयोग कर सकते हैं। एक सेजमेकर एंडपॉइंट पर तैनात करें। इसका मतलब है कि सेजमेकर आपकी अपनी आवश्यकताओं के अनुकूल होने के लिए एक खुला मंच प्रदान करता है।

हमारे में कोड देखें गिटहब भंडार और README कोड संरचना को समझने के लिए।

एक सेजमेकर परियोजना का प्रावधान करें

आप का उपयोग कर सकते हैं अमेज़ॅन सेजमेकर प्रोजेक्ट्स अपनी यात्रा शुरू करने के लिए। सेजमेकर प्रोजेक्ट के साथ, आप अपने गिट रिपॉजिटरी के संस्करणों का प्रबंधन कर सकते हैं ताकि आप टीमों में अधिक कुशलता से सहयोग कर सकें, कोड स्थिरता सुनिश्चित कर सकें, और निरंतर एकीकरण और निरंतर वितरण (सीआई/सीडी) सक्षम कर सकें। यद्यपि नोटबुक मॉडल निर्माण और प्रयोग के लिए सहायक होते हैं, जब आपके पास डेटा वैज्ञानिकों और एमएल इंजीनियरों की एक टीम होती है जो एमएल समस्या पर काम कर रही होती है, तो आपको कोड स्थिरता बनाए रखने और सख्त संस्करण नियंत्रण रखने के लिए अधिक स्केलेबल तरीके की आवश्यकता होती है।

सेजमेकर परियोजनाएं एक पूर्व-कॉन्फ़िगर एमएलओपीएस टेम्पलेट बनाती हैं, जिसमें पैडलओसीआर एकीकरण को सरल बनाने के लिए आवश्यक घटक शामिल हैं:

  • प्रसंस्करण, प्रशिक्षण और अनुमान के लिए कस्टम कंटेनर छवियों के निर्माण के लिए एक कोड भंडार, सीआई/सीडी उपकरणों के साथ एकीकृत। यह हमें अपनी कस्टम डॉकर छवि को कॉन्फ़िगर करने और धक्का देने की अनुमति देता है अमेज़ॅन इलास्टिक कंटेनर रजिस्ट्री (अमेज़ॅन ईसीआर) उपयोग के लिए तैयार होने के लिए।
  • एक सेजमेकर पाइपलाइन जो डेटा तैयार करने, प्रशिक्षण, मॉडल मूल्यांकन और मॉडल पंजीकरण के चरणों को परिभाषित करती है। जब एमएल परियोजना उत्पादन में जाती है तो यह हमें एमएलओ तैयार होने के लिए तैयार करती है।
  • अन्य उपयोगी संसाधन, जैसे कोड संस्करण नियंत्रण के लिए Git रिपॉजिटरी, मॉडल समूह जिसमें मॉडल संस्करण शामिल हैं, मॉडल बिल्ड पाइपलाइन के लिए कोड परिवर्तन ट्रिगर, और मॉडल परिनियोजन पाइपलाइन के लिए ईवेंट-आधारित ट्रिगर।

आप सेजमेकर बीज कोड का उपयोग मानक सेजमेकर प्रोजेक्ट बनाने के लिए कर सकते हैं, या एक विशिष्ट टेम्पलेट जो आपके संगठन ने टीम के सदस्यों के लिए बनाया है। इस पोस्ट में, हम मानक का उपयोग करते हैं छवि निर्माण, मॉडल निर्माण और मॉडल परिनियोजन के लिए एमएलओपीएस टेम्पलेट. स्टूडियो में प्रोजेक्ट बनाने के बारे में अधिक जानकारी के लिए देखें Amazon SageMaker Studio का उपयोग करके MLOps प्रोजेक्ट बनाएं.

सेजमेकर स्टूडियो नोटबुक्स के साथ डेटा एक्सप्लोर करें और एमएल कोड बनाएं

सेजमेकर स्टूडियो नोटबुक सहयोगी नोटबुक हैं जिन्हें आप जल्दी से लॉन्च कर सकते हैं क्योंकि आपको पहले से कंप्यूट इंस्टेंस और फ़ाइल स्टोरेज सेट करने की आवश्यकता नहीं है। कई डेटा वैज्ञानिक इस वेब-आधारित आईडीई का उपयोग एमएल कोड विकसित करने, लाइब्रेरी एपीआई को जल्दी से डिबग करने और प्रशिक्षण स्क्रिप्ट को मान्य करने के लिए डेटा के एक छोटे नमूने के साथ चीजों को चलाने के लिए करना पसंद करते हैं।

स्टूडियो नोटबुक में, आप TensorFlow, PyTorch, पांडा और स्किकिट-लर्न जैसे सामान्य ढांचे के लिए पूर्व-निर्मित वातावरण का उपयोग कर सकते हैं। आप निर्भरताओं को पूर्व-निर्मित कर्नेल में स्थापित कर सकते हैं, या अपनी स्वयं की लगातार कर्नेल छवि बना सकते हैं। अधिक जानकारी के लिए देखें अमेज़ॅन सेजमेकर स्टूडियो में बाहरी पुस्तकालय और कर्नेल स्थापित करें. स्टूडियो नोटबुक्स सेजमेकर प्रशिक्षण नौकरियों, परिनियोजन, या अन्य एडब्ल्यूएस सेवाओं को ट्रिगर करने के लिए एक पायथन वातावरण भी प्रदान करते हैं। निम्नलिखित अनुभागों में, हम वर्णन करते हैं कि प्रशिक्षण और परिनियोजन कार्यों को ट्रिगर करने के लिए स्टूडियो नोटबुक को एक वातावरण के रूप में कैसे उपयोग किया जाए।

सेजमेकर एक शक्तिशाली आईडीई प्रदान करता है; यह एक खुला एमएल प्लेटफॉर्म है जहां डेटा वैज्ञानिकों के पास अपने पसंदीदा विकास वातावरण का उपयोग करने की लचीलापन है। डेटा वैज्ञानिकों के लिए जो स्थानीय IDE जैसे PyCharm या Visual Studio कोड पसंद करते हैं, आप अपने ML कोड को विकसित करने के लिए स्थानीय पायथन वातावरण का उपयोग कर सकते हैं, और एक प्रबंधित स्केलेबल वातावरण में प्रशिक्षण के लिए SageMaker का उपयोग कर सकते हैं। अधिक जानकारी के लिए देखें एक PyCharm IDE के साथ Amazon SageMaker पर अपना TensorFlow कार्य चलाएं. आपके पास एक ठोस मॉडल होने के बाद, आप सेजमेकर के साथ एमएलओप्स सर्वोत्तम प्रथाओं को अपना सकते हैं।

वर्तमान में, सेजमेकर भी प्रदान करता है SageMaker नोटबुक उदाहरण जुपिटर नोटबुक पर्यावरण के लिए हमारे विरासत समाधान के रूप में। आपके पास डॉकर बिल्ड कमांड चलाने की सुविधा है और अपने नोटबुक उदाहरण पर प्रशिक्षित करने के लिए सेजमेकर स्थानीय मोड का उपयोग करें. हम अपने कोड भंडार में PaddleOCR के लिए नमूना कोड भी प्रदान करते हैं: ./train_and_deploy/notebook.ipynb.

सेजमेकर प्रोजेक्ट टेम्प्लेट के साथ एक कस्टम इमेज बनाएं

सेजमेकर बिल्ड और रनटाइम कार्यों के लिए डॉकर कंटेनरों का व्यापक उपयोग करता है। आप सेजमेकर के साथ अपना खुद का कंटेनर आसानी से चला सकते हैं। अधिक तकनीकी विवरण देखें अपने खुद के प्रशिक्षण एल्गोरिदम का प्रयोग करें.

हालाँकि, एक डेटा वैज्ञानिक के रूप में, एक कंटेनर बनाना आसान नहीं हो सकता है। सेजमेकर प्रोजेक्ट आपको इमेज बिल्डिंग CI/CD पाइपलाइन के माध्यम से कस्टम निर्भरता को प्रबंधित करने का एक आसान तरीका प्रदान करते हैं। जब आप सेजमेकर प्रोजेक्ट का उपयोग करते हैं, तो आप अपने कस्टम कंटेनर डॉकरफाइल के साथ प्रशिक्षण छवि को अपडेट कर सकते हैं। चरण-दर-चरण निर्देशों के लिए, देखें छवि निर्माण CI/CD पाइपलाइनों के साथ Amazon SageMaker प्रोजेक्ट बनाएं. टेम्प्लेट में प्रदान की गई संरचना के साथ, आप PaddleOCR प्रशिक्षण कंटेनर बनाने के लिए इस रिपॉजिटरी में दिए गए कोड को संशोधित कर सकते हैं।

इस पोस्ट के लिए, हम प्रसंस्करण, प्रशिक्षण और अनुमान के लिए एक कस्टम छवि बनाने की सादगी का प्रदर्शन करते हैं। GitHub रेपो में तीन फ़ोल्डर हैं:

ये परियोजनाएं एक समान संरचना का पालन करती हैं। एक उदाहरण के रूप में प्रशिक्षण कंटेनर की छवि लें; image-build-train/ रिपॉजिटरी में निम्नलिखित फाइलें हैं:

  • codebuild-buildspec.yml फ़ाइल, जिसका उपयोग कॉन्फ़िगर करने के लिए किया जाता है एडब्ल्यूएस कोडबिल्ड ताकि इमेज को बनाया जा सके और Amazon ECR पर धकेला जा सके।
  • Dockerfile का उपयोग Docker बिल्ड के लिए किया जाता है, जिसमें सभी निर्भरताएँ और प्रशिक्षण कोड होते हैं।
  • प्रशिक्षण स्क्रिप्ट के लिए train.py प्रवेश बिंदु, सभी हाइपरपैरामीटर (जैसे सीखने की दर और बैच आकार) के साथ जिसे एक तर्क के रूप में कॉन्फ़िगर किया जा सकता है। जब आप प्रशिक्षण कार्य प्रारंभ करते हैं तो ये तर्क निर्दिष्ट किए जाते हैं।
  • निर्भरताएँ।

जब आप कोड को संबंधित रिपॉजिटरी में धकेलते हैं, तो यह ट्रिगर हो जाता है AWS कोडपिपलीन आपके लिए एक प्रशिक्षण कंटेनर बनाने के लिए। कस्टम कंटेनर इमेज को Amazon ECR रिपॉजिटरी में स्टोर किया जाता है, जैसा कि पिछले आंकड़े में दिखाया गया है। अनुमान छवि बनाने के लिए एक समान प्रक्रिया अपनाई जाती है।

मॉडल को सेजमेकर प्रशिक्षण एसडीके के साथ प्रशिक्षित करें

आपके एल्गोरिथम कोड को एक कंटेनर में मान्य और पैक करने के बाद, आप मॉडल को प्रशिक्षित करने के लिए एक प्रबंधित वातावरण का प्रावधान करने के लिए सेजमेकर प्रशिक्षण कार्य का उपयोग कर सकते हैं। यह वातावरण अल्पकालिक है, जिसका अर्थ है कि आपके पास अपना कोड चलाने के लिए अलग, सुरक्षित गणना संसाधन (जैसे GPU) या एक बहु-GPU वितरित वातावरण हो सकता है। जब प्रशिक्षण पूरा हो जाता है, तो सेजमेकर परिणामी मॉडल कलाकृतियों को एक में सहेजता है अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) स्थान जो आप निर्दिष्ट करते हैं। सभी लॉग डेटा और मेटाडेटा इस पर बने रहते हैं एडब्ल्यूएस प्रबंधन कंसोल, स्टूडियो, और अमेज़ॅन क्लाउडवॉच.

प्रशिक्षण कार्य में कई महत्वपूर्ण जानकारी शामिल है:

  • S3 बकेट का URL जहाँ आपने प्रशिक्षण डेटा संग्रहीत किया है
  • S3 बकेट का URL जहाँ आप जॉब के आउटपुट को स्टोर करना चाहते हैं
  • प्रबंधित कंप्यूट संसाधन जो आप चाहते हैं कि सेजमेकर मॉडल प्रशिक्षण के लिए उपयोग करे
  • अमेज़ॅन ईसीआर पथ जहां प्रशिक्षण कंटेनर संग्रहीत किया जाता है

प्रशिक्षण नौकरियों के बारे में अधिक जानकारी के लिए देखें ट्रेन के मॉडल. प्रशिक्षण कार्य के लिए उदाहरण कोड यहां उपलब्ध है प्रयोग-ट्रेन-notebook.ipynb.

सेजमेकर हाइपरपैरामीटर को a . में बनाता है CreateTrainingJob डॉकर कंटेनर में उपलब्ध अनुरोध /opt/ml/input/config/hyperparameters.json फ़ाइल.

हम प्रवेश बिंदु के रूप में कस्टम प्रशिक्षण कंटेनर का उपयोग करते हैं और बुनियादी ढांचे के लिए एक GPU वातावरण निर्दिष्ट करते हैं। सभी प्रासंगिक हाइपरपैरामीटर पैरामीटर के रूप में विस्तृत हैं, जो हमें प्रत्येक व्यक्तिगत कार्य कॉन्फ़िगरेशन को ट्रैक करने और प्रयोग ट्रैकिंग के साथ उनकी तुलना करने की अनुमति देता है।

चूंकि डेटा विज्ञान प्रक्रिया बहुत शोध-उन्मुख है, इसलिए यह सामान्य है कि कई प्रयोग समानांतर में चल रहे हैं। इसके लिए एक दृष्टिकोण की आवश्यकता होती है जो सभी अलग-अलग प्रयोगों, विभिन्न एल्गोरिदम, और संभावित रूप से अलग-अलग डेटासेट और हाइपरपैरामीटर का प्रयास करता है। Amazon SageMaker प्रयोग आपको अपने ML प्रयोगों को व्यवस्थित, ट्रैक, तुलना और मूल्यांकन करने देता है। हम इसे में भी प्रदर्शित करते हैं प्रयोग-ट्रेन-notebook.ipynb. अधिक विवरण के लिए, देखें Amazon SageMaker प्रयोगों के साथ मशीन लर्निंग प्रबंधित करें.

मॉडल प्रस्तुत करने के लिए मॉडल परिनियोजित करें

परिनियोजन के लिए, विशेष रूप से रीयल-टाइम मॉडल की सेवा के लिए, कई डेटा वैज्ञानिकों को ऑपरेशन टीमों की मदद के बिना करना मुश्किल हो सकता है। सेजमेकर आपके प्रशिक्षित मॉडल को उत्पादन में तैनात करना आसान बनाता है सेजमेकर पायथन एसडीके. आप अपने मॉडल को सेजमेकर होस्टिंग सेवाओं में तैनात कर सकते हैं और वास्तविक समय के अनुमान के लिए उपयोग करने के लिए एक समापन बिंदु प्राप्त कर सकते हैं।

कई संगठनों में, डेटा वैज्ञानिक एंडपॉइंट इन्फ्रास्ट्रक्चर को बनाए रखने के लिए जिम्मेदार नहीं हो सकते हैं। हालांकि, एक समापन बिंदु के रूप में अपने मॉडल का परीक्षण करना और सही भविष्यवाणी व्यवहार की गारंटी देना वास्तव में डेटा वैज्ञानिकों की जिम्मेदारी है। इसलिए, सेजमेकर ने इसके लिए टूल और एसडीके का एक सेट जोड़कर तैनाती के कार्यों को सरल बनाया।

पोस्ट में उपयोग के मामले के लिए, हम वास्तविक समय, इंटरैक्टिव, कम विलंबता क्षमताएं रखना चाहते हैं। वास्तविक समय अनुमान इस अनुमान कार्यभार के लिए आदर्श है। हालांकि, प्रत्येक विशिष्ट आवश्यकता के अनुकूल कई विकल्प हैं। अधिक जानकारी के लिए देखें अनुमान के लिए मॉडल तैनात करें.

कस्टम छवि को परिनियोजित करने के लिए, डेटा वैज्ञानिक सेजमेकर एसडीके का उपयोग कर सकते हैं, जिसे यहां दिखाया गया है

प्रयोग-तैनाती-notebook.ipynb.

में create_model अनुरोध, कंटेनर परिभाषा में शामिल हैं ModelDataUrl पैरामीटर, जो अमेज़ॅन एस 3 स्थान की पहचान करता है जहां मॉडल कलाकृतियों को संग्रहीत किया जाता है। सेजमेकर इस जानकारी का उपयोग यह निर्धारित करने के लिए करता है कि मॉडल कलाकृतियों को कहां से कॉपी किया जाए। यह कलाकृतियों की प्रतिलिपि बनाता है /opt/ml/model आपके अनुमान कोड द्वारा उपयोग के लिए निर्देशिका। serve और predictor.py सेवा के लिए प्रवेश बिंदु है, मॉडल आर्टिफैक्ट के साथ जो आपके द्वारा परिनियोजन प्रारंभ करते समय लोड किया जाता है। अधिक जानकारी के लिए देखें होस्टिंग सेवाओं के साथ अपने स्वयं के अनुमान कोड का प्रयोग करें.

सेजमेकर पाइपलाइनों के साथ अपने कार्यप्रवाह को व्यवस्थित करें

अंतिम चरण अपने कोड को एंड-टू-एंड एमएल वर्कफ़्लोज़ के रूप में लपेटना है, और एमएलओपीएस सर्वोत्तम प्रथाओं को लागू करना है। सेजमेकर में, मॉडल बिल्डिंग वर्कलोड, एक निर्देशित एसाइक्लिक ग्राफ (डीएजी), सेजमेकर पाइपलाइन द्वारा प्रबंधित किया जाता है। पाइपलाइन एक पूरी तरह से प्रबंधित सेवा है जो ऑर्केस्ट्रेशन और डेटा वंश ट्रैकिंग का समर्थन करती है। इसके अलावा, क्योंकि पाइपलाइन को सेजमेकर पायथन एसडीके के साथ एकीकृत किया गया है, आप उच्च-स्तरीय पायथन इंटरफ़ेस का उपयोग करके प्रोग्रामेटिक रूप से अपनी पाइपलाइन बना सकते हैं जिसका उपयोग हमने पहले प्रशिक्षण चरण के दौरान किया था।

हम कार्यान्वयन को स्पष्ट करने के लिए पाइपलाइन कोड का एक उदाहरण प्रदान करते हैं पाइपलाइन.

पाइपलाइन में डेटासेट जनरेशन, ट्रेनिंग स्टेप, कंडीशन स्टेप और मॉडल रजिस्ट्रेशन स्टेप के लिए प्रीप्रोसेसिंग स्टेप शामिल हैं। प्रत्येक पाइपलाइन रन के अंत में, डेटा वैज्ञानिक संस्करण नियंत्रण के लिए अपने मॉडल को पंजीकृत करना चाहते हैं और सबसे अच्छा प्रदर्शन करने वाले को तैनात करना चाहते हैं। सेजमेकर मॉडल रजिस्ट्री मॉडल संस्करणों, कैटलॉग मॉडल को प्रबंधित करने और एक विशिष्ट मॉडल की स्वीकृति स्थिति के साथ स्वचालित मॉडल परिनियोजन को ट्रिगर करने के लिए एक केंद्रीय स्थान प्रदान करती है। अधिक जानकारी के लिए देखें मॉडल रजिस्ट्री के साथ मॉडल पंजीकृत करें और तैनात करें।

एक एमएल सिस्टम में, स्वचालित वर्कफ़्लो ऑर्केस्ट्रेशन मॉडल के प्रदर्शन में गिरावट को रोकने में मदद करता है, दूसरे शब्दों में मॉडल बहाव। डेटा विचलन की प्रारंभिक और सक्रिय पहचान आपको सुधारात्मक कार्रवाई करने में सक्षम बनाती है, जैसे मॉडल को फिर से प्रशिक्षित करना। विचलन का पता चलने के बाद आप मॉडल के नए संस्करण को फिर से प्रशिक्षित करने के लिए सेजमेकर पाइपलाइन को ट्रिगर कर सकते हैं। पाइपलाइन का ट्रिगर भी किसके द्वारा निर्धारित किया जा सकता है अमेज़ॅन सैजमेकर मॉडल मॉनिटर, जो उत्पादन में मॉडलों की गुणवत्ता की लगातार निगरानी करता है। जानकारी रिकॉर्ड करने के लिए डेटा कैप्चर क्षमता के साथ, मॉडल मॉनिटर डेटा और मॉडल गुणवत्ता निगरानी, ​​​​पूर्वाग्रह, और विशेषता एट्रिब्यूशन बहाव निगरानी का समर्थन करता है। अधिक जानकारी के लिए देखें डेटा और मॉडल की गुणवत्ता, पूर्वाग्रह और व्याख्यात्मकता के लिए मॉडल की निगरानी करें.

निष्कर्ष

इस पोस्ट में, हमने दिखाया कि OCR कार्यों के लिए SageMaker पर PaddleOCR फ्रेमवर्क कैसे चलाया जाता है। डेटा वैज्ञानिकों को आसानी से सेजमेकर पर सवार होने में मदद करने के लिए, हम एमएल विकास जीवनचक्र से गुजरे, एल्गोरिदम के निर्माण से लेकर प्रशिक्षण तक, मॉडल को वास्तविक समय के अनुमान के लिए एक वेब सेवा के रूप में होस्ट करने के लिए। आप हमारे द्वारा प्रदान किए गए टेम्पलेट कोड का उपयोग सेजमेकर प्लेटफॉर्म पर एक मनमाना ढांचे को स्थानांतरित करने के लिए कर सकते हैं। अपने एमएल प्रोजेक्ट के लिए इसे आज़माएं और हमें अपनी सफलता की कहानियां बताएं।


लेखक के बारे में

पहचान दस्तावेजों प्लेटोब्लॉकचैन डेटा इंटेलिजेंस पर ऑप्टिकल कैरेक्टर रिकग्निशन करने के लिए एमएलओप्स के लिए अमेज़ॅन सेजमेकर प्रोजेक्ट्स के साथ ऑनबोर्ड पैडलओसीआर। लंबवत खोज। ऐ.जुनी (जैकी) एलआईयू एडब्ल्यूएस में वरिष्ठ अनुप्रयुक्त वैज्ञानिक हैं। उन्हें मशीन लर्निंग के क्षेत्र में काम करने का कई वर्षों का अनुभव है। उन्हें आपूर्ति श्रृंखला भविष्यवाणी एल्गोरिदम, विज्ञापन सिफारिश प्रणाली, ओसीआर और एनएलपी क्षेत्र में मशीन लर्निंग मॉडल के निर्माण में समाधान के विकास और कार्यान्वयन में समृद्ध व्यावहारिक अनुभव है।

पहचान दस्तावेजों प्लेटोब्लॉकचैन डेटा इंटेलिजेंस पर ऑप्टिकल कैरेक्टर रिकग्निशन करने के लिए एमएलओप्स के लिए अमेज़ॅन सेजमेकर प्रोजेक्ट्स के साथ ऑनबोर्ड पैडलओसीआर। लंबवत खोज। ऐ.यानवेई कुई, PhD, AWS में मशीन लर्निंग स्पेशलिस्ट सॉल्यूशंस आर्किटेक्ट हैं। उन्होंने IRISA (रिसर्च इंस्टीट्यूट ऑफ कंप्यूटर साइंस एंड रैंडम सिस्टम्स) में मशीन लर्निंग रिसर्च शुरू किया, और कंप्यूटर विज़न, नेचुरल लैंग्वेज प्रोसेसिंग और ऑनलाइन यूजर बिहेवियर प्रेडिक्शन में आर्टिफिशियल इंटेलिजेंस पावर्ड इंडस्ट्रियल एप्लिकेशन बनाने का कई वर्षों का अनुभव है। AWS में, वह डोमेन विशेषज्ञता साझा करता है और ग्राहकों को व्यावसायिक संभावनाओं को अनलॉक करने में मदद करता है, और बड़े पैमाने पर मशीन लर्निंग के साथ कार्रवाई योग्य परिणाम प्राप्त करने में मदद करता है। काम के बाहर, उन्हें पढ़ना और यात्रा करना पसंद है।

पहचान दस्तावेजों प्लेटोब्लॉकचैन डेटा इंटेलिजेंस पर ऑप्टिकल कैरेक्टर रिकग्निशन करने के लिए एमएलओप्स के लिए अमेज़ॅन सेजमेकर प्रोजेक्ट्स के साथ ऑनबोर्ड पैडलओसीआर। लंबवत खोज। ऐ.यी-एन चेनो अमेज़ॅन लैब 126 में एक सॉफ्टवेयर डेवलपर है। उसे वैयक्तिकरण, प्राकृतिक भाषा प्रसंस्करण और कंप्यूटर दृष्टि सहित विभिन्न विषयों में मशीन लर्निंग संचालित उत्पादों को विकसित करने में 10 से अधिक वर्षों का अनुभव है। काम के अलावा उन्हें लॉन्ग रनिंग और बाइकिंग करना पसंद है।

समय टिकट:

से अधिक AWS मशीन लर्निंग