পরিচয় নথি PlatoBlockchain ডেটা ইন্টেলিজেন্সে অপটিক্যাল ক্যারেক্টার রিকগনিশন সঞ্চালনের জন্য MLOps-এর জন্য Amazon SageMaker প্রকল্পগুলির সাথে অনবোর্ড প্যাডেলওসিআর। উল্লম্ব অনুসন্ধান. আ.

পরিচয় নথিতে অপটিক্যাল ক্যারেক্টার রিকগনিশন সঞ্চালনের জন্য MLOps-এর জন্য Amazon SageMaker প্রজেক্ট সহ অনবোর্ড প্যাডেলওসিআর

অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) হল মুদ্রিত বা হাতে লেখা পাঠকে মেশিন-এনকোডেড পাঠ্যে রূপান্তর করার কাজ। ওসিআর বিভিন্ন পরিস্থিতিতে ব্যাপকভাবে ব্যবহৃত হয়েছে, যেমন ডকুমেন্ট ইলেকট্রনাইজেশন এবং পরিচয় প্রমাণীকরণ। যেহেতু ওসিআর মূল তথ্য নিবন্ধন করার জন্য ম্যানুয়াল প্রচেষ্টাকে ব্যাপকভাবে হ্রাস করতে পারে এবং প্রচুর পরিমাণে নথি বোঝার জন্য একটি এন্ট্রি পদক্ষেপ হিসাবে কাজ করতে পারে, একটি সঠিক ওসিআর সিস্টেম ডিজিটাল রূপান্তরের যুগে একটি গুরুত্বপূর্ণ ভূমিকা পালন করে।

ওপেন-সোর্স সম্প্রদায় এবং গবেষকরা কীভাবে OCR নির্ভুলতা, ব্যবহারের সহজতা, প্রাক-প্রশিক্ষিত মডেলগুলির সাথে একীকরণ, এক্সটেনশন এবং নমনীয়তা উন্নত করতে মনোনিবেশ করছেন। অনেক প্রস্তাবিত কাঠামোর মধ্যে, PaddleOCR সম্প্রতি ক্রমবর্ধমান মনোযোগ অর্জন করেছে। প্রস্তাবিত কাঠামো কম্পিউটেশনাল দক্ষতার ভারসাম্য বজায় রেখে উচ্চ নির্ভুলতা প্রাপ্তির উপর মনোযোগ দেয়। এছাড়াও, চীনা এবং ইংরেজির জন্য প্রাক-প্রশিক্ষিত মডেলগুলি এটিকে চীনা ভাষা-ভিত্তিক বাজারে জনপ্রিয় করে তোলে। দেখুন প্যাডেলওসিআর গিটহাব রেপো আরো বিস্তারিত জানার জন্য.

AWS-এ, আমরা সমন্বিত AI পরিষেবাগুলিও প্রস্তাব করেছি যেগুলি কোনও মেশিন লার্নিং (ML) দক্ষতা ছাড়াই ব্যবহারের জন্য প্রস্তুত৷ নথি থেকে টেক্সট এবং স্ট্রাকচার্ড ডেটা যেমন টেবিল এবং ফর্ম বের করতে, আপনি ব্যবহার করতে পারেন অ্যামাজন টেক্সট্র্যাক. এটি যেকোন ধরণের নথি পড়তে এবং প্রক্রিয়া করার জন্য ML কৌশল ব্যবহার করে, সঠিকভাবে পাঠ্য, হস্তাক্ষর, টেবিল এবং অন্যান্য ডেটা বের করে কোন ম্যানুয়াল প্রচেষ্টা ছাড়াই।

আপনার নিজস্ব OCR মডেল বিকাশের জন্য একটি ওপেন-সোর্স ফ্রেমওয়ার্ক ব্যবহার করার নমনীয়তা চান এমন ডেটা বিজ্ঞানীদের জন্য, আমরা সম্পূর্ণরূপে পরিচালিত ML পরিষেবাও অফার করি আমাজন সেজমেকার. সেজমেকার আপনাকে এমএল লাইফসাইকেল জুড়ে MLOps সেরা অনুশীলনগুলি বাস্তবায়ন করতে সক্ষম করে এবং এমএল প্রকল্পগুলিকে উৎপাদনে রাখার জন্য আলাদা আলাদা ভারী উত্তোলন কমাতে টেমপ্লেট এবং টুলসেট সরবরাহ করে।

এই পোস্টে, আমরা সেজমেকার-এ প্যাডেলওসিআর ফ্রেমওয়ার্কের মধ্যে কাস্টমাইজড মডেল তৈরিতে মনোনিবেশ করি। SageMaker কীভাবে আপনাকে একটি মডেল তৈরি ও প্রশিক্ষণ দিতে এবং অবশেষে মডেলটিকে একটি ওয়েব পরিষেবা হিসাবে স্থাপন করতে সাহায্য করতে পারে তা বোঝাতে আমরা ML বিকাশের জীবনচক্রের মধ্য দিয়ে চলেছি। যদিও আমরা প্যাডেলওসিআর দিয়ে এই সমাধানটি চিত্রিত করি, সাধারণ নির্দেশিকা সেজমেকারে ব্যবহার করা নির্বিচারে কাঠামোর জন্য সত্য। এই পোস্টের সাথে, আমরা নমুনা কোডও প্রদান করি GitHub সংগ্রহস্থল.

প্যাডেলওসিআর ফ্রেমওয়ার্ক

ব্যাপকভাবে গৃহীত ওসিআর ফ্রেমওয়ার্ক হিসাবে, প্যাডেলওসিআর সমৃদ্ধ পাঠ্য সনাক্তকরণ, পাঠ্য সনাক্তকরণ এবং শেষ থেকে শেষ অ্যালগরিদম রয়েছে। এটি মৌলিক সনাক্তকরণ এবং স্বীকৃতি মডেল হিসাবে ডিফারেনশিয়াবল বাইনারাইজেশন (ডিবি) এবং কনভোল্যুশনাল রিকারেন্ট নিউরাল নেটওয়ার্ক (সিআরএনএন) বেছে নেয় এবং অপ্টিমাইজেশান কৌশলগুলির একটি সিরিজের পরে শিল্প অ্যাপ্লিকেশনগুলির জন্য পিপি-ওসিআর নামে মডেলগুলির একটি সিরিজ প্রস্তাব করে।

পিপি-ওসিআর মডেলটি সাধারণ পরিস্থিতিতে লক্ষ্য করে এবং বিভিন্ন ভাষার একটি মডেল লাইব্রেরি গঠন করে। এটি তিনটি অংশ নিয়ে গঠিত: পাঠ্য সনাক্তকরণ, বাক্স সনাক্তকরণ এবং সংশোধন এবং পাঠ্য স্বীকৃতি, প্যাডেলওসিআর-এর নিম্নলিখিত চিত্রে চিত্রিত অফিসিয়াল গিটহাব সংগ্রহস্থল. আপনি গবেষণাপত্রটিও উল্লেখ করতে পারেন PP-OCR: একটি ব্যবহারিক আল্ট্রা লাইটওয়েট OCR সিস্টেম আরও তথ্যের জন্য.

আরও সুনির্দিষ্টভাবে বলতে গেলে, প্যাডেলওসিআর-এ তিনটি পরপর কাজ রয়েছে:

  • পাঠ্য সনাক্তকরণ - টেক্সট সনাক্তকরণের উদ্দেশ্য হল ছবিতে টেক্সট এরিয়া সনাক্ত করা। এই ধরনের কাজগুলি একটি সাধারণ বিভাজন নেটওয়ার্কের উপর ভিত্তি করে করা যেতে পারে।
  • বক্স সনাক্তকরণ এবং সংশোধন - পরবর্তী পাঠ্য শনাক্তকরণের জন্য প্রতিটি পাঠ্য বাক্সকে একটি অনুভূমিক আয়তক্ষেত্র বাক্সে রূপান্তরিত করতে হবে। এটি করার জন্য, PaddleOCR পাঠ্যের দিকনির্দেশ নির্ধারণের জন্য একটি পাঠ্য দিকনির্দেশ ক্লাসিফায়ার (চিত্র শ্রেণীবিভাগের কাজ) প্রশিক্ষণের প্রস্তাব করেছে।
  • পাঠ্য স্বীকৃতি – টেক্সট বক্স শনাক্ত হওয়ার পর, টেক্সট শনাক্তকারী মডেল প্রতিটি টেক্সট বক্সে অনুমান করে এবং টেক্সট বক্সের অবস্থান অনুযায়ী ফলাফল বের করে। PaddleOCR বহুল ব্যবহৃত পদ্ধতি CRNN গ্রহণ করে।

PaddleOCR উচ্চ-মানের প্রাক-প্রশিক্ষিত মডেলগুলি সরবরাহ করে যা বাণিজ্যিক প্রভাবগুলির সাথে তুলনীয়। আপনি হয় একটি শনাক্তকরণ মডেল, দিকনির্দেশ শ্রেণীবদ্ধকারী, বা স্বীকৃতি মডেলের জন্য প্রাক-প্রশিক্ষিত মডেল ব্যবহার করতে পারেন, অথবা আপনি আপনার ব্যবহারের ক্ষেত্রে পরিবেশন করার জন্য প্রতিটি পৃথক মডেলকে সূক্ষ্ম সুর এবং পুনরায় প্রশিক্ষণ দিতে পারেন। ঐতিহ্যগত চীনা এবং ইংরেজি সনাক্তকরণের দক্ষতা এবং কার্যকারিতা বাড়ানোর জন্য, আমরা কীভাবে পাঠ্য শনাক্তকরণ মডেলটিকে সূক্ষ্ম-টিউন করতে হয় তা ব্যাখ্যা করি। প্রাক-প্রশিক্ষিত মডেল আমরা চয়ন ch_ppocr_mobile_v2.0_rec_train, যা একটি লাইটওয়েট মডেল, চাইনিজ, ইংরেজি এবং সংখ্যা স্বীকৃতি সমর্থন করে। নীচে একটি হংকং পরিচয়পত্র ব্যবহার করে একটি উদাহরণ অনুমান ফলাফল।

পরিচয় নথি PlatoBlockchain ডেটা ইন্টেলিজেন্সে অপটিক্যাল ক্যারেক্টার রিকগনিশন সঞ্চালনের জন্য MLOps-এর জন্য Amazon SageMaker প্রকল্পগুলির সাথে অনবোর্ড প্যাডেলওসিআর। উল্লম্ব অনুসন্ধান. আ.

নিম্নলিখিত বিভাগগুলিতে, আমরা সেজমেকার ব্যবহার করে প্রাক-প্রশিক্ষিত মডেলটিকে কীভাবে সূক্ষ্ম-টিউন করতে পারি তার মধ্য দিয়ে চলেছি।

SageMaker সঙ্গে MLOps সেরা অনুশীলন

সেজমেকার একটি সম্পূর্ণরূপে পরিচালিত এমএল পরিষেবা। SageMaker-এর সাহায্যে, ডেটা বিজ্ঞানী এবং বিকাশকারীরা দ্রুত এবং সহজে ML মডেলগুলি তৈরি এবং প্রশিক্ষণ দিতে পারে এবং তারপরে সরাসরি উত্পাদন-প্রস্তুত পরিচালিত পরিবেশে স্থাপন করতে পারে।

অনেক ডেটা বিজ্ঞানী এমএল জীবনচক্রকে ত্বরান্বিত করার জন্য সেজমেকার ব্যবহার করেন। এই বিভাগে, আমরা ব্যাখ্যা করি যে কীভাবে সেজমেকার আপনাকে পরীক্ষা-নিরীক্ষা থেকে ML-কে উৎপাদনে সহায়তা করতে পারে। পরীক্ষামূলক বাক্যাংশ (কোড বিকাশ এবং পরীক্ষা-নিরীক্ষা) থেকে অপারেশনাল শব্দগুচ্ছ (মডেল বিল্ড ওয়ার্কফ্লো এবং ডিপ্লয়মেন্ট পাইপলাইনগুলির স্বয়ংক্রিয়করণ) পর্যন্ত একটি ML প্রকল্পের স্ট্যান্ডার্ড পদক্ষেপগুলি অনুসরণ করে, SageMaker নিম্নলিখিত ধাপগুলিতে দক্ষতা আনতে পারে:

  1. ডেটা এক্সপ্লোর করুন এবং এর সাথে ML কোড তৈরি করুন অ্যামাজন সেজমেকার স্টুডিও নোটবুক
  2. একটি SageMaker প্রশিক্ষণ কাজের মাধ্যমে মডেলটিকে প্রশিক্ষণ দিন এবং সুর করুন।
  3. মডেল পরিবেশনের জন্য একটি SageMaker এন্ডপয়েন্ট সহ মডেলটি স্থাপন করুন।
  4. সঙ্গে কর্মপ্রবাহ অর্কেস্ট্রেট অ্যামাজন সেজমেকার পাইপলাইন.

নিম্নলিখিত চিত্রটি এই স্থাপত্য এবং কর্মপ্রবাহকে চিত্রিত করে।

পরিচয় নথি PlatoBlockchain ডেটা ইন্টেলিজেন্সে অপটিক্যাল ক্যারেক্টার রিকগনিশন সঞ্চালনের জন্য MLOps-এর জন্য Amazon SageMaker প্রকল্পগুলির সাথে অনবোর্ড প্যাডেলওসিআর। উল্লম্ব অনুসন্ধান. আ.

এটি লক্ষ্য করা গুরুত্বপূর্ণ যে আপনি মডুলার উপায়ে সেজমেকার ব্যবহার করতে পারেন। উদাহরণস্বরূপ, আপনি একটি স্থানীয় সমন্বিত উন্নয়ন পরিবেশ (আইডিই) দিয়ে আপনার কোড তৈরি করতে পারেন এবং সেজমেকারে আপনার মডেলকে প্রশিক্ষণ ও স্থাপন করতে পারেন, অথবা আপনি আপনার নিজস্ব ক্লাস্টার কম্পিউট উত্সগুলিতে আপনার মডেল বিকাশ ও প্রশিক্ষণ দিতে পারেন এবং ওয়ার্কফ্লো অর্কেস্ট্রেশনের জন্য একটি সেজমেকার পাইপলাইন ব্যবহার করতে পারেন এবং একটি সেজমেকার এন্ডপয়েন্টে স্থাপন করুন। এর মানে হল যে SageMaker আপনার নিজের প্রয়োজনীয়তার জন্য মানিয়ে নেওয়ার জন্য একটি উন্মুক্ত প্ল্যাটফর্ম প্রদান করে।

আমাদের কোড দেখুন GitHub সংগ্রহস্থল এবং কোড গঠন বুঝতে README.

একটি সেজমেকার প্রকল্পের ব্যবস্থা করুন

তুমি ব্যবহার করতে পার আমাজন সেজমেকার প্রকল্প আপনার যাত্রা শুরু করতে। একটি সেজমেকার প্রকল্পের সাহায্যে, আপনি আপনার গিট সংগ্রহস্থলগুলির সংস্করণগুলি পরিচালনা করতে পারেন যাতে আপনি আরও দক্ষতার সাথে দলগুলি জুড়ে সহযোগিতা করতে পারেন, কোডের সামঞ্জস্য নিশ্চিত করতে পারেন এবং অবিচ্ছিন্ন একীকরণ এবং অবিচ্ছিন্ন বিতরণ (CI/CD) সক্ষম করতে পারেন। যদিও নোটবুকগুলি মডেল তৈরি এবং পরীক্ষা-নিরীক্ষার জন্য সহায়ক, যখন আপনার কাছে ডেটা বিজ্ঞানী এবং এমএল ইঞ্জিনিয়ারদের একটি দল একটি এমএল সমস্যা নিয়ে কাজ করে, তখন কোডের সামঞ্জস্য বজায় রাখার জন্য এবং কঠোর সংস্করণ নিয়ন্ত্রণের জন্য আপনার আরও মাপযোগ্য উপায় প্রয়োজন।

SageMaker প্রকল্পগুলি একটি পূর্ব-কনফিগার করা MLOps টেমপ্লেট তৈরি করে, যার মধ্যে PaddleOCR ইন্টিগ্রেশন সহজ করার জন্য প্রয়োজনীয় উপাদানগুলি অন্তর্ভুক্ত রয়েছে:

  • CI/CD সরঞ্জামগুলির সাথে একত্রিত প্রক্রিয়াকরণ, প্রশিক্ষণ এবং অনুমানের জন্য কাস্টম কন্টেইনার ইমেজ তৈরি করার জন্য একটি কোড সংগ্রহস্থল। এটি আমাদের কাস্টম ডকার ইমেজ কনফিগার করতে এবং পুশ করতে দেয় অ্যামাজন ইলাস্টিক কনটেইনার রেজিস্ট্রি (Amazon ECR) ব্যবহারের জন্য প্রস্তুত হতে হবে।
  • একটি সেজমেকার পাইপলাইন যা ডেটা প্রস্তুতি, প্রশিক্ষণ, মডেল মূল্যায়ন এবং মডেল নিবন্ধনের পদক্ষেপগুলি সংজ্ঞায়িত করে। এমএল প্রকল্পটি উৎপাদনে গেলে এটি আমাদের এমএলওপ প্রস্তুত হতে প্রস্তুত করে।
  • অন্যান্য দরকারী সংস্থান, যেমন কোড সংস্করণ নিয়ন্ত্রণের জন্য একটি গিট সংগ্রহস্থল, মডেলের সংস্করণ রয়েছে এমন মডেল গ্রুপ, মডেল বিল্ড পাইপলাইনের জন্য কোড পরিবর্তন ট্রিগার এবং মডেল স্থাপনার পাইপলাইনের জন্য ইভেন্ট-ভিত্তিক ট্রিগার।

আপনি স্ট্যান্ডার্ড SageMaker প্রকল্প তৈরি করতে SageMaker বীজ কোড ব্যবহার করতে পারেন, বা একটি নির্দিষ্ট টেমপ্লেট যা আপনার সংস্থা দলের সদস্যদের জন্য তৈরি করেছে। এই পোস্টে, আমরা স্ট্যান্ডার্ড ব্যবহার করি ইমেজ বিল্ডিং, মডেল বিল্ডিং এবং মডেল স্থাপনের জন্য MLOps টেমপ্লেট. স্টুডিওতে একটি প্রকল্প তৈরি সম্পর্কে আরও তথ্যের জন্য, পড়ুন Amazon SageMaker Studio ব্যবহার করে একটি MLOps প্রকল্প তৈরি করুন.

ডেটা এক্সপ্লোর করুন এবং সেজমেকার স্টুডিও নোটবুকগুলির সাথে এমএল কোড তৈরি করুন৷

সেজমেকার স্টুডিও নোটবুক হল সহযোগী নোটবুক যা আপনি দ্রুত লঞ্চ করতে পারেন কারণ আপনাকে আগে থেকে কম্পিউট ইনস্ট্যান্স এবং ফাইল স্টোরেজ সেট আপ করতে হবে না। অনেক ডেটা সায়েন্টিস্ট এই ওয়েব-ভিত্তিক IDE ব্যবহার করতে পছন্দ করেন ML কোড তৈরি করার জন্য, দ্রুত লাইব্রেরি API ডিবাগ করার জন্য, এবং ট্রেনিং স্ক্রিপ্টকে যাচাই করার জন্য ডেটার একটি ছোট নমুনা দিয়ে জিনিসগুলি চালানোর জন্য।

স্টুডিও নোটবুকগুলিতে, আপনি টেনসরফ্লো, পাইটর্চ, পান্ডাস এবং স্কিট-লার্নের মতো সাধারণ কাঠামোর জন্য একটি পূর্ব-নির্মিত পরিবেশ ব্যবহার করতে পারেন। আপনি প্রাক-নির্মিত কার্নেলে নির্ভরতা ইনস্টল করতে পারেন, অথবা আপনার নিজস্ব স্থায়ী কার্নেল চিত্র তৈরি করতে পারেন। আরো তথ্যের জন্য, পড়ুন অ্যামাজন সেজমেকার স্টুডিওতে বাহ্যিক লাইব্রেরি এবং কার্নেল ইনস্টল করুন. স্টুডিও নোটবুকগুলি সেজমেকার প্রশিক্ষণের কাজ, স্থাপনা বা অন্যান্য AWS পরিষেবাগুলিকে ট্রিগার করার জন্য একটি পাইথন পরিবেশ সরবরাহ করে। নিম্নলিখিত বিভাগগুলিতে, আমরা ব্যাখ্যা করি যে কীভাবে স্টুডিও নোটবুকগুলিকে প্রশিক্ষণ এবং স্থাপনার কাজগুলিকে ট্রিগার করতে পরিবেশ হিসাবে ব্যবহার করতে হয়।

SageMaker একটি শক্তিশালী IDE প্রদান করে; এটি একটি উন্মুক্ত এমএল প্ল্যাটফর্ম যেখানে ডেটা বিজ্ঞানীদের তাদের পছন্দের উন্নয়ন পরিবেশ ব্যবহার করার নমনীয়তা রয়েছে। PyCharm বা ভিজ্যুয়াল স্টুডিও কোডের মতো স্থানীয় IDE পছন্দ করেন এমন ডেটা বিজ্ঞানীদের জন্য, আপনি আপনার ML কোড বিকাশ করতে স্থানীয় পাইথন পরিবেশ ব্যবহার করতে পারেন এবং একটি পরিচালিত মাপযোগ্য পরিবেশে প্রশিক্ষণের জন্য SageMaker ব্যবহার করতে পারেন। আরো তথ্যের জন্য, দেখুন একটি PyCharm IDE দিয়ে অ্যামাজন সেজমেকারে আপনার TensorFlow কাজটি চালান. আপনার একটি শক্ত মডেল থাকার পরে, আপনি SageMaker এর সাথে MLOps সেরা অনুশীলনগুলি গ্রহণ করতে পারেন।

বর্তমানে, SageMaker এছাড়াও প্রদান করে সেজমেকার নোটবুকের উদাহরণ জুপিটার নোটবুক পরিবেশের জন্য আমাদের উত্তরাধিকার সমাধান হিসাবে। আপনার কাছে ডকার বিল্ড কমান্ড চালানোর নমনীয়তা রয়েছে এবং আপনার নোটবুক উদাহরণে প্রশিক্ষণের জন্য SageMaker স্থানীয় মোড ব্যবহার করুন. আমরা আমাদের কোড সংগ্রহস্থলে PaddleOCR-এর জন্য নমুনা কোডও প্রদান করি: ./train_and_deploy/notebook.ipynb.

একটি SageMaker প্রকল্প টেমপ্লেট দিয়ে একটি কাস্টম চিত্র তৈরি করুন

সেজমেকার বিল্ড এবং রানটাইম কাজের জন্য ডকার কন্টেইনারগুলির ব্যাপক ব্যবহার করে। আপনি সহজেই সেজমেকার দিয়ে আপনার নিজের ধারক চালাতে পারেন। আরো প্রযুক্তিগত বিবরণ দেখুন আপনার নিজস্ব প্রশিক্ষণ অ্যালগরিদম ব্যবহার করুন.

যাইহোক, একজন ডেটা বিজ্ঞানী হিসাবে, একটি ধারক তৈরি করা সোজা নাও হতে পারে। সেজমেকার প্রকল্পগুলি আপনাকে একটি ইমেজ বিল্ডিং CI/CD পাইপলাইনের মাধ্যমে কাস্টম নির্ভরতা পরিচালনা করার জন্য একটি সহজ উপায় প্রদান করে। যখন আপনি একটি SageMaker প্রকল্প ব্যবহার করেন, তখন আপনি আপনার কাস্টম ধারক ডকারফাইল দিয়ে প্রশিক্ষণ চিত্রে আপডেট করতে পারেন। ধাপে ধাপে নির্দেশাবলীর জন্য, পড়ুন ইমেজ বিল্ডিং CI/CD পাইপলাইন সহ Amazon SageMaker প্রকল্পগুলি তৈরি করুন৷. টেমপ্লেটে প্রদত্ত কাঠামোর সাথে, আপনি একটি PaddleOCR প্রশিক্ষণ কন্টেইনার তৈরি করতে এই সংগ্রহস্থলে প্রদত্ত কোডটি পরিবর্তন করতে পারেন।

এই পোস্টের জন্য, আমরা প্রক্রিয়াকরণ, প্রশিক্ষণ এবং অনুমানের জন্য একটি কাস্টম চিত্র তৈরির সরলতা প্রদর্শন করি। গিটহাব রেপোতে তিনটি ফোল্ডার রয়েছে:

এই প্রকল্পগুলি অনুরূপ কাঠামো অনুসরণ করে। একটি উদাহরণ হিসাবে প্রশিক্ষণ ধারক ইমেজ নিন; দ্য image-build-train/ সংগ্রহস্থলে নিম্নলিখিত ফাইলগুলি রয়েছে:

  • codebuild-buildspec.yml ফাইল, যা কনফিগার করতে ব্যবহৃত হয় এডাব্লুএস কোডবিল্ড যাতে ছবিটি তৈরি করা যায় এবং অ্যামাজন ইসিআর-এ পুশ করা যায়।
  • ডকার বিল্ডের জন্য ব্যবহৃত ডকারফাইল, যাতে সমস্ত নির্ভরতা এবং প্রশিক্ষণ কোড থাকে।
  • ট্রেনিং স্ক্রিপ্টের জন্য train.py এন্ট্রি পয়েন্ট, সমস্ত হাইপারপ্যারামিটার সহ (যেমন শেখার হার এবং ব্যাচের আকার) যা একটি আর্গুমেন্ট হিসাবে কনফিগার করা যেতে পারে। আপনি যখন প্রশিক্ষণের কাজ শুরু করেন তখন এই যুক্তিগুলি নির্দিষ্ট করা হয়।
  • নির্ভরতা।

আপনি কোডটিকে সংশ্লিষ্ট সংগ্রহস্থলে পুশ করলে, এটি ট্রিগার হয় AWS কোড পাইপলাইন আপনার জন্য একটি প্রশিক্ষণ পাত্র তৈরি করতে। কাস্টম কন্টেইনার ইমেজটি একটি অ্যামাজন ইসিআর রিপোজিটরিতে সংরক্ষণ করা হয়েছে, যেমনটি আগের চিত্রে দেখানো হয়েছে। অনুমান চিত্র তৈরি করার জন্য অনুরূপ পদ্ধতি গ্রহণ করা হয়।

SageMaker প্রশিক্ষণ SDK দিয়ে মডেলকে প্রশিক্ষণ দিন

আপনার অ্যালগরিদম কোড বৈধ হওয়ার পরে এবং একটি পাত্রে প্যাকেজ করা হয়, আপনি মডেল প্রশিক্ষণের জন্য একটি পরিচালিত পরিবেশের ব্যবস্থা করতে একটি SageMaker প্রশিক্ষণ কাজ ব্যবহার করতে পারেন। এই পরিবেশটি ক্ষণস্থায়ী, অর্থাৎ আপনার কোড চালানোর জন্য আপনার কাছে আলাদা, সুরক্ষিত গণনা সংস্থান (যেমন GPU) বা মাল্টি-GPU বিতরণ করা পরিবেশ থাকতে পারে। প্রশিক্ষণ সম্পূর্ণ হলে, সেজমেকার ফলস্বরূপ মডেলের শিল্পকর্মগুলিকে একটিতে সংরক্ষণ করে আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) অবস্থান যা আপনি নির্দিষ্ট করেছেন। সমস্ত লগ ডেটা এবং মেটাডেটা টিকে থাকে৷ এডাব্লুএস ম্যানেজমেন্ট কনসোল, স্টুডিও, এবং অ্যামাজন ক্লাউডওয়াচ.

প্রশিক্ষণের কাজটিতে বেশ কয়েকটি গুরুত্বপূর্ণ তথ্য রয়েছে:

  • S3 বাকেটের URL যেখানে আপনি প্রশিক্ষণের ডেটা সংরক্ষণ করেছেন
  • S3 বাকেটের URL যেখানে আপনি কাজের আউটপুট সংরক্ষণ করতে চান
  • পরিচালিত গণনা সংস্থান যা আপনি SageMaker মডেল প্রশিক্ষণের জন্য ব্যবহার করতে চান৷
  • আমাজন ইসিআর পাথ যেখানে প্রশিক্ষণ কন্টেইনার সংরক্ষণ করা হয়

প্রশিক্ষণের চাকরি সম্পর্কে আরও তথ্যের জন্য, দেখুন ট্রেনের মডেল. প্রশিক্ষণ কাজের জন্য উদাহরণ কোড পাওয়া যায় experiments-train-notebook.ipynb.

সেজমেকার একটিতে হাইপারপ্যারামিটার তৈরি করে CreateTrainingJob অনুরোধ ডকার কন্টেইনারে উপলব্ধ /opt/ml/input/config/hyperparameters.json ফাইল.

আমরা কাস্টম প্রশিক্ষণ কন্টেইনারকে এন্ট্রি পয়েন্ট হিসাবে ব্যবহার করি এবং পরিকাঠামোর জন্য একটি GPU পরিবেশ নির্দিষ্ট করি। সমস্ত প্রাসঙ্গিক হাইপারপ্যারামিটারগুলি পরামিতি হিসাবে বিশদভাবে বর্ণনা করা হয়েছে, যা আমাদের প্রতিটি কাজের কনফিগারেশন ট্র্যাক করতে এবং পরীক্ষার ট্র্যাকিংয়ের সাথে তুলনা করতে দেয়।

যেহেতু ডেটা সায়েন্স প্রক্রিয়াটি খুব গবেষণা-ভিত্তিক, এটি সাধারণ যে একাধিক পরীক্ষা সমান্তরালভাবে চলছে। এটির জন্য এমন একটি পদ্ধতির প্রয়োজন যা বিভিন্ন পরীক্ষা, বিভিন্ন অ্যালগরিদম এবং সম্ভাব্য বিভিন্ন ডেটাসেট এবং হাইপারপ্যারামিটারের ট্র্যাক রাখে। Amazon SageMaker পরীক্ষাগুলি আপনাকে আপনার ML পরীক্ষাগুলি সংগঠিত করতে, ট্র্যাক করতে, তুলনা করতে এবং মূল্যায়ন করতে দেয়৷ আমরা এই হিসাবে ভাল প্রদর্শন experiments-train-notebook.ipynb. আরো বিস্তারিত জানার জন্য, পড়ুন Amazon SageMaker পরীক্ষা-নিরীক্ষার মাধ্যমে মেশিন লার্নিং পরিচালনা করুন.

মডেল পরিবেশন জন্য মডেল স্থাপন

স্থাপনার জন্য, বিশেষ করে রিয়েল-টাইম মডেল পরিবেশনের জন্য, অনেক ডেটা বিজ্ঞানী অপারেশন টিমের সাহায্য ছাড়া এটি করা কঠিন বলে মনে করতে পারেন। SageMaker এর সাথে উত্পাদনে আপনার প্রশিক্ষিত মডেল স্থাপন করা সহজ করে তোলে সেজমেকার পাইথন এসডিকে. আপনি SageMaker হোস্টিং পরিষেবাগুলিতে আপনার মডেল স্থাপন করতে পারেন এবং রিয়েল-টাইম অনুমানের জন্য ব্যবহার করার জন্য একটি শেষ পয়েন্ট পেতে পারেন।

অনেক সংস্থায়, ডেটা বিজ্ঞানীরা শেষ পয়েন্ট অবকাঠামো বজায় রাখার জন্য দায়ী নাও হতে পারে। যাইহোক, আপনার মডেলকে শেষ পয়েন্ট হিসাবে পরীক্ষা করা এবং সঠিক ভবিষ্যদ্বাণী আচরণের গ্যারান্টি দেওয়া প্রকৃতপক্ষে ডেটা বিজ্ঞানীদের দায়িত্ব। অতএব, SageMaker এর জন্য একটি সেট টুল এবং SDK যোগ করে মোতায়েন করার জন্য কাজগুলিকে সরল করেছে।

পোস্টে ব্যবহারের ক্ষেত্রে, আমরা রিয়েল-টাইম, ইন্টারেক্টিভ, কম লেটেন্সি ক্ষমতা রাখতে চাই। রিয়েল-টাইম অনুমান এই অনুমান কাজের চাপের জন্য আদর্শ। যাইহোক, প্রতিটি নির্দিষ্ট প্রয়োজনীয়তার সাথে খাপ খাইয়ে নেওয়ার অনেকগুলি বিকল্প রয়েছে। আরো তথ্যের জন্য, পড়ুন অনুমানের জন্য মডেল স্থাপন করুন.

কাস্টম ইমেজ স্থাপন করতে, ডেটা বিজ্ঞানীরা SageMaker SDK ব্যবহার করতে পারেন, এখানে চিত্রিত

experiments-deploy-notebook.ipynb.

মধ্যে create_model অনুরোধ, ধারক সংজ্ঞা অন্তর্ভুক্ত ModelDataUrl প্যারামিটার, যা Amazon S3 অবস্থান শনাক্ত করে যেখানে মডেল আর্টিফ্যাক্ট সংরক্ষণ করা হয়। SageMaker মডেলের শিল্পকর্মগুলি কোথা থেকে অনুলিপি করতে হবে তা নির্ধারণ করতে এই তথ্য ব্যবহার করে। এটি নিদর্শন অনুলিপি /opt/ml/model আপনার অনুমান কোড দ্বারা ব্যবহারের জন্য ডিরেক্টরি। দ্য serve এবং predictor.py পরিবেশন করার জন্য এন্ট্রি পয়েন্ট, মডেল আর্টিফ্যাক্ট সহ যা আপনি স্থাপন শুরু করার সময় লোড করা হয়। আরো তথ্যের জন্য, দেখুন হোস্টিং পরিষেবার সাথে আপনার নিজস্ব ইনফারেন্স কোড ব্যবহার করুন.

SageMaker Pipelines এর সাথে আপনার কর্মপ্রবাহ সাজান

শেষ ধাপ হল আপনার কোডকে এন্ড-টু-এন্ড ML ওয়ার্কফ্লো হিসাবে মোড়ানো এবং MLOps সেরা অনুশীলনগুলি প্রয়োগ করা। সেজমেকারে, মডেল বিল্ডিং ওয়ার্কলোড, একটি নির্দেশিত অ্যাসাইক্লিক গ্রাফ (ডিএজি), সেজমেকার পাইপলাইন দ্বারা পরিচালিত হয়। পাইপলাইন হল একটি সম্পূর্ণরূপে পরিচালিত পরিষেবা যা অর্কেস্ট্রেশন এবং ডেটা লাইনেজ ট্র্যাকিং সমর্থন করে৷ উপরন্তু, যেহেতু পাইপলাইনগুলি সেজমেকার পাইথন SDK-এর সাথে একত্রিত হয়েছে, আপনি একটি উচ্চ-স্তরের পাইথন ইন্টারফেস ব্যবহার করে আপনার পাইপলাইনগুলি প্রোগ্রাম্যাটিকভাবে তৈরি করতে পারেন যা আমরা আগে প্রশিক্ষণের ধাপে ব্যবহার করেছিলাম।

আমরা এখানে বাস্তবায়ন চিত্রিত করার জন্য পাইপলাইন কোডের একটি উদাহরণ প্রদান করি pipeline.py.

পাইপলাইনে ডেটাসেট তৈরির জন্য একটি প্রিপ্রসেসিং ধাপ, প্রশিক্ষণের ধাপ, অবস্থার ধাপ এবং মডেল নিবন্ধন ধাপ অন্তর্ভুক্ত রয়েছে। প্রতিটি পাইপলাইন চালানোর শেষে, ডেটা বিজ্ঞানীরা সংস্করণ নিয়ন্ত্রণের জন্য তাদের মডেল নিবন্ধন করতে এবং সেরা পারফরম্যান্স স্থাপন করতে চাইতে পারেন। SageMaker মডেল রেজিস্ট্রি মডেল সংস্করণ, ক্যাটালগ মডেলগুলি পরিচালনা করার জন্য একটি কেন্দ্রীয় স্থান প্রদান করে এবং একটি নির্দিষ্ট মডেলের অনুমোদনের স্থিতি সহ স্বয়ংক্রিয় মডেল স্থাপনা ট্রিগার করে। আরো বিস্তারিত জানার জন্য, পড়ুন মডেল রেজিস্ট্রি সহ মডেলগুলি নিবন্ধন করুন এবং স্থাপন করুন।

একটি ML সিস্টেমে, স্বয়ংক্রিয় ওয়ার্কফ্লো অর্কেস্ট্রেশন মডেলের কার্যক্ষমতার অবনতি রোধ করতে সাহায্য করে, অন্য কথায় মডেল ড্রিফট। ডেটা বিচ্যুতির প্রাথমিক এবং সক্রিয় সনাক্তকরণ আপনাকে সংশোধনমূলক পদক্ষেপ নিতে সক্ষম করে, যেমন মডেলগুলিকে পুনরায় প্রশিক্ষণ দেওয়া। বিচ্যুতি সনাক্ত হওয়ার পরে আপনি মডেলটির একটি নতুন সংস্করণ পুনরায় প্রশিক্ষণের জন্য সেজমেকার পাইপলাইনটিকে ট্রিগার করতে পারেন। একটি পাইপলাইনের ট্রিগার দ্বারাও নির্ধারণ করা যেতে পারে অ্যামাজন সেজমেকার মডেল মনিটর, যা ক্রমাগত উত্পাদন মডেলের গুণমান নিরীক্ষণ করে। তথ্য রেকর্ড করার ডেটা ক্যাপচার ক্ষমতা সহ, মডেল মনিটর ডেটা এবং মডেলের গুণমান পর্যবেক্ষণ, পক্ষপাত এবং বৈশিষ্ট্য অ্যাট্রিবিউশন ড্রিফ্ট পর্যবেক্ষণ সমর্থন করে। আরো বিস্তারিত জানার জন্য, দেখুন ডেটা এবং মডেলের গুণমান, পক্ষপাত এবং ব্যাখ্যাযোগ্যতার জন্য মডেলগুলি পর্যবেক্ষণ করুন.

উপসংহার

এই পোস্টে, আমরা OCR কাজের জন্য SageMaker-এ ফ্রেমওয়ার্ক PaddleOCR কীভাবে চালাতে হয় তা চিত্রিত করেছি। SageMaker-এ সহজে ডেটা বিজ্ঞানীদের সাহায্য করার জন্য, আমরা ML ডেভেলপমেন্ট লাইফসাইকেলের মধ্য দিয়ে হেঁটেছি, অ্যালগরিদম তৈরি করা থেকে শুরু করে প্রশিক্ষণ, মডেলটিকে রিয়েল-টাইম ইনফারেন্সের জন্য ওয়েব পরিষেবা হিসেবে হোস্ট করা পর্যন্ত। আপনি SageMaker প্ল্যাটফর্মে একটি নির্বিচারে ফ্রেমওয়ার্ক স্থানান্তর করতে আমাদের দেওয়া টেমপ্লেট কোড ব্যবহার করতে পারেন। আপনার ML প্রকল্পের জন্য এটি ব্যবহার করে দেখুন এবং আপনার সাফল্যের গল্প আমাদের জানান।


লেখক সম্পর্কে

পরিচয় নথি PlatoBlockchain ডেটা ইন্টেলিজেন্সে অপটিক্যাল ক্যারেক্টার রিকগনিশন সঞ্চালনের জন্য MLOps-এর জন্য Amazon SageMaker প্রকল্পগুলির সাথে অনবোর্ড প্যাডেলওসিআর। উল্লম্ব অনুসন্ধান. আ.জুনি (জ্যাকি) এলআইইউ AWS-এর একজন সিনিয়র ফলিত বিজ্ঞানী। মেশিন লার্নিং এর ক্ষেত্রে তার বহু বছরের কাজের অভিজ্ঞতা রয়েছে। সাপ্লাই চেইন ভবিষ্যদ্বাণী অ্যালগরিদম, বিজ্ঞাপন সুপারিশ সিস্টেম, ওসিআর এবং এনএলপি এলাকায় মেশিন লার্নিং মডেল নির্মাণে সমাধানগুলির বিকাশ এবং বাস্তবায়নে তার সমৃদ্ধ বাস্তব অভিজ্ঞতা রয়েছে।

পরিচয় নথি PlatoBlockchain ডেটা ইন্টেলিজেন্সে অপটিক্যাল ক্যারেক্টার রিকগনিশন সঞ্চালনের জন্য MLOps-এর জন্য Amazon SageMaker প্রকল্পগুলির সাথে অনবোর্ড প্যাডেলওসিআর। উল্লম্ব অনুসন্ধান. আ.ইয়ানওয়েই কুই, পিএইচডি, AWS-এর একজন মেশিন লার্নিং স্পেশালিস্ট সলিউশন আর্কিটেক্ট। তিনি IRISA (কম্পিউটার সায়েন্স অ্যান্ড র্যান্ডম সিস্টেমের গবেষণা ইনস্টিটিউট) এ মেশিন লার্নিং গবেষণা শুরু করেন এবং কম্পিউটার ভিশন, প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং অনলাইন ব্যবহারকারী আচরণের পূর্বাভাসে কৃত্রিম বুদ্ধিমত্তা চালিত শিল্প অ্যাপ্লিকেশন তৈরির কয়েক বছরের অভিজ্ঞতা রয়েছে। AWS-এ, তিনি ডোমেন দক্ষতা শেয়ার করেন এবং গ্রাহকদের ব্যবসায়িক সম্ভাবনা আনলক করতে এবং মেশিন লার্নিং স্কেলে কার্যকরী ফলাফল আনতে সাহায্য করেন। কাজের বাইরে, তিনি পড়া এবং ভ্রমণ উপভোগ করেন।

পরিচয় নথি PlatoBlockchain ডেটা ইন্টেলিজেন্সে অপটিক্যাল ক্যারেক্টার রিকগনিশন সঞ্চালনের জন্য MLOps-এর জন্য Amazon SageMaker প্রকল্পগুলির সাথে অনবোর্ড প্যাডেলওসিআর। উল্লম্ব অনুসন্ধান. আ.ই-আন চেন অ্যামাজন ল্যাব 126-এর একজন সফ্টওয়্যার বিকাশকারী৷ ব্যক্তিগতকরণ, প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং কম্পিউটার দৃষ্টি সহ বিভিন্ন বিষয়ে মেশিন লার্নিং চালিত পণ্যগুলি বিকাশে তার 10 বছরেরও বেশি অভিজ্ঞতা রয়েছে৷ কাজের বাইরে, তিনি দীর্ঘ দৌড় এবং বাইক চালাতে পছন্দ করেন।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং