ایم ایل او پی کے لیے ایمیزون سیج میکر پروجیکٹس کے ساتھ آن بورڈ پیڈل او سی آر شناختی دستاویزات پر آپٹیکل کریکٹر ریکگنیشن کرنے کے لیے پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

ایمیزون سیج میکر پروجیکٹس کے ساتھ آن بورڈ پیڈل او سی آر شناختی دستاویزات پر آپٹیکل کریکٹر ریکگنیشن انجام دینے کے لیے MLOps کے لیے

آپٹیکل کریکٹر ریکگنیشن (OCR) پرنٹ شدہ یا ہاتھ سے لکھے ہوئے متن کو مشین سے انکوڈ شدہ متن میں تبدیل کرنے کا کام ہے۔ OCR کو مختلف منظرناموں میں وسیع پیمانے پر استعمال کیا گیا ہے، جیسے کہ دستاویز کی الیکٹرونائزیشن اور شناخت کی توثیق۔ چونکہ OCR اہم معلومات کو رجسٹر کرنے کی دستی کوشش کو بہت کم کر سکتا ہے اور بڑی مقدار میں دستاویزات کو سمجھنے کے لیے ایک داخلی قدم کے طور پر کام کر سکتا ہے، ایک درست OCR نظام ڈیجیٹل تبدیلی کے دور میں ایک اہم کردار ادا کرتا ہے۔

اوپن سورس کمیونٹی اور محققین اس بات پر توجہ مرکوز کر رہے ہیں کہ OCR کی درستگی، استعمال میں آسانی، پہلے سے تربیت یافتہ ماڈلز کے ساتھ انضمام، توسیع اور لچک کو کیسے بہتر بنایا جائے۔ بہت سے مجوزہ فریم ورکس میں، PaddleOCR نے حال ہی میں بڑھتی ہوئی توجہ حاصل کی ہے۔ مجوزہ فریم ورک کمپیوٹیشنل کارکردگی کو متوازن کرتے ہوئے اعلیٰ درستگی حاصل کرنے پر مرکوز ہے۔ اس کے علاوہ، چینی اور انگریزی کے پہلے سے تربیت یافتہ ماڈل اسے چینی زبان پر مبنی مارکیٹ میں مقبول بناتے ہیں۔ دیکھیں پیڈل او سی آر گٹ ہب ریپو مزید تفصیلات کے لئے.

AWS میں، ہم نے انٹیگریٹڈ AI خدمات بھی تجویز کی ہیں جو بغیر مشین لرننگ (ML) مہارت کے استعمال کے لیے تیار ہیں۔ ٹیکسٹ اور سٹرکچرڈ ڈیٹا جیسے کہ ٹیبلز اور فارمز کو دستاویزات سے نکالنے کے لیے، آپ استعمال کر سکتے ہیں۔ ایمیزون ٹیکسٹ. یہ کسی بھی قسم کی دستاویز کو پڑھنے اور اس پر کارروائی کرنے کے لیے ML تکنیک کا استعمال کرتا ہے، بغیر کسی دستی کوشش کے متن، لکھاوٹ، میزیں اور دیگر ڈیٹا کو درست طریقے سے نکالتا ہے۔

ان ڈیٹا سائنسدانوں کے لیے جو آپ کا اپنا OCR ماڈل تیار کرنے کے لیے اوپن سورس فریم ورک استعمال کرنے کے لیے لچک چاہتے ہیں، ہم مکمل طور پر منظم ایم ایل سروس بھی پیش کرتے ہیں۔ ایمیزون سیج میکر. SageMaker آپ کو ML لائف سائیکل کے دوران MLOps کے بہترین طریقوں کو نافذ کرنے کے قابل بناتا ہے، اور ML پروجیکٹس کو پروڈکشن میں لانے کے لیے غیر متفرق ہیوی لفٹنگ کو کم کرنے کے لیے ٹیمپلیٹس اور ٹول سیٹ فراہم کرتا ہے۔

اس پوسٹ میں، ہم SageMaker پر PaddleOCR فریم ورک کے اندر اپنی مرضی کے مطابق ماڈلز تیار کرنے پر توجہ مرکوز کرتے ہیں۔ ہم یہ واضح کرنے کے لیے ایم ایل ڈیولپمنٹ لائف سائیکل کے ذریعے چلتے ہیں کہ کس طرح SageMaker آپ کو ایک ماڈل بنانے اور تربیت دینے میں مدد کر سکتا ہے، اور آخر کار ماڈل کو ایک ویب سروس کے طور پر تعینات کر سکتا ہے۔ اگرچہ ہم PaddleOCR کے ساتھ اس حل کی وضاحت کرتے ہیں، عام رہنمائی SageMaker پر استعمال کیے جانے والے صوابدیدی فریم ورک کے لیے درست ہے۔ اس پوسٹ کے ساتھ، ہم نمونہ کوڈ بھی فراہم کرتے ہیں۔ GitHub ذخیرہ.

پیڈل او سی آر فریم ورک

ایک وسیع پیمانے پر اختیار کیے گئے OCR فریم ورک کے طور پر، PaddleOCR میں متن کی بھرپور شناخت، متن کی شناخت، اور آخر سے آخر تک الگورتھم شامل ہیں۔ یہ Differentiable Binarization (DB) اور Convolutional Recurrent Neural Network (CRNN) کو بنیادی پتہ لگانے اور پہچاننے والے ماڈلز کے طور پر منتخب کرتا ہے، اور اصلاحی حکمت عملیوں کی ایک سیریز کے بعد صنعتی ایپلی کیشنز کے لیے PP-OCR کے نام سے ماڈلز کی ایک سیریز تجویز کرتا ہے۔

PP-OCR ماڈل کا مقصد عام منظرناموں پر ہے اور مختلف زبانوں کی ایک ماڈل لائبریری بناتا ہے۔ یہ تین حصوں پر مشتمل ہے: متن کا پتہ لگانا، باکس کا پتہ لگانا اور اصلاح کرنا، اور متن کی شناخت، جو پیڈل او سی آر پر درج ذیل تصویر میں بیان کی گئی ہے۔ سرکاری GitHub ذخیرہ. آپ ریسرچ پیپر بھی دیکھ سکتے ہیں۔ PP-OCR: ایک عملی الٹرا لائٹ ویٹ OCR سسٹم مزید معلومات کے لیے.

مزید مخصوص ہونے کے لیے، PaddleOCR مسلسل تین کاموں پر مشتمل ہے:

  • متن کا پتہ لگانا - متن کا پتہ لگانے کا مقصد تصویر میں ٹیکسٹ ایریا کو تلاش کرنا ہے۔ اس طرح کے کام ایک سادہ سیگمنٹیشن نیٹ ورک پر مبنی ہوسکتے ہیں۔
  • باکس کا پتہ لگانا اور اصلاح کرنا - ہر ٹیکسٹ باکس کو بعد میں متن کی شناخت کے لیے افقی مستطیل باکس میں تبدیل کرنے کی ضرورت ہے۔ ایسا کرنے کے لیے، PaddleOCR متن کی سمت کا تعین کرنے کے لیے ٹیکسٹ ڈائریکشن کلاسیفائر (تصویری درجہ بندی کا کام) کو تربیت دینے کی تجویز کرتا ہے۔
  • متن کی شناخت - ٹیکسٹ باکس کا پتہ لگانے کے بعد، ٹیکسٹ شناخت کرنے والا ماڈل ہر ٹیکسٹ باکس پر اندازہ لگاتا ہے اور ٹیکسٹ باکس کے مقام کے مطابق نتائج نکالتا ہے۔ PaddleOCR وسیع پیمانے پر استعمال شدہ طریقہ CRNN اپناتا ہے۔

PaddleOCR اعلیٰ معیار کے پہلے سے تربیت یافتہ ماڈل فراہم کرتا ہے جو تجارتی اثرات سے موازنہ کر سکتے ہیں۔ آپ یا تو پہلے سے تربیت یافتہ ماڈل کا پتہ لگانے والے ماڈل، سمت کی درجہ بندی کرنے والے، یا شناختی ماڈل کے لیے استعمال کر سکتے ہیں، یا آپ اپنے استعمال کے معاملے کو پیش کرنے کے لیے ہر انفرادی ماڈل کو ٹھیک ٹیون اور دوبارہ تربیت دے سکتے ہیں۔ روایتی چینی اور انگریزی کا پتہ لگانے کی کارکردگی اور تاثیر کو بڑھانے کے لیے، ہم متن کی شناخت کے ماڈل کو ٹھیک کرنے کا طریقہ بتاتے ہیں۔ ہم نے جو پہلے سے تربیت یافتہ ماڈل کا انتخاب کیا ہے وہ ہے۔ ch_ppocr_mobile_v2.0_rec_train، جو ایک ہلکا پھلکا ماڈل ہے، جو چینی، انگریزی اور نمبر کی شناخت کو سپورٹ کرتا ہے۔ ذیل میں ہانگ کانگ کے شناختی کارڈ کا استعمال کرتے ہوئے ایک مثال کا نتیجہ ہے۔

ایم ایل او پی کے لیے ایمیزون سیج میکر پروجیکٹس کے ساتھ آن بورڈ پیڈل او سی آر شناختی دستاویزات پر آپٹیکل کریکٹر ریکگنیشن کرنے کے لیے پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

مندرجہ ذیل حصوں میں، ہم سیج میکر کا استعمال کرتے ہوئے پہلے سے تربیت یافتہ ماڈل کو ٹھیک کرنے کے طریقہ پر چلتے ہیں۔

SageMaker کے ساتھ MLOps بہترین طریقے

سیج میکر ایک مکمل طور پر منظم ایم ایل سروس ہے۔ SageMaker کے ساتھ، ڈیٹا سائنسدان اور ڈویلپرز ایم ایل ماڈلز کو تیزی سے اور آسانی سے بنا سکتے ہیں اور تربیت دے سکتے ہیں، اور پھر انہیں براہ راست پیداوار کے لیے تیار انتظام شدہ ماحول میں تعینات کر سکتے ہیں۔

بہت سے ڈیٹا سائنسدان ایم ایل لائف سائیکل کو تیز کرنے کے لیے سیج میکر کا استعمال کرتے ہیں۔ اس سیکشن میں، ہم یہ بتاتے ہیں کہ کس طرح SageMaker آپ کو تجربات سے لے کر ML کو پروڈکشنلائز کرنے میں مدد کر سکتا ہے۔ ایم ایل پروجیکٹ کے معیاری مراحل کے بعد، تجرباتی فقرے (کوڈ ڈویلپمنٹ اور تجربات) سے لے کر آپریشنل فقرے تک (ماڈل کی تعمیر کے ورک فلو اور تعیناتی پائپ لائنوں کو خودکار بنانا)، SageMaker درج ذیل مراحل میں کارکردگی لا سکتا ہے:

  1. ڈیٹا کو دریافت کریں اور اس کے ساتھ ایم ایل کوڈ بنائیں ایمیزون سیج میکر اسٹوڈیو نوٹ بک
  2. SageMaker ٹریننگ جاب کے ساتھ ماڈل کو ٹرین اور ٹیون کریں۔
  3. ماڈل پیش کرنے کے لیے SageMaker اینڈ پوائنٹ کے ساتھ ماڈل کو تعینات کریں۔
  4. کے ساتھ ورک فلو آرکیسٹریٹ کریں۔ ایمیزون سیج میکر پائپ لائنز.

مندرجہ ذیل خاکہ اس فن تعمیر اور ورک فلو کو واضح کرتا ہے۔

ایم ایل او پی کے لیے ایمیزون سیج میکر پروجیکٹس کے ساتھ آن بورڈ پیڈل او سی آر شناختی دستاویزات پر آپٹیکل کریکٹر ریکگنیشن کرنے کے لیے پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

یہ نوٹ کرنا ضروری ہے کہ آپ SageMaker کو ماڈیولر طریقے سے استعمال کر سکتے ہیں۔ مثال کے طور پر، آپ مقامی مربوط ترقیاتی ماحول (IDE) کے ساتھ اپنا کوڈ بنا سکتے ہیں اور SageMaker پر اپنے ماڈل کو تربیت اور تعینات کر سکتے ہیں، یا آپ اپنے ماڈل کو اپنے کلسٹر کمپیوٹ ذرائع میں تیار اور تربیت دے سکتے ہیں، اور ورک فلو آرکیسٹریشن کے لیے SageMaker پائپ لائن کا استعمال کر سکتے ہیں۔ سیج میکر اینڈ پوائنٹ پر تعینات کریں۔ اس کا مطلب ہے کہ سیج میکر آپ کی اپنی ضروریات کے مطابق ڈھالنے کے لیے ایک کھلا پلیٹ فارم فراہم کرتا ہے۔

ہمارے میں کوڈ دیکھیں GitHub ذخیرہ اور کوڈ کی ساخت کو سمجھنے کے لیے README۔

سیج میکر پروجیکٹ کی فراہمی

آپ استعمال کر سکتے ہیں ایمیزون سیج میکر پروجیکٹس اپنا سفر شروع کرنے کے لیے۔ سیج میکر پروجیکٹ کے ساتھ، آپ اپنے گٹ ریپوزٹریز کے ورژنز کا نظم کر سکتے ہیں تاکہ آپ ٹیموں کے درمیان زیادہ مؤثر طریقے سے تعاون کر سکیں، کوڈ کی مستقل مزاجی کو یقینی بنا سکیں، اور مسلسل انضمام اور مسلسل ترسیل (CI/CD) کو فعال کر سکیں۔ اگرچہ نوٹ بکس ماڈل بنانے اور تجربہ کرنے کے لیے مددگار ثابت ہوتی ہیں، جب آپ کے پاس ڈیٹا سائنسدانوں اور ML انجینئرز کی ایک ٹیم ML مسئلے پر کام کر رہی ہوتی ہے، تو آپ کو کوڈ کی مستقل مزاجی کو برقرار رکھنے اور سخت ورژن کنٹرول رکھنے کے لیے ایک زیادہ قابل توسیع طریقہ کی ضرورت ہوتی ہے۔

SageMaker پروجیکٹس پہلے سے تشکیل شدہ MLOps ٹیمپلیٹ بناتے ہیں، جس میں PaddleOCR انضمام کو آسان بنانے کے لیے ضروری اجزاء شامل ہیں:

  • CI/CD ٹولز کے ساتھ مربوط پروسیسنگ، ٹریننگ اور انفرنس کے لیے حسب ضرورت کنٹینر امیجز بنانے کے لیے کوڈ ریپوزٹری۔ یہ ہمیں اپنی کسٹم ڈوکر امیج کو کنفیگر کرنے اور آگے بڑھانے کی اجازت دیتا ہے۔ ایمیزون لچکدار کنٹینر رجسٹری (ایمیزون ای سی آر) استعمال کرنے کے لیے تیار ہے۔
  • ایک SageMaker پائپ لائن جو ڈیٹا کی تیاری، تربیت، ماڈل کی تشخیص، اور ماڈل رجسٹریشن کے لیے اقدامات کی وضاحت کرتی ہے۔ یہ ہمیں MLOps تیار ہونے کے لیے تیار کرتا ہے جب ML پروجیکٹ پروڈکشن میں جاتا ہے۔
  • دیگر مفید وسائل، جیسے کوڈ ورژن کنٹرول کے لیے گٹ ریپوزٹری، ماڈل گروپ جس میں ماڈل ورژن ہوں، ماڈل بلڈ پائپ لائن کے لیے کوڈ چینج ٹرگر، اور ماڈل کی تعیناتی پائپ لائن کے لیے ایونٹ پر مبنی ٹرگر۔

آپ SageMaker سیڈ کوڈ کو معیاری SageMaker پروجیکٹس، یا ایک مخصوص ٹیمپلیٹ بنانے کے لیے استعمال کر سکتے ہیں جسے آپ کی تنظیم نے ٹیم کے اراکین کے لیے بنایا ہے۔ اس پوسٹ میں، ہم معیاری استعمال کرتے ہیں۔ امیج بلڈنگ، ماڈل بلڈنگ، اور ماڈل کی تعیناتی کے لیے MLOps ٹیمپلیٹ. سٹوڈیو میں پراجیکٹ بنانے کے بارے میں مزید معلومات کے لیے دیکھیں ایمیزون سیج میکر اسٹوڈیو کا استعمال کرتے ہوئے ایک MLOps پروجیکٹ بنائیں.

ڈیٹا کو دریافت کریں اور سیج میکر اسٹوڈیو نوٹ بک کے ساتھ ایم ایل کوڈ بنائیں

سیج میکر اسٹوڈیو نوٹ بکس باہمی تعاون پر مبنی نوٹ بک ہیں جنہیں آپ تیزی سے لانچ کر سکتے ہیں کیونکہ آپ کو پہلے سے کمپیوٹ انسٹینس اور فائل اسٹوریج کو ترتیب دینے کی ضرورت نہیں ہے۔ بہت سے ڈیٹا سائنسدان ایم ایل کوڈ تیار کرنے، لائبریری API کو تیزی سے ڈیبگ کرنے، اور ٹریننگ اسکرپٹ کی توثیق کرنے کے لیے ڈیٹا کے چھوٹے نمونے کے ساتھ چیزوں کو چلانے کے لیے اس ویب پر مبنی IDE کو استعمال کرنے کو ترجیح دیتے ہیں۔

اسٹوڈیو نوٹ بک میں، آپ عام فریم ورکس جیسے کہ TensorFlow، PyTorch، Pandas، اور Scit-Learn کے لیے پہلے سے بنایا ہوا ماحول استعمال کر سکتے ہیں۔ آپ پہلے سے بنے ہوئے کرنل پر انحصار انسٹال کر سکتے ہیں، یا اپنی مستقل دانا کی تصویر بنا سکتے ہیں۔ مزید معلومات کے لیے رجوع کریں۔ ایمیزون سیج میکر اسٹوڈیو میں بیرونی لائبریریاں اور دانا انسٹال کریں۔. سٹوڈیو نوٹ بک SageMaker تربیتی ملازمتوں، تعیناتی، یا دیگر AWS خدمات کو متحرک کرنے کے لیے ایک Python ماحول بھی فراہم کرتی ہیں۔ مندرجہ ذیل حصوں میں، ہم تربیت اور تعیناتی کی ملازمتوں کو متحرک کرنے کے لیے اسٹوڈیو نوٹ بک کو ماحول کے طور پر استعمال کرنے کا طریقہ بتاتے ہیں۔

سیج میکر ایک طاقتور IDE فراہم کرتا ہے۔ یہ ایک کھلا ML پلیٹ فارم ہے جہاں ڈیٹا سائنسدانوں کے پاس اپنے ترجیحی ترقیاتی ماحول کو استعمال کرنے کی لچک ہوتی ہے۔ ڈیٹا سائنسدانوں کے لیے جو مقامی IDE جیسے PyCharm یا Visual Studio Code کو ترجیح دیتے ہیں، آپ اپنے ML کوڈ کو تیار کرنے کے لیے مقامی Python ماحول استعمال کر سکتے ہیں، اور SageMaker کو ایک منظم توسیع پذیر ماحول میں تربیت کے لیے استعمال کر سکتے ہیں۔ مزید معلومات کے لیے دیکھیں Amazon SageMaker پر PyCharm IDE کے ساتھ اپنی TensorFlow جاب چلائیں۔. آپ کے پاس ٹھوس ماڈل ہونے کے بعد، آپ SageMaker کے ساتھ MLOps کے بہترین طریقوں کو اپنا سکتے ہیں۔

فی الحال، SageMaker بھی فراہم کرتا ہے سیج میکر نوٹ بک کی مثالیں۔ Jupyter Notebook ماحول کے لیے ہمارے میراثی حل کے طور پر۔ آپ کے پاس ڈوکر بلڈ کمانڈ چلانے کی لچک ہے اور اپنی نوٹ بک مثال پر تربیت دینے کے لیے SageMaker لوکل موڈ کا استعمال کریں۔. ہم اپنے کوڈ ریپوزٹری میں PaddleOCR کے لیے نمونہ کوڈ بھی فراہم کرتے ہیں: ./train_and_deploy/notebook.ipynb.

سیج میکر پروجیکٹ ٹیمپلیٹ کے ساتھ اپنی مرضی کی تصویر بنائیں

سیج میکر تعمیر اور رن ٹائم کاموں کے لیے ڈوکر کنٹینرز کا وسیع استعمال کرتا ہے۔ آپ سیج میکر کے ساتھ اپنا کنٹینر آسانی سے چلا سکتے ہیں۔ مزید تکنیکی تفصیلات پر دیکھیں اپنی خود کی تربیتی الگورتھم استعمال کریں۔.

تاہم، ایک ڈیٹا سائنسدان کے طور پر، کنٹینر بنانا سیدھا نہیں ہوسکتا ہے۔ سیج میکر پروجیکٹ آپ کو امیج بلڈنگ CI/CD پائپ لائن کے ذریعے اپنی مرضی کے مطابق انحصار کو منظم کرنے کا ایک آسان طریقہ فراہم کرتے ہیں۔ جب آپ SageMaker پروجیکٹ استعمال کرتے ہیں، تو آپ اپنے کسٹم کنٹینر Dockerfile کے ساتھ ٹریننگ امیج کو اپ ڈیٹ کر سکتے ہیں۔ مرحلہ وار ہدایات کے لیے، رجوع کریں۔ امیج بلڈنگ CI/CD پائپ لائنز کے ساتھ Amazon SageMaker پروجیکٹس بنائیں. ٹیمپلیٹ میں فراہم کردہ ڈھانچے کے ساتھ، آپ PaddleOCR ٹریننگ کنٹینر بنانے کے لیے اس ذخیرہ میں فراہم کردہ کوڈ میں ترمیم کر سکتے ہیں۔

اس پوسٹ کے لیے، ہم پروسیسنگ، تربیت، اور تخمینہ کے لیے حسب ضرورت تصویر بنانے کی سادگی کو ظاہر کرتے ہیں۔ GitHub ریپو تین فولڈرز پر مشتمل ہے:

یہ منصوبے اسی طرح کے ڈھانچے کی پیروی کرتے ہیں۔ ایک مثال کے طور پر تربیتی کنٹینر کی تصویر لیں؛ دی image-build-train/ ذخیرہ درج ذیل فائلوں پر مشتمل ہے:

  • codebuild-buildspec.yml فائل، جو کنفیگر کرنے کے لیے استعمال ہوتی ہے۔ AWS کوڈ بلڈ۔ تاکہ امیج کو بنایا جا سکے اور ایمیزون ای سی آر میں دھکیل دیا جا سکے۔
  • Dockerfile Docker کی تعمیر کے لیے استعمال ہوتی ہے، جس میں تمام انحصار اور تربیتی کوڈ ہوتا ہے۔
  • ٹریننگ اسکرپٹ کے لیے train.py انٹری پوائنٹ، تمام ہائپر پیرامیٹرس (جیسے سیکھنے کی شرح اور بیچ سائز) کے ساتھ جسے دلیل کے طور پر کنفیگر کیا جا سکتا ہے۔ جب آپ تربیتی کام شروع کرتے ہیں تو یہ دلائل بتائے جاتے ہیں۔
  • انحصارات۔

جب آپ کوڈ کو متعلقہ ذخیرے میں ڈالتے ہیں، تو یہ متحرک ہوجاتا ہے۔ AWS کوڈ پائپ لائن آپ کے لیے تربیتی کنٹینر بنانے کے لیے۔ حسب ضرورت کنٹینر امیج کو Amazon ECR ریپوزٹری میں محفوظ کیا جاتا ہے، جیسا کہ پچھلی تصویر میں دکھایا گیا ہے۔ اسی طرح کا طریقہ کار انفرنس امیج بنانے کے لیے اپنایا جاتا ہے۔

SageMaker ٹریننگ SDK کے ساتھ ماڈل کو تربیت دیں۔

آپ کے الگورتھم کوڈ کی توثیق اور کنٹینر میں پیک کرنے کے بعد، آپ ماڈل کو تربیت دینے کے لیے ایک منظم ماحول فراہم کرنے کے لیے SageMaker ٹریننگ جاب استعمال کر سکتے ہیں۔ یہ ماحول عارضی ہے، مطلب یہ ہے کہ آپ کے پاس اپنے کوڈ کو چلانے کے لیے الگ، محفوظ کمپیوٹ وسائل (جیسے GPU) یا ملٹی-GPU تقسیم شدہ ماحول ہو سکتا ہے۔ جب تربیت مکمل ہو جاتی ہے، SageMaker نتیجے میں آنے والے ماڈل کے نمونے کو محفوظ کرتا ہے۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3) مقام جو آپ نے بیان کیا ہے۔ تمام لاگ ڈیٹا اور میٹا ڈیٹا پر برقرار رہتا ہے۔ AWS مینجمنٹ کنسول، سٹوڈیو، اور ایمیزون کلاؤڈ واچ.

تربیتی کام میں معلومات کے کئی اہم ٹکڑے شامل ہیں:

  • S3 بالٹی کا URL جہاں آپ نے تربیتی ڈیٹا محفوظ کیا تھا۔
  • S3 بالٹی کا URL جہاں آپ کام کے آؤٹ پٹ کو اسٹور کرنا چاہتے ہیں۔
  • منظم کمپیوٹ وسائل جنہیں آپ SageMaker ماڈل ٹریننگ کے لیے استعمال کرنا چاہتے ہیں۔
  • ایمیزون ای سی آر کا راستہ جہاں تربیتی کنٹینر ذخیرہ کیا جاتا ہے۔

تربیتی ملازمتوں کے بارے میں مزید معلومات کے لیے، دیکھیں ٹرین کے ماڈلز. تربیتی ملازمت کے لیے مثالی کوڈ پر دستیاب ہے۔ experiments-train-notebook.ipynb.

سیج میکر ایک میں ہائپر پیرامیٹر بناتا ہے۔ CreateTrainingJob ڈوکر کنٹینر میں درخواست دستیاب ہے۔ /opt/ml/input/config/hyperparameters.json فائل.

ہم کسٹم ٹریننگ کنٹینر کو انٹری پوائنٹ کے طور پر استعمال کرتے ہیں اور انفراسٹرکچر کے لیے ایک GPU ماحول بتاتے ہیں۔ تمام متعلقہ ہائپر پیرامیٹرز کو پیرامیٹر کے طور پر تفصیل سے بیان کیا گیا ہے، جو ہمیں ہر انفرادی کام کی ترتیب کو ٹریک کرنے، اور تجرباتی ٹریکنگ کے ساتھ ان کا موازنہ کرنے کی اجازت دیتا ہے۔

چونکہ ڈیٹا سائنس کا عمل بہت تحقیق پر مبنی ہے، یہ عام بات ہے کہ متعدد تجربات متوازی طور پر چل رہے ہیں۔ اس کے لیے ایک ایسے نقطہ نظر کی ضرورت ہے جو تمام مختلف تجربات، مختلف الگورتھم، اور ممکنہ طور پر مختلف ڈیٹا سیٹس اور ہائپر پیرامیٹرس کی کوشش کرتا ہے۔ Amazon SageMaker Experiments آپ کو اپنے ML تجربات کو منظم کرنے، ٹریک کرنے، موازنہ کرنے اور جانچنے دیتا ہے۔ ہم اس میں بھی اس کا مظاہرہ کرتے ہیں۔ experiments-train-notebook.ipynb. مزید تفصیلات کے لیے رجوع کریں۔ ایمیزون سیج میکر تجربات کے ساتھ مشین لرننگ کا نظم کریں۔.

ماڈل پیش کرنے کے لیے ماڈل کو تعینات کریں۔

جہاں تک تعیناتی کا تعلق ہے، خاص طور پر ریئل ٹائم ماڈل سرونگ کے لیے، بہت سے ڈیٹا سائنسدانوں کو آپریشن ٹیموں کی مدد کے بغیر کرنا مشکل ہو سکتا ہے۔ سیج میکر آپ کے تربیت یافتہ ماڈل کو پروڈکشن میں تعینات کرنا آسان بناتا ہے۔ SageMaker Python SDK. آپ اپنے ماڈل کو SageMaker ہوسٹنگ سروسز میں تعینات کر سکتے ہیں اور ریئل ٹائم انفرنس کے لیے استعمال کرنے کے لیے ایک اینڈ پوائنٹ حاصل کر سکتے ہیں۔

بہت سی تنظیموں میں، ڈیٹا سائنسدان اختتامی نقطہ بنیادی ڈھانچے کو برقرار رکھنے کے لیے ذمہ دار نہیں ہو سکتے۔ تاہم، اپنے ماڈل کو ایک اختتامی نقطہ کے طور پر جانچنا اور درست پیشین گوئی کے طرز عمل کی ضمانت دینا درحقیقت ڈیٹا سائنسدانوں کی ذمہ داری ہے۔ لہذا، SageMaker نے اس کے لیے ٹولز اور SDK کا ایک سیٹ شامل کرکے تعیناتی کے کاموں کو آسان بنایا۔

پوسٹ میں استعمال کے معاملے کے لیے، ہم ریئل ٹائم، انٹرایکٹو، کم تاخیر کی صلاحیتیں حاصل کرنا چاہتے ہیں۔ ریئل ٹائم اندازہ اس تخمینہ کے کام کے بوجھ کے لیے مثالی ہے۔ تاہم، ہر مخصوص ضرورت کے مطابق بہت سے اختیارات موجود ہیں۔ مزید معلومات کے لیے رجوع کریں۔ اندازہ کے لیے ماڈلز تعینات کریں۔.

حسب ضرورت تصویر کو تعینات کرنے کے لیے، ڈیٹا سائنسدان SageMaker SDK استعمال کر سکتے ہیں، جس کی مثال

experiments-deploy-notebook.ipynb.

میں create_model درخواست، کنٹینر کی تعریف میں شامل ہے۔ ModelDataUrl پیرامیٹر، جو ایمیزون S3 کے اس مقام کی نشاندہی کرتا ہے جہاں ماڈل کے نمونے محفوظ کیے جاتے ہیں۔ SageMaker اس معلومات کو اس بات کا تعین کرنے کے لیے استعمال کرتا ہے کہ ماڈل کے نمونے کہاں سے نقل کیے جائیں۔ یہ نمونے کو کاپی کرتا ہے۔ /opt/ml/model آپ کے انفرنس کوڈ کے استعمال کے لیے ڈائریکٹری۔ دی serve اور predictor.py پیش کرنے کے لیے انٹری پوائنٹ ہے، ماڈل آرٹفیکٹ کے ساتھ جو آپ کی تعیناتی شروع کرتے وقت لوڈ ہو جاتا ہے۔ مزید معلومات کے لیے دیکھیں ہوسٹنگ سروسز کے ساتھ اپنا اپنا انفرنس کوڈ استعمال کریں۔.

سیج میکر پائپ لائنز کے ساتھ اپنے ورک فلو کو ترتیب دیں۔

آخری مرحلہ اپنے کوڈ کو اینڈ ٹو اینڈ ایم ایل ورک فلوز کے طور پر لپیٹنا اور MLOps کے بہترین طریقوں کو لاگو کرنا ہے۔ سیج میکر میں، ماڈل بلڈنگ ورک لوڈ، ایک ڈائریکٹڈ ایسکلک گراف (ڈی اے جی)، سیج میکر پائپ لائنز کے زیر انتظام ہے۔ پائپ لائنز ایک مکمل طور پر منظم سروس ہے جو آرکیسٹریشن اور ڈیٹا نسب سے باخبر رہنے کی معاونت کرتی ہے۔ اس کے علاوہ، چونکہ پائپ لائنز SageMaker Python SDK کے ساتھ مربوط ہیں، آپ اپنی پائپ لائنز کو پروگرام کے لحاظ سے ایک اعلیٰ سطحی Python انٹرفیس کا استعمال کرتے ہوئے بنا سکتے ہیں جسے ہم نے پہلے تربیتی مرحلے کے دوران استعمال کیا تھا۔

ہم پر عمل درآمد کو واضح کرنے کے لیے پائپ لائن کوڈ کی ایک مثال فراہم کرتے ہیں۔ pipeline.py.

پائپ لائن میں ڈیٹاسیٹ کی تیاری، تربیتی مرحلہ، حالت کا مرحلہ، اور ماڈل رجسٹریشن مرحلہ کے لیے ایک پری پروسیسنگ مرحلہ شامل ہے۔ ہر پائپ لائن کے اختتام پر، ڈیٹا سائنسدان اپنے ماڈل کو ورژن کنٹرولز کے لیے رجسٹر کرنا چاہتے ہیں اور بہترین کارکردگی کا مظاہرہ کرنے والے کو تعینات کرنا چاہتے ہیں۔ SageMaker ماڈل رجسٹری ماڈل ورژنز، کیٹلاگ ماڈلز کو منظم کرنے اور مخصوص ماڈل کی منظوری کی حیثیت کے ساتھ خودکار ماڈل کی تعیناتی کو متحرک کرنے کے لیے ایک مرکزی جگہ فراہم کرتی ہے۔ مزید تفصیلات کے لیے رجوع کریں۔ ماڈل رجسٹری کے ساتھ ماڈلز کو رجسٹر اور تعینات کریں۔

ایم ایل سسٹم میں، خودکار ورک فلو آرکیسٹریشن ماڈل کی کارکردگی میں کمی کو روکنے میں مدد کرتا ہے، دوسرے لفظوں میں ماڈل ڈرفٹ۔ اعداد و شمار کے انحراف کی ابتدائی اور فعال شناخت آپ کو اصلاحی اقدامات کرنے کے قابل بناتی ہے، جیسے کہ ماڈلز کو دوبارہ تربیت دینا۔ انحرافات کا پتہ چلنے کے بعد آپ ماڈل کے نئے ورژن کو دوبارہ تربیت دینے کے لیے SageMaker پائپ لائن کو متحرک کر سکتے ہیں۔ پائپ لائن کے محرک کا تعین بھی کیا جا سکتا ہے۔ ایمیزون سیج میکر ماڈل مانیٹر، جو پیداوار میں ماڈلز کے معیار کی مسلسل نگرانی کرتا ہے۔ معلومات کو ریکارڈ کرنے کے لیے ڈیٹا کیپچر کی صلاحیت کے ساتھ، ماڈل مانیٹر ڈیٹا اور ماڈل کے معیار کی نگرانی، تعصب، اور فیچر انتساب بڑھے ہوئے نگرانی کی حمایت کرتا ہے۔ مزید تفصیلات کے لیے دیکھیں ڈیٹا اور ماڈل کے معیار، تعصب اور وضاحت کے لیے ماڈلز کی نگرانی کریں۔.

نتیجہ

اس پوسٹ میں، ہم نے OCR کاموں کے لیے SageMaker پر PaddleOCR کا فریم ورک کیسے چلانا ہے۔ SageMaker پر ڈیٹا سائنسدانوں کی آسانی سے مدد کرنے کے لیے، ہم نے ML ڈیولپمنٹ لائف سائیکل سے گزرے، الگورتھم بنانے سے لے کر ٹریننگ تک، ماڈل کو ریئل ٹائم انفرنس کے لیے ایک ویب سروس کے طور پر ہوسٹ کرنے تک۔ آپ ہمارے فراہم کردہ ٹیمپلیٹ کوڈ کو استعمال کر سکتے ہیں تاکہ ایک صوابدیدی فریم ورک کو SageMaker پلیٹ فارم پر منتقل کیا جا سکے۔ اسے اپنے ML پروجیکٹ کے لیے آزمائیں اور ہمیں اپنی کامیابی کی کہانیاں بتائیں۔


مصنفین کے بارے میں

ایم ایل او پی کے لیے ایمیزون سیج میکر پروجیکٹس کے ساتھ آن بورڈ پیڈل او سی آر شناختی دستاویزات پر آپٹیکل کریکٹر ریکگنیشن کرنے کے لیے پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عیجونی (جیکی) ایل آئی یو AWS میں ایک سینئر اپلائیڈ سائنٹسٹ ہے۔ اسے مشین لرننگ کے شعبے میں کام کرنے کا کئی سال کا تجربہ ہے۔ وہ سپلائی چین پیشن گوئی الگورتھم، اشتہاری سفارش کے نظام، OCR اور NLP ایریا میں مشین لرننگ ماڈلز کی تعمیر میں حل کی ترقی اور نفاذ کا بھرپور عملی تجربہ رکھتی ہے۔

ایم ایل او پی کے لیے ایمیزون سیج میکر پروجیکٹس کے ساتھ آن بورڈ پیڈل او سی آر شناختی دستاویزات پر آپٹیکل کریکٹر ریکگنیشن کرنے کے لیے پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عییانوی کوئی، پی ایچ ڈی، AWS میں مشین لرننگ اسپیشلسٹ سولیوشن آرکیٹیکٹ ہے۔ اس نے IRISA (ریسرچ انسٹی ٹیوٹ آف کمپیوٹر سائنس اینڈ رینڈم سسٹم) میں مشین لرننگ کی تحقیق شروع کی، اور کمپیوٹر وژن، قدرتی زبان کی پروسیسنگ اور آن لائن صارف کے رویے کی پیشن گوئی میں مصنوعی ذہانت سے چلنے والی صنعتی ایپلی کیشنز بنانے کا کئی سال کا تجربہ ہے۔ AWS میں، وہ ڈومین کی مہارت کا اشتراک کرتا ہے اور صارفین کو کاروباری صلاحیتوں کو غیر مقفل کرنے میں مدد کرتا ہے، اور بڑے پیمانے پر مشین لرننگ کے ساتھ قابل عمل نتائج حاصل کرتا ہے۔ کام سے باہر، اسے پڑھنے اور سفر کرنے میں مزہ آتا ہے۔

ایم ایل او پی کے لیے ایمیزون سیج میکر پروجیکٹس کے ساتھ آن بورڈ پیڈل او سی آر شناختی دستاویزات پر آپٹیکل کریکٹر ریکگنیشن کرنے کے لیے پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عیYi-An CHEN وہ Amazon Lab 126 میں ایک سافٹ ویئر ڈویلپر ہے۔ اسے مختلف شعبوں میں مشین لرننگ سے چلنے والی مصنوعات تیار کرنے میں 10 سال سے زیادہ کا تجربہ ہے، بشمول پرسنلائزیشن، نیچرل لینگویج پروسیسنگ اور کمپیوٹر ویژن۔ کام سے باہر، وہ لمبی دوڑنا اور بائیک چلانا پسند کرتی ہے۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ