Amazon SageMaker اور Hugging Face کا استعمال کرتے ہوئے ایک امیج ٹو اسپیچ جنریٹو AI ایپلی کیشن متعارف ایمیزون ویب سروسز

Amazon SageMaker اور Hugging Face کا استعمال کرتے ہوئے ایک امیج ٹو اسپیچ جنریٹو AI ایپلی کیشن متعارف ایمیزون ویب سروسز

بینائی کا نقصان مختلف شکلوں میں آتا ہے۔ کچھ کے لیے، یہ پیدائش سے ہے، دوسروں کے لیے، یہ وقت کے ساتھ ایک سست نزول ہے جو بہت سی میعاد ختم ہونے کی تاریخوں کے ساتھ آتا ہے: جس دن آپ تصویریں نہیں دیکھ سکتے، اپنے آپ کو، یا اپنے پیاروں کے چہروں کو نہیں دیکھ سکتے یا یہاں تک کہ آپ کا میل نہیں پڑھ سکتے۔ ہمارے پچھلے بلاگ پوسٹ میں ایمیزون ٹیکسٹریکٹ اور ایمیزون پولی کا استعمال کرتے ہوئے بصارت سے محروم افراد کو دستاویزات سننے کے قابل بنائیںہم نے آپ کو اپنی ٹیکسٹ ٹو اسپیچ ایپلی کیشن دکھائی جس کا نام ہے۔ "میرے لیے پڑھیں"۔ رسائی ایک طویل سفر طے کر چکی ہے، لیکن تصاویر کا کیا ہوگا؟

لاس ویگاس میں 2022 AWS re:Invent کانفرنس میں، ہم نے مظاہرہ کیا۔ "میرے لیے بیان کریں" AWS Builders' Fair میں، ایک ویب سائٹ جو بصارت سے محروم افراد کو تصویری کیپشن، چہرے کی شناخت، اور ٹیکسٹ ٹو اسپیچ کے ذریعے تصاویر کو سمجھنے میں مدد کرتی ہے، ایک ایسی ٹیکنالوجی جسے ہم "تصویر سے تقریر" کہتے ہیں۔ متعدد AI/ML سروسز کے استعمال کے ذریعے، "Describe For Me" ایک ان پٹ امیج کا کیپشن تیار کرتا ہے اور اسے مختلف زبانوں اور بولیوں میں صاف، قدرتی آواز میں دوبارہ پڑھے گا۔

اس بلاگ پوسٹ میں ہم آپ کو "میرے لیے بیان کریں" کے پیچھے حل آرکیٹیکچر، اور ہمارے حل کے ڈیزائن پر غور کرتے ہیں۔

حل کا جائزہ

مندرجہ ذیل حوالہ آرکیٹیکچر ایک صارف کے فون کے ساتھ تصویر لینے اور تصویر کے کیپشن کا MP3 چلانے کے ورک فلو کو دکھاتا ہے۔

بیان کردہ حل کے لیے حوالہ فن تعمیر۔

ورک فلو میں درج ذیل مراحل شامل ہیں،

  1. AWS بڑھانا HTML، JavaScript، اور CSS پر مشتمل DescribeForMe ویب ایپ کو صارفین کے موبائل آلات پر تقسیم کرتا ہے۔
  2. ۔ ایمیزون کاگنیٹو شناختی پول تک عارضی رسائی فراہم کرتا ہے۔ ایمیزون S3 بالٹی.
  3. صارف پر ایک تصویری فائل اپ لوڈ کرتا ہے۔ ایمیزون S3 بالٹی کا استعمال کرتے ہوئے AWS SDK ویب ایپ کے ذریعے۔
  4. DescribeForMe ویب ایپ بھیج کر بیک اینڈ AI سروسز کو طلب کرتی ہے۔ ایمیزون S3 پے لوڈ میں آبجیکٹ کلید ایمیزون API گیٹ وے
  5. ایمیزون API گیٹ وے فوری طور پر ایک AWS اسٹیپ فنکشنز ورک فلو ریاستی مشین مصنوعی ذہانت/مشین لرننگ (AI/ML) خدمات کو ترتیب دیتی ہے۔ ایمیزون پہچان۔, ایمیزون سیج میکرایمیزون ٹیکسٹ, ایمیزون ترجمہ, اور ایمیزون پولی  کا استعمال کرتے ہوئے AWS لیمبڈا۔ کام کرتا ہے.
  6. ۔ AWS اسٹیپ فنکشنز ورک فلو آؤٹ پٹ کے طور پر ایک آڈیو فائل بناتا ہے اور اسے اسٹور کرتا ہے۔ ایمیزون S3 MP3 فارمیٹ میں۔
  7. پہلے سے دستخط شدہ یو آر ایل جس میں آڈیو فائل کا مقام محفوظ ہے۔ ایمیزون S3 کے ذریعے صارف کے براؤزر کو واپس بھیجا جاتا ہے۔ ایمیزون API گیٹ وے. صارف کا موبائل آلہ پہلے سے دستخط شدہ URL کا استعمال کرتے ہوئے آڈیو فائل چلاتا ہے۔

حل واک تھرو

اس سیکشن میں، ہم ڈیزائن کے تحفظات پر توجہ مرکوز کرتے ہیں کہ ہم نے کیوں انتخاب کیا۔

  1. ایک کے اندر متوازی پروسیسنگ AWS اسٹیپ فنکشنز کام کا بہاؤ
  2. یونیفائیڈ سیکوئنس ٹو سیکونس پری ٹرینڈ مشین لرننگ ماڈل OFA (ایک سب کے لیے) سے گلے لگانے والا چہرہ کرنے کے لئے ایمیزون سیج میکر تصویر کے عنوان کے لیے
  3. ایمیزون پہچان۔ چہرے کی شناخت کے لیے

اس بارے میں مزید تفصیلی جائزہ کے لیے کہ ہم نے سرور لیس فن تعمیر، ہم وقت ساز ورک فلو، ایکسپریس سٹیپ فنکشنز ورک فلو، ہیڈ لیس فن تعمیر اور حاصل کردہ فوائد کا انتخاب کیوں کیا، براہ کرم ہماری پچھلی بلاگ پوسٹ پڑھیں ایمیزون ٹیکسٹریکٹ اور ایمیزون پولی کا استعمال کرتے ہوئے بصارت سے محروم افراد کو دستاویزات سننے کے قابل بنائیں

متوازی پروسیسنگ

سٹیپ فنکشنز ورک فلو کے اندر متوازی پروسیسنگ کا استعمال کرنے سے کمپیوٹ ٹائم 48% تک کم ہو گیا۔ ایک بار جب صارف تصویر کو S3 بالٹی پر اپ لوڈ کرتا ہے، Amazon API گیٹ وے AWS Step Functions کے ورک فلو کو انسٹینٹیٹ کرتا ہے۔ پھر نیچے دیے گئے تین لیمبڈا فنکشنز متوازی طور پر سٹیپ فنکشنز ورک فلو کے اندر امیج پر کارروائی کرتے ہیں۔

  • پہلا لیمبڈا فنکشن کہا جاتا ہے۔ describe_image کا استعمال کرتے ہوئے تصویر کا تجزیہ کرتا ہے۔ OFA_IMAGE_CAPTION ماڈل تصویر کیپشن فراہم کرنے کے لیے SageMaker ریئل ٹائم اینڈ پوائنٹ پر میزبانی کی گئی۔
  • دوسرا لیمبڈا فنکشن کہا جاتا ہے۔ describe_faces پہلے چیک کرتا ہے کہ آیا ایمیزون ریکوگنیشن کا استعمال کرتے ہوئے چہرے موجود ہیں۔ چہرے API کا پتہ لگائیں۔، اور اگر سچ ہے، تو یہ Compare Faces API کو کال کرتا ہے۔ اس کی وجہ یہ ہے کہ اگر تصویر میں کوئی چہرے نہیں پائے جاتے ہیں تو چہروں کا موازنہ کریں غلطی پھینک دے گا۔ اس کے علاوہ، چہرے کا پتہ لگانے کو پہلے کال کرنا صرف چہروں کا موازنہ کرنے اور غلطیوں کو ہینڈل کرنے سے زیادہ تیز ہے، لہذا ان میں چہروں کے بغیر تصاویر کے لیے، پروسیسنگ کا وقت تیز تر ہوگا۔
  • تیسرا لیمبڈا فنکشن کہا جاتا ہے۔ extract_text Amazon Textract اور Amazon Comprehend کا استعمال کرتے ہوئے ٹیکسٹ ٹو اسپیچ ہینڈل کرتا ہے۔

لیمبڈا کے افعال کو یکے بعد دیگرے انجام دینا مناسب ہے، لیکن ایسا کرنے کا تیز، زیادہ موثر طریقہ متوازی پروسیسنگ ہے۔ مندرجہ ذیل جدول تین نمونہ امیجز کے لیے بچائے گئے حسابی وقت کو دکھاتا ہے۔

تصویر لوگ ترتیب وار وقت متوازی وقت وقت کی بچت (%) کیپشن
Introducing an image-to-speech Generative AI application using Amazon SageMaker and Hugging Face | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. 0 1869ms 1702ms 8% ایک ٹیبی بلی ایک تیز سفید بستر پر جھکی ہوئی ہے۔
Introducing an image-to-speech Generative AI application using Amazon SageMaker and Hugging Face | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. 1 4277ms 2197ms 48٪ سبز بلاؤز اور سیاہ کارڈیگن میں ایک عورت کیمرے کو دیکھ کر مسکرا رہی ہے۔ میں ایک شخص کو پہچانتا ہوں: کانبو۔
Introducing an image-to-speech Generative AI application using Amazon SageMaker and Hugging Face | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. 4 6603ms 3904ms 40٪ Amazon Spheres کے سامنے کھڑے لوگ۔ میں 3 لوگوں کو پہچانتا ہوں: کانبو، جیک اور ایمن۔

تصویری کیپشن

Hugging Face ایک اوپن سورس کمیونٹی اور ڈیٹا سائنس پلیٹ فارم ہے جو صارفین کو مشین لرننگ ماڈلز کا اشتراک، تعمیر، تربیت اور تعینات کرنے کی اجازت دیتا ہے۔ Hugging Face ماڈل ہب میں دستیاب ماڈلز کو تلاش کرنے کے بعد، ہم نے استعمال کرنے کا انتخاب کیا۔ OFA ماڈل کیونکہ جیسا کہ مصنفین نے بیان کیا ہے، یہ "ایک ٹاسک-ایگنوسٹک اور موڈالٹی-ایگنوسٹک فریم ورک ہے جو ٹاسک کی جامعیت کو سپورٹ کرتا ہے"۔

OFA "سب کے لیے ایک" کی طرف ایک قدم ہے، کیونکہ یہ ایک متحد ملٹی موڈل پری ٹرینڈ ماڈل ہے جو بہت سے نیچے دھارے کے کاموں کو مؤثر طریقے سے منتقل کر سکتا ہے۔ اگرچہ OFA ماڈل بہت سے کاموں کو سپورٹ کرتا ہے جن میں بصری بنیاد، زبان کی سمجھ بوجھ، اور تصویر کی تخلیق شامل ہے، ہم نے استعمال کیا تصویر کیپشننگ کے لیے OFA ماڈل Describe For Me پراجیکٹ میں تصویر کو ایپلیکیشن کے ٹیکسٹ حصے میں انجام دینے کے لیے۔ OFA (ICML 2022) کا آفیشل ریپوزٹری دیکھیں، کاغذ ایک سادہ ترتیب سے ترتیب سیکھنے کے فریم ورک کے ذریعے OFA کے یکجا کرنے والے فن تعمیرات، کاموں، اور طریقوں کے بارے میں جاننے کے لیے۔

OFA کو اپنی درخواست میں ضم کرنے کے لیے ہم نے Hugging Face سے ریپو کو کلون کیا اور ماڈل کو کنٹینرائز کیا تاکہ اسے SageMaker اینڈ پوائنٹ پر تعینات کیا جا سکے۔ دی اس ریپو میں نوٹ بک SageMaker میں Jupyter نوٹ بک میں OFA بڑے ماڈل کو تعینات کرنے کے لیے ایک بہترین گائیڈ ہے۔ آپ کے انفرنس اسکرپٹ کو کنٹینرائز کرنے کے بعد، ماڈل سیج میکر اینڈ پوائنٹ کے پیچھے تعینات کیے جانے کے لیے تیار ہے جیسا کہ سیج میکر میں بیان کیا گیا ہے۔ دستاویزات. ماڈل کے تعینات ہونے کے بعد، ایک HTTPS اینڈ پوائنٹ بنائیں جسے "describe_image" lambda فنکشن کے ساتھ مربوط کیا جا سکتا ہے جو امیج کیپشن بنانے کے لیے تصویر کا تجزیہ کرتا ہے۔ ہم نے OFA چھوٹے ماڈل کو تعینات کیا کیونکہ یہ ایک چھوٹا ماڈل ہے اور اسی طرح کی کارکردگی کو حاصل کرتے ہوئے اسے کم وقت میں تعینات کیا جا سکتا ہے۔

"میرے لیے بیان کریں" کے ذریعے تخلیق کردہ امیج ٹو اسپیچ مواد کی مثالیں ذیل میں دکھائی گئی ہیں:

ارورہ بوریلیس، یا شمالی روشنیاں، رات کے آسمان کو گھر کے ایک سلیویٹ کے اوپر بھرتی ہیں۔

ارورہ بوریلیس، یا شمالی روشنیاں، رات کے آسمان کو گھر کے ایک سلیویٹ کے اوپر بھرتی ہیں۔

کھلونوں سے بھرے ایک کھلے سوٹ کیس کے پاس ایک کتا سخت لکڑی کے فرش پر سرخ کمبل پر سو رہا ہے۔

کھلونوں سے بھرے ایک کھلے سوٹ کیس کے پاس ایک کتا سخت لکڑی کے فرش پر سرخ کمبل پر سو رہا ہے۔

ایک ٹیبی بلی ایک تیز سفید بستر پر جھکی ہوئی ہے۔

ایک ٹیبی بلی ایک تیز سفید بستر پر جھکی ہوئی ہے۔

چہرے کی شناخت

ایمیزون ریکگنیشن امیج فراہم کرتا ہے۔ چہرے کا پتہ لگانا آپریشن جو چہرے کی کلیدی خصوصیات کو تلاش کرتا ہے جیسے کہ آنکھیں، ناک، اور منہ ان پٹ امیج میں چہروں کا پتہ لگانے کے لیے۔ اپنے حل میں ہم ان پٹ امیج میں کسی بھی لوگوں کا پتہ لگانے کے لیے اس فعالیت کا فائدہ اٹھاتے ہیں۔ اگر کسی شخص کا پتہ چلتا ہے، تو ہم استعمال کرتے ہیں چہرے کا موازنہ کریں۔ ان پٹ امیج میں چہرے کا ان چہروں سے موازنہ کرنے کے لیے آپریشن جو "میرے لیے بیان کریں" کے ساتھ تربیت دی گئی ہے اور اس شخص کو نام سے بیان کرنا ہے۔ ہم نے چہرے کی شناخت کے لیے Recognition استعمال کرنے کا انتخاب کیا کیونکہ اعلیٰ درستگی اور باکس سے باہر کی صلاحیتوں کے ساتھ ہماری ایپلیکیشن میں ضم کرنا کتنا آسان تھا۔

لوگوں کا ایک گروپ ایک کمرے میں تصویر کھینچ رہا ہے۔ میں 4 لوگوں کو پہچانتا ہوں: جیک، کانبو، الک، اور ٹریک۔ تصویر میں متن بھی ملا۔ اس میں لکھا ہے: AWS re: Invent

لوگوں کا ایک گروپ ایک کمرے میں تصویر کھینچ رہا ہے۔ میں 4 لوگوں کو پہچانتا ہوں: جیک، کانبو، الک، اور ٹریک۔ تصویر میں متن بھی ملا۔ اس میں لکھا ہے: AWS re: Invent

ممکنہ استعمال کے معاملات

ویب امیجز کے لیے متبادل ٹیکسٹ جنریشن

ویب سائٹ پر موجود تمام تصاویر کے لیے متبادل متن کا ہونا ضروری ہے تاکہ اسکرین ریڈرز انہیں بصارت سے محروم افراد سے بات کر سکیں۔ یہ سرچ انجن آپٹیمائزیشن (SEO) کے لیے بھی اچھا ہے۔ Alt کیپشن بنانے میں وقت لگ سکتا ہے کیونکہ کاپی رائٹر کو انہیں ڈیزائن دستاویز میں فراہم کرنے کا کام سونپا جاتا ہے۔ Describe For Me API خود بخود تصاویر کے لیے Alt-text پیدا کر سکتا ہے۔ اسے براؤزر پلگ ان کے طور پر بھی استعمال کیا جا سکتا ہے تاکہ کسی بھی ویب سائٹ پر موجود Alt متن سے محروم تصاویر میں خودکار طور پر تصویری کیپشن شامل کیا جا سکے۔

ویڈیو کے لیے آڈیو کی تفصیل

آڈیو تفصیل فلموں کے ساتھ ساتھ نابینا افراد کی پیروی میں مدد کرنے کے لیے ویڈیو مواد کے لیے ایک بیانیہ ٹریک فراہم کرتی ہے۔ جیسا کہ تصویری کیپشن زیادہ مضبوط اور درست ہو جاتا ہے، ایک منظر کے اہم حصوں کی وضاحتوں پر مبنی آڈیو ٹریک کی تخلیق پر مشتمل ایک ورک فلو ممکن ہو سکتا ہے۔ Amazon Recognition پہلے ہی منظر میں ہونے والی تبدیلیوں، لوگو، اور کریڈٹ کی ترتیب، اور مشہور شخصیت کا پتہ لگا سکتا ہے۔ تفصیل کا مستقبل کا ورژن فلموں اور ویڈیوز کے لیے اس اہم خصوصیت کو خودکار کرنے کی اجازت دے گا۔

نتیجہ

اس پوسٹ میں، ہم نے بصارت سے محروم افراد کی تصاویر دیکھنے میں مدد کرنے کے لیے AWS سروسز، بشمول AI اور سرور لیس سروسز کے استعمال پر تبادلہ خیال کیا۔ آپ Describe For Me پروجیکٹ کے بارے میں مزید جان سکتے ہیں اور وزٹ کر کے اسے استعمال کر سکتے ہیں۔ describeforme.com. کی منفرد خصوصیات کے بارے میں مزید جانیں۔ ایمیزون سیج میکرایمیزون کی شناخت اور Hugging Face کے ساتھ AWS کی شراکت.

رہنمائی کے لیے تھرڈ پارٹی ایم ایل ماڈل ڈس کلیمر

یہ رہنمائی صرف معلوماتی مقاصد کے لیے ہے۔ آپ کو اب بھی اپنی خود مختار تشخیص کرنا چاہیے، اور اس بات کو یقینی بنانے کے لیے اقدامات کرنا چاہیے کہ آپ اپنے مخصوص کوالٹی کنٹرول کے طریقوں اور معیارات، اور مقامی قواعد، قوانین، ضوابط، لائسنس اور استعمال کی شرائط جو آپ پر لاگو ہوتے ہیں، آپ کے مواد، اور تیسری پارٹی کے مشین لرننگ ماڈل کا حوالہ اس رہنمائی میں دیا گیا ہے۔ AWS کا اس رہنمائی میں حوالہ دیا گیا تھرڈ پارٹی مشین لرننگ ماڈل پر کوئی کنٹرول یا اختیار نہیں ہے، اور وہ اس بات کی کوئی نمائندگی یا ضمانت نہیں دیتا ہے کہ تھرڈ پارٹی مشین لرننگ ماڈل محفوظ، وائرس سے پاک، آپریشنل، یا آپ کے پروڈکشن ماحول سے مطابقت رکھتا ہے۔ اور معیارات. AWS کوئی نمائندگی، وارنٹی یا ضمانت نہیں دیتا ہے کہ اس رہنمائی میں کسی بھی معلومات کے نتیجے میں کوئی خاص نتیجہ یا نتیجہ نکلے گا۔


مصنفین کے بارے میں

جیک مارچیٹیجیک مارچیٹی AWS میں ایک سینئر سولیوشن آرکیٹیکٹ ہے جو صارفین کو بغیر سرور کے، ایونٹ سے چلنے والے فن تعمیر کو جدید بنانے اور لاگو کرنے میں مدد کرنے پر مرکوز ہے۔ جیک قانونی طور پر نابینا ہے اور شکاگو میں اپنی بیوی ایرن اور بلی منو کے ساتھ رہتا ہے۔ وہ ایک اسکرین رائٹر اور ہدایت کار بھی ہیں جن کی بنیادی توجہ کرسمس فلموں اور ہارر پر ہے۔ اس پر جیک کی فلمی گرافی دیکھیں IMDb صفحہ.

الک ایشوراداسالک ایشوراداس شکاگو، الینوائے میں مقیم AWS میں ایک سینئر سولیوشن آرکیٹیکٹ ہے۔ وہ کاروباری چیلنجوں کو حل کرنے کے لیے AWS سروسز کا استعمال کرتے ہوئے کلاؤڈ آرکیٹیکچرز ڈیزائن کرنے میں صارفین کی مدد کرنے کے لیے پرجوش ہے۔ Alak AWS صارفین کے لیے مختلف قسم کے ML استعمال کے معاملات کو حل کرنے کے لیے SageMaker استعمال کرنے کے لیے پرجوش ہے۔ جب وہ کام نہیں کر رہی ہوتی ہے، الاک اپنی بیٹیوں کے ساتھ وقت گزارنے اور اپنے کتوں کے ساتھ باہر کی سیر کرنے میں لطف اندوز ہوتی ہے۔

کینڈیس بوہننکینڈیس بوہنن Minneapolis، MN سے تعلق رکھنے والے ایک سینئر سولیوشن آرکیٹیکٹ ہیں۔ اس کردار میں، Kandyce AWS صارفین کے لیے ایک تکنیکی مشیر کے طور پر کام کرتا ہے کیونکہ وہ AWS میں بہترین طریقوں کو نافذ کرنے کے لیے خاص طور پر ڈیٹا اور DevOps سے متعلق ٹیکنالوجی کی حکمت عملیوں کو جدید بناتے ہیں۔ مزید برآں، Kandyce ٹیکنالوجی ماہرین کی مستقبل کی نسلوں کی رہنمائی کرنے اور AWS She Builds Tech Skills پروگرام کے ذریعے ٹیکنالوجی میں خواتین کی نمائش کے بارے میں پرجوش ہے۔

ٹریک ڈوٹریک ڈو AWS میں ایک حل آرکیٹیکٹ ہے۔ اپنے کردار میں، Trac انٹرپرائز صارفین کے ساتھ کام کرتا ہے تاکہ ان کی کلاؤڈ مائیگریشن اور ایپلیکیشن جدید کاری کے اقدامات میں مدد کی جا سکے۔ وہ AWS خدمات کا استعمال کرتے ہوئے صارفین کے چیلنجوں کو سیکھنے اور انہیں مضبوط اور قابل توسیع حل کے ساتھ حل کرنے کا پرجوش ہے۔ Trac اس وقت شکاگو میں اپنی بیوی اور 3 لڑکوں کے ساتھ رہتا ہے۔ وہ ہوا بازی کا ایک بڑا شوقین ہے اور اپنا پرائیویٹ پائلٹ لائسنس مکمل کرنے کے عمل میں ہے۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ