نابینا افراد کو Amazon Textract اور Amazon Polly PlatoBlockchain ڈیٹا انٹیلی جنس کا استعمال کرتے ہوئے دستاویزات کو سننے کے قابل بنائیں۔ عمودی تلاش۔ عی

نابینا افراد کو Amazon Textract اور Amazon Polly کا استعمال کرتے ہوئے دستاویزات کو سننے کے قابل بنائیں

2021 AWS re: لاس ویگاس میں ایجاد کانفرنس میں، ہم نے ڈیمو کیا۔ میرے لیے پڑھیں AWS بلڈرز فیئر میں — ایک ویب سائٹ جو بصارت سے محروم افراد کو دستاویزات سننے میں مدد کرتی ہے۔

بہتر کوالٹی کے لیے، ویڈیو دیکھیں یہاں.

انکولی ٹیکنالوجی اور قابل رسائی خصوصیات اکثر مہنگی ہوتی ہیں، اگر وہ بالکل بھی دستیاب ہوں۔ آڈیو کتابیں بصارت سے محروم افراد کو پڑھنے میں مدد کرتی ہیں۔ آڈیو کی تفصیل فلموں کو قابل رسائی بناتی ہے۔ لیکن جب مواد پہلے سے ہی ڈیجیٹائز نہیں ہوا ہے تو آپ کیا کریں گے؟

یہ پوسٹ AWS AI خدمات پر مرکوز ہے۔ ایمیزون ٹیکسٹ اور ایمیزون پولی، جو بصارت سے محروم افراد کو بااختیار بناتا ہے۔ ریڈ فار می کو جیک مارچیٹی نے مشترکہ طور پر تیار کیا تھا، جو بصارت سے محروم ہیں۔

حل جائزہ

ایونٹ سے چلنے والے، سرور کے بغیر فن تعمیر اور متعدد AI خدمات کے امتزاج کے ذریعے، ہم کسی دستاویز کی تصویر، یا متن کے ساتھ کسی بھی تصویر سے متعدد زبانوں میں قدرتی آواز والی آڈیو فائلیں بنا سکتے ہیں۔ مثال کے طور پر، IRS کی طرف سے ایک خط، خاندان کی طرف سے چھٹی کا کارڈ، یا یہاں تک کہ کسی فلم کے ابتدائی عنوانات۔

مندرجہ ذیل حوالہ فن تعمیر، میں شائع AWS آرکیٹیکچر سینٹر کسی صارف کے اپنے فون کے ساتھ تصویر لینے اور اس دستاویز میں پائے جانے والے مواد کا MP3 چلانے کے ورک فلو کو دکھاتا ہے۔

نابینا افراد کو Amazon Textract اور Amazon Polly PlatoBlockchain ڈیٹا انٹیلی جنس کا استعمال کرتے ہوئے دستاویزات کو سننے کے قابل بنائیں۔ عمودی تلاش۔ عی

ورک فلو میں درج ذیل مراحل شامل ہیں:

  1. جامد مواد (HTML، CSS، JavaScript) پر میزبانی کی جاتی ہے۔ AWS بڑھانا.
  2. گمنام صارفین کو ایک کے ذریعے بیک اینڈ سروسز تک عارضی رسائی دی جاتی ہے۔ ایمیزون کاگنیٹو شناختی پول.
  3. تصویری فائلیں اس میں محفوظ ہیں۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)۔
  4. ایک صارف POST کے ذریعے درخواست کرتا ہے۔ ایمیزون API گیٹ وے آڈیو سروس کے لیے، جو ایک ایکسپریس کو پراکسی کرتی ہے۔ AWS اسٹیپ فنکشنز ورک فلو
  5. سٹیپ فنکشنز ورک فلو میں درج ذیل مراحل شامل ہیں:
    1. ایمیزون ٹیکسٹ تصویر سے متن نکالتا ہے۔
    2. ایمیزون کی تعریف متن کی زبان کا پتہ لگاتا ہے۔
    3. اگر ہدف کی زبان کا پتہ چلنے والی زبان سے مختلف ہے، ایمیزون ترجمہ ہدف کی زبان میں ترجمہ کرتا ہے۔
    4. ایمیزون پولی متن کا استعمال کرتے ہوئے آؤٹ پٹ کے طور پر ایک آڈیو فائل بناتا ہے۔
  6. AWS Step Functions ورک فلو آؤٹ پٹ کے طور پر ایک آڈیو فائل بناتا ہے اور اسے MP3 فارمیٹ میں Amazon S3 میں اسٹور کرتا ہے۔
  7. Amazon S3 میں محفوظ آڈیو فائل کے مقام کے ساتھ پہلے سے دستخط شدہ URL API گیٹ وے کے ذریعے صارف کے براؤزر کو واپس بھیجا جاتا ہے۔ صارف کا موبائل آلہ پہلے سے دستخط شدہ URL کا استعمال کرتے ہوئے آڈیو فائل چلاتا ہے۔

مندرجہ ذیل حصوں میں، ہم ان وجوہات پر بحث کرتے ہیں کہ ہم نے اس حل کے لیے مخصوص خدمات، فن تعمیر کا نمونہ، اور سروس کی خصوصیات کیوں منتخب کیں۔

AWS AI خدمات

کئی AI سروسز کو ایک ساتھ وائرڈ کیا گیا ہے تاکہ میرے لیے پڑھیں:

  • Amazon Textract اپ لوڈ کردہ تصویر میں موجود متن کی شناخت کرتا ہے۔
  • Amazon Comprehend زبان کا تعین کرتا ہے۔
  • اگر صارف تصویر میں دی گئی زبان سے مختلف بولی جانے والی زبان کا انتخاب کرتا ہے، تو ہم Amazon Translate کے ذریعے اس کا ترجمہ کرتے ہیں۔
  • ایمیزون پولی MP3 فائل بناتا ہے۔ ہم ایمیزون پولی نیورل انجن سے فائدہ اٹھاتے ہیں، جو ایک زیادہ قدرتی، زندگی جیسی آڈیو ریکارڈنگ بناتا ہے۔

ان AI خدمات کو استعمال کرنے کا ایک اہم فائدہ یہ ہے کہ بہت کم یا کوئی بنیادی مشین لرننگ تجربہ کی ضرورت کے ساتھ اپنانے میں آسانی ہے۔ خدمات ایسے APIs کو بے نقاب کرتی ہیں جنہیں کلائنٹ متعدد پروگرامنگ زبانوں، جیسے Python اور Java میں دستیاب SDKs استعمال کر سکتے ہیں۔

Read For Me کے ساتھ، ہم نے بنیادی بات لکھی۔ او ڈبلیو ایس لامبڈا۔ Python میں افعال

AWS SDK برائے Python (Boto3)

۔ AWS SDK برائے Python (Boto3) AWS خدمات کے ساتھ بات چیت کو آسان بناتا ہے۔ مثال کے طور پر، Python کوڈ کی درج ذیل لائنیں آپ کی فراہم کردہ تصویر یا دستاویز میں موجود متن کو واپس کرتی ہیں:

import boto3
client = boto3.client('textract')
response = client.detect_document_text(
Document={ 'S3Object': { 'Bucket': 'bucket-name', 'Name': 's3-key'
}
})
#do something with the response

تمام ازگر کوڈ انفرادی لیمبڈا فنکشنز کے اندر چلایا جاتا ہے۔ فراہمی کے لیے کوئی سرور نہیں ہیں اور نہ ہی دیکھ بھال کے لیے کوئی انفراسٹرکچر۔

فن تعمیر کے نمونے۔

اس حصے میں، ہم حل میں استعمال ہونے والے مختلف فن تعمیر کے نمونوں پر تبادلہ خیال کرتے ہیں۔

بے سرور

ہم نے دو اہم وجوہات کی بنا پر ایک سرور لیس فن تعمیر کو نافذ کیا: بنانے کی رفتار اور لاگت۔ برقرار رکھنے کے لیے کوئی بنیادی ہارڈویئر یا تعینات کرنے کے لیے انفراسٹرکچر کے بغیر، ہم نے پوری توجہ بزنس لاجک کوڈ پر مرکوز رکھی اور کچھ نہیں۔ اس سے ہمیں کچھ دنوں میں کام کرنے والا پروٹو ٹائپ تیار کرنے اور چلانے کا موقع ملا۔ اگر صارفین فعال طور پر تصاویر اپ لوڈ نہیں کر رہے ہیں اور ریکارڈنگ نہیں سن رہے ہیں، تو کچھ بھی نہیں چل رہا ہے، اور اس وجہ سے اسٹوریج سے باہر کچھ بھی خرچ نہیں ہو رہا ہے۔ S3 لائف سائیکل مینجمنٹ کا اصول 3 دن کے بعد اپ لوڈ کردہ امیجز اور MP1 فائلوں کو ڈیلیٹ کر دیتا ہے، اس لیے اسٹوریج کی قیمتیں کم ہیں۔

ہم وقت ساز ورک فلو

جب آپ سرور لیس ورک فلو بنا رہے ہیں، تو یہ سمجھنا ضروری ہے کہ ہم وقت ساز کال کب غیر مطابقت پذیر عمل کے مقابلے فن تعمیر اور صارف کے تجربے سے زیادہ معنی رکھتی ہے۔ Read For Me کے ساتھ، ہم ابتدائی طور پر غیر مطابقت پذیر راستے پر چلے گئے اور سامنے والے حصے کے ساتھ دو طرفہ طور پر بات چیت کرنے کے لیے WebSockets کو استعمال کرنے کا منصوبہ بنایا۔ ہمارے ورک فلو میں سٹیپ فنکشنز ورک فلو سے وابستہ کنکشن ID کو تلاش کرنے کا ایک مرحلہ شامل ہوگا اور مکمل ہونے پر، سامنے والے حصے کو الرٹ کریں گے۔ اس عمل کے بارے میں مزید معلومات کے لیے رجوع کریں۔ پول سے پش تک: Amazon API Gateway REST APIs اور WebSockets کا استعمال کرتے ہوئے APIs کو تبدیل کریں.

ہم نے بالآخر ایسا نہ کرنے کا انتخاب کیا اور ایکسپریس سٹیپ فنکشنز کا استعمال کیا جو ہم وقت ساز ہیں۔ صارفین سمجھتے ہیں کہ تصویر پر کارروائی فوری نہیں ہوگی، لیکن یہ بھی جانتے ہیں کہ اس میں 30 سیکنڈ یا ایک منٹ نہیں لگے گا۔ ہم ایک ایسی جگہ میں تھے جہاں آخری صارف کے لیے چند سیکنڈز تسلی بخش تھے اور ہمیں WebSockets کے فائدے کی ضرورت نہیں تھی۔ اس نے مجموعی طور پر ورک فلو کو آسان بنا دیا۔

ایکسپریس سٹیپ فنکشنز ورک فلو

آپ کے کوڈ کو چھوٹے، الگ تھلگ فنکشنز میں تقسیم کرنے کی صلاحیت ٹھیک دانے والے کنٹرول، آسان دیکھ بھال، اور زیادہ درست طریقے سے پیمائش کرنے کی صلاحیت کی اجازت دیتی ہے۔ مثال کے طور پر، اگر ہم نے یہ طے کیا کہ Lambda فنکشن جس نے Amazon Polly کو آڈیو فائل بنانے کے لیے متحرک کیا وہ اس فنکشن کے مقابلے میں آہستہ چل رہا تھا جس نے زبان کا تعین کیا تھا، تو ہم اس فنکشن کو عمودی طور پر اسکیل کر سکتے ہیں، دوسروں کے لیے ایسا کیے بغیر، مزید میموری کا اضافہ کر سکتے ہیں۔ اسی طرح، آپ اس دھماکے کے رداس کو محدود کرتے ہیں کہ جب آپ اس کے دائرہ کار اور رسائی کو محدود کرتے ہیں تو آپ کا لیمبڈا فنکشن کیا کر سکتا ہے یا اس تک رسائی حاصل کر سکتا ہے۔

اسٹیپ فنکشنز کے ساتھ اپنے ورک فلو کو ترتیب دینے کا ایک فائدہ یہ ہے کہ بغیر کوڈ لکھے فیصلے کے بہاؤ کی منطق کو متعارف کرایا جائے۔

ہمارے سٹیپ فنکشنز کا ورک فلو پیچیدہ نہیں ہے۔ ترجمہ کے مرحلے تک یہ لکیری ہے۔ اگر ہمیں ترجمہ Lambda فنکشن کو کال کرنے کی ضرورت نہیں ہے، تو یہ ہمارے لیے کم قیمت ہے، اور صارف کے لیے تیز تر تجربہ ہے۔ ہم ان پٹ پے لوڈ میں مخصوص کلید تلاش کرنے کے لیے Step Functions کنسول پر بصری ڈیزائنر کا استعمال کر سکتے ہیں اور، اگر یہ موجود ہے، تو JSONPath کا استعمال کرتے ہوئے ایک فنکشن کو دوسرے پر کال کریں۔ مثال کے طور پر، ہمارے پے لوڈ میں ایک کلید شامل ہے جسے ترجمہ کہتے ہیں:

{ 
extracted_text: "hello world",
target_language: "es",
source_language: "en",
translate: true
}

اسٹیپ فنکشنز بصری ڈیزائنر کے اندر، ہمیں ٹرانسلیٹ کلید ملتی ہے، اور میچ کرنے کے لیے اصول مرتب کرتے ہیں۔

نابینا افراد کو Amazon Textract اور Amazon Polly PlatoBlockchain ڈیٹا انٹیلی جنس کا استعمال کرتے ہوئے دستاویزات کو سننے کے قابل بنائیں۔ عمودی تلاش۔ عی

سر کے بغیر فن تعمیر

Amplify فرنٹ اینڈ کوڈ کی میزبانی کرتا ہے۔ سامنے کا اختتام React میں لکھا ہوا ہے اور سورس کوڈ کو چیک کیا گیا ہے۔ AWS CodeCommit. Amplify جامد ویب سائٹس کو تعینات کرنے اور ان کا نظم کرنے کی کوشش کرنے والے صارفین کے لیے چند مسائل حل کرتا ہے۔ اگر آپ یہ دستی طور پر کر رہے تھے (جامد ویب سائٹ ہوسٹنگ کے لیے سیٹ اپ S3 بالٹی کا استعمال کرتے ہوئے اور اس کے ساتھ فرنٹنگ ایمیزون CloudFront)، جب بھی آپ نے تعیناتیاں کیں تو آپ کو خود ہی کیشے کی میعاد ختم کرنی ہوگی۔ آپ کو اپنی خود کی CI/CD پائپ لائن بھی لکھنی ہوگی۔ Amplify یہ آپ کے لیے ہینڈل کرتا ہے۔

یہ بغیر ہیڈ لیس آرکیٹیکچر کی اجازت دیتا ہے، جہاں فرنٹ اینڈ کوڈ کو بیک اینڈ سے ڈیکپل کیا جاتا ہے اور ہر پرت کو دوسری سے آزاد اور اسکیل کیا جا سکتا ہے۔

ID کا تجزیہ کریں۔

پچھلے حصے میں، ہم نے اپ لوڈ کردہ تصویر پر کارروائی کرنے اور اس سے MP3 فائل بنانے کے لیے فن تعمیر کے نمونوں پر بات کی۔ کسی دستاویز کو آپ کو پڑھ کر سنانا ایک بہترین پہلا قدم ہے، لیکن اگر آپ پوری چیز کو واپس پڑھے بغیر صرف کچھ خاص جاننا چاہتے ہیں تو کیا ہوگا؟ مثال کے طور پر، آپ کو آن لائن فارم پُر کرنے اور اپنا اسٹیٹ آئی ڈی یا پاسپورٹ نمبر، یا شاید اس کی میعاد ختم ہونے کی تاریخ فراہم کرنے کی ضرورت ہے۔ اس کے بعد آپ کو اپنی آئی ڈی کی تصویر لینا ہوگی اور جب اسے آپ کو واپس پڑھا جائے تو اس مخصوص حصے کا انتظار کریں۔ متبادل طور پر، آپ تجزیہ ID استعمال کر سکتے ہیں۔

تجزیہ ID Amazon Textract کی ایک خصوصیت ہے جو آپ کو دستاویزات سے استفسار کرنے کے قابل بناتی ہے۔ میرے لیے پڑھیں میں ایک ڈراپ ڈاؤن مینو ہے جہاں آپ خاص طور پر میعاد ختم ہونے کی تاریخ، ایشو کی تاریخ، یا دستاویز نمبر مانگ سکتے ہیں۔ آپ ایک MP3 فائل بنانے کے لیے اسی ورک فلو کا استعمال کر سکتے ہیں جو آپ کے مخصوص سوال کا جواب فراہم کرتی ہے۔

آپ اینالائز آئی ڈی فیچر کو ڈیمو کر سکتے ہیں۔ readforme.io/analyze.

اضافی پولی خصوصیات

  • ریڈ فار می مختلف زبانوں اور بولیوں کا استعمال کرتے ہوئے متعدد اعصابی آوازیں پیش کرتا ہے۔ نوٹ کریں کہ کئی اور بھی ہیں۔ آوازیں۔ آپ اس میں سے انتخاب کر سکتے ہیں، جسے ہم نے نافذ نہیں کیا۔ جب کوئی نئی آواز دستیاب ہوتی ہے، تو اس کا فائدہ اٹھانے کے لیے فرنٹ اینڈ کوڈ اور لیمبڈا فنکشن کی تازہ کاری ہوتی ہے۔
  • پولی سروس دیگر آپشنز بھی پیش کرتی ہے جنہیں ہم نے ابھی Read For Me میں شامل کرنا ہے۔ ان میں ایڈجسٹ کرنا شامل ہے۔ آوازوں کی رفتار اور تقریر کے نشانات.

نتیجہ

اس پوسٹ میں، ہم نے بصارت سے محروم افراد کی مدد کے لیے متعدد AWS سروسز، بشمول AI اور سرور کے بغیر استعمال کرنے کے طریقے پر تبادلہ خیال کیا۔ آپ Read For Me پراجیکٹ کے بارے میں مزید جان سکتے ہیں اور اسے ملاحظہ کر کے استعمال کر سکتے ہیں۔ readforme.io. آپ ایمیزون ٹیکسٹریکٹ کی مثالیں بھی تلاش کرسکتے ہیں۔ GitHub repo. تجزیہ ID کے بارے میں مزید جاننے کے لیے، چیک آؤٹ کریں۔ Amazon Textract کا استعمال کرتے ہوئے شناختی دستاویزات سے ڈیٹا نکالنے کے لیے تعاون کا اعلان.

اس پروجیکٹ کے لیے سورس کوڈ کو اوپن سورس کیا جائے گا اور جلد ہی AWS کے عوامی GitHub میں شامل کیا جائے گا۔


مصنفین کے بارے میں

نابینا افراد کو Amazon Textract اور Amazon Polly PlatoBlockchain ڈیٹا انٹیلی جنس کا استعمال کرتے ہوئے دستاویزات کو سننے کے قابل بنائیں۔ عمودی تلاش۔ عیجیک مارچیٹی AWS میں ایک سینئر سولیوشن آرکیٹیکٹ ہے۔ سافٹ ویئر انجینئرنگ کے پس منظر کے ساتھ، جیک بنیادی طور پر صارفین کو سرور کے بغیر، ایونٹ سے چلنے والے فن تعمیر کو لاگو کرنے میں مدد کرنے پر مرکوز ہے۔ اس نے دوسری AWS re:Invent کانفرنس میں شرکت کرنے کے بعد 2013 میں اپنی پہلی تقسیم شدہ، کلاؤڈ بیسڈ ایپلی کیشن بنائی اور تب سے اس کا تعلق ہے۔ AWS سے پہلے جیک نے اپنے کیریئر کا بڑا حصہ دنیا کے کچھ بڑے برانڈز کے لیے اشتہاری ایجنسی کی جگہ بنانے کے تجربات میں صرف کیا۔ جیک قانونی طور پر نابینا ہے اور شکاگو میں اپنی بیوی ایرن اور بلی منو کے ساتھ رہتا ہے۔ وہ ایک اسکرین رائٹر اور ہدایت کار بھی ہیں جن کی بنیادی توجہ کرسمس فلموں اور ہارر پر ہے۔ اس پر جیک کی فلمی گرافی دیکھیں نامہ صفحہ.

نابینا افراد کو Amazon Textract اور Amazon Polly PlatoBlockchain ڈیٹا انٹیلی جنس کا استعمال کرتے ہوئے دستاویزات کو سننے کے قابل بنائیں۔ عمودی تلاش۔ عیالک ایشوراداس شکاگو، الینوائے میں مقیم AWS میں ایک حل آرکیٹیکٹ ہے۔ وہ کاروباری چیلنجوں کو حل کرنے کے لیے AWS سروسز کا استعمال کرتے ہوئے کلاؤڈ آرکیٹیکچرز ڈیزائن کرنے میں صارفین کی مدد کرنے کے لیے پرجوش ہے۔ اس نے کمپیوٹر سائنس انجینئرنگ میں ماسٹر ڈگری حاصل کی ہے۔ AWS میں شامل ہونے سے پہلے، اس نے صحت کی دیکھ بھال کی مختلف تنظیموں کے لیے کام کیا، اور اسے پیچیدہ نظاموں، ٹیکنالوجی کی اختراعات، اور تحقیق کا گہرا تجربہ ہے۔ وہ اپنی بیٹیوں کے ساتھ گھومتی ہے اور اپنے فارغ وقت میں باہر کی سیر کرتی ہے۔

نابینا افراد کو Amazon Textract اور Amazon Polly PlatoBlockchain ڈیٹا انٹیلی جنس کا استعمال کرتے ہوئے دستاویزات کو سننے کے قابل بنائیں۔ عمودی تلاش۔ عیسواگت کلکرنی AWS میں ایک سینئر سولیوشن آرکیٹیکٹ اور AI/ML کے شوقین ہیں۔ وہ کلاؤڈ مقامی خدمات اور مشین لرننگ والے صارفین کے لیے حقیقی دنیا کے مسائل کو حل کرنے کا پرجوش ہے۔ کام سے باہر، سواگت کو سفر، پڑھنے اور مراقبہ کا شوق ہے۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ