ایمیزون سیج میکر جمپ سٹارٹ میں خودکار تقریر کی شناخت کے لیے سرگوشی کے ماڈل اب دستیاب ہیں۔ ایمیزون ویب سروسز

ایمیزون سیج میکر جمپ سٹارٹ میں خودکار تقریر کی شناخت کے لیے سرگوشی کے ماڈل اب دستیاب ہیں۔ ایمیزون ویب سروسز

آج، ہمیں یہ اعلان کرتے ہوئے خوشی ہو رہی ہے کہ OpenAI Whisper فاؤنڈیشن ماڈل استعمال کرنے والے صارفین کے لیے دستیاب ہے۔ ایمیزون سیج میکر جمپ اسٹارٹ. Whisper خودکار اسپیچ ریکگنیشن (ASR) اور اسپیچ ٹرانسلیشن کے لیے پہلے سے تربیت یافتہ ماڈل ہے۔ 680 ہزار گھنٹے کے لیبل لگائے گئے ڈیٹا پر تربیت یافتہ، Whisper ماڈلز بہت سارے ڈیٹا سیٹس اور ڈومینز کو فائن ٹیوننگ کی ضرورت کے بغیر عام کرنے کی مضبوط صلاحیت کا مظاہرہ کرتے ہیں۔ Sagemaker JumpStart SageMaker کا مشین لرننگ (ML) مرکز ہے جو ML کے ساتھ جلدی شروع کرنے میں آپ کی مدد کرنے کے لیے بلٹ ان الگورتھم اور اینڈ ٹو اینڈ سلوشن ٹیمپلیٹس کے علاوہ فاؤنڈیشن ماڈلز تک رسائی فراہم کرتا ہے۔

آپ ASR کا استعمال بھی کر سکتے ہیں۔ ایمیزون نقل ,ایک مکمل طور پر منظم اور مسلسل تربیت یافتہ خودکار اسپیچ ریکگنیشن سروس۔

اس پوسٹ میں، ہم آپ کو دکھاتے ہیں کہ کس طرح تعینات کیا جائے۔ اوپن اے آئی سرگوشی ماڈل اور آڈیو کو نقل کرنے اور ترجمہ کرنے کے لیے ماڈل کو طلب کریں۔

OpenAI Whisper ماڈل استعمال کرتا ہے۔ گلے لگنے والا چہرہ کنٹینر SageMaker JumpStart ماڈل ہب کسٹمر کے طور پر، آپ SageMaker SDK سے باہر ماڈل اسکرپٹ کو برقرار رکھے بغیر ASR استعمال کر سکتے ہیں۔ سیج میکر جمپ سٹارٹ ماڈلز ان اینڈ پوائنٹس کے ساتھ حفاظتی کرنسی کو بھی بہتر بناتے ہیں جو نیٹ ورک آئسولیشن کو فعال کرتے ہیں۔

سیج میکر میں فاؤنڈیشن ماڈل

سیج میکر جمپ سٹارٹ مقبول ماڈل ہبز سے ماڈلز کی ایک رینج تک رسائی فراہم کرتا ہے جس میں Hugging Face، PyTorch Hub، اور TensorFlow Hub شامل ہیں، جسے آپ SageMaker میں اپنے ML ترقیاتی ورک فلو کے اندر استعمال کر سکتے ہیں۔ ایم ایل میں حالیہ پیشرفت نے ماڈلز کی ایک نئی کلاس کو جنم دیا ہے جس کے نام سے جانا جاتا ہے۔ بنیاد ماڈل، جو عام طور پر اربوں پیرامیٹرز پر تربیت یافتہ ہیں اور استعمال کے معاملات کے وسیع زمرے میں ڈھال سکتے ہیں، جیسے متن کا خلاصہ، ڈیجیٹل آرٹ تیار کرنا، اور زبان کا ترجمہ۔ چونکہ یہ ماڈلز کو تربیت دینا مہنگا ہے، اس لیے صارفین ان ماڈلز کو خود تربیت دینے کے بجائے موجودہ پہلے سے تربیت یافتہ فاؤنڈیشن ماڈلز کو استعمال کرنا چاہتے ہیں اور ضرورت کے مطابق ان کو ٹھیک کرنا چاہتے ہیں۔ سیج میکر ان ماڈلز کی کیوریٹڈ فہرست فراہم کرتا ہے جن میں سے آپ سیج میکر کنسول پر انتخاب کر سکتے ہیں۔

اب آپ SageMaker JumpStart کے اندر مختلف ماڈل فراہم کنندگان سے فاؤنڈیشن ماڈلز تلاش کر سکتے ہیں، جس سے آپ فاؤنڈیشن ماڈلز کے ساتھ تیزی سے شروعات کر سکتے ہیں۔ SageMaker JumpStart مختلف کاموں یا ماڈل فراہم کنندگان کی بنیاد پر فاؤنڈیشن ماڈل پیش کرتا ہے، اور آپ آسانی سے ماڈل کی خصوصیات اور استعمال کی شرائط کا جائزہ لے سکتے ہیں۔ آپ ان ماڈلز کو ٹیسٹ UI ویجیٹ استعمال کرکے بھی آزما سکتے ہیں۔ جب آپ پیمانے پر فاؤنڈیشن ماڈل استعمال کرنا چاہتے ہیں، تو آپ SageMaker کو چھوڑے بغیر ماڈل فراہم کنندگان کی طرف سے پہلے سے بنی ہوئی نوٹ بکس کا استعمال کر کے ایسا کر سکتے ہیں۔ چونکہ ماڈلز AWS پر ہوسٹ اور تعینات کیے گئے ہیں، آپ کو یقین ہے کہ آپ کا ڈیٹا، چاہے ماڈل کو جانچنے یا استعمال کرنے کے لیے استعمال کیا جائے، فریقین ثالث کے ساتھ اشتراک نہیں کیا جائے گا۔

اوپن اے آئی وسپر فاؤنڈیشن ماڈل

وسپر ASR اور تقریری ترجمے کے لیے پہلے سے تربیت یافتہ ماڈل ہے۔ کاغذ میں سرگوشی تجویز کی گئی تھی۔ بڑے پیمانے پر کمزور نگرانی کے ذریعے مضبوط تقریر کی شناخت اوپن اے آئی کی طرف سے ایلک ریڈفورڈ، اور دیگر۔ اصل کوڈ مل سکتا ہے۔ اس GitHub ذخیرے میں.

وسپر ایک ٹرانسفارمر پر مبنی انکوڈر-ڈیکوڈر ماڈل ہے، جسے a بھی کہا جاتا ہے۔ ترتیب سے ترتیب ماڈل اسے بڑے پیمانے پر کمزور نگرانی کا استعمال کرتے ہوئے 680 ہزار گھنٹے کے لیبل والے اسپیچ ڈیٹا پر تربیت دی گئی۔ وسپر ماڈلز بہت سارے ڈیٹاسیٹس اور ڈومینز کو ٹھیک ٹیوننگ کی ضرورت کے بغیر عام کرنے کی مضبوط صلاحیت کا مظاہرہ کرتے ہیں۔

ماڈلز کو یا تو صرف انگریزی ڈیٹا یا کثیر لسانی ڈیٹا پر تربیت دی گئی تھی۔ صرف انگریزی ماڈلز کو تقریر کی شناخت کے کام پر تربیت دی گئی۔ کثیر لسانی ماڈلز کو اسپیچ ریکگنیشن اور اسپیچ ٹرانسلیشن پر تربیت دی گئی۔ تقریر کی شناخت کے لیے، ماڈل میں نقل کی پیش گوئی کرتا ہے۔ اسی آڈیو کے طور پر زبان. تقریری ترجمے کے لیے، ماڈل a میں نقل کی پیش گوئی کرتا ہے۔ مختلف آڈیو کی زبان۔

وسپر چیک پوائنٹس مختلف ماڈل سائز کی پانچ کنفیگریشنز میں آتے ہیں۔ سب سے چھوٹے چار کو یا تو صرف انگریزی یا کثیر لسانی ڈیٹا پر تربیت دی جاتی ہے۔ سب سے بڑی چوکیاں صرف کثیر لسانی ہیں۔ تمام دس پہلے سے تربیت یافتہ چوکیاں پر دستیاب ہیں۔ گلے ملنا چہرے کا مرکز. چیک پوائنٹس کا خلاصہ درج ذیل جدول میں حب پر موجود ماڈلز کے لنکس کے ساتھ کیا گیا ہے۔

ماڈل کا نام پیرامیٹرز کی تعداد بہزبانی
سرگوشی 39 ایم جی ہاں
سرگوشی کی بنیاد 74 ایم جی ہاں
سرگوشی - چھوٹا 244 ایم جی ہاں
وسوسہ 769 ایم جی ہاں
سرگوشی بڑی 1550 ایم جی ہاں
whisper-large-v2 1550 ایم جی ہاں

آئیے دریافت کریں کہ آپ SageMaker JumpStart میں Whisper ماڈلز کو کس طرح استعمال کر سکتے ہیں۔

OpenAI Whisper فاؤنڈیشن ماڈل WER اور لیٹنسی کا موازنہ

مختلف OpenAI Whisper ماڈلز کے لیے لفظ ایرر ریٹ (WER) کی بنیاد پر LibriSpeech ٹیسٹ صاف مندرجہ ذیل جدول میں دکھایا گیا ہے۔ اسپیچ ریکگنیشن یا مشین ٹرانسلیشن سسٹم کی کارکردگی کے لیے WER ایک عام میٹرک ہے۔ یہ حوالہ متن (زمین کی سچائی یا صحیح نقل) اور ASR سسٹم کے آؤٹ پٹ کے درمیان غلطیوں کی تعداد کے لحاظ سے فرق کی پیمائش کرتا ہے، بشمول متبادلات، اندراجات، اور حذف کرنا جو ASR آؤٹ پٹ کو حوالہ میں تبدیل کرنے کے لیے درکار ہیں۔ متن یہ نمبرز سے لیے گئے ہیں۔ گلے لگانے والا چہرہ ویب سائٹ.

ماڈل WER (فیصد)
سرگوشی 7.54
سرگوشی کی بنیاد 5.08
سرگوشی - چھوٹا 3.43
وسوسہ 2.9
سرگوشی بڑی 3
whisper-large-v2 3

اس بلاگ کے لیے، ہم نے نیچے دی گئی آڈیو فائل لی اور مختلف سرگوشی کے ماڈلز میں تقریر کی شناخت کی تاخیر کا موازنہ کیا۔ لیٹنسی اس لمحے کی مقدار ہے جب صارف درخواست بھیجتا ہے اس وقت تک جب تک کہ آپ کی درخواست یہ بتاتی ہے کہ درخواست مکمل ہو گئی ہے۔ مندرجہ ذیل جدول میں موجود اعداد ml.g100xlarge مثال پر ہوسٹ کردہ ماڈل کے ساتھ ایک ہی آڈیو فائل کا استعمال کرتے ہوئے کل 5.2 درخواستوں کے لیے اوسط تاخیر کی نمائندگی کرتے ہیں۔

ماڈل اوسط تاخیر ماڈل آؤٹ پٹ
سرگوشی 0.43 ہم مشین کی روشنی کے ساتھ بہت پرجوش وقت میں رہ رہے ہیں۔ ایم ایل ماڈل کی ترقی کی رفتار واقعی میں بڑھے گی۔ لیکن آپ اس آخری حالت تک نہیں پہنچ پائیں گے جو ہم اگلے آنے والے سالوں میں جیت گئے تھے۔ جب تک کہ ہم ان ماڈلز کو ہر ایک کے لیے زیادہ قابل رسائی نہ بنائیں۔
سرگوشی کی بنیاد 0.49 ہم مشین لرننگ کے ساتھ بہت پرجوش دور میں جی رہے ہیں۔ ایم ایل ماڈل کی ترقی کی رفتار واقعی میں بڑھے گی۔ لیکن آپ اس آخری حالت تک نہیں پہنچ پائیں گے جو ہم اگلے آنے والے سالوں میں جیت گئے تھے۔ جب تک کہ ہم ان ماڈلز کو ہر ایک کے لیے زیادہ قابل رسائی نہ بنائیں۔
سرگوشی - چھوٹا 0.84 ہم مشین لرننگ کے ساتھ بہت پرجوش دور میں جی رہے ہیں۔ ایم ایل ماڈل کی ترقی کی رفتار واقعی میں بڑھے گی۔ لیکن آپ اس آخری حالت تک نہیں پہنچ پائیں گے جو ہم اگلے آنے والے سالوں میں چاہتے ہیں جب تک کہ ہم ان ماڈلز کو ہر ایک کے لیے زیادہ قابل رسائی نہ بنائیں۔
وسوسہ 1.5 ہم مشین لرننگ کے ساتھ بہت پرجوش دور میں جی رہے ہیں۔ ایم ایل ماڈل کی ترقی کی رفتار واقعی میں بڑھے گی۔ لیکن آپ اس آخری حالت تک نہیں پہنچ پائیں گے جو ہم اگلے آنے والے سالوں میں چاہتے ہیں جب تک کہ ہم ان ماڈلز کو ہر ایک کے لیے زیادہ قابل رسائی نہ بنائیں۔
سرگوشی بڑی 1.96 ہم مشین لرننگ کے ساتھ بہت پرجوش دور میں جی رہے ہیں۔ ایم ایل ماڈل کی ترقی کی رفتار واقعی میں بڑھے گی۔ لیکن آپ اس آخری حالت تک نہیں پہنچ پائیں گے جو ہم اگلے آنے والے سالوں میں چاہتے ہیں جب تک کہ ہم ان ماڈلز کو ہر ایک کے لیے زیادہ قابل رسائی نہ بنائیں۔
whisper-large-v2 1.98 ہم مشین لرننگ کے ساتھ بہت پرجوش دور میں جی رہے ہیں۔ ایم ایل ماڈل کی ترقی کی رفتار واقعی میں بڑھے گی۔ لیکن آپ اس آخری حالت تک نہیں پہنچ پائیں گے جو ہم اگلے آنے والے سالوں میں چاہتے ہیں جب تک کہ ہم ان ماڈلز کو ہر ایک کے لیے زیادہ قابل رسائی نہ بنائیں۔

حل واک تھرو

آپ ایمیزون سیج میکر کنسول کا استعمال کرتے ہوئے یا ایمیزون سیج میکر نوٹ بک کا استعمال کرتے ہوئے وسپر ماڈل تعینات کرسکتے ہیں۔ اس پوسٹ میں، ہم یہ ظاہر کرتے ہیں کہ کس طرح SageMaker اسٹوڈیو کنسول یا SageMaker نوٹ بک کا استعمال کرتے ہوئے Whisper API کو تعینات کیا جائے اور پھر اسپیچ ریکگنیشن اور زبان کے ترجمے کے لیے تعینات ماڈل کا استعمال کریں۔ اس پوسٹ میں استعمال شدہ کوڈ میں پایا جا سکتا ہے۔ یہ GitHub نوٹ بک.

آئیے ہر قدم کو تفصیل سے بڑھاتے ہیں۔

کنسول سے وسپر تعینات کریں۔

  1. سیج میکر جمپ اسٹارٹ کے ساتھ شروع کرنے کے لیے، ایمیزون سیج میکر اسٹوڈیو کنسول کھولیں اور سیج میکر جمپ اسٹارٹ کے لانچ پیج پر جائیں اور منتخب کریں۔ جمپ اسٹارٹ کے ساتھ شروع کریں۔.
  2. Whisper ماڈل کو منتخب کرنے کے لیے، آپ یا تو اوپر والے ٹیبز کو استعمال کر سکتے ہیں یا اوپر دائیں طرف سرچ باکس استعمال کر سکتے ہیں جیسا کہ درج ذیل اسکرین شاٹ میں دکھایا گیا ہے۔ اس مثال کے لیے، اوپر دائیں جانب سرچ باکس کا استعمال کریں اور درج کریں۔ Whisper، اور پھر ڈراپ ڈاؤن مینو سے مناسب وسپر ماڈل منتخب کریں۔
    Whisper models for automatic speech recognition now available in Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  3. وسپر ماڈل کو منتخب کرنے کے بعد، آپ ماڈل کو تعینات کرنے کے لیے کنسول استعمال کر سکتے ہیں۔ آپ تعیناتی کے لیے ایک مثال منتخب کر سکتے ہیں یا ڈیفالٹ استعمال کر سکتے ہیں۔
    Whisper models for automatic speech recognition now available in Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

سیج میکر نوٹ بک سے فاؤنڈیشن ماڈل لگائیں۔

مختلف کاموں کو حل کرنے کے لیے پہلے تعینات کرنے اور پھر تعینات کردہ ماڈل کو استعمال کرنے کے اقدامات یہ ہیں:

  1. قائم
  2. ایک ماڈل منتخب کریں۔
  3. نمونے بازیافت کریں اور ایک اختتامی نقطہ تعینات کریں۔
  4. ASR کے لیے تعینات ماڈل استعمال کریں۔
  5. زبان کے ترجمے کے لیے تعینات ماڈل استعمال کریں۔
  6. اختتامی نقطہ کو صاف کریں۔

قائم

اس نوٹ بک کا تجربہ سیج میکر اسٹوڈیو میں ایک ml.t3.medium مثال پر Python 3 (ڈیٹا سائنس) کرنل کے ساتھ کیا گیا تھا اور Amazon SageMaker نوٹ بک مثال میں conda_python3 دانا

%pip install --upgrade sagemaker --quiet

پہلے سے تربیت یافتہ ماڈل منتخب کریں۔

Boto3 کا استعمال کرتے ہوئے سیج میکر سیشن ترتیب دیں، اور پھر وہ ماڈل ID منتخب کریں جسے آپ تعینات کرنا چاہتے ہیں۔

model_id = "huggingface-asr-whisper-large-v2"

نمونے بازیافت کریں اور ایک اختتامی نقطہ تعینات کریں۔

SageMaker کا استعمال کرتے ہوئے، آپ پہلے سے تربیت یافتہ ماڈل کا اندازہ لگا سکتے ہیں، یہاں تک کہ اسے کسی نئے ڈیٹاسیٹ پر پہلے ٹھیک بنائے بغیر۔ پہلے سے تربیت یافتہ ماڈل کی میزبانی کرنے کے لیے، کی ایک مثال بنائیں sagemaker.model.Model اور اسے تعینات کریں. درج ذیل کوڈ ڈیفالٹ مثال کا استعمال کرتا ہے۔ ml.g5.2xlarge whisper-large-v2 ماڈل کے انفرنس اینڈ پوائنٹ کے لیے۔ آپ پاس کر کے ماڈل کو دوسری مثال کی اقسام پر تعینات کر سکتے ہیں۔ instance_type میں JumpStartModel کلاس تعیناتی میں چند منٹ لگ سکتے ہیں۔

#Deploying the model from sagemaker.jumpstart.model import JumpStartModel
from sagemaker.serializers import JSONSerializer my_model = JumpStartModel(model_id=dropdown.value)
predictor = my_model.deploy()

خودکار تقریر کی پہچان

اس کے بعد، آپ SageMaker جمپ سٹارٹ پبلک سے نمونہ آڈیو فائل، sample1.wav پڑھتے ہیں۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3) مقام اور اسے منتقل کریں پیش گو تقریر کی شناخت کے لیے۔ آپ اس نمونے کی فائل کو کسی بھی دوسرے نمونے کی آڈیو فائل سے بدل سکتے ہیں لیکن اس بات کو یقینی بنائیں کہ .wav فائل کا نمونہ 16 kHz پر لیا گیا ہے کیونکہ خودکار اسپیچ ریکگنیشن ماڈلز کی ضرورت ہے۔ ان پٹ آڈیو فائل 30 سیکنڈ سے کم ہونی چاہیے۔

from scipy.io.wavfile import read
import json
import boto3
from sagemaker.jumpstart import utils # The wav files must be sampled at 16kHz (this is required by the automatic speech recognition models), so make sure to resample them if required. The input audio file must be less than 30 seconds.
s3_bucket = utils.get_jumpstart_content_bucket(boto3.Session().region_name)
key_prefix = "training-datasets/asr_notebook_data"
input_audio_file_name = "sample1.wav" s3_client = boto3.client("s3")
s3_client.download_file(s3_bucket, f"{key_prefix}/{input_audio_file_name }", input_audio_file_name ) with open(input_audio_file_name, "rb") as file: wav_file_read = file.read() # If you receive client error (413) please check the payload size to the endpoint. Payloads for SageMaker invoke endpoint requests are limited to about 5MB
response = predictor.predict(wav_file_read)
print(response["text"])

اندازہ لگاتے وقت یہ ماڈل بہت سے پیرامیٹرز کو سپورٹ کرتا ہے۔ ان میں شامل ہیں:

  • max_length: ماڈل آؤٹ پٹ کی لمبائی تک متن تیار کرتا ہے۔ اگر بیان کیا جائے تو یہ ایک مثبت عدد ہونا چاہیے۔
  • زبان اور کام: یہاں آؤٹ پٹ کی زبان اور کام کی وضاحت کریں۔ ماڈل نقل یا ترجمہ کے کام کی حمایت کرتا ہے۔
  • max_new_tokens: پیدا کرنے کے لیے ٹوکن کی زیادہ سے زیادہ تعداد۔
  • num_return_sequences: آؤٹ پٹ سیکونسز کی تعداد لوٹائی گئی۔ اگر بیان کیا جائے تو یہ ایک مثبت عدد ہونا چاہیے۔
  • num_beams: لالچی تلاش میں استعمال ہونے والے شہتیروں کی تعداد۔ اگر متعین کیا جائے تو اس کا عدد اس سے بڑا یا اس کے برابر ہونا چاہیے۔ num_return_sequences.
  • no_repeat_ngram_size: ماڈل اس بات کو یقینی بناتا ہے کہ الفاظ کی ایک ترتیب no_repeat_ngram_size آؤٹ پٹ ترتیب میں دہرایا نہیں جاتا ہے۔ اگر بیان کیا جائے تو یہ 1 سے بڑا مثبت عدد ہونا چاہیے۔
  • درجہ حرارت: یہ آؤٹ پٹ میں بے ترتیب پن کو کنٹرول کرتا ہے۔ زیادہ درجہ حرارت کے نتیجے میں کم امکان والے الفاظ کے ساتھ آؤٹ پٹ کی ترتیب ہوتی ہے اور کم درجہ حرارت کے نتیجے میں زیادہ امکان والے الفاظ کے ساتھ آؤٹ پٹ کی ترتیب ہوتی ہے۔ اگر درجہ حرارت 0 تک پہنچ جاتا ہے، تو اس کے نتیجے میں لالچی ضابطہ کشائی ہوتی ہے۔ اگر بیان کیا گیا ہے، تو یہ ایک مثبت فلوٹ ہونا چاہیے۔
  • early_stopping: اگر Trueجب تمام بیم مفروضے جملے کے ٹوکن کے اختتام پر پہنچ جاتے ہیں تو ٹیکسٹ جنریشن ختم ہو جاتی ہے۔ اگر بیان کیا گیا ہے، تو یہ بولین ہونا چاہیے۔
  • do_sample: اگر True، امکان کے لیے اگلے لفظ کا نمونہ لیں۔ اگر بیان کیا گیا ہے، تو یہ بولین ہونا چاہیے۔
  • top_k: ٹیکسٹ جنریشن کے ہر مرحلے میں، صرف سے نمونہ top_k سب سے زیادہ امکان الفاظ. اگر بیان کیا جائے تو یہ ایک مثبت عدد ہونا چاہیے۔
  • top_p: متن کی تخلیق کے ہر مرحلے میں، مجموعی امکان کے ساتھ الفاظ کے سب سے چھوٹے ممکنہ سیٹ سے نمونہ لیں۔ top_p. اگر متعین کیا جائے تو یہ 0 اور 1 کے درمیان فلوٹ ہونا چاہیے۔

اختتامی نقطہ کی درخواست کرتے وقت آپ پچھلے پیرامیٹرز کے کسی بھی ذیلی سیٹ کی وضاحت کر سکتے ہیں۔ اگلا، ہم آپ کو ایک مثال دکھاتے ہیں کہ ان دلائل کے ساتھ اختتامی نقطہ کو کیسے پکارا جائے۔

زبان کا ترجمہ

Whisper ماڈلز کا استعمال کرتے ہوئے زبان کے ترجمہ کو دکھانے کے لیے، فرانسیسی میں درج ذیل آڈیو فائل کا استعمال کریں اور اس کا انگریزی میں ترجمہ کریں۔ فائل کا نمونہ 16 kHz پر ہونا چاہیے (جیسا کہ ASR ماڈلز کی ضرورت ہے)، اس لیے اگر ضرورت ہو تو فائلوں کو دوبارہ نمونہ بنانا یقینی بنائیں اور یقینی بنائیں کہ آپ کے نمونے 30 سیکنڈ سے زیادہ نہ ہوں۔

  1. ڈاؤن لوڈ، اتارنا sample_french1.wav SageMaker سے JumpStart عوامی S3 مقام سے تاکہ اسے Whisper ماڈل کے ذریعے ترجمہ کے لیے پے لوڈ میں پاس کیا جا سکے۔
    input_audio_file_name = "sample_french1.wav" s3_client.download_file(s3_bucket, f"{key_prefix}/{input_audio_file_name }", input_audio_file_name )

  2. ٹاسک پیرامیٹر کو بطور سیٹ کریں۔ translate اور زبان کے طور پر French وسپر ماڈل کو تقریر کا ترجمہ کرنے پر مجبور کرنا۔
    with open(input_audio_file_name, "rb") as file: wav_file_read = file.read() payload = {"audio_input": wav_file_read.hex(), "language": "french", "task": "translate"} predictor.serializer = JSONSerializer()
    predictor.content_type = "application/json"

  3. استعمال پیش گو زبان کے ترجمہ کی پیشن گوئی کرنے کے لیے۔ اگر آپ کو کلائنٹ کی غلطی (غلطی 413) موصول ہوتی ہے، تو اختتامی نقطہ پر پے لوڈ کا سائز چیک کریں۔ SageMaker کے لیے پے لوڈز اینڈ پوائنٹ کی درخواستیں تقریباً 5 MB تک محدود ہیں۔
    response = predictor.predict(payload)
    print(response["text"])

  4. فرانسیسی آڈیو فائل سے انگریزی میں ترجمہ شدہ ٹیکسٹ آؤٹ پٹ درج ذیل ہے:
    [' Welcome to JPBSystem. We have more than 150 employees and 90% of sales. We have developed about 15 patents.']

صاف کرو

اختتامی نقطہ کی جانچ کرنے کے بعد، SageMaker inference endpoint کو حذف کریں اور چارجز سے بچنے کے لیے ماڈل کو حذف کریں۔

نتیجہ

اس پوسٹ میں، ہم نے آپ کو Amazon SageMaker کا استعمال کرتے ہوئے دلچسپ ایپلی کیشنز بنانے کے لیے OpenAI Whisper ماڈل کی جانچ اور استعمال کرنے کا طریقہ دکھایا۔ آج ہی SageMaker میں فاؤنڈیشن ماڈل آزمائیں اور ہمیں اپنی رائے سے آگاہ کریں!

یہ رہنمائی صرف معلوماتی مقاصد کے لیے ہے۔ آپ کو اب بھی اپنی خود مختار تشخیص کرنی چاہیے اور اس بات کو یقینی بنانے کے لیے اقدامات کرنے چاہییں کہ آپ کوالٹی کنٹرول کے اپنے مخصوص طریقوں اور معیارات، اور مقامی قواعد، قوانین، ضوابط، لائسنس اور استعمال کی شرائط جو آپ پر لاگو ہوتے ہیں، آپ کے مواد، اور اس رہنمائی میں حوالہ دیا گیا تھرڈ پارٹی ماڈل۔ AWS کا اس رہنمائی میں حوالہ دیا گیا فریق ثالث ماڈل پر کوئی کنٹرول یا اختیار نہیں ہے اور وہ اس بات کی کوئی نمائندگی یا ضمانت نہیں دیتا ہے کہ فریق ثالث کا ماڈل محفوظ، وائرس سے پاک، آپریشنل، یا آپ کے پیداواری ماحول اور معیارات کے ساتھ مطابقت رکھتا ہے۔ AWS کوئی نمائندگی، ضمانت یا ضمانت نہیں دیتا ہے کہ اس رہنمائی میں کسی بھی معلومات کے نتیجے میں کوئی خاص نتیجہ یا نتیجہ نکلے گا۔


مصنفین کے بارے میں

Whisper models for automatic speech recognition now available in Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.ہیمنت سنگھ۔ ایمیزون سیج میکر جمپ اسٹارٹ میں تجربہ رکھنے والا ایک اپلائیڈ سائنٹسٹ ہے۔ انہوں نے کورنٹ انسٹی ٹیوٹ آف میتھمیٹیکل سائنسز سے ماسٹرز کیا اور آئی آئی ٹی دہلی سے بی ٹیک کیا۔ اسے قدرتی زبان کی پروسیسنگ، کمپیوٹر ویژن، اور ٹائم سیریز کے تجزیہ کے ڈومین میں مشین لرننگ کے مسائل کی ایک متنوع رینج پر کام کرنے کا تجربہ ہے۔

Whisper models for automatic speech recognition now available in Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.رچنا چڈا AWS میں اسٹریٹجک اکاؤنٹس میں ایک پرنسپل حل آرکیٹیکٹ AI/ML ہے۔ رچنا ایک پر امید ہیں جو یقین رکھتی ہیں کہ AI کا اخلاقی اور ذمہ دارانہ استعمال مستقبل میں معاشرے کو بہتر بنا سکتا ہے اور معاشی اور سماجی خوشحالی لا سکتا ہے۔ اپنے فارغ وقت میں، رچنا اپنے خاندان کے ساتھ وقت گزارنا، پیدل سفر کرنا اور موسیقی سننا پسند کرتی ہے۔

Whisper models for automatic speech recognition now available in Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.ڈاکٹر آشیش کھیتان Amazon SageMaker بلٹ ان الگورتھم کے ساتھ ایک سینئر اپلائیڈ سائنٹسٹ ہے اور مشین لرننگ الگورتھم تیار کرنے میں مدد کرتا ہے۔ انہوں نے یونیورسٹی آف الینوائے اربانا-چمپین سے پی ایچ ڈی کی۔ وہ مشین لرننگ اور شماریاتی اندازہ میں ایک فعال محقق ہے، اور اس نے NeurIPS، ICML، ICLR، JMLR، ACL، اور EMNLP کانفرنسوں میں بہت سے مقالے شائع کیے ہیں۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ