How Süddeutsche Zeitung Optimized Their Audio Narration Process With Amazon Polly

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

یہ Süddeutsche Zeitung کے ایک سافٹ ویئر ڈویلپر Jakob Kohl کی ایک مہمان پوسٹ ہے۔ Süddeutsche Zeitung جرمنی کے معروف معیاری روزناموں میں سے ایک ہے جب بات ادائیگی کی سبسکرپشنز اور منفرد صارفین کی ہوتی ہے۔ اس کی ویب سائٹ، SZ.deاکتوبر 15 تک 2021 ملین سے زیادہ ماہانہ منفرد صارفین تک پہنچ گیا ہے۔

سمارٹ اسپیکرز اور پوڈ کاسٹس کی بدولت، آڈیو انڈسٹری نے حالیہ برسوں میں ایک حقیقی عروج کا تجربہ کیا ہے۔ پر سوڈڈیوچ Zeitung، ہم اپنی متنوع صحافت کو مزید قابل رسائی بنانے کے لیے مسلسل نئے طریقے تلاش کر رہے ہیں۔ ڈیجیٹل جرنلزم کے علمبردار کے طور پر، ہم اس کے لیے مزید مواقع کھولنا چاہتے ہیں۔ سوڈڈیوچ Zeitung قارئین مضامین کا استعمال کریں۔ ہم نے ایسے حل تلاش کرنا شروع کیے جو ہمارے مضامین کے لیے اعلیٰ معیار کی آڈیو بیانیہ فراہم کر سکیں۔ ہمارا حتمی مقصد "مضمون کو سنیں" کی خصوصیت شروع کرنا تھا۔

اس پوسٹ میں، ہم شیئر کرتے ہیں کہ ہم نے اپنے آڈیو بیان کے عمل کو Amazon Polly کے ساتھ کس طرح بہتر بنایا، ایک ایسی سروس جو بدل جاتی ہے۔ زندگی بھر کی تقریر میں متن اعلی درجے کی گہری سیکھنے کی ٹیکنالوجی کا استعمال کرتے ہوئے.

ایمیزون پولی کیوں؟

ہمیں یقین ہے کہ وکی، جرمن نیورل ایمیزون پولی آواز، فی الحال مارکیٹ میں بہترین جرمن آواز ہے۔ ایمیزون پولی کو متاثر کن خصوصیت پیش کرتا ہے۔ زبانوں کے مابین سوئچ کریں, مثال کے طور پر انگریزی فلم کے عنوانات کے ساتھ ساتھ مختلف زبانوں میں ذاتی ناموں کا صحیح طور پر تلفظ کرنا (مثال کے طور پر، مضمون سنیں شال اینڈ واہن ہماری ویب سائٹ پر)۔

ہمارے بنیادی ڈھانچے کا ایک بڑا حصہ پہلے ہی AWS پر چلتا ہے، لہذا ایمیزون پولی کا استعمال کرتے ہوئے ایک مکمل فٹ تھا. ہم Amazon Polly کو درج ذیل اجزاء کے ساتھ جوڑ سکتے ہیں:

An ایمیزون سادہ نوٹیفکیشن سروس (ایمیزون ایس این ایس) موضوع جس پر ہم مضامین کے لیے سبسکرائب کر سکتے ہیں۔ مضامین اس موضوع پر CMS کے ذریعہ بھیجے جاتے ہیں جب بھی وہ ایڈیٹر کے ذریعہ محفوظ کیے جاتے ہیں۔
An ایمیزون CloudFront کے ساتھ تقسیم لیمبڈا @ ایج پے وال پریمیم آرٹیکلز کے لیے، جسے ہم آرٹیکلز کے آڈیو ورژنز کے لیے دوبارہ استعمال کر سکتے ہیں۔

۔ ایمیزون پولی API استعمال میں آسان اور اچھی طرح سے دستاویزی ہے۔ کام کرنے کے لیے اپنے تصور کا ثبوت حاصل کرنے میں ہمیں ایک ہفتے سے بھی کم وقت لگا۔

للکار

SZ.de پر روزانہ سینکڑوں نئے مضامین شائع ہوتے ہیں۔ ابتدائی اشاعت کے بعد، وہ مختلف وجوہات کی بناء پر کئی بار اپ ڈیٹ ہو سکتے ہیں — خبروں سے چلنے والے مضامین میں نئے پیراگراف شامل کیے جاتے ہیں، ٹائپنگ کی غلطیوں کو درست کیا جاتا ہے، ٹیزر تبدیل کیے جاتے ہیں، یا میٹا ڈیٹا کو سرچ انجنوں کے لیے بہتر بنایا جاتا ہے۔

کسی مضمون کی ابتدائی اشاعت کے لیے تقریر پیدا کرنا سیدھا سیدھا ہے، کیونکہ پورے متن کو سنتھیسائز کرنے کی ضرورت ہے۔ لیکن ہم ایک ہی مواد کے لیے دو بار ادائیگی کیے بغیر آرٹیکلز کے اپڈیٹ شدہ ورژنز کے لیے آڈیو کیسے تیزی سے تیار کر سکتے ہیں؟ ہمارا سب سے بڑا چیلنج ہر ایک اپ ڈیٹ کے لیے بار بار ایمیزون پولی کو پورا متن بھیجنے سے روکنا تھا۔

ہمارا تکنیکی حل

جب بھی ایڈیٹر کسی مضمون کو محفوظ کرتا ہے، مضمون کا نیا ورژن SNS موضوع پر شائع کیا جاتا ہے۔ ایک او ڈبلیو ایس لامبڈا۔ فنکشن کو اس موضوع پر سبسکرائب کیا جاتا ہے اور مضمون کے ہر نئے ورژن کے لیے کہا جاتا ہے۔ یہ فنکشن درج ذیل مراحل پر چلتا ہے:

چیک کریں کہ آیا مضمون کا نیا ورژن پہلے ہی مکمل طور پر ترکیب کیا گیا ہے۔ اگر ایسا ہے تو، فنکشن فوری طور پر رک جاتا ہے (یہ اس وقت ہوسکتا ہے جب صرف میٹا ڈیٹا کو تبدیل کیا جائے جو آڈیو کو متاثر نہیں کرتا ہے)۔
مضمون کو متعدد میں تبدیل کریں۔ SSML دستاویزاتہر متن کے پیراگراف کے لیے تقریباً ایک۔
ہر SSML دستاویز کے لیے، فنکشن چیک کرتا ہے کہ آیا یہ کیلکولیٹڈ ہیشز کا استعمال کرتے ہوئے آڈیو میں پہلے سے ہی ترکیب کیا گیا ہے۔ مثال کے طور پر:
1. اگر کوئی مضمون پہلی بار محفوظ کیا جاتا ہے، تو تمام SSML دستاویزات کو ترکیب کیا جانا چاہیے۔
2. اگر کسی ایک پیراگراف میں ٹائپنگ کی غلطی کو ٹھیک کر دیا گیا ہے، تو اس پیراگراف کے لیے صرف SSML دستاویز کو دوبارہ سنتھیسائز کیا جانا چاہیے۔
3. اگر مضمون میں ایک نیا پیراگراف شامل کیا جاتا ہے، تو اس نئے پیراگراف کے لیے صرف SSML دستاویز کی ترکیب ہونی چاہیے۔
تمام ابھی تک ترکیب شدہ SSML دستاویزات الگ الگ Amazon Polly کو بھیجیں۔

یہ چیک کارکردگی کو بہتر بنانے میں مدد کرتے ہیں اور ایک پورے مضمون کی متعدد بار ترکیب کو روک کر لاگت کو کم کرتے ہیں۔ SEO وجوہات کی بنا پر ٹائٹل میں ترمیم یا میٹا ڈیٹا ایڈجسٹمنٹ جیسی معمولی تبدیلیوں کی وجہ سے ہم اضافی چارجز لینے سے گریز کرتے ہیں۔

مندرجہ ذیل خاکہ حل ورک فلو کی وضاحت کرتا ہے۔

ایمیزون پولی SSML دستاویزات کی ترکیب کے بعد، آڈیو فائلوں کو آؤٹ پٹ بالٹی میں بھیج دیا جاتا ہے ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)۔ لیمبڈا کا دوسرا فنکشن اس بالٹی پر آبجیکٹ کی تخلیق کے لیے سن رہا ہے، مضمون کے تمام آڈیو ٹکڑوں کے مکمل ہونے کا انتظار کرتا ہے، اور ان کو استعمال کرتے ہوئے حتمی آڈیو فائل میں ضم کر دیتا ہے۔ لیمبڈا پرت سے FFmpeg. یہ حتمی آڈیو ایک اور S3 بالٹی کو بھیجا جاتا ہے، جو ہماری CloudFront تقسیم میں اصل کے طور پر استعمال ہوتا ہے۔ CloudFront میں، ہم متعلقہ آڈیو ورژن کے لیے پریمیم آرٹیکلز کے لیے موجودہ پے وال کو دوبارہ استعمال کرتے ہیں۔

ہمارے فریمیم ماڈل کی بنیاد پر، ہم پریمیم آرٹیکلز کا مختصر آڈیو ورژن فراہم کرتے ہیں۔ غیر سبسکرائبرز پہلا پیراگراف مفت میں سن سکتے ہیں، لیکن مکمل مضمون تک رسائی کے لیے سبسکرپشن خریدنا ضروری ہے۔

نتیجہ

ہمارے موجودہ انفراسٹرکچر میں ایمیزون پولی کا انضمام بہت سیدھا تھا۔ ہمارے مواد کو کم سے کم تخصیص کی ضرورت ہے کیونکہ ہم صرف پیراگراف اور کچھ اضافی وقفے شامل کرتے ہیں۔ سب سے مشکل حصہ کارکردگی اور لاگت کی اصلاح تھا، جسے ہم نے پیراگراف کے مطابق متعدد SSML دستاویزات میں تقسیم کرکے، ہر SSML دستاویز میں تبدیلیوں کی جانچ کرکے، اور ٹکڑوں کو ضم کرکے پوری آڈیو فائل بنا کر حاصل کیا۔ ان اصلاحوں کے ساتھ، ہم درج ذیل حاصل کرنے کے قابل ہیں:

صرف حقیقی تبدیلیوں کی ترکیب کرکے ترکیب شدہ حروف کی مقدار کو کم از کم 50% تک کم کریں۔
آڈیو میں مضمون کے متن میں تبدیلی کے لیے لگنے والے وقت کو کم کریں کیونکہ سنتھیسائز کرنے کے لیے کم آڈیو موجود ہے۔
پورے مضمون کو دوبارہ ترکیب کیے بغیر پیراگراف کے درمیان من مانی آڈیو فائلیں شامل کریں۔ مثال کے طور پر، ہم پریمیم آرٹیکلز کے مختصر آڈیو ورژن میں ایک ساؤنڈ فائل شامل کر سکتے ہیں تاکہ پہلے پیراگراف کو آنے والے نوٹ سے الگ کیا جا سکے کہ مکمل ورژن سننے کے لیے سبسکرپشن کی ضرورت ہے۔

ہمارے SZ.de مضامین میں "مضمون کو سنیں" کی خصوصیت کے آغاز کے بعد پہلے مہینے میں، ہمیں صارفین کی کافی مثبت رائے ملی۔ ہم لانچ کے بعد پہلے 30,000 ماہ کے دوران تقریباً 2 صارفین تک پہنچنے میں کامیاب رہے۔ ان صارفین سے، تقریباً 200 صرف ہمارے پے وال کے پیچھے ایک مضمون کا ٹیزر سن کر ادائیگی کی سبسکرپشن میں تبدیل ہوئے۔ "مضمون کو سنیں" کی خصوصیت ہماری پے وال کے پیچھے نہیں ہے، لیکن صارفین صرف پریمیم مضامین کو مکمل طور پر سن سکتے ہیں اگر ان کے پاس سبسکرپشن ہو۔ ہماری ویب سائٹ پے وال کے بغیر مفت مضامین بھی پیش کرتی ہے۔ مستقبل میں، ہم اس خصوصیت کو دوسرے SZ پلیٹ فارمز، خاص طور پر اپنی موبائل نیوز ایپس تک پھیلائیں گے۔

مصنف کے بارے میں

جیکب کوہل Süddeutsche Zeitung میں ایک سافٹ ویئر ڈویلپر ہے، جہاں وہ ایک چست ویب سائٹ ٹیم پر جدید ٹیکنالوجیز کے ساتھ کام کرنے سے لطف اندوز ہوتا ہے۔ وہ "SZ آرٹیکل سنیں" فیچر کے اہم ڈویلپرز میں سے ایک ہے۔ اپنے فارغ وقت میں، وہ لکڑی کا فرنیچر بنانا پسند کرتے ہیں، جہاں تکنیکی اور بصری ڈیزائن بھی اتنا ہی اہم ہے جتنا ویب ڈویلپمنٹ میں۔

ٹائم اسٹیمپ: 11 فروری 2022

ML ماڈل کی کارکردگی میں اضافہ کریں اور Amazon SageMaker پہلے سے تربیت یافتہ ماڈلز PlatoBlockchain Data Intelligence کے ساتھ بلٹ ان الگورتھم کا استعمال کرتے ہوئے تربیت کا وقت کم کریں۔ عمودی تلاش۔ عی

ایم ایل ماڈل کی کارکردگی میں اضافہ کریں اور پہلے سے تربیت یافتہ ماڈلز کے ساتھ ایمیزون سیج میکر بلٹ ان الگورتھم کا استعمال کرتے ہوئے تربیت کا وقت کم کریں۔

ماخذ کلسٹر:

AWS مشین لرننگ

ماخذ نوڈ: 1719203

ٹائم اسٹیمپ: اکتوبر 6، 2022

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

ایمیزون سیج میکر ڈیٹا رینگلر کی نئی ایمبیڈڈ ویژولائزیشنز کا تعارف

AWS سرور لیس اور مشین لرننگ سروسز کا استعمال کرتے ہوئے ریئل ٹائم فراڈ کا پتہ لگانا

AWS AI سروس کارڈز کا تعارف: شفافیت کو بڑھانے اور ذمہ دار AI کو آگے بڑھانے کے لیے ایک نیا وسیلہ

AWS مقصد سے بنائے گئے ایکسلریٹر کے ساتھ اپنے مشین لرننگ ورک بوجھ کی توانائی کی کھپت کو %90 تک کم کریں۔ ایمیزون ویب سروسز

ایمیزون سیج میکر کے ساتھ ہزاروں ایم ایل ماڈلز کی اسکیل ٹریننگ اور انفرنس | ایمیزون ویب سروسز

ایم ایل ماڈل کی کارکردگی میں اضافہ کریں اور پہلے سے تربیت یافتہ ماڈلز کے ساتھ ایمیزون سیج میکر بلٹ ان الگورتھم کا استعمال کرتے ہوئے تربیت کا وقت کم کریں۔

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ