سے ہر چیز پیدا کرنے کے لیے AI کا استعمال کیا جا رہا ہے۔ تصاویر کرنے کے لئے متن کرنے کے لئے مصنوعی پروٹین، اور اب فہرست میں ایک اور چیز شامل کی گئی ہے: تقریر۔ گزشتہ ہفتے سے محققین مائیکروسافٹ نے ایک کاغذ جاری کیا VALL-E نامی ایک نئی AI پر جو صرف تین سیکنڈ طویل نمونے کی بنیاد پر کسی کی آواز کو درست طریقے سے نقل کر سکتا ہے۔ VALL-E پہلا اسپیچ سمیلیٹر نہیں ہے جسے بنایا گیا ہے، لیکن یہ اپنے پیشروؤں سے مختلف انداز میں بنایا گیا ہے — اور ممکنہ غلط استعمال کا زیادہ خطرہ لے سکتا ہے۔
زیادہ تر موجودہ ٹیکسٹ ٹو اسپیچ ماڈل جعلی آوازیں بنانے کے لیے ویوفارمز (آواز کی لہروں کی تصویری نمائندگی جب وہ وقت گزرنے کے ساتھ ساتھ درمیانے درجے سے گزرتے ہیں) کا استعمال کرتے ہیں، کسی مخصوص آواز کے اندازے کے لیے ٹون یا پچ جیسی خصوصیات کو ٹیویک کرنا۔ VALL-E، اگرچہ، کسی کی آواز کا نمونہ لیتا ہے اور اسے ٹوکنز کہلانے والے اجزاء میں تقسیم کرتا ہے، پھر ان ٹوکنز کا استعمال اس آواز کے بارے میں پہلے سے سیکھے ہوئے "قواعد" کی بنیاد پر نئی آوازیں بنانے کے لیے کرتا ہے۔ اگر کوئی آواز خاص طور پر گہری ہے، یا کوئی اسپیکر اپنے A کا نصیحت کے ساتھ تلفظ کرتا ہے، یا وہ اوسط سے زیادہ یک آواز ہیں، تو یہ وہ تمام خصلتیں ہیں جنہیں AI اختیار کرے گا اور نقل کرنے کے قابل ہوگا۔
ماڈل ایک ٹیکنالوجی پر مبنی ہے جسے کہا جاتا ہے EnCodec بذریعہ میٹا، جو ابھی اکتوبر کے اس حصے میں جاری کیا گیا تھا۔ یہ ٹول ایک تین حصوں کا نظام استعمال کرتا ہے تاکہ آڈیو کو MP10 سے 3 گنا چھوٹے تک کوالٹی میں کوئی نقصان نہ ہو۔ اس کے تخلیق کاروں کا مقصد کم بینڈوتھ کنکشن پر کی جانے والی کالوں پر آواز اور موسیقی کے معیار کو بہتر بنانا تھا۔
VALL-E کو تربیت دینے کے لیے، اس کے تخلیق کاروں نے ایک آڈیو لائبریری کا استعمال کیا جسے کہا جاتا ہے۔ لائبری لائٹجس کی 60,000 گھنٹے کی انگریزی تقریر بنیادی طور پر آڈیو بک بیانیہ پر مشتمل ہے۔ ماڈل اس وقت اپنے بہترین نتائج دیتا ہے جب سنتھیسائز کی جانے والی آواز تربیتی لائبریری کی آوازوں میں سے ایک سے ملتی جلتی ہو (جس میں سے 7,000 سے زیادہ ہیں، اس لیے یہ آرڈر سے زیادہ لمبا نہیں ہونا چاہیے)۔
کسی کی آواز کو دوبارہ بنانے کے علاوہ، VALL-E تین سیکنڈ کے نمونے سے آڈیو ماحول کو بھی نقل کرتا ہے۔ فون پر ریکارڈ کیا گیا ایک کلپ ذاتی طور پر بنائے گئے کلپ سے مختلف ہوگا، اور اگر آپ بات کرتے ہوئے چلتے یا گاڑی چلا رہے ہیں، تو ان منظرناموں کی منفرد صوتی صوتی کو مدنظر رکھا جاتا ہے۔
میں سے کچھ نمونے کافی حد تک حقیقت پسندانہ لگتی ہے، جبکہ دیگر اب بھی واضح طور پر کمپیوٹر سے تیار کردہ ہیں۔ لیکن آوازوں کے درمیان نمایاں فرق موجود ہیں۔ آپ بتا سکتے ہیں کہ وہ ان لوگوں پر مبنی ہیں جن کے بولنے کے انداز، پچ اور لہجے کے انداز مختلف ہیں۔
VALL-E بنانے والی ٹیم جانتی ہے کہ اسے برے اداکار بہت آسانی سے استعمال کر سکتے ہیں۔ سیاستدانوں یا مشہور شخصیات کے جعلی آواز کے کاٹنے سے لے کر فون پر رقم یا معلومات کی درخواست کرنے کے لیے مانوس آوازوں کا استعمال کرنے تک، ٹیکنالوجی سے فائدہ اٹھانے کے بے شمار طریقے ہیں۔ انہوں نے دانشمندی کے ساتھ VALL-E کے کوڈ کو عوامی طور پر دستیاب کرنے سے گریز کیا ہے، اور اپنے مقالے کے آخر میں ایک اخلاقیات کا بیان شامل کیا ہے (جو کسی ایسے شخص کو روکنے کے لیے زیادہ کام نہیں کرے گا جو AI کو مذموم مقاصد کے لیے استعمال کرنا چاہتا ہے)۔
اس سے پہلے کہ اسی طرح کے ٹولز کے سامنے آنے اور غلط ہاتھوں میں گرنے سے پہلے یہ صرف وقت کی بات ہے۔ محققین ان خطرات کا مشورہ دیتے ہیں جو VALL-E جیسے ماڈل پیش کریں گے، پتہ لگانے کے ماڈل بنا کر یہ اندازہ لگایا جا سکتا ہے کہ آیا آڈیو کلپس اصلی ہیں یا ترکیب شدہ۔ اگر ہمیں AI سے بچانے کے لیے AI کی ضرورت ہے، تو کیسے جانیں گے کہ آیا ان ٹیکنالوجیز کا خالص مثبت اثر ہو رہا ہے؟ وقت ہی بتائے گا.
تصویری کریڈٹ: Shutterstock.com/تانچا
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو بلاک چین۔ Web3 Metaverse Intelligence. علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- قابلیت
- ہمارے بارے میں
- اکاؤنٹ
- درست طریقے سے
- شامل کیا
- فائدہ
- AI
- تمام
- پہلے ہی
- اور
- ایک اور
- کسی
- آڈیو
- دستیاب
- اوسط
- برا
- کی بنیاد پر
- اس سے پہلے
- کیا جا رہا ہے
- BEST
- کے درمیان
- وقفے
- عمارت
- تعمیر
- کہا جاتا ہے
- کالز
- لے جانے کے
- مشہور
- خصوصیات
- کلپس
- کوڈ
- اجزاء
- کمپیوٹر سے تیار کردہ
- کنکشن
- سکتا ہے
- تخلیق
- بنائی
- تخلیق کاروں
- کریڈٹ
- گہری
- کھوج
- اختلافات
- مختلف
- نیچے
- ڈرائیونگ
- آسانی سے
- انگریزی
- ماحولیات
- اخلاقیات
- سب کچھ
- موجودہ
- فیس بک
- کافی
- جعلی
- گر
- واقف
- پہلا
- سے
- پیدا
- GitHub کے
- دی
- زیادہ سے زیادہ
- ہاتھوں
- ہونے
- HOURS
- کس طرح
- HTTPS
- اثر
- کو بہتر بنانے کے
- in
- شامل
- معلومات
- IT
- جان
- آخری
- سیکھا ہے
- لائبریری
- امکان
- لسٹ
- لانگ
- بند
- بنا
- بنانا
- معاملہ
- درمیانہ
- ماڈل
- ماڈل
- قیمت
- زیادہ
- منتقل
- موسیقی
- ضرورت ہے
- خالص
- نئی
- اکتوبر
- ایک
- حکم
- دیگر
- کاغذ.
- حصہ
- خاص طور پر
- پیٹرن
- لوگ
- انسان
- فون
- لینے
- پچ
- پچ
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- سیاستدان
- مثبت
- ممکنہ
- حال (-)
- بنیادی طور پر
- حفاظت
- عوامی طور پر
- مقاصد
- معیار
- اصلی
- حقیقت
- درج
- جاری
- درخواست
- محققین
- نتائج کی نمائش
- رسک
- خطرات
- منظرنامے
- سیکنڈ
- Shutterstock کی
- اسی طرح
- سمیلیٹر
- چھوٹے
- So
- آواز
- اسپیکر
- بات
- تقریر
- موسم بہار
- بیان
- ابھی تک
- کے نظام
- لے لو
- لیتا ہے
- بات کر
- ٹیم
- ٹیکنالوجی
- ٹیکنالوجی
- متن سے تقریر۔
- ۔
- ان
- بات
- تین
- کے ذریعے
- وقت
- اوقات
- کرنے کے لئے
- ٹوکن
- سر
- بھی
- کے آلے
- اوزار
- ٹرین
- ٹریننگ
- tweaking
- منفرد
- us
- استعمال کی شرائط
- وائس
- آوازیں
- چلنا
- لہروں
- طریقوں
- ہفتے
- چاہے
- جس
- جبکہ
- ڈبلیو
- گے
- گا
- غلط
- غلط ہاتھ
- پیداوار
- تم
- اور
- زیفیرنیٹ