مائیکروسافٹ کا نیا AI صرف 3 سیکنڈ میں آپ کی آواز کا کلون بنا سکتا ہے۔

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

Microsoft’s New AI Can Clone Your Voice in Just 3 Seconds PlatoBlockchain Data Intelligence. Vertical Search. Ai.

سے ہر چیز پیدا کرنے کے لیے AI کا استعمال کیا جا رہا ہے۔ تصاویر کرنے کے لئے متن کرنے کے لئے مصنوعی پروٹین، اور اب فہرست میں ایک اور چیز شامل کی گئی ہے: تقریر۔ گزشتہ ہفتے سے محققین مائیکروسافٹ نے ایک کاغذ جاری کیا VALL-E نامی ایک نئی AI پر جو صرف تین سیکنڈ طویل نمونے کی بنیاد پر کسی کی آواز کو درست طریقے سے نقل کر سکتا ہے۔ VALL-E پہلا اسپیچ سمیلیٹر نہیں ہے جسے بنایا گیا ہے، لیکن یہ اپنے پیشروؤں سے مختلف انداز میں بنایا گیا ہے — اور ممکنہ غلط استعمال کا زیادہ خطرہ لے سکتا ہے۔

زیادہ تر موجودہ ٹیکسٹ ٹو اسپیچ ماڈل جعلی آوازیں بنانے کے لیے ویوفارمز (آواز کی لہروں کی تصویری نمائندگی جب وہ وقت گزرنے کے ساتھ ساتھ درمیانے درجے سے گزرتے ہیں) کا استعمال کرتے ہیں، کسی مخصوص آواز کے اندازے کے لیے ٹون یا پچ جیسی خصوصیات کو ٹیویک کرنا۔ VALL-E، اگرچہ، کسی کی آواز کا نمونہ لیتا ہے اور اسے ٹوکنز کہلانے والے اجزاء میں تقسیم کرتا ہے، پھر ان ٹوکنز کا استعمال اس آواز کے بارے میں پہلے سے سیکھے ہوئے "قواعد" کی بنیاد پر نئی آوازیں بنانے کے لیے کرتا ہے۔ اگر کوئی آواز خاص طور پر گہری ہے، یا کوئی اسپیکر اپنے A کا نصیحت کے ساتھ تلفظ کرتا ہے، یا وہ اوسط سے زیادہ یک آواز ہیں، تو یہ وہ تمام خصلتیں ہیں جنہیں AI اختیار کرے گا اور نقل کرنے کے قابل ہوگا۔

ماڈل ایک ٹیکنالوجی پر مبنی ہے جسے کہا جاتا ہے EnCodec بذریعہ میٹا، جو ابھی اکتوبر کے اس حصے میں جاری کیا گیا تھا۔ یہ ٹول ایک تین حصوں کا نظام استعمال کرتا ہے تاکہ آڈیو کو MP10 سے 3 گنا چھوٹے تک کوالٹی میں کوئی نقصان نہ ہو۔ اس کے تخلیق کاروں کا مقصد کم بینڈوتھ کنکشن پر کی جانے والی کالوں پر آواز اور موسیقی کے معیار کو بہتر بنانا تھا۔

VALL-E کو تربیت دینے کے لیے، اس کے تخلیق کاروں نے ایک آڈیو لائبریری کا استعمال کیا جسے کہا جاتا ہے۔ لائبری لائٹجس کی 60,000 گھنٹے کی انگریزی تقریر بنیادی طور پر آڈیو بک بیانیہ پر مشتمل ہے۔ ماڈل اس وقت اپنے بہترین نتائج دیتا ہے جب سنتھیسائز کی جانے والی آواز تربیتی لائبریری کی آوازوں میں سے ایک سے ملتی جلتی ہو (جس میں سے 7,000 سے زیادہ ہیں، اس لیے یہ آرڈر سے زیادہ لمبا نہیں ہونا چاہیے)۔

کسی کی آواز کو دوبارہ بنانے کے علاوہ، VALL-E تین سیکنڈ کے نمونے سے آڈیو ماحول کو بھی نقل کرتا ہے۔ فون پر ریکارڈ کیا گیا ایک کلپ ذاتی طور پر بنائے گئے کلپ سے مختلف ہوگا، اور اگر آپ بات کرتے ہوئے چلتے یا گاڑی چلا رہے ہیں، تو ان منظرناموں کی منفرد صوتی صوتی کو مدنظر رکھا جاتا ہے۔

میں سے کچھ نمونے کافی حد تک حقیقت پسندانہ لگتی ہے، جبکہ دیگر اب بھی واضح طور پر کمپیوٹر سے تیار کردہ ہیں۔ لیکن آوازوں کے درمیان نمایاں فرق موجود ہیں۔ آپ بتا سکتے ہیں کہ وہ ان لوگوں پر مبنی ہیں جن کے بولنے کے انداز، پچ اور لہجے کے انداز مختلف ہیں۔

VALL-E بنانے والی ٹیم جانتی ہے کہ اسے برے اداکار بہت آسانی سے استعمال کر سکتے ہیں۔ سیاستدانوں یا مشہور شخصیات کے جعلی آواز کے کاٹنے سے لے کر فون پر رقم یا معلومات کی درخواست کرنے کے لیے مانوس آوازوں کا استعمال کرنے تک، ٹیکنالوجی سے فائدہ اٹھانے کے بے شمار طریقے ہیں۔ انہوں نے دانشمندی کے ساتھ VALL-E کے کوڈ کو عوامی طور پر دستیاب کرنے سے گریز کیا ہے، اور اپنے مقالے کے آخر میں ایک اخلاقیات کا بیان شامل کیا ہے (جو کسی ایسے شخص کو روکنے کے لیے زیادہ کام نہیں کرے گا جو AI کو مذموم مقاصد کے لیے استعمال کرنا چاہتا ہے)۔

اس سے پہلے کہ اسی طرح کے ٹولز کے سامنے آنے اور غلط ہاتھوں میں گرنے سے پہلے یہ صرف وقت کی بات ہے۔ محققین ان خطرات کا مشورہ دیتے ہیں جو VALL-E جیسے ماڈل پیش کریں گے، پتہ لگانے کے ماڈل بنا کر یہ اندازہ لگایا جا سکتا ہے کہ آیا آڈیو کلپس اصلی ہیں یا ترکیب شدہ۔ اگر ہمیں AI سے بچانے کے لیے AI کی ضرورت ہے، تو کیسے جانیں گے کہ آیا ان ٹیکنالوجیز کا خالص مثبت اثر ہو رہا ہے؟ وقت ہی بتائے گا.

تصویری کریڈٹ: Shutterstock.com/تانچا

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹو بلاک چین۔ Web3 Metaverse Intelligence. علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/

ٹائم اسٹیمپ: جنوری۳۱، ۲۰۱۹

ٹائم اسٹیمپ: جولائی 29، 2022

مائیکروسافٹ کا نیا AI صرف 3 سیکنڈ میں آپ کی آواز کا کلون بنا سکتا ہے۔

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

سے زیادہ یکسانیت مرکز

ایک بڑے نئے بند لوپ سسٹم کے ساتھ الیکٹرک وہیکل بیٹری کی ری سائیکلنگ نے رفتار حاصل کی۔

مغربی امریکی ریاستیں تاریخی خشک سالی سے لڑنے کے لیے کلاؤڈ سیڈنگ کا رخ کر رہی ہیں۔

جیوتھرمل پلانٹس امریکی مغرب میں لتیم کی وسیع فراہمی کو کیسے کھول سکتے ہیں۔

ان بائیو انجینئرڈ کارنیا نے 14 نابینا افراد کو ان کی بینائی واپس دی۔

سائنسدانوں نے ایک نئی مقناطیسی ورزش کے ساتھ روبوٹ کے لیے لیب میں تیار کیے گئے پٹھوں کو پمپ کیا۔

ویب کے ارد گرد سے اس ہفتے کی زبردست تکنیکی کہانیاں (6 مئی تک)

میٹا کا نیا AI تصویر میں کسی بھی چیز کو اٹھا سکتا ہے اور کاٹ سکتا ہے - یہاں تک کہ وہ جو پہلے کبھی نہیں دیکھا گیا تھا۔

یہ 'چکن فری' انڈے کی سفیدی چکن ڈی این اے سے پروٹین کی ترکیب استعمال کرتی ہے۔

ان سور کا گوشت سوسیجز کے لیے کسی سور کو نقصان نہیں پہنچا، لیکن وہ اصلی (مہذب) گوشت ہیں

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ