OpenAI کے نئے 'وائس انجن' کو کلون اسپیچ کے لیے صرف 15 سیکنڈز کی ضرورت ہے - ڈکرپٹ

OpenAI کے نئے 'وائس انجن' کو کلون اسپیچ کے لیے صرف 15 سیکنڈز کی ضرورت ہے - ڈکرپٹ

اوپن اے آئی کے نئے 'وائس انجن' کو کلون اسپیچ کے لیے صرف 15 سیکنڈز کی ضرورت ہے - پلیٹو بلاکچین ڈیٹا انٹیلی جنس کو ڈیکرپٹ کریں۔ عمودی تلاش۔ عی

OpenAI، AI کمپنی جو غالب پیدا کرنے والے AI ٹول ChatGPT کے پیچھے ہے، نے وائس کلوننگ کی ایک نئی ٹیکنالوجی کی نقاب کشائی کی ہے جسے "وائس انجن" کہتے ہیں۔ یہ آڈیو ماڈل اصل آڈیو کے نسبتاً چھوٹے نمونے کی بنیاد پر کسی شخص کی آواز، لہجے، اور دوسرے واضح طور پر انسانی تقریر کے نمونوں کی نقل بنا سکتا ہے۔

"یہ قابل ذکر ہے کہ 15 سیکنڈ کے ایک نمونے کے ساتھ ایک چھوٹا ماڈل جذباتی اور حقیقت پسندانہ آوازیں پیدا کر سکتا ہے،" کمپنی نے اپنے بیان میں کہا۔ جمعہ کی بلاگ پوسٹ.

مقابلے کے لیے، AI وائس پلیٹ فارم گیارہ لیبز ایک فوری آواز کلوننگ کے آلے کی خصوصیات ہے کہ کم از کم ایک منٹ کے نمونے درکار ہیں۔. بہترین نتائج کے لیے، اس کی پیشہ ورانہ خدمات کی سطح کے لیے تقریباً 10 منٹ کی مسلسل تقریر کی ضرورت ہے۔

کمپنی نے مختلف مثالیں دکھائیں کہ یہ ٹیکنالوجی کیا کرنے کی صلاحیت رکھتی ہے۔ ایک مثال میں، ایک نوجوان مریض کی آواز جو عروقی دماغی رسولی کی وجہ سے بولنے کی صلاحیت سے محروم ہو گئی تھی، اس کی پرانی ریکارڈنگ کا استعمال کرتے ہوئے کلون کیا گیا جو اس نے اسکول کے ایک پروجیکٹ کے لیے بنائی تھی۔ یہ وہ جگہ ہے آج وہ کیسی لگ رہی ہے۔اوپن اے آئی کے مطابق۔

OpenAI کے ساتھ کام کیا۔ عمر، براؤن یونیورسٹی کے میڈیکل اسکول سے وابستہ ایک غیر منفعتی اور نامی ٹول کے تخلیق کار لیواوکس، ایک "متبادل مواصلاتی ایپ" جو معذور لوگوں کے لیے بنائی گئی ہے۔ ٹیم ایک کے ساتھ کام کرنے کے قابل تھی۔ ریکارڈنگ جو عورت نے بنائی ہے۔ اسکول پریزنٹیشن کے لیے:

اوپن اے آئی وائس انجن اس کے بعد فوری ٹیکسٹ ٹو اسپیچ کی صلاحیت فراہم کرنے کے قابل تھا جو مریض کو مؤثر طریقے سے اپنی آواز سے بولیں:

اوپن اے آئی نے یہ بھی دکھایا کہ کیسے HeyGen اپنی ٹکنالوجی کا استعمال کرتے ہوئے کسی مخصوص زبان میں دوسری زبان میں اپ لوڈ کردہ تقریر کے قدرتی آواز والے ترجمے تیار کر رہا ہے۔

کمپنی کا کہنا ہے کہ وائس انجن پہلی بار 2022 کے آخر میں تیار کیا گیا تھا اور اسے پہلے سے ہی OpenAI کے ٹیکسٹ ٹو اسپیچ API کے ساتھ ساتھ چیٹ جی پی ٹی کے وائس اور ریڈ لاؤڈ فیچر میں دستیاب پہلے سے سیٹ آوازوں کو طاقت دینے کے لیے استعمال کیا جا رہا ہے۔ تازہ ترین پیشرفت کے ساتھ، کمپنی کا کہنا ہے کہ اسے وسیع تر ریلیز سے پہلے محتاط رکھا جا رہا ہے۔

"ہم مصنوعی آوازوں کی ذمہ دارانہ تعیناتی اور معاشرہ ان نئی صلاحیتوں کو کیسے ڈھال سکتا ہے اس پر ایک مکالمہ شروع کرنے کی امید کرتے ہیں،" OpenAI نے "ڈیپ فیکس" کے وسیع پیمانے پر مذمتی عمل کو تسلیم کرتے ہوئے لکھا۔ مشہور شخصیات، سرکاری افسران، اور بڑھتے ہوئے نجی شہریوں کی آوازیں مذموم مقاصد کے لیے استعمال کی جا رہی ہیں۔ سیاسی مہمات, جعلی اشتہارات اور بالکل مجرمانہ سرگرمیوں. امریکی صدر جو بائیڈن رہے ہیں۔ دھکا AI آواز کی نقالی کے بدنیتی پر مبنی استعمال کے خلاف مزید تحفظات کے لیے۔

درحقیقت، میٹا نے پچھلی موسم گرما میں انکشاف کیا تھا کہ اس کے AI وائس ٹول کو خاص طور پر "کی وجہ سے روکا جا رہا ہے۔غلط استعمال کے ممکنہ خطرات".

اوپن اے آئی نے وضاحت کرتے ہوئے کہا، "اے آئی سیفٹی کے لیے ہمارے نقطہ نظر اور اپنے رضاکارانہ وعدوں کے مطابق، ہم اس وقت اس ٹیکنالوجی کا جائزہ لینے کا انتخاب کر رہے ہیں لیکن وسیع پیمانے پر جاری نہیں کر رہے ہیں۔"

عوامی ریلیز سے پہلے ہی، OpenAI وائس انجن پر پابندیاں لگا رہا ہے — جس میں نمایاں لوگوں کی فہرست بھی شامل ہے جس کی وہ تقلید نہیں کرے گی۔

"ہم سمجھتے ہیں کہ مصنوعی آواز کی ٹیکنالوجی کی کسی بھی وسیع تعیناتی کے ساتھ آواز کی توثیق کے تجربات ہونے چاہئیں جو اس بات کی تصدیق کرتے ہیں کہ اصل اسپیکر جان بوجھ کر اپنی آواز کو سروس میں شامل کر رہا ہے اور ایسی آواز کی فہرست جو بہت زیادہ آوازوں کی تخلیق کا پتہ لگاتی ہے اور اسے روکتی ہے۔ ممتاز شخصیات کی طرح، "اوپن اے آئی نے لکھا۔

آج وائس انجن کی جانچ کرنے والے شراکت داروں نے OpenAI کی استعمال کی پالیسیوں سے اتفاق کیا ہے، جو رضامندی کے بغیر کسی دوسرے فرد یا تنظیم کی نقالی کو ممنوع قرار دیتی ہیں۔ اس کے علاوہ، کمپنی کو اصل اسپیکر سے واضح اور باخبر رضامندی کی ضرورت ہوتی ہے، اور وہ ڈویلپرز کو انفرادی صارفین کے لیے اپنی آوازیں کلون کرنے کے طریقے بنانے کی اجازت نہیں دیتے۔

"ان بات چیت اور چھوٹے پیمانے کے ان ٹیسٹوں کے نتائج کی بنیاد پر، ہم اس بارے میں زیادہ باخبر فیصلہ کریں گے کہ اس ٹیکنالوجی کو پیمانے پر کیسے اور کیسے تعینات کیا جائے،" بلاگ پوسٹ پڑھتی ہے۔

وائس انجن کے علاوہ اوپن اے آئی متوازی طور پر متعدد پروجیکٹس پر کام کر رہا ہے۔ سی ای او سیم آلٹ مین نے انکشاف کیا کہ کمپنی اس سال GPT-5 جاری کرنے پر کام کر رہا ہے۔. کمپنی نے اپنا جنریٹیو ویڈیو ٹول بھی دکھایا سورہ. کمپنی کا دعویٰ ہے کہ سورا مارکیٹ میں سب سے جدید ویڈیو جنریٹر ہو گا، جو Pika، Stable Video Diffusion، اور Runway ML جیسے ماڈلز کو پیچھے چھوڑ دے گا۔

Sora فی الحال صرف Open AI کے ذریعے اندراج شدہ "ریڈ ٹیمرز" کے لیے دستیاب ہے تاکہ یہ یقینی بنایا جا سکے کہ اس کا غلط استعمال نہیں کیا جا سکتا۔

وائس انجن یقینی طور پر دیگر صوتی کلوننگ ٹولز کو پیچھے چھوڑ سکتا ہے، بشمول Meta، ElevenLabs، WellSaid Labs، اور اوپن سورس ماڈل جیسے آر وی سی.

اوپن اے آئی پر بھی کام کر رہا ہے۔ خفیہ منصوبے کا نام Q* جس میں سے صرف اس کا نام ہی لیک ہوا ہے۔ سیم آلٹمین نے کوئی بھی تفصیلات بتانے سے انکار کیا ہے، لیکن کہا کہ تحقیقی ٹیم کی زیادہ تر توجہ ایسی تکنیکوں اور طریقوں کو تلاش کرنے پر تھی جو AI کو بہتر بناتی ہیں۔

کی طرف سے ترمیم ریان اوزاوا.

کرپٹو خبروں سے باخبر رہیں، اپنے ان باکس میں روزانہ کی تازہ ترین معلومات حاصل کریں۔

ٹائم اسٹیمپ:

سے زیادہ خرابی