نیا اور بہتر ایمبیڈنگ ماڈل PlatoBlockchain ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

نیا اور بہتر ایمبیڈنگ ماڈل

ہم ایک نئے ایمبیڈنگ ماڈل کا اعلان کرتے ہوئے پرجوش ہیں جو نمایاں طور پر زیادہ قابل، لاگت سے موثر، اور استعمال میں آسان ہے۔ نیا ماڈل، text-embedding-ada-002متن کی تلاش، متن کی مماثلت، اور کوڈ کی تلاش کے لیے پانچ الگ الگ ماڈلز کی جگہ لے لیتا ہے، اور ہمارے سابقہ ​​قابل ترین ماڈل، ڈیونچی کو زیادہ تر کاموں میں پیچھے چھوڑ دیتا ہے، جبکہ قیمت 99.8% کم ہے۔

دستاویزات پڑھیں

ایمبیڈنگس تصورات کی عددی نمائندگی ہیں جو عدد کی ترتیب میں تبدیل ہوتے ہیں، جو کمپیوٹر کے لیے ان تصورات کے درمیان تعلقات کو سمجھنا آسان بنا دیتے ہیں۔ جب سے ابتدائی لانچ OpenAI کے / ایمبیڈنگز اختتامی نقطہ، بہت سے ایپلی کیشنز نے مواد کو ذاتی بنانے، تجویز کرنے اور تلاش کرنے کے لیے سرایت کو شامل کیا ہے۔

آپ استفسار کر سکتے ہیں۔ / ایمبیڈنگز ہمارے استعمال کرتے ہوئے کوڈ کی دو لائنوں کے ساتھ نئے ماڈل کے لیے اختتامی نقطہ اوپن اے آئی ازگر لائبریریجیسا کہ آپ پچھلے ماڈلز کے ساتھ کر سکتے تھے:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

ماڈل میں بہتری

مضبوط کارکردگی. text-embedding-ada-002 ٹیکسٹ سرچ، کوڈ سرچ، اور جملے کی مماثلت کے کاموں پر تمام پرانے ایمبیڈنگ ماڈلز کو پیچھے چھوڑتا ہے اور ٹیکسٹ کی درجہ بندی پر موازنہ کارکردگی حاصل کرتا ہے۔ ہر کام کے زمرے کے لیے، ہم ڈیٹا سیٹس میں استعمال کیے گئے ماڈلز کا جائزہ لیتے ہیں۔ پرانی سرایت.





صلاحیتوں کا اتحاد. ہم نے کے انٹرفیس کو نمایاں طور پر آسان کیا ہے۔ / ایمبیڈنگز اوپر دکھائے گئے پانچ الگ الگ ماڈلز کو ملا کر اختتامی نقطہ (text-similarity, text-search-query, text-search-doc, code-search-text اور code-search-code) ایک نئے ماڈل میں۔ یہ واحد نمائندگی متن کی تلاش، جملے کی مماثلت، اور کوڈ تلاش کے بینچ مارکس کے متنوع سیٹ پر ہمارے پچھلے سرایت کرنے والے ماڈلز سے بہتر کارکردگی کا مظاہرہ کرتی ہے۔

طویل سیاق و سباق۔ نئے ماڈل کی سیاق و سباق کی لمبائی 2048 سے 8192 تک چار کے عنصر سے بڑھائی گئی ہے، جس سے طویل دستاویزات کے ساتھ کام کرنا زیادہ آسان ہو گیا ہے۔

ایمبیڈنگ کا چھوٹا سائز۔ نئے ایمبیڈنگز میں صرف 1536 ڈائمینشنز ہیں، جس کا سائز آٹھواں ہے۔ davinci-001 ایمبیڈنگز، نئی ایمبیڈنگز کو ویکٹر ڈیٹا بیس کے ساتھ کام کرنے میں زیادہ لاگت سے موثر بناتے ہیں۔

کم قیمت. ہم نے اسی سائز کے پرانے ماڈلز کے مقابلے نئے ایمبیڈنگ ماڈلز کی قیمت میں 90% کمی کی ہے۔ نیا ماڈل 99.8% کم قیمت پر پرانے ڈیونچی ماڈلز کی طرح بہتر یا اسی طرح کی کارکردگی حاصل کرتا ہے۔

مجموعی طور پر، نیا ایمبیڈنگ ماڈل قدرتی زبان کی پروسیسنگ اور کوڈ کے کاموں کے لیے بہت زیادہ طاقتور ٹول ہے۔ ہم یہ دیکھ کر بہت پرجوش ہیں کہ ہمارے گاہک اپنے متعلقہ شعبوں میں مزید قابل ایپلی کیشنز بنانے کے لیے اسے کس طرح استعمال کریں گے۔

حدود

نیا text-embedding-ada-002 ماڈل بہتر کارکردگی کا مظاہرہ نہیں کر رہا ہے۔ text-similarity-davinci-001 SentEval لکیری تحقیقاتی درجہ بندی بینچ مارک پر۔ ان کاموں کے لیے جن کے لیے درجہ بندی کی پیشین گوئی کے لیے سرایت کرنے والے ویکٹر کے اوپر ایک ہلکے وزن والی لکیری پرت کی تربیت کی ضرورت ہوتی ہے، ہم تجویز کرتے ہیں کہ نئے ماڈل کا موازنہ کریں text-similarity-davinci-001 اور کسی بھی ماڈل کا انتخاب بہترین کارکردگی دیتا ہے۔

چیک کریں حدود اور خطرات ہمارے ایمبیڈنگ ماڈلز کی عمومی حدود کے لیے ایمبیڈنگ دستاویزات میں سیکشن۔

ایکشن میں ایمبیڈنگز API کی مثالیں۔

کیلنڈر اے آئی ایک سیلز آؤٹ ریچ پروڈکٹ ہے جو 340M پروفائلز پر مشتمل ڈیٹاسیٹ میں سے صحیح سیلز پچ کو صحیح گاہکوں سے ملنے کے لیے سرایت کا استعمال کرتا ہے۔ یہ آٹومیشن سب سے موزوں میچوں کی درجہ بندی کرنے کے لیے کسٹمر پروفائلز کی سرایت اور سیل پچ کے درمیان مماثلت پر انحصار کرتی ہے، جو ان کے پرانے نقطہ نظر کے مقابلے میں 40-56% ناپسندیدہ ہدف کو ختم کرتی ہے۔

تصور, آن لائن ورک اسپیس کمپنی، آج کے کلیدی الفاظ کے مماثل نظاموں سے آگے تصور کی تلاش کو بہتر بنانے کے لیے OpenAI کے نئے سرایت کا استعمال کرے گی۔


دستاویزات پڑھیں

ٹائم اسٹیمپ:

سے زیادہ اوپنائی