مدل جدید و بهبود یافته تعبیه شده، هوش داده پلاتوبلاکچین. جستجوی عمودی Ai.

مدل جاسازی جدید و بهبود یافته

ما هیجان زده هستیم که یک مدل جاسازی جدید را معرفی کنیم که به طور قابل توجهی توانمندتر، مقرون به صرفه تر و استفاده از آن ساده تر است. مدل جدید، text-embedding-ada-002، جایگزین پنج مدل جداگانه برای جستجوی متن، شباهت متن و جستجوی کد می شود و در اکثر وظایف از توانمندترین مدل قبلی ما، داوینچی، بهتر عمل می کند، در حالی که قیمت آن 99.8 درصد کمتر است.

اسناد را بخوانید

تعبیه‌ها نمایش‌های عددی مفاهیم تبدیل شده به دنباله‌های عددی هستند که درک روابط بین آن مفاهیم را برای رایانه‌ها آسان می‌کنند. از آنجا که راه اندازی اولیه از OpenAI / embeddings نقطه پایانی، بسیاری از برنامه‌ها تعبیه‌هایی را برای شخصی‌سازی، توصیه و جستجوی محتوا در خود جای داده‌اند.

می توانید پرس و جو کنید / embeddings نقطه پایانی برای مدل جدید با دو خط کد با استفاده از ما کتابخانه OpenAI Pythonدرست مانند مدل های قبلی:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

بهبودهای مدل

عملکرد قوی تر. text-embedding-ada-002 در جستجوی متن، جستجوی کد و وظایف شباهت جملات از همه مدل‌های قدیمی جاسازی بهتر عمل می‌کند و عملکرد قابل مقایسه در طبقه‌بندی متن را دریافت می‌کند. برای هر دسته کار، مدل‌ها را روی مجموعه داده‌های مورد استفاده در آن ارزیابی می‌کنیم تعبیه های قدیمی.





یکسان سازی قابلیت ها. ما رابط کاربری را به طور قابل توجهی ساده کرده ایم / embeddings نقطه پایان با ادغام پنج مدل جداگانه نشان داده شده در بالا (text-similarity, text-search-query, text-search-doc, code-search-text و code-search-code) در یک مدل جدید. این نمایش واحد بهتر از مدل‌های تعبیه‌شده قبلی ما در مجموعه متنوعی از جستجوی متن، شباهت جملات و معیارهای جستجوی کد عمل می‌کند.

زمینه طولانی تر طول بافت مدل جدید با ضریب چهار افزایش یافته است، از 2048 به 8192، که کار با اسناد طولانی را راحت تر می کند.

اندازه تعبیه کوچکتر. تعبیه‌های جدید فقط 1536 بعد دارند، یک هشتم اندازه davinci-001 embedding ها، باعث می شود جاسازی های جدید در کار با پایگاه های داده برداری مقرون به صرفه تر شوند.

کاهش قیمت. قیمت مدل های جاسازی جدید را نسبت به مدل های قدیمی هم سایز 90 درصد کاهش داده ایم. مدل جدید عملکرد بهتر یا مشابه مدل های قدیمی داوینچی را با قیمت 99.8 درصد کمتر به دست می آورد.

به طور کلی، مدل جدید جاسازی ابزار بسیار قدرتمندتری برای پردازش زبان طبیعی و وظایف کد است. ما هیجان زده هستیم که ببینیم مشتریان ما چگونه از آن برای ایجاد برنامه های کاربردی حتی بیشتر در زمینه های مربوطه خود استفاده خواهند کرد.

محدودیت ها

جدید text-embedding-ada-002 مدل عملکرد بهتری ندارد text-similarity-davinci-001 در معیار طبقه بندی کاوش خطی SentEval. برای کارهایی که نیاز به آموزش یک لایه خطی سبک وزن در بالای بردارهای تعبیه شده برای پیش‌بینی طبقه‌بندی دارند، پیشنهاد می‌کنیم مدل جدید را با text-similarity-davinci-001 و انتخاب هر مدلی که عملکرد مطلوبی را ارائه می دهد.

را بررسی کنید محدودیت ها و خطرات بخش در مستندات تعبیه‌ها برای محدودیت‌های کلی مدل‌های جاسازی ما.

نمونه هایی از Embeddings API in Action

Calendar AI یک محصول توسعه فروش است که از جاسازی‌ها برای مطابقت با سطح فروش مناسب با مشتریان مناسب از مجموعه داده‌ای حاوی 340 میلیون نمایه استفاده می‌کند. این اتوماسیون متکی به شباهت بین تعبیه‌های پروفایل مشتری و زمین‌های فروش برای رتبه‌بندی مناسب‌ترین منطبق‌ها، حذف ۴۰ تا ۵۶ درصد از هدف‌گیری ناخواسته در مقایسه با رویکرد قدیمی‌شان است.

ایدهشرکت فضای کاری آنلاین، از تعبیه‌های جدید OpenAI برای بهبود جستجوی مفهومی فراتر از سیستم‌های تطبیق کلمات کلیدی امروزی استفاده خواهد کرد.


اسناد را بخوانید

تمبر زمان:

بیشتر از OpenAI