नया और बेहतर एंबेडिंग मॉडल प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

नया और बेहतर एम्बेडिंग मॉडल

हम एक नए एम्बेडिंग मॉडल की घोषणा करने के लिए उत्साहित हैं जो काफी अधिक सक्षम, लागत प्रभावी और उपयोग में सरल है। नया मॉडल, text-embedding-ada-002, पाठ खोज, पाठ समानता और कोड खोज के लिए पांच अलग-अलग मॉडलों को प्रतिस्थापित करता है, और 99.8% कम कीमत होने पर, अधिकांश कार्यों में हमारे पिछले सबसे सक्षम मॉडल डेविंसी को मात देता है।

दस्तावेज़ पढ़ें

एम्बेडिंग संख्याओं के क्रम में परिवर्तित अवधारणाओं का संख्यात्मक प्रतिनिधित्व है, जो कंप्यूटर के लिए उन अवधारणाओं के बीच संबंधों को समझना आसान बनाता है। के बाद से प्रारंभिक प्रक्षेपण ओपनएआई का / एम्बेडिंग समापन बिंदु, कई अनुप्रयोगों ने सामग्री को वैयक्तिकृत करने, अनुशंसा करने और खोजने के लिए एम्बेडिंग को शामिल किया है।

आप क्वेरी कर सकते हैं / एम्बेडिंग कोड की दो पंक्तियों के साथ नए मॉडल के लिए हमारे ओपनएआई पायथन लाइब्रेरी, ठीक वैसे ही जैसे आप पिछले मॉडल के साथ कर सकते थे:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

मॉडल सुधार

मजबूत प्रदर्शन. text-embedding-ada-002 पाठ खोज, कोड खोज और वाक्य समानता कार्यों पर सभी पुराने एम्बेडिंग मॉडल को बेहतर बनाता है और पाठ वर्गीकरण पर तुलनीय प्रदर्शन प्राप्त करता है। प्रत्येक कार्य श्रेणी के लिए, हम उपयोग किए गए डेटासेट पर मॉडल का मूल्यांकन करते हैं पुराने एम्बेडिंग.





क्षमताओं का एकीकरण. हमने इंटरफ़ेस को काफी सरल बना दिया है / एम्बेडिंग ऊपर दिखाए गए पांच अलग-अलग मॉडलों को मर्ज करके समापन बिंदु (text-similarity, text-search-query, text-search-doc, code-search-text और code-search-code) एक नए मॉडल में। यह एकल प्रतिनिधित्व पाठ खोज, वाक्य समानता और कोड खोज बेंचमार्क के विविध सेट में हमारे पिछले एम्बेडिंग मॉडल से बेहतर प्रदर्शन करता है।

लंबा प्रसंग। नए मॉडल की संदर्भ लंबाई 2048 से 8192 तक चार गुना बढ़ जाती है, जिससे लंबे दस्तावेजों के साथ काम करना अधिक सुविधाजनक हो जाता है।

छोटे एम्बेडिंग आकार। नए एम्बेडिंग में केवल 1536 आयाम हैं, एक-आठवां आकार davinci-001 एम्बेडिंग, नए एम्बेडिंग को वेक्टर डेटाबेस के साथ काम करने में अधिक लागत प्रभावी बनाते हैं।

कम कीमत। हमने समान आकार के पुराने मॉडल की तुलना में नए एम्बेडिंग मॉडल की कीमत में 90% की कमी की है। नया मॉडल 99.8% कम कीमत पर पुराने डेविंसी मॉडल के समान बेहतर या समान प्रदर्शन प्राप्त करता है।

कुल मिलाकर, नया एम्बेडिंग मॉडल प्राकृतिक भाषा प्रसंस्करण और कोड कार्यों के लिए अधिक शक्तिशाली उपकरण है। हम यह देखने के लिए उत्साहित हैं कि हमारे ग्राहक अपने संबंधित क्षेत्रों में और भी अधिक सक्षम एप्लिकेशन बनाने के लिए इसका उपयोग कैसे करेंगे।

सीमाओं

नई text-embedding-ada-002 मॉडल बेहतर प्रदर्शन नहीं कर रहा है text-similarity-davinci-001 सेंटएवल लीनियर प्रोबिंग क्लासिफिकेशन बेंचमार्क पर। वर्गीकरण भविष्यवाणी के लिए एम्बेडिंग वैक्टर के शीर्ष पर एक हल्के भारित रैखिक परत को प्रशिक्षित करने वाले कार्यों के लिए, हम नए मॉडल की तुलना करने का सुझाव देते हैं text-similarity-davinci-001 और जो भी मॉडल चुनना इष्टतम प्रदर्शन देता है।

चेक सीमाएं और जोखिम हमारे एम्बेडिंग मॉडल की सामान्य सीमाओं के लिए एम्बेडिंग दस्तावेज़ में अनुभाग।

एंबेडिंग एपीआई इन एक्शन के उदाहरण

कलंदर एआई एक बिक्री आउटरीच उत्पाद है जो 340M प्रोफाइल वाले डेटासेट से सही ग्राहकों को सही बिक्री पिच से मिलान करने के लिए एम्बेडिंग का उपयोग करता है। यह ऑटोमेशन ग्राहक प्रोफाइल के एम्बेडिंग और बिक्री पिचों के बीच समानता पर निर्भर करता है ताकि उनके पुराने दृष्टिकोण की तुलना में 40-56% अवांछित लक्ष्यीकरण को समाप्त किया जा सके।

धारणा, ऑनलाइन कार्यक्षेत्र कंपनी, आज के कीवर्ड मिलान सिस्टम से परे धारणा खोज को बेहतर बनाने के लिए OpenAI के नए एम्बेडिंग का उपयोग करेगी।


दस्तावेज़ पढ़ें

समय टिकट:

से अधिक OpenAI