מודל הטמעה חדש ומשופר PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

דגם הטמעה חדש ומשופר

אנו נרגשים להכריז על מודל הטמעה חדש בעל יכולת משמעותית, חסכונית ופשוטה יותר לשימוש. הדגם החדש, text-embedding-ada-002, מחליף חמישה דגמים נפרדים לחיפוש טקסט, דמיון טקסט וחיפוש קוד, ועולה על הדגם הקודם המסוגל ביותר שלנו, Davinci, ברוב המשימות, תוך מחיר נמוך ב-99.8%.

קרא תיעוד

הטבעות הן ייצוגים מספריים של מושגים המומרים לרצפי מספרים, המקלים על מחשבים להבין את הקשרים בין מושגים אלה. מאז השקה ראשונית של ה-OpenAI / embeddings נקודת קצה, יישומים רבים שילבו הטמעות כדי להתאים אישית, להמליץ ​​ולחפש תוכן.

אתה יכול לשאול את / embeddings נקודת קצה עבור הדגם החדש עם שתי שורות קוד באמצעות שלנו ספריית OpenAI Python, בדיוק כמו שאתה יכול עם דגמים קודמים:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

שיפורי מודל

ביצועים חזקים יותר. text-embedding-ada-002 עולה על כל דגמי ההטמעה הישנים בחיפוש טקסט, חיפוש קוד ומשימות דימיון משפטים ומקבל ביצועים דומים בסיווג טקסט. עבור כל קטגוריית משימה, אנו מעריכים את המודלים על מערכי הנתונים שבהם נעשה שימוש הטבעות ישנות.





איחוד יכולות. פישטנו משמעותית את הממשק של / embeddings נקודת קצה על ידי מיזוג חמשת הדגמים הנפרדים המוצגים לעיל (text-similarity, text-search-query, text-search-doc, code-search-text ו code-search-code) לדגם חדש יחיד. ייצוג יחיד זה מניב ביצועים טובים יותר מדגמי ההטמעה הקודמים שלנו על פני קבוצה מגוונת של חיפוש טקסט, דמיון משפטי ומדדי חיפוש קוד.

הקשר ארוך יותר. אורך ההקשר של הדגם החדש גדל בפקטור של ארבע, מ-2048 ל-8192, מה שהופך אותו לנוח יותר לעבוד עם מסמכים ארוכים.

גודל הטבעה קטן יותר. להטבעות החדשות יש רק 1536 מידות, שמינית מגודלה davinci-001 הטמעות, מה שהופך את ההטמעות החדשות לחסכוניות יותר בעבודה עם מסדי נתונים וקטוריים.

מחיר מופחת. הורדנו את המחיר של דגמי הטבעה חדשים ב-90% בהשוואה לדגמים ישנים באותו גודל. הדגם החדש משיג ביצועים טובים יותר או דומים לדגמי הדווינצ'י הישנים במחיר נמוך ב-99.8%.

בסך הכל, מודל ההטמעה החדש הוא כלי הרבה יותר חזק לעיבוד שפה טבעית ומשימות קוד. אנו נרגשים לראות כיצד הלקוחות שלנו ישתמשו בו כדי ליצור יישומים מוכשרים עוד יותר בתחומם.

מגבלות

DELETE THIS text-embedding-ada-002 המודל אינו מתגבר text-similarity-davinci-001 על מדד סיווג הגישוש הליניארי של SentEval. עבור משימות הדורשות אימון של שכבה ליניארית קלת משקל על גבי הטבעת וקטורים לצורך חיזוי סיווג, אנו מציעים להשוות את המודל החדש ל text-similarity-davinci-001 ובחירה באיזה דגם נותן ביצועים מיטביים.

בדקו מגבלות וסיכונים סעיף בתיעוד ההטמעות למגבלות כלליות של דגמי ההטבעה שלנו.

דוגמאות של Embeddings API בפעולה

קלנדר AI הוא מוצר הסברה למכירות המשתמש בהטמעות כדי להתאים את הצעה המכירה הנכונה ללקוחות הנכונים מתוך מערך נתונים המכיל 340 מיליון פרופילים. אוטומציה זו מסתמכת על דמיון בין הטמעות של פרופילי לקוחות והצעות מכירה כדי לדרג את ההתאמות המתאימות ביותר, ולבטל 40-56% מהמיקוד הלא רצוי בהשוואה לגישה הישנה שלהם.

רעיון, חברת חללי העבודה המקוונת, תשתמש בהטמעות החדשות של OpenAI כדי לשפר את החיפוש של Notion מעבר למערכות התאמת מילות מפתח של היום.


קרא תיעוד

בול זמן:

עוד מ OpenAI