معرفی جاسازی متن و کد در OpenAI API

بازنشر افلاطون

دنبال: 0

ما در حال معرفی جاسازی‌ها هستیم، یک نقطه پایانی جدید در OpenAI API که انجام وظایف زبان طبیعی و کد مانند جستجوی معنایی، خوشه‌بندی، مدل‌سازی موضوع و طبقه‌بندی را آسان می‌کند. تعبیه‌ها نمایش‌های عددی مفاهیم تبدیل شده به دنباله‌های عددی هستند که درک روابط بین آن مفاهیم را برای رایانه‌ها آسان می‌کنند. جاسازی‌های ما در 3 معیار استاندارد، از جمله بهبود نسبی 20 درصدی در جستجوی کد، از مدل‌های برتر بهتر عمل می‌کنند.

اسناد را بخوانید کاغذ بخوانید

جاسازی‌ها برای کار با زبان و کد طبیعی مفید هستند، زیرا می‌توان آن‌ها را به آسانی با سایر مدل‌ها و الگوریتم‌های یادگیری ماشینی مانند خوشه‌بندی یا جستجو مقایسه کرد.

جاسازی هایی که از نظر عددی مشابه هستند از نظر معنایی نیز مشابه هستند. به عنوان مثال، بردار جاسازی «اصحاب سگ می گویند» بیشتر شبیه بردار جاسازی «ووف» است تا «میو».

نقطه پایانی جدید از مدل‌های شبکه عصبی، که از نسل GPT-3 هستند، برای نگاشت متن و کد به یک نمایش برداری استفاده می‌کند و آنها را در فضایی با ابعاد بالا «جاسازی» می‌کند. هر بعد جنبه ای از ورودی را به تصویر می کشد.

جدید / embeddings نقطه پایانی در AI API را باز کنید متن و کد را با چند خط کد ارائه می دهد:

import openai
response = openai.Embedding.create( input="canine companions say", engine="text-similarity-davinci-001")


print(response)
{ "data": [ { "embedding": [ 0.000108064, 0.005860855, -0.012656143, ... -0.006642727, 0.002583989, -0.012567150 ], "index": 0, "object": "embedding" } ], "model": "text-similarity-babbage:001", "object": "list"
}

ما سه خانواده از مدل‌های جاسازی را منتشر می‌کنیم که هر کدام به گونه‌ای تنظیم شده‌اند که در عملکردهای مختلف عملکرد خوبی داشته باشند: شباهت متن، جستجوی متن، و جستجوی کد. مدل‌ها متن یا کد را به عنوان ورودی می‌گیرند و یک بردار جاسازی را برمی‌گردانند.

	مدل	موارد را استفاده کنید
شباهت متن: شباهت معنایی بین قطعات متن را نشان می دهد.	`متن-شباهت-{ada، babbage، curie، davinci}-001`	خوشه بندی، رگرسیون، تشخیص ناهنجاری، تجسم
جستجوی متن: بازیابی اطلاعات معنایی از روی اسناد.	`متن-جستجو-{آدا، بابیج، کوری، داوینچی}-{پرس و جو، سند}-001`	جستجو، ارتباط با زمینه، بازیابی اطلاعات
جستجوی کد: کد مربوطه را با پرس و جو به زبان طبیعی پیدا کنید.	`کد-جستجو-{ada، babbage}-{کد، متن}-001`	جستجوی کد و ارتباط

مدل های شباهت متن

مدل‌های تشابه متن، تعبیه‌هایی را ارائه می‌کنند که شباهت معنایی قطعات متن را نشان می‌دهد. این مدل ها برای بسیاری از کارها از جمله مفید هستند خوشه بندی, تجسم داده هاو طبقه بندی.

تجسم تعاملی زیر، جاسازی نمونه‌های متنی از مجموعه داده DBpedia را نشان می‌دهد:

بکشید تا حرکت دهید، پیمایش کنید یا برای بزرگنمایی آن را به هم نزدیک کنید

جاسازی ها از text-similarity-babbage-001 مدل، اعمال شده به DBpedia مجموعه داده ما به طور تصادفی 100 نمونه از مجموعه داده را انتخاب کردیم که شامل 5 دسته بود و جاسازی ها را از طریق / embeddings نقطه پایانی دسته های مختلف به صورت 5 خوشه واضح در فضای جاسازی نشان داده می شوند. برای تجسم فضای جاسازی، ابعاد جاسازی را با استفاده از 2048 به 3 کاهش دادیم. PCA. کد نحوه تجسم فضای تعبیه شده در ابعاد سه بعدی در دسترس است اینجا کلیک نمایید.

برای مقایسه شباهت دو تکه متن، کافی است از عبارت استفاده کنید محصول نقطه روی جاسازی های متن نتیجه یک "نمره شباهت" است که گاهی اوقات به نام "شباهت کسینوسبین 1- و 1 که عدد بالاتر به معنای شباهت بیشتر است. در اکثر برنامه ها، جاسازی ها را می توان از قبل محاسبه کرد و سپس مقایسه محصول نقطه ای بسیار سریع انجام می شود.

import openai, numpy as np resp = openai.Embedding.create( input=["feline friends go", "meow"], engine="text-similarity-davinci-001") embedding_a = resp['data'][0]['embedding']
embedding_b = resp['data'][1]['embedding'] similarity_score = np.dot(embedding_a, embedding_b)

یکی از کاربردهای رایج جاسازی ها، استفاده از آنها به عنوان ویژگی در وظایف یادگیری ماشینی، مانند طبقه بندی است. در ادبیات یادگیری ماشین، هنگام استفاده از طبقه‌بندی‌کننده خطی، این وظیفه طبقه‌بندی «کاوشگر خطی» نامیده می‌شود. مدل‌های شباهت متنی ما به نتایج پیشرفته‌ای در طبقه‌بندی کاوشگر خطی دست می‌یابند SentEval (کونیو و همکاران، 2018) یک معیار رایج برای ارزیابی کیفیت جاسازی.

طبقه بندی کاوشگر خطی در 7 مجموعه داده

SOTA قبلی (گائو و همکاران 2021)

٪۱۰۰

text-similarity-davinci-001

٪۱۰۰

بیشتر نشان بده، اطلاعات بیشتر

مدل های جستجوی متن

مدل‌های جستجوی متن، جاسازی‌هایی را ارائه می‌کنند که کارهای جستجوی مقیاس بزرگ را امکان‌پذیر می‌سازد، مانند یافتن یک سند مرتبط در میان مجموعه‌ای از اسناد داده‌شده به یک درخواست متنی. جاسازی برای اسناد و پرس و جو به طور جداگانه تولید می شود و سپس از شباهت کسینوس برای مقایسه شباهت بین پرس و جو و هر سند استفاده می شود.

جستجوی مبتنی بر جاسازی می‌تواند بهتر از تکنیک‌های همپوشانی کلمات مورد استفاده در جستجوی کلیدواژه کلاسیک تعمیم یابد، زیرا معنای معنایی متن را به تصویر می‌کشد و به عبارات یا کلمات دقیق حساسیت کمتری دارد. ما عملکرد مدل جستجوی متن را در مورد ارزیابی می کنیم BEIR (تاکور و همکاران 2021) مجموعه ارزیابی جستجو و به دست آوردن عملکرد جستجوی بهتر نسبت به روش های قبلی. ما راهنمای جستجوی متن جزئیات بیشتری در مورد استفاده از جاسازی ها برای کارهای جستجو ارائه می دهد.

دقت متوسط بیش از 11 کار جستجو در BEIR

SOTA قبلی (ایزاکارد و همکاران 2021)

٪۱۰۰

text-search-davinci-{doc, query}-001

٪۱۰۰

بیشتر نشان بده، اطلاعات بیشتر

مدل های جستجوی کد

مدل‌های جستجوی کد، کد و متن را برای کارهای جستجوی کد ارائه می‌کنند. با توجه به مجموعه ای از بلوک های کد، وظیفه یافتن بلوک کد مربوطه برای یک جستار زبان طبیعی است. ما مدل های جستجوی کد را بر روی آن ارزیابی می کنیم CodeSearchNet (هوسیان و همکاران، 2019) مجموعه ارزیابی که در آن جاسازی‌های ما به نتایج قابل‌توجهی بهتر از روش‌های قبلی دست می‌یابند. بررسی کنید راهنمای جستجوی کد برای استفاده از جاسازی ها برای جستجوی کد.

دقت متوسط بیش از 6 زبان برنامه نویسی

SOTA قبلی (گوو و همکاران 2021)

٪۱۰۰

code-search-babbage-{doc, query}-001

٪۱۰۰

بیشتر نشان بده، اطلاعات بیشتر

نمونه هایی از Embeddings API in Action

تحقیقات مغز جت

تحقیقات JetBrains آزمایشگاه فیزیک ذرات اختر تجزیه و تحلیل داده ها مانند تلگرام ستاره شناس و ناسا بخشنامه های GCN، که گزارش هایی هستند که حاوی رویدادهای نجومی هستند که توسط الگوریتم های سنتی قابل تجزیه نیستند.

با استفاده از تعبیه‌های OpenAI از این گزارش‌های نجومی، محققان اکنون می‌توانند رویدادهایی مانند انفجارهای تپ‌اختر خرچنگ را در پایگاه‌های اطلاعاتی و انتشارات متعدد جستجو کنند. تعبیه‌ها همچنین به دقت 99.85 درصد در طبقه‌بندی منبع داده از طریق خوشه‌بندی k-means دست یافتند.

FineTune Learning

FineTune Learning شرکتی است که راه حل های ترکیبی انسان-هوش مصنوعی را برای یادگیری می سازد، مانند حلقه های یادگیری تطبیقی که به دانش آموزان کمک می کند تا به استانداردهای علمی دست یابند.

تعبیه‌های OpenAI به طور قابل توجهی وظیفه یافتن محتوای کتاب درسی را بر اساس اهداف یادگیری بهبود بخشید. با دستیابی به دقت 5 درصدی، مدل تعبیه‌های جستجوی متنی OpenAI از رویکردهای قبلی مانند Sentence-BERT (89.1 درصد) بهتر عمل کرد. در حالی که کارشناسان انسانی هنوز بهتر هستند، تیم FineTune اکنون قادر است کل کتاب‌های درسی را در عرض چند ثانیه برچسب‌گذاری کند، برخلاف ساعت‌هایی که متخصصان طول کشیده‌اند.

مقایسه جاسازی‌های ما با جمله-BERT، جستجوی GPT-3 و متخصصان موضوع انسانی برای تطبیق محتوای کتاب درسی با اهداف آموخته شده. ما گزارش می دهیم دقت@k، تعداد دفعاتی که پاسخ صحیح در پیش بینی های top-k قرار دارد.

فابیوس

فابیوس به شرکت ها کمک می کند تا مکالمات مشتری را به بینش های ساختاری تبدیل کنند که برنامه ریزی و اولویت بندی را مشخص می کند. تعبیه‌های OpenAI به شرکت‌ها این امکان را می‌دهد که راحت‌تر رونوشت تماس‌های مشتری را با درخواست‌های ویژگی پیدا کرده و برچسب‌گذاری کنند.

به عنوان مثال، مشتریان ممکن است از کلماتی مانند «خودکار» یا «استفاده آسان» برای درخواست پلتفرم سلف سرویس بهتر استفاده کنند. پیش از این، فابیوس از جستجوی کلمه کلیدی فازی برای برچسب گذاری آن رونوشت ها با برچسب پلت فرم سلف سرویس استفاده می کرد. با تعبیه‌های OpenAI، آن‌ها اکنون می‌توانند به طور کلی ۲ برابر نمونه‌های بیشتر و ۶ تا ۱۰ برابر بیشتر نمونه‌های بیشتری را برای ویژگی‌هایی با موارد استفاده انتزاعی که کلیدواژه واضحی ندارند، پیدا کنند.

همه مشتریان API می توانند با آن شروع کنند اسناد تعبیه شده برای استفاده از embedding ها در برنامه های خود.

اسناد را بخوانید

.vector-diagram img { display: none;
}
.vector-diagram img:first-child { display: block;
}

تمبر زمان: ژانویه 25، 2022

تمبر زمان: نوامبر 3، 2022

معرفی جاسازی متن و کد در OpenAI API

بازنشر افلاطون

مدل های شباهت متن

طبقه بندی کاوشگر خطی در 7 مجموعه داده

مدل های جستجوی متن

دقت متوسط بیش از 11 کار جستجو در BEIR

مدل های جستجوی کد

دقت متوسط بیش از 6 زبان برنامه نویسی

نمونه هایی از Embeddings API in Action

تحقیقات مغز جت

FineTune Learning

فابیوس

بیشتر از OpenAI

معرفی تیم ChatGPT

OpenAI Codex

GPT-4 API در دسترس بودن و منسوخ شدن مدل‌های قدیمی‌تر در Completions API

DALL·E اکنون بدون فهرست انتظار در دسترس است

استفاده از GPT-4 برای تعدیل محتوا

ما روزنامه نگاری در سطح جهانی فایننشال تایمز را به ChatGPT می آوریم

کارت سیستم GPT-4V(ision).

چگونه OpenAI به انتخابات جهانی 2024 نزدیک می شود

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب

مدل های شباهت متن

طبقه بندی کاوشگر خطی در 7 مجموعه داده

مدل های جستجوی متن

دقت متوسط ​​بیش از 11 کار جستجو در BEIR

مدل های جستجوی کد

دقت متوسط ​​بیش از 6 زبان برنامه نویسی

نمونه هایی از Embeddings API in Action

تحقیقات مغز جت

FineTune Learning

فابیوس

بیشتر از OpenAI

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب

دقت متوسط بیش از 11 کار جستجو در BEIR

دقت متوسط بیش از 6 زبان برنامه نویسی