Mô hình nhúng mới và cải tiến PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Mô hình nhúng mới và cải tiến

Chúng tôi rất vui mừng được công bố một mô hình nhúng mới có khả năng cao hơn đáng kể, tiết kiệm chi phí và sử dụng đơn giản hơn. Mô hình mới, text-embedding-ada-002, thay thế năm mô hình riêng biệt để tìm kiếm văn bản, tìm kiếm văn bản tương tự và tìm kiếm mã, đồng thời hoạt động tốt hơn mô hình có khả năng cao nhất trước đây của chúng tôi, Davinci, ở hầu hết các tác vụ, trong khi có giá thấp hơn 99.8%.

Đọc tài liệu

Nhúng là biểu diễn số của các khái niệm được chuyển đổi thành chuỗi số, giúp máy tính dễ dàng hiểu được mối quan hệ giữa các khái niệm đó. Kể từ khi khởi động ban đầu của OpenAI / nhúng điểm cuối, nhiều ứng dụng đã kết hợp các phần nhúng để cá nhân hóa, đề xuất và tìm kiếm nội dung.

Bạn có thể truy vấn / nhúng điểm cuối cho mô hình mới với hai dòng mã bằng cách sử dụng của chúng tôi Thư viện OpenAI Python, giống như bạn có thể làm với các mẫu trước đây:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

Cải tiến mô hình

Hiệu suất mạnh mẽ hơn. text-embedding-ada-002 vượt trội hơn tất cả các mô hình nhúng cũ về tìm kiếm văn bản, tìm kiếm mã và các tác vụ tương tự câu và có hiệu suất tương đương về phân loại văn bản. Đối với mỗi loại nhiệm vụ, chúng tôi đánh giá các mô hình trên bộ dữ liệu được sử dụng trong nhúng cũ.





Thống nhất năng lực. Chúng tôi đã đơn giản hóa đáng kể giao diện của / nhúng điểm cuối bằng cách hợp nhất năm mô hình riêng biệt được hiển thị ở trên (text-similarity, text-search-query, text-search-doc, code-search-textcode-search-code) thành một mô hình mới. Biểu diễn đơn lẻ này hoạt động tốt hơn so với các mô hình nhúng trước đây của chúng tôi trên một tập hợp tìm kiếm văn bản đa dạng, độ tương tự của câu và tiêu chuẩn tìm kiếm mã.

Bối cảnh dài hơn. Độ dài ngữ cảnh của mô hình mới được tăng lên gấp bốn lần, từ 2048 lên 8192, giúp làm việc với các tài liệu dài thuận tiện hơn.

Kích thước nhúng nhỏ hơn. Các phần nhúng mới chỉ có 1536 kích thước, bằng XNUMX/XNUMX kích thước của davinci-001 nhúng, làm cho các nhúng mới hiệu quả hơn về chi phí khi làm việc với cơ sở dữ liệu vectơ.

Hạ giá. Chúng tôi giảm giá các mẫu nhúng mới đến 90% so với các mẫu cũ cùng kích thước. Mẫu mới đạt hiệu suất tốt hơn hoặc tương đương với mẫu Davinci cũ với mức giá thấp hơn 99.8%.

Nhìn chung, mô hình nhúng mới là một công cụ mạnh mẽ hơn nhiều cho các tác vụ mã và xử lý ngôn ngữ tự nhiên. Chúng tôi rất vui khi thấy khách hàng của mình sẽ sử dụng nó như thế nào để tạo ra các ứng dụng có khả năng hơn nữa trong các lĩnh vực tương ứng của họ.

Hạn chế

Mới text-embedding-ada-002 mô hình không vượt trội text-similarity-davinci-001 trên điểm chuẩn phân loại thăm dò tuyến tính SentEval. Đối với các tác vụ yêu cầu đào tạo một lớp tuyến tính có trọng số nhẹ trên đầu các vectơ nhúng để dự đoán phân loại, chúng tôi khuyên bạn nên so sánh mô hình mới với text-similarity-davinci-001 và lựa chọn mô hình nào mang lại hiệu suất tối ưu.

Kiểm tra Hạn chế & Rủi ro phần trong tài liệu nhúng về các giới hạn chung của các mô hình nhúng của chúng tôi.

Ví dụ về API nhúng đang hoạt động

Lịch AI là một sản phẩm tiếp cận bán hàng sử dụng các tính năng nhúng để khớp mục tiêu bán hàng phù hợp với đúng khách hàng trong tập dữ liệu chứa 340 triệu hồ sơ. Quá trình tự động hóa này dựa trên sự tương đồng giữa việc nhúng hồ sơ khách hàng và quảng cáo chiêu hàng để xếp hạng các đối sánh phù hợp nhất, loại bỏ 40–56% nhắm mục tiêu không mong muốn so với phương pháp cũ của họ.

Khái niệm, công ty không gian làm việc trực tuyến, sẽ sử dụng các nhúng mới của OpenAI để cải thiện tìm kiếm Notion ngoài các hệ thống đối sánh từ khóa ngày nay.


Đọc tài liệu

Dấu thời gian:

Thêm từ OpenAI