Model Penyematan yang Baru dan Lebih Baik, PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Model Penyematan Baru dan Lebih Baik

Kami sangat senang untuk mengumumkan model penyematan baru yang jauh lebih andal, hemat biaya, dan lebih mudah digunakan. Model baru, text-embedding-ada-002, menggantikan lima model terpisah untuk pencarian teks, kesamaan teks, dan pencarian kode, dan mengungguli model kami sebelumnya yang paling mumpuni, Davinci, pada sebagian besar tugas, dengan harga 99.8% lebih rendah.

Baca dokumentasi

Penyematan adalah representasi numerik dari konsep yang diubah menjadi urutan angka, yang memudahkan komputer untuk memahami hubungan antara konsep tersebut. Sejak peluncuran awal dari OpenAI / embedding titik akhir, banyak aplikasi telah menggabungkan penyematan untuk mempersonalisasi, merekomendasikan, dan mencari konten.

Anda dapat meminta / embedding titik akhir untuk model baru dengan dua baris kode menggunakan Perpustakaan OpenAI Python, seperti yang dapat Anda lakukan dengan model sebelumnya:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

Perbaikan Model

Performa yang lebih kuat. text-embedding-ada-002 mengungguli semua model penyematan lama pada pencarian teks, pencarian kode, dan tugas kesamaan kalimat dan mendapatkan kinerja yang sebanding pada klasifikasi teks. Untuk setiap kategori tugas, kami mengevaluasi model pada kumpulan data yang digunakan embedding lama.





Penyatuan kemampuan. Kami telah menyederhanakan antarmuka secara signifikan / embedding titik akhir dengan menggabungkan lima model terpisah yang ditunjukkan di atas (text-similarity, text-search-query, text-search-doc, code-search-text dan code-search-code) menjadi satu model baru. Representasi tunggal ini berperforma lebih baik daripada model penyematan kami sebelumnya di berbagai rangkaian penelusuran teks, kemiripan kalimat, dan tolok ukur penelusuran kode.

Konteks yang lebih panjang. Panjang konteks model baru ini bertambah empat kali lipat, dari 2048 menjadi 8192, membuatnya lebih nyaman untuk bekerja dengan dokumen yang panjang.

Ukuran penyematan lebih kecil. Embedding baru hanya memiliki 1536 dimensi, seperdelapan dari ukuran davinci-001 embeddings, membuat embeddings baru lebih hemat biaya dalam bekerja dengan database vektor.

Harga yang dikurangi. Kami telah mengurangi harga model penyematan baru sebesar 90% dibandingkan model lama dengan ukuran yang sama. Model baru mencapai kinerja yang lebih baik atau serupa dengan model Davinci lama dengan harga 99.8% lebih rendah.

Secara keseluruhan, model penyematan baru adalah alat yang jauh lebih kuat untuk pemrosesan bahasa alami dan tugas kode. Kami sangat senang melihat bagaimana pelanggan kami akan menggunakannya untuk membuat aplikasi yang lebih mumpuni di bidangnya masing-masing.

keterbatasan

Baru text-embedding-ada-002 model tidak unggul text-similarity-davinci-001 pada benchmark klasifikasi probing linier SentEval. Untuk tugas yang memerlukan pelatihan lapisan linier berbobot ringan di atas penyematan vektor untuk prediksi klasifikasi, sebaiknya bandingkan model baru dengan text-similarity-davinci-001 dan memilih model mana yang memberikan kinerja optimal.

Periksalah Keterbatasan & Risiko bagian dalam dokumentasi penyematan untuk batasan umum model penyematan kami.

Contoh Embeddings API dalam Tindakan

Kalender AI adalah produk penjangkauan penjualan yang menggunakan penyematan untuk mencocokkan promosi penjualan yang tepat dengan pelanggan yang tepat dari kumpulan data yang berisi 340 juta profil. Otomatisasi ini bergantung pada kesamaan antara penyematan profil pelanggan dan penawaran penjualan untuk menentukan peringkat kecocokan yang paling cocok, menghilangkan 40โ€“56% penargetan yang tidak diinginkan dibandingkan dengan pendekatan lama mereka.

Gagasan, perusahaan ruang kerja online, akan menggunakan penyematan baru OpenAI untuk meningkatkan pencarian Notion di luar sistem pencocokan kata kunci saat ini.


Baca dokumentasi

Stempel Waktu:

Lebih dari OpenAI