Νέο και βελτιωμένο μοντέλο ενσωμάτωσης PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Νέο και βελτιωμένο μοντέλο ενσωμάτωσης

Είμαστε στην ευχάριστη θέση να ανακοινώσουμε ένα νέο μοντέλο ενσωμάτωσης που είναι σημαντικά πιο ικανό, οικονομικό και πιο απλό στη χρήση. Το νέο μοντέλο, text-embedding-ada-002, αντικαθιστά πέντε ξεχωριστά μοντέλα για αναζήτηση κειμένου, ομοιότητα κειμένου και αναζήτηση κώδικα και ξεπερνά τις περισσότερες εργασίες στο προηγούμενο πιο ικανό μοντέλο μας, το Davinci, ενώ η τιμή του είναι 99.8% χαμηλότερη.

Διαβάστε την τεκμηρίωση

Οι ενσωματώσεις είναι αριθμητικές αναπαραστάσεις εννοιών που μετατρέπονται σε ακολουθίες αριθμών, οι οποίες διευκολύνουν τους υπολογιστές να κατανοήσουν τις σχέσεις μεταξύ αυτών των εννοιών. Δεδομένου ότι το αρχική έναρξη του OpenAI /ενσωματώσεις τελικό σημείο, πολλές εφαρμογές έχουν ενσωματώσει ενσωματώσεις για εξατομίκευση, σύσταση και αναζήτηση περιεχομένου.

Μπορείτε να ρωτήσετε το /ενσωματώσεις τελικό σημείο για το νέο μοντέλο με δύο γραμμές κώδικα χρησιμοποιώντας το δικό μας OpenAI Python Library, όπως ακριβώς θα μπορούσατε με τα προηγούμενα μοντέλα:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

Βελτιώσεις μοντέλου

Πιο δυνατή απόδοση. text-embedding-ada-002 ξεπερνά όλα τα παλιά μοντέλα ενσωμάτωσης σε εργασίες αναζήτησης κειμένου, αναζήτησης κώδικα και ομοιότητας προτάσεων και έχει συγκρίσιμη απόδοση στην ταξινόμηση κειμένου. Για κάθε κατηγορία εργασιών, αξιολογούμε τα μοντέλα στα σύνολα δεδομένων που χρησιμοποιούνται παλιές ενσωματώσεις.





Ενοποίηση δυνατοτήτων. Έχουμε απλοποιήσει σημαντικά τη διεπαφή του /ενσωματώσεις τελικό σημείο συγχωνεύοντας τα πέντε ξεχωριστά μοντέλα που φαίνονται παραπάνω (text-similarity, text-search-query, text-search-doc, code-search-text και code-search-code) σε ένα νέο μοντέλο. Αυτή η μεμονωμένη αναπαράσταση αποδίδει καλύτερα από τα προηγούμενα μοντέλα ενσωμάτωσης σε ένα διαφορετικό σύνολο σημείων αναφοράς αναζήτησης κειμένου, ομοιότητας προτάσεων και αναζήτησης κώδικα.

Μεγαλύτερο πλαίσιο. Το μήκος περιβάλλοντος του νέου μοντέλου αυξάνεται κατά τέσσερις φορές, από το 2048 στο 8192, καθιστώντας πιο βολική την εργασία με μεγάλα έγγραφα.

Μικρότερο μέγεθος ενσωμάτωσης. Οι νέες ενσωματώσεις έχουν μόνο 1536 διαστάσεις, το ένα όγδοο του μεγέθους davinci-001 ενσωματώσεις, καθιστώντας τις νέες ενσωματώσεις πιο οικονομικά αποδοτικές στην εργασία με διανυσματικές βάσεις δεδομένων.

Μειωμένη τιμή. Μειώσαμε την τιμή των νέων μοντέλων ενσωμάτωσης κατά 90% σε σύγκριση με παλιά μοντέλα ίδιου μεγέθους. Το νέο μοντέλο επιτυγχάνει καλύτερες ή παρόμοιες επιδόσεις με τα παλιά μοντέλα Davinci σε 99.8% χαμηλότερη τιμή.

Συνολικά, το νέο μοντέλο ενσωμάτωσης είναι ένα πολύ πιο ισχυρό εργαλείο για την επεξεργασία φυσικής γλώσσας και τις εργασίες κώδικα. Είμαστε ενθουσιασμένοι που βλέπουμε πώς θα το χρησιμοποιήσουν οι πελάτες μας για να δημιουργήσουν ακόμη πιο ικανές εφαρμογές στους αντίστοιχους τομείς τους.

Περιορισμοί

Το νέο text-embedding-ada-002 το μοντέλο δεν έχει καλύτερη απόδοση text-similarity-davinci-001 στο σημείο αναφοράς ταξινόμησης γραμμικής ανίχνευσης SentEval. Για εργασίες που απαιτούν εκπαίδευση σε ένα ελαφρύ γραμμικό στρώμα πάνω από την ενσωμάτωση διανυσμάτων για την πρόβλεψη ταξινόμησης, προτείνουμε να συγκρίνετε το νέο μοντέλο με text-similarity-davinci-001 και επιλέγοντας όποιο μοντέλο προσφέρει βέλτιστη απόδοση.

Έλεγξε το Περιορισμοί & Κίνδυνοι ενότητα στην τεκμηρίωση ενσωματώσεων για γενικούς περιορισμούς των μοντέλων ενσωμάτωσης.

Παραδείγματα API ενσωματώσεων σε δράση

Calendar AI είναι ένα προϊόν προβολής πωλήσεων που χρησιμοποιεί ενσωματώσεις για να ταιριάζει με το σωστό βήμα πωλήσεων στους σωστούς πελάτες από ένα σύνολο δεδομένων που περιέχει 340 εκατομμύρια προφίλ. Αυτός ο αυτοματισμός βασίζεται στην ομοιότητα μεταξύ των ενσωματώσεων προφίλ πελατών και των θέσεων πώλησης για την κατάταξη των πιο κατάλληλων αντιστοιχιών, εξαλείφοντας το 40–56% της ανεπιθύμητης στόχευσης σε σύγκριση με την παλιά τους προσέγγιση.

Εννοια, η εταιρεία διαδικτυακών χώρων εργασίας, θα χρησιμοποιήσει τις νέες ενσωματώσεις του OpenAI για να βελτιώσει την αναζήτηση στο Notion πέρα ​​από τα σημερινά συστήματα αντιστοίχισης λέξεων-κλειδιών.


Διαβάστε την τεκμηρίωση

Σφραγίδα ώρας:

Περισσότερα από OpenAI