ใหม่และปรับปรุงการฝังโมเดล PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

รูปแบบการฝังใหม่และปรับปรุง

เรารู้สึกตื่นเต้นที่จะประกาศรูปแบบการฝังใหม่ที่มีความสามารถมากขึ้น คุ้มค่า และใช้งานง่ายขึ้นอย่างมาก รุ่นใหม่, text-embedding-ada-002แทนที่ห้ารุ่นที่แยกจากกันสำหรับการค้นหาข้อความ ความคล้ายคลึงของข้อความ และการค้นหาโค้ด และมีประสิทธิภาพดีกว่า Davinci รุ่นก่อนหน้าของเราที่มีความสามารถมากที่สุดในงานส่วนใหญ่ ในขณะที่มีราคาต่ำกว่า 99.8%

อ่านเอกสาร

การฝังคือการแสดงแนวคิดเชิงตัวเลขที่แปลงเป็นลำดับตัวเลข ซึ่งทำให้คอมพิวเตอร์เข้าใจความสัมพันธ์ระหว่างแนวคิดเหล่านั้นได้ง่าย ตั้งแต่ เปิดตัวครั้งแรก ของ OpenAI /ฝัง จุดสิ้นสุด แอปพลิเคชันจำนวนมากได้รวมการฝังเพื่อปรับแต่ง แนะนำ และค้นหาเนื้อหา

สามารถสอบถามได้ที่ /ฝัง จุดสิ้นสุดสำหรับโมเดลใหม่ที่มีโค้ดสองบรรทัดโดยใช้ของเรา ห้องสมุด OpenAI Pythonเช่นเดียวกับที่คุณทำได้กับรุ่นก่อนหน้า:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

การปรับปรุงแบบจำลอง

ประสิทธิภาพที่แข็งแกร่งขึ้น. text-embedding-ada-002 มีประสิทธิภาพเหนือกว่าโมเดลการฝังแบบเก่าทั้งหมดในการค้นหาข้อความ การค้นหาโค้ด และงานความคล้ายคลึงของประโยค และได้รับประสิทธิภาพที่เทียบเคียงได้กับการจัดประเภทข้อความ สำหรับแต่ละหมวดหมู่งาน เราประเมินแบบจำลองในชุดข้อมูลที่ใช้ใน ฝังเก่า.





การรวมความสามารถ. เราได้ปรับอินเทอร์เฟซของอินเทอร์เฟซให้เรียบง่ายขึ้นอย่างมาก /ฝัง จุดสิ้นสุดโดยการรวมโมเดลห้าแบบที่แสดงไว้ด้านบน (text-similarity, text-search-query, text-search-doc, code-search-text และ code-search-code) เป็นโมเดลใหม่หนึ่งเดียว การแสดงเดี่ยวนี้ทำงานได้ดีกว่าโมเดลการฝังก่อนหน้าของเราในชุดการค้นหาข้อความ ความคล้ายคลึงกันของประโยค และเกณฑ์มาตรฐานการค้นหารหัสที่หลากหลาย

บริบทที่ยาวขึ้น ความยาวบริบทของโมเดลใหม่เพิ่มขึ้นสี่เท่าจากปี 2048 เป็น 8192 ทำให้สะดวกยิ่งขึ้นในการทำงานกับเอกสารขนาดยาว

ขนาดการฝังที่เล็กลง การฝังใหม่มีเพียง 1536 มิติ ซึ่งเป็นหนึ่งในแปดของขนาด davinci-001 การฝังทำให้การฝังใหม่คุ้มค่ามากขึ้นในการทำงานกับฐานข้อมูลเวกเตอร์

ลดราคา. เราได้ลดราคาของการฝังรุ่นใหม่ลง 90% เมื่อเทียบกับรุ่นเก่าที่มีขนาดเท่ากัน รุ่นใหม่มีประสิทธิภาพดีกว่าหรือใกล้เคียงกับรุ่น Davinci รุ่นเก่าในราคาที่ถูกกว่า 99.8%

โดยรวมแล้ว รูปแบบการฝังใหม่เป็นเครื่องมือที่มีประสิทธิภาพมากขึ้นสำหรับการประมวลผลภาษาธรรมชาติและงานโค้ด เรารู้สึกตื่นเต้นที่จะได้เห็นว่าลูกค้าของเราจะใช้มันเพื่อสร้างแอปพลิเคชันที่มีความสามารถมากยิ่งขึ้นในสาขาของตนได้อย่างไร

ข้อ จำกัด

ใหม่ text-embedding-ada-002 โมเดลไม่มีประสิทธิภาพดีกว่า text-similarity-davinci-001 บนเกณฑ์มาตรฐานการจำแนกประเภทของโพรบเชิงเส้น SentEval สำหรับงานที่ต้องการการฝึกอบรมเลเยอร์เชิงเส้นน้ำหนักเบาที่ด้านบนของเวกเตอร์แบบฝังสำหรับการทำนายการจัดหมวดหมู่ เราขอแนะนำให้เปรียบเทียบโมเดลใหม่กับ text-similarity-davinci-001 และเลือกรุ่นใดก็ได้ที่ให้ประสิทธิภาพสูงสุด

ตรวจสอบ ข้อจำกัดและความเสี่ยง ในเอกสารประกอบการฝังสำหรับข้อจำกัดทั่วไปของรูปแบบการฝังของเรา

ตัวอย่างของ Embeddings API ในการดำเนินการ

AI ของปฏิทิน เป็นผลิตภัณฑ์การเข้าถึงการขายที่ใช้การฝังเพื่อจับคู่การเสนอขายที่เหมาะสมกับลูกค้าที่เหมาะสมจากชุดข้อมูลที่มีโปรไฟล์ 340M ระบบอัตโนมัตินี้อาศัยความคล้ายคลึงกันระหว่างการฝังโปรไฟล์ลูกค้าและการเสนอขายเพื่อจัดอันดับการจับคู่ที่เหมาะสมที่สุด โดยกำจัดการกำหนดเป้าหมายที่ไม่พึงประสงค์ 40–56% เมื่อเทียบกับแนวทางเดิม

ความคิดซึ่งเป็นบริษัทพื้นที่ทำงานออนไลน์จะใช้การฝังใหม่ของ OpenAI เพื่อปรับปรุงการค้นหา Notion นอกเหนือจากระบบการจับคู่คำหลักในปัจจุบัน


อ่านเอกสาร

ประทับเวลา:

เพิ่มเติมจาก OpenAI