เครื่องมือการกลั่นกรองเนื้อหาที่ปรับปรุงใหม่

ภาพ

เรากำลังแนะนำเครื่องมือตรวจสอบเนื้อหาที่ปรับปรุงใหม่: The ปลายทางการกลั่นกรอง ปรับปรุงจากตัวกรองเนื้อหาก่อนหน้าของเรา และเปิดให้นักพัฒนา OpenAI API ใช้งานได้ฟรีแล้ววันนี้

เพื่อช่วยให้นักพัฒนาปกป้องแอปพลิเคชันของตนจากการนำไปใช้ในทางที่ผิด เรากำลังเปิดตัวแอปพลิเคชันที่รวดเร็วและแม่นยำยิ่งขึ้น ปลายทางการกลั่นกรอง. ปลายทางนี้ช่วยให้นักพัฒนา OpenAI API สามารถเข้าถึง .ได้ฟรี อิงตาม GPT ตัวแยกประเภทที่ตรวจจับเนื้อหาที่ไม่ต้องการ — ตัวอย่างของ ใช้ระบบ AI เพื่อช่วยในการดูแลมนุษย์ของระบบเหล่านี้ เรายังได้ปล่อยทั้ง เอกสารทางเทคนิค อธิบายวิธีการของเราและ ชุด ใช้สำหรับการประเมิน

เมื่อได้รับการป้อนข้อความ จุดสิ้นสุดการกลั่นกรองจะประเมินว่าเนื้อหานั้นเกี่ยวกับเรื่องเพศ ความเกลียดชัง ความรุนแรง หรือส่งเสริมการทำร้ายตัวเอง — เนื้อหาที่ห้ามโดยเรา นโยบายเนื้อหา. จุดสิ้นสุดได้รับการฝึกอบรมให้มีความรวดเร็ว แม่นยำ และทำงานได้อย่างมีประสิทธิภาพในแอปพลิเคชันต่างๆ ที่สำคัญ สิ่งนี้จะลดโอกาสที่ผลิตภัณฑ์จะ "พูด" สิ่งที่ไม่ถูกต้อง แม้ว่าจะนำไปใช้กับผู้ใช้ในวงกว้างก็ตาม ด้วยเหตุนี้ AI สามารถปลดล็อกผลประโยชน์ในสภาพแวดล้อมที่ละเอียดอ่อน เช่น การศึกษา ซึ่งไม่สามารถนำมาใช้อย่างมั่นใจได้

ใส่ข้อความ

ความรุนแรง

เป็นอันตรายต่อตัวเอง

เกลียด

เพศที่สนใจ

ปลายทางการกลั่นกรอง

ปลายทางการกลั่นกรองช่วยให้นักพัฒนาได้รับประโยชน์จากการลงทุนด้านโครงสร้างพื้นฐานของเรา แทนที่จะสร้างและรักษาตัวแยกประเภท—เป็นกระบวนการที่กว้างขวาง ตามที่เราบันทึกไว้ใน กระดาษ—พวกเขาสามารถเข้าถึงตัวแยกประเภทที่แม่นยำได้ผ่านการเรียก API เพียงครั้งเดียว

เป็นส่วนหนึ่งของ OpenAI's ความมุ่งมั่น ไปยัง ทำให้ระบบนิเวศ AI ปลอดภัยยิ่งขึ้นเรากำลังจัดเตรียมปลายทางนี้เพื่อให้สามารถควบคุมเนื้อหาที่สร้าง OpenAI API ทั้งหมดได้ฟรี ตัวอย่างเช่น อินเวิร์ลซึ่งเป็นลูกค้า OpenAI API ใช้ปลายทางการกลั่นกรองเพื่อช่วยให้อักขระเสมือนที่ใช้ AI "อยู่ในสคริปต์" ด้วยการใช้เทคโนโลยีของ OpenAI ทำให้ Inworld สามารถมุ่งเน้นไปที่ผลิตภัณฑ์หลักของพวกเขา – สร้างตัวละครที่น่าจดจำ

นอกจากนี้ เรายินดีต้อนรับการใช้ปลายทางเพื่อกลั่นกรองเนื้อหา ไม่ สร้างด้วย OpenAI API ในกรณีหนึ่งบริษัท NGL – แพลตฟอร์มการส่งข้อความที่ไม่ระบุชื่อที่เน้นเรื่องความปลอดภัย – ใช้ปลายทางการกลั่นกรองเพื่อตรวจจับภาษาที่แสดงความเกลียดชังและการกลั่นแกล้งในแอปพลิเคชัน NGL พบว่าตัวแยกประเภทเหล่านี้สามารถสรุปเป็นสแลงล่าสุดได้ ทำให้พวกเขายังคงมีความมั่นใจมากขึ้นเมื่อเวลาผ่านไป การใช้ปลายทางการดูแลเพื่อตรวจสอบการรับส่งข้อมูลที่ไม่ใช่ API อยู่ในรุ่นเบต้าส่วนตัวและจะต้องเสียค่าธรรมเนียม หากสนใจติดต่อสอบถามได้ที่ support@openai.com.


เริ่มต้นใช้งานปลายทางการดูแลโดยเช็คเอาท์ เอกสารประกอบ. รายละเอียดเพิ่มเติมของกระบวนการฝึกอบรมและประสิทธิภาพของแบบจำลองมีอยู่ใน กระดาษ. เรายังได้ออก ชุดข้อมูลการประเมินซึ่งมีข้อมูลการรวบรวมข้อมูลทั่วไปที่ติดป้ายกำกับภายในหมวดหมู่เหล่านี้ ซึ่งเราหวังว่าจะกระตุ้นการวิจัยเพิ่มเติมในด้านนี้

ประทับเวลา:

เพิ่มเติมจาก OpenAI

Superalignment Fast Grants

โหนดต้นทาง: 1925042
ประทับเวลา: ธันวาคม 14, 2023