Claude 3 Opus ครองตำแหน่งสูงสุดในการจัดอันดับ Chatbot

Claude 3 Opus ครองตำแหน่งสูงสุดในการจัดอันดับ Chatbot

Claude 3 Opus ครองตำแหน่งสูงสุดในการจัดอันดับ Chatbot PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

Claude 3 Opus โมเดล AI เจนเนอเรชันถัดไปของ Anthropic ครองตำแหน่งโพลบนกระดานผู้นำ Chatbot Arena ผลักดัน GPT-4 ของ OpenAI ขึ้นเป็นอันดับสอง

นับตั้งแต่เปิดตัวเมื่อปีที่แล้ว นี่เป็นครั้งแรกที่โมเดล Claude 3 Opus ติดอันดับ Chatbot Arena โดยมี Claud 3 ทั้งสามเวอร์ชันติดอันดับ 10 อันดับแรก

โมเดลของ Claude 3 สร้างชื่อเสียง

สนามกีฬา LMSYS Chatbot การจัดอันดับแสดงให้เห็นว่า Claude 3 Sonnet ครองตำแหน่งที่สี่ร่วมกับ Gemini Pro ในขณะที่ Claude 3 Haiku ซึ่งเปิดตัวในปีนี้อยู่ในอันดับที่ 4 ร่วมกับ GPT-XNUMX เวอร์ชันก่อนหน้า

แม้ว่า คลอดด์ 3 ไฮกุ อาจไม่ฉลาดเท่า Sonnet หรือ Opus โมเดลนี้เร็วกว่าและราคาถูกกว่ามาก แต่ก็ "ดีพอ ๆ กับโมเดลที่ใหญ่กว่ามากในการทดสอบแบบ blind" ตามผลลัพธ์ของเวทีเปิดเผย

“Claude 3 Haiku สร้างความประทับใจให้กับทุกคน แม้จะไปถึงระดับ GPT-4 ตามความต้องการของผู้ใช้ก็ตาม! ความเร็ว ความสามารถ และความยาวบริบทของมันไม่มีใครเทียบได้ในตลาดตอนนี้” LMSYS อธิบาย

ตามข้อมูลของ Tom's Guide สิ่งที่ทำให้ไฮกุน่าประทับใจยิ่งขึ้นก็คือ มันเป็น "โมเดลขนาดท้องถิ่นที่เทียบได้กับ Gemini Nano" มันสามารถ อ่านและประมวลผลงานวิจัยที่มีข้อมูลหนาแน่น เอกสารภายในเวลาไม่ถึงสามวินาที

โมเดลนี้บรรลุผลลัพธ์ที่ยอดเยี่ยมแม้ว่าจะไม่มีสเกลพารามิเตอร์ของ Opus หรือรุ่นคลาส GPT-4 ใดๆ เลยก็ตาม

นี่อาจเป็นความสำเร็จระยะสั้นได้หรือไม่?

แม้ว่าจะถูกผลักไปอยู่ในตำแหน่งที่สอง แต่เวอร์ชัน GPT-4 ของ OpenAI ก็ยังคงครอง 10 อันดับแรกในรายการด้วยสี่เวอร์ชัน

ตามที่ คู่มือของ Tomเวอร์ชัน GPT-4 ของ OpenAI ในรูปแบบต่างๆ ได้รับความนิยมสูงสุด “เป็นเวลานานที่รุ่นอื่นๆ ที่ใกล้เคียงกับเกณฑ์มาตรฐานจะเรียกว่าโมเดลคลาส GPT-4”

ด้วย GPT-5 ที่ "แตกต่างอย่างเห็นได้ชัด" ที่คาดการณ์ไว้ในปีนี้ Anthropic อาจไม่ดำรงตำแหน่งนั้นนานเกินไป เนื่องจากช่องว่างของคะแนนระหว่าง Claude 3 Opus และ GPT-4 นั้นแคบ

แม้ว่า OpenAI จะยังคงปิดบังการเปิดตัวจริงอยู่ก็ตาม จีพีที-5ตลาดตั้งตารอคอยการเปิดตัวเป็นอย่างมาก มีรายงานว่าโมเดลกำลังดำเนินการอยู่บ้าง “การทดสอบความปลอดภัยอย่างเข้มงวด” และจำลองการโจมตีซึ่งมีความสำคัญก่อนปล่อยตัว

สนามกีฬา LMSYS Chatbot

การจัดอันดับนี้อาศัยการโหวตของมนุษย์ ซึ่งต่างจากการเปรียบเทียบรูปแบบอื่นๆ สำหรับโมเดล AI ด้วยสิ่งนี้ ผู้คนจะจัดอันดับเอาท์พุตของโมเดลที่แตกต่างกันสองแบบโดยไม่ตั้งใจในพรอมต์เดียวกัน

Chatbot Arena ดำเนินการโดย LMSYS และมีโฮสต์ของโมเดลภาษาขนาดใหญ่ (LLM) ที่กำลังต่อสู้กับ "การต่อสู้แบบสุ่มโดยไม่ระบุชื่อ"

เปิดตัวครั้งแรกเมื่อเดือนพฤษภาคมปีที่แล้ว และรวบรวมคะแนนโหวตมากกว่า 400,000 รายการจากผู้ใช้ที่มีโมเดล AI จาก Google, Anthropic และ OpenAI.

“LMYSYS Chatbot Arena เป็นแพลตฟอร์มแบบเปิดที่รวบรวมมวลชนสำหรับการประเมิน LLM เราได้รวบรวมคะแนนโหวตจากมนุษย์มากกว่า 400,000 คะแนนเพื่อจัดอันดับ LLM ด้วยระบบการจัดอันดับ Elo” LMSYS กล่าว

ระบบ Elo ส่วนใหญ่จะใช้ในเกมเช่นหมากรุกเพื่อประเมินทักษะสัมพัทธ์ของผู้เล่น แต่ในกรณีนี้ การจัดอันดับจะมีผลกับแชทบอทและ “ไม่ใช่มนุษย์ที่ใช้โมเดล”

อ่านเพิ่มเติม: Microsoft เผย Surface PC 'เครื่องแรก' พร้อมปุ่ม Copilot AI

ข้อบกพร่อง

การจัดอันดับ Chatbot Arena นั้นไม่ได้มีข้อบกพร่องแต่อย่างใด ตามคำแนะนำของ Tom ข้อมูลดังกล่าวจะไม่รวมโมเดลหรือเวอร์ชันทั้งหมดรวมอยู่ด้วย ในขณะที่บางครั้งผู้ใช้อาจพบประสบการณ์ที่ไม่ดีเมื่อ GPT-4 ไม่สามารถโหลดได้ นอกจากนี้ยังสามารถรองรับบางรุ่นที่มีการเข้าถึงอินเทอร์เน็ตสด เช่น Google Gemini Pro

ในขณะที่รุ่นอื่นๆ เช่นจากสตาร์ทอัพ AI ของฝรั่งเศส Mistral และบริษัทจีนอย่างอาลีบาบาเพิ่งก้าวขึ้นสู่ตำแหน่งสูงสุดในเวทีนี้ นอกเหนือจากโมเดลโอเพ่นซอร์ส แต่เวทีนี้ยังคงพลาดโมเดลที่มีชื่อเสียงบางรุ่น ตัวอย่างเช่น ขาดโมเดลอย่าง Gemini Pro 1.5 ของ Google

ประทับเวลา:

เพิ่มเติมจาก เมตานิวส์