Claude 3 Opus โมเดล AI เจนเนอเรชันถัดไปของ Anthropic ครองตำแหน่งโพลบนกระดานผู้นำ Chatbot Arena ผลักดัน GPT-4 ของ OpenAI ขึ้นเป็นอันดับสอง
นับตั้งแต่เปิดตัวเมื่อปีที่แล้ว นี่เป็นครั้งแรกที่โมเดล Claude 3 Opus ติดอันดับ Chatbot Arena โดยมี Claud 3 ทั้งสามเวอร์ชันติดอันดับ 10 อันดับแรก
โมเดลของ Claude 3 สร้างชื่อเสียง
สนามกีฬา LMSYS Chatbot การจัดอันดับแสดงให้เห็นว่า Claude 3 Sonnet ครองตำแหน่งที่สี่ร่วมกับ Gemini Pro ในขณะที่ Claude 3 Haiku ซึ่งเปิดตัวในปีนี้อยู่ในอันดับที่ 4 ร่วมกับ GPT-XNUMX เวอร์ชันก่อนหน้า
แม้ว่า คลอดด์ 3 ไฮกุ อาจไม่ฉลาดเท่า Sonnet หรือ Opus โมเดลนี้เร็วกว่าและราคาถูกกว่ามาก แต่ก็ "ดีพอ ๆ กับโมเดลที่ใหญ่กว่ามากในการทดสอบแบบ blind" ตามผลลัพธ์ของเวทีเปิดเผย
“Claude 3 Haiku สร้างความประทับใจให้กับทุกคน แม้จะไปถึงระดับ GPT-4 ตามความต้องการของผู้ใช้ก็ตาม! ความเร็ว ความสามารถ และความยาวบริบทของมันไม่มีใครเทียบได้ในตลาดตอนนี้” LMSYS อธิบาย
ตามข้อมูลของ Tom's Guide สิ่งที่ทำให้ไฮกุน่าประทับใจยิ่งขึ้นก็คือ มันเป็น "โมเดลขนาดท้องถิ่นที่เทียบได้กับ Gemini Nano" มันสามารถ อ่านและประมวลผลงานวิจัยที่มีข้อมูลหนาแน่น เอกสารภายในเวลาไม่ถึงสามวินาที
โมเดลนี้บรรลุผลลัพธ์ที่ยอดเยี่ยมแม้ว่าจะไม่มีสเกลพารามิเตอร์ของ Opus หรือรุ่นคลาส GPT-4 ใดๆ เลยก็ตาม
[อัพเดตอารีน่า]
โหวตลานประลองใหม่มากกว่า 70 ครั้ง🗳️ มาแล้ว!
Claude-3 Haiku สร้างความประทับใจให้กับทุกคน แม้จะไปถึงระดับ GPT-4 ตามความต้องการของผู้ใช้ก็ตาม! ความเร็ว ความสามารถ และความยาวของบริบทนั้นไม่มีใครเทียบได้ในตลาดตอนนี้🔥
ยินดีด้วย @AnthropicAI ในการเปิดตัว Claude-3 อันน่าทึ่ง!
น่าตื่นเต้นยิ่งขึ้น… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) March 26, 2024
นี่อาจเป็นความสำเร็จระยะสั้นได้หรือไม่?
แม้ว่าจะถูกผลักไปอยู่ในตำแหน่งที่สอง แต่เวอร์ชัน GPT-4 ของ OpenAI ก็ยังคงครอง 10 อันดับแรกในรายการด้วยสี่เวอร์ชัน
ตามที่ คู่มือของ Tomเวอร์ชัน GPT-4 ของ OpenAI ในรูปแบบต่างๆ ได้รับความนิยมสูงสุด “เป็นเวลานานที่รุ่นอื่นๆ ที่ใกล้เคียงกับเกณฑ์มาตรฐานจะเรียกว่าโมเดลคลาส GPT-4”
ด้วย GPT-5 ที่ "แตกต่างอย่างเห็นได้ชัด" ที่คาดการณ์ไว้ในปีนี้ Anthropic อาจไม่ดำรงตำแหน่งนั้นนานเกินไป เนื่องจากช่องว่างของคะแนนระหว่าง Claude 3 Opus และ GPT-4 นั้นแคบ
แม้ว่า OpenAI จะยังคงปิดบังการเปิดตัวจริงอยู่ก็ตาม จีพีที-5ตลาดตั้งตารอคอยการเปิดตัวเป็นอย่างมาก มีรายงานว่าโมเดลกำลังดำเนินการอยู่บ้าง “การทดสอบความปลอดภัยอย่างเข้มงวด” และจำลองการโจมตีซึ่งมีความสำคัญก่อนปล่อยตัว
สนามกีฬา LMSYS Chatbot
การจัดอันดับนี้อาศัยการโหวตของมนุษย์ ซึ่งต่างจากการเปรียบเทียบรูปแบบอื่นๆ สำหรับโมเดล AI ด้วยสิ่งนี้ ผู้คนจะจัดอันดับเอาท์พุตของโมเดลที่แตกต่างกันสองแบบโดยไม่ตั้งใจในพรอมต์เดียวกัน
Chatbot Arena ดำเนินการโดย LMSYS และมีโฮสต์ของโมเดลภาษาขนาดใหญ่ (LLM) ที่กำลังต่อสู้กับ "การต่อสู้แบบสุ่มโดยไม่ระบุชื่อ"
เปิดตัวครั้งแรกเมื่อเดือนพฤษภาคมปีที่แล้ว และรวบรวมคะแนนโหวตมากกว่า 400,000 รายการจากผู้ใช้ที่มีโมเดล AI จาก Google, Anthropic และ OpenAI.
“LMYSYS Chatbot Arena เป็นแพลตฟอร์มแบบเปิดที่รวบรวมมวลชนสำหรับการประเมิน LLM เราได้รวบรวมคะแนนโหวตจากมนุษย์มากกว่า 400,000 คะแนนเพื่อจัดอันดับ LLM ด้วยระบบการจัดอันดับ Elo” LMSYS กล่าว
ระบบ Elo ส่วนใหญ่จะใช้ในเกมเช่นหมากรุกเพื่อประเมินทักษะสัมพัทธ์ของผู้เล่น แต่ในกรณีนี้ การจัดอันดับจะมีผลกับแชทบอทและ “ไม่ใช่มนุษย์ที่ใช้โมเดล”
อ่านเพิ่มเติม: Microsoft เผย Surface PC 'เครื่องแรก' พร้อมปุ่ม Copilot AI
ข้อบกพร่อง
การจัดอันดับ Chatbot Arena นั้นไม่ได้มีข้อบกพร่องแต่อย่างใด ตามคำแนะนำของ Tom ข้อมูลดังกล่าวจะไม่รวมโมเดลหรือเวอร์ชันทั้งหมดรวมอยู่ด้วย ในขณะที่บางครั้งผู้ใช้อาจพบประสบการณ์ที่ไม่ดีเมื่อ GPT-4 ไม่สามารถโหลดได้ นอกจากนี้ยังสามารถรองรับบางรุ่นที่มีการเข้าถึงอินเทอร์เน็ตสด เช่น Google Gemini Pro
ในขณะที่รุ่นอื่นๆ เช่นจากสตาร์ทอัพ AI ของฝรั่งเศส Mistral และบริษัทจีนอย่างอาลีบาบาเพิ่งก้าวขึ้นสู่ตำแหน่งสูงสุดในเวทีนี้ นอกเหนือจากโมเดลโอเพ่นซอร์ส แต่เวทีนี้ยังคงพลาดโมเดลที่มีชื่อเสียงบางรุ่น ตัวอย่างเช่น ขาดโมเดลอย่าง Gemini Pro 1.5 ของ Google
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
- ที่มา: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/
- :มี
- :เป็น
- :ไม่
- 000
- 1
- 10
- 14
- 26%
- 400
- 7
- 8
- 9
- a
- เข้า
- ตาม
- การบรรลุ
- ที่เกิดขึ้นจริง
- นอกจากนี้
- AI
- โมเดล AI
- อาลีบาบา
- ทั้งหมด
- ด้วย
- an
- และ
- มานุษยวิทยา
- คาดการณ์
- ใด
- ประยุกต์
- เป็น
- สนามกีฬา
- AS
- การโจมตี
- ไม่ดี
- การต่อสู้
- ต่อสู้
- BE
- ก่อน
- กำลัง
- การเปรียบเทียบ
- มาตรฐาน
- ที่ดีที่สุด
- ระหว่าง
- แต่
- by
- CAN
- ความสามารถในการ
- กรณี
- chatbot
- ราคาถูก
- หมากรุก
- ชาวจีน
- ปิดหน้านี้
- มา
- เทียบเคียง
- สิ่งแวดล้อม
- สำคัญมาก
- ต่าง
- ทำ
- ครอบงำ
- ก่อน
- ประเมินค่า
- แม้
- ที่คาดหวัง
- ประสบการณ์
- อธิบาย
- ความล้มเหลว
- เร็วขึ้น
- ความผิดพลาด
- โปรดปราน
- คุณสมบัติ
- บริษัท
- ชื่อจริง
- ครั้งแรก
- สำหรับ
- รูปแบบ
- สี่
- ที่สี่
- ภาษาฝรั่งเศส
- ราคาเริ่มต้นที่
- เกม
- ช่องว่าง
- เมถุน
- รุ่น
- ดี
- ของ Google
- ยิ่งใหญ่
- ให้คำแนะนำ
- มี
- จัดขึ้น
- จุดสูง
- อย่างสูง
- ถือ
- เจ้าภาพ
- HTTPS
- เป็นมนุษย์
- ประทับใจ
- ประทับใจ
- in
- ประกอบด้วย
- รวม
- เหลือเชื่อ
- ตัวอย่าง
- ฉลาด
- อินเทอร์เน็ต
- อินเทอร์เน็ต
- IT
- ITS
- ร่วมกัน
- jpeg
- ที่รู้จักกัน
- ภาษา
- ใหญ่
- ที่มีขนาดใหญ่
- ชื่อสกุล
- ปีที่แล้ว
- เปิดตัว
- เปิดตัว
- ลีดเดอร์
- ความยาว
- น้อยลง
- ชั้น
- กดไลก์
- รายการ
- สด
- LLM
- โหลด
- นาน
- ทำ
- ทำ
- ทำให้
- ตลาด
- อาจ..
- อาจ
- พลาดท่า
- หายไป
- แบบ
- โมเดล
- ข้อมูลเพิ่มเติม
- ส่วนใหญ่
- มาก
- นาโน
- แคบ
- ใหม่
- ถัดไป
- ตอนนี้
- of
- on
- ONE
- เปิด
- โอเพนซอร์ส
- OpenAI
- ตรงข้าม
- or
- อื่นๆ
- ของเรา
- ออก
- เอาท์พุต
- เกิน
- เอกสาร
- พารามิเตอร์
- เครื่องคอมพิวเตอร์
- คน
- เวที
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- ผู้เล่น
- บวก
- ตำแหน่ง
- มือโปร
- กระบวนการ
- โปรไฟล์
- ผลักดัน
- ใจเร่งเร้า
- สุ่ม
- อันดับ
- จัดอันดับ
- อันดับ
- ถึง
- อ่าน
- เมื่อเร็ว ๆ นี้
- ญาติ
- ปล่อย
- อาศัย
- ยังคงอยู่
- ตามข่าว
- ผลสอบ
- เปิดเผย
- เผย
- วิ่ง
- ความปลอดภัย
- กล่าวว่า
- เดียวกัน
- ขนาด
- คะแนน
- ที่สอง
- วินาที
- สั้น
- โชว์
- อย่างมีความหมาย
- ที่หก
- ขนาด
- ความสามารถ
- So
- บาง
- บางครั้ง
- ความเร็ว
- จุด
- จุด
- การเริ่มต้น
- ยังคง
- ความสำเร็จ
- พื้นผิว
- ระบบ
- นำ
- ใช้เวลา
- การทดสอบ
- กว่า
- ที่
- พื้นที่
- ของพวกเขา
- นี้
- ในปีนี้
- เหล่านั้น
- สาม
- เวลา
- ไปยัง
- ร่วมกัน
- เกินไป
- ด้านบน
- สูงสุด 10
- ราด
- ล้านล้าน
- จริง
- พูดเบาและรวดเร็ว
- สอง
- กำลังดำเนินการ
- ไม่มีที่เปรียบ
- บันทึก
- มือสอง
- ผู้ใช้งาน
- ผู้ใช้
- การใช้
- ต่างๆ
- รุ่น
- รุ่น
- คะแนนโหวต
- คือ
- ทาง..
- อะไร
- ที่
- ในขณะที่
- กับ
- ไม่มี
- ปี
- ยัง
- ลมทะเล