Claude 3 Opus ครองตำแหน่งสูงสุดในการจัดอันดับ Chatbot

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

Claude 3 Opus โมเดล AI เจนเนอเรชันถัดไปของ Anthropic ครองตำแหน่งโพลบนกระดานผู้นำ Chatbot Arena ผลักดัน GPT-4 ของ OpenAI ขึ้นเป็นอันดับสอง

นับตั้งแต่เปิดตัวเมื่อปีที่แล้ว นี่เป็นครั้งแรกที่โมเดล Claude 3 Opus ติดอันดับ Chatbot Arena โดยมี Claud 3 ทั้งสามเวอร์ชันติดอันดับ 10 อันดับแรก

โมเดลของ Claude 3 สร้างชื่อเสียง

สนามกีฬา LMSYS Chatbot การจัดอันดับแสดงให้เห็นว่า Claude 3 Sonnet ครองตำแหน่งที่สี่ร่วมกับ Gemini Pro ในขณะที่ Claude 3 Haiku ซึ่งเปิดตัวในปีนี้อยู่ในอันดับที่ 4 ร่วมกับ GPT-XNUMX เวอร์ชันก่อนหน้า

แม้ว่า คลอดด์ 3 ไฮกุ อาจไม่ฉลาดเท่า Sonnet หรือ Opus โมเดลนี้เร็วกว่าและราคาถูกกว่ามาก แต่ก็ "ดีพอ ๆ กับโมเดลที่ใหญ่กว่ามากในการทดสอบแบบ blind" ตามผลลัพธ์ของเวทีเปิดเผย

“Claude 3 Haiku สร้างความประทับใจให้กับทุกคน แม้จะไปถึงระดับ GPT-4 ตามความต้องการของผู้ใช้ก็ตาม! ความเร็ว ความสามารถ และความยาวบริบทของมันไม่มีใครเทียบได้ในตลาดตอนนี้” LMSYS อธิบาย

ตามข้อมูลของ Tom's Guide สิ่งที่ทำให้ไฮกุน่าประทับใจยิ่งขึ้นก็คือ มันเป็น "โมเดลขนาดท้องถิ่นที่เทียบได้กับ Gemini Nano" มันสามารถ อ่านและประมวลผลงานวิจัยที่มีข้อมูลหนาแน่น เอกสารภายในเวลาไม่ถึงสามวินาที

โมเดลนี้บรรลุผลลัพธ์ที่ยอดเยี่ยมแม้ว่าจะไม่มีสเกลพารามิเตอร์ของ Opus หรือรุ่นคลาส GPT-4 ใดๆ เลยก็ตาม

[อัพเดตอารีน่า]

โหวตลานประลองใหม่มากกว่า 70 ครั้ง🗳️ มาแล้ว!

Claude-3 Haiku สร้างความประทับใจให้กับทุกคน แม้จะไปถึงระดับ GPT-4 ตามความต้องการของผู้ใช้ก็ตาม! ความเร็ว ความสามารถ และความยาวของบริบทนั้นไม่มีใครเทียบได้ในตลาดตอนนี้🔥

ยินดีด้วย @AnthropicAI ในการเปิดตัว Claude-3 อันน่าทึ่ง!

น่าตื่นเต้นยิ่งขึ้น… pic.twitter.com/p1Guuf0B3K

— lmsys.org (@lmsysorg) March 26, 2024

นี่อาจเป็นความสำเร็จระยะสั้นได้หรือไม่?

แม้ว่าจะถูกผลักไปอยู่ในตำแหน่งที่สอง แต่เวอร์ชัน GPT-4 ของ OpenAI ก็ยังคงครอง 10 อันดับแรกในรายการด้วยสี่เวอร์ชัน

ตามที่ คู่มือของ Tomเวอร์ชัน GPT-4 ของ OpenAI ในรูปแบบต่างๆ ได้รับความนิยมสูงสุด “เป็นเวลานานที่รุ่นอื่นๆ ที่ใกล้เคียงกับเกณฑ์มาตรฐานจะเรียกว่าโมเดลคลาส GPT-4”

ด้วย GPT-5 ที่ "แตกต่างอย่างเห็นได้ชัด" ที่คาดการณ์ไว้ในปีนี้ Anthropic อาจไม่ดำรงตำแหน่งนั้นนานเกินไป เนื่องจากช่องว่างของคะแนนระหว่าง Claude 3 Opus และ GPT-4 นั้นแคบ

แม้ว่า OpenAI จะยังคงปิดบังการเปิดตัวจริงอยู่ก็ตาม จีพีที-5ตลาดตั้งตารอคอยการเปิดตัวเป็นอย่างมาก มีรายงานว่าโมเดลกำลังดำเนินการอยู่บ้าง “การทดสอบความปลอดภัยอย่างเข้มงวด” และจำลองการโจมตีซึ่งมีความสำคัญก่อนปล่อยตัว

สนามกีฬา LMSYS Chatbot

การจัดอันดับนี้อาศัยการโหวตของมนุษย์ ซึ่งต่างจากการเปรียบเทียบรูปแบบอื่นๆ สำหรับโมเดล AI ด้วยสิ่งนี้ ผู้คนจะจัดอันดับเอาท์พุตของโมเดลที่แตกต่างกันสองแบบโดยไม่ตั้งใจในพรอมต์เดียวกัน

Chatbot Arena ดำเนินการโดย LMSYS และมีโฮสต์ของโมเดลภาษาขนาดใหญ่ (LLM) ที่กำลังต่อสู้กับ "การต่อสู้แบบสุ่มโดยไม่ระบุชื่อ"

เปิดตัวครั้งแรกเมื่อเดือนพฤษภาคมปีที่แล้ว และรวบรวมคะแนนโหวตมากกว่า 400,000 รายการจากผู้ใช้ที่มีโมเดล AI จาก Google, Anthropic และ OpenAI.

“LMYSYS Chatbot Arena เป็นแพลตฟอร์มแบบเปิดที่รวบรวมมวลชนสำหรับการประเมิน LLM เราได้รวบรวมคะแนนโหวตจากมนุษย์มากกว่า 400,000 คะแนนเพื่อจัดอันดับ LLM ด้วยระบบการจัดอันดับ Elo” LMSYS กล่าว

ระบบ Elo ส่วนใหญ่จะใช้ในเกมเช่นหมากรุกเพื่อประเมินทักษะสัมพัทธ์ของผู้เล่น แต่ในกรณีนี้ การจัดอันดับจะมีผลกับแชทบอทและ “ไม่ใช่มนุษย์ที่ใช้โมเดล”

อ่านเพิ่มเติม: Microsoft เผย Surface PC 'เครื่องแรก' พร้อมปุ่ม Copilot AI

ข้อบกพร่อง

การจัดอันดับ Chatbot Arena นั้นไม่ได้มีข้อบกพร่องแต่อย่างใด ตามคำแนะนำของ Tom ข้อมูลดังกล่าวจะไม่รวมโมเดลหรือเวอร์ชันทั้งหมดรวมอยู่ด้วย ในขณะที่บางครั้งผู้ใช้อาจพบประสบการณ์ที่ไม่ดีเมื่อ GPT-4 ไม่สามารถโหลดได้ นอกจากนี้ยังสามารถรองรับบางรุ่นที่มีการเข้าถึงอินเทอร์เน็ตสด เช่น Google Gemini Pro

ในขณะที่รุ่นอื่นๆ เช่นจากสตาร์ทอัพ AI ของฝรั่งเศส Mistral และบริษัทจีนอย่างอาลีบาบาเพิ่งก้าวขึ้นสู่ตำแหน่งสูงสุดในเวทีนี้ นอกเหนือจากโมเดลโอเพ่นซอร์ส แต่เวทีนี้ยังคงพลาดโมเดลที่มีชื่อเสียงบางรุ่น ตัวอย่างเช่น ขาดโมเดลอย่าง Gemini Pro 1.5 ของ Google

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
ที่มา: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/

ประทับเวลา: March 28, 2024

ประทับเวลา: ธันวาคม 1, 2022

Claude 3 Opus ครองตำแหน่งสูงสุดในการจัดอันดับ Chatbot

เผยแพร่ซ้ำโดยเพลโต

โมเดลของ Claude 3 สร้างชื่อเสียง

นี่อาจเป็นความสำเร็จระยะสั้นได้หรือไม่?

สนามกีฬา LMSYS Chatbot

ข้อบกพร่อง

เพิ่มเติมจาก เมตานิวส์

รายงาน WEF แสดงให้เห็นว่าบริษัทในสหรัฐฯ ยอมรับ Metaverse ทางอุตสาหกรรม

ใบหน้ากอดกันและอื่น ๆ เรียกร้องให้สหภาพยุโรปปกป้องโอเพ่นซอร์ส AI

ระดับสีเทารั้นเกี่ยวกับผลกระทบของลำดับต่อ Bitcoin

รัฐของสหรัฐอเมริกาปราบปราม Metaverse และ Crypto Scam อย่างไร

ย้ายไป Keats บทกวีมีราชาองค์ใหม่ใน AI

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้