ทฤษฎีใหม่ชี้ว่า Chatbot สามารถเข้าใจข้อความได้ | นิตยสารควอนต้า

ทฤษฎีใหม่ชี้ว่า Chatbot สามารถเข้าใจข้อความได้ | นิตยสารควอนต้า

ทฤษฎีใหม่ชี้ว่า Chatbot สามารถเข้าใจข้อความได้ | นิตยสาร Quanta PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

บทนำ

ปัญญาประดิษฐ์ดูทรงพลังกว่าที่เคย ด้วยแชทบอทอย่าง Bard และ ChatGPT ที่สามารถสร้างข้อความที่มีลักษณะเหมือนมนุษย์อย่างเหลือเชื่อ แต่สำหรับความสามารถทั้งหมดของพวกเขา บอทเหล่านี้ยังคงทำให้นักวิจัยสงสัยว่า: ทำโมเดลดังกล่าว เข้าใจจริงๆ พวกเขากำลังพูดอะไร? “เห็นได้ชัดว่ามีบางคนเชื่อว่าตนเชื่อ” ผู้บุกเบิกด้าน AI กล่าว เจฟฟ์ ฮินตัน ใน บทสนทนาล่าสุด กับ Andrew Ng “และบางคนเชื่อว่าพวกเขาเป็นเพียงนกแก้วสุ่ม”

วลีนี้มาจากปี 2021 กระดาษ ร่วมเขียนโดย เอมิลี่เบนเดอร์, นักภาษาศาสตร์เชิงคอมพิวเตอร์แห่งมหาวิทยาลัยวอชิงตัน โดยแนะนำว่าโมเดลภาษาขนาดใหญ่ (LLM) ซึ่งเป็นพื้นฐานของแชทบอทยุคใหม่ สร้างข้อความโดยการรวมข้อมูลที่พวกเขาได้เห็นแล้ว “โดยไม่มีการอ้างอิงถึงความหมาย” ผู้เขียนเขียน ซึ่งทำให้ LLM “เป็นนกแก้วสุ่ม”

โมเดลเหล่านี้ขับเคลื่อนแชทบอทที่ใหญ่ที่สุดและดีที่สุดในปัจจุบันจำนวนมาก ดังนั้น Hinton จึงแย้งว่าถึงเวลาที่จะต้องกำหนดขอบเขตของสิ่งที่พวกเขาเข้าใจ สำหรับเขาแล้ว คำถามนี้มีมากกว่าเรื่องวิชาการ “ตราบใดที่เรามีความแตกต่าง” ของความคิดเห็น เขากล่าวกับอึ้ง “เราจะไม่สามารถตกลงเป็นเอกฉันท์เกี่ยวกับอันตรายได้”

การวิจัยใหม่อาจมีคำตอบที่ชัดเจน ทฤษฎีที่พัฒนาโดย Arora Sanjeev ของมหาวิทยาลัยพรินซ์ตัน และ อนิรุธ โกยัลซึ่งเป็นนักวิทยาศาสตร์การวิจัยที่ Google DeepMind แนะนำว่า LLM ที่ใหญ่ที่สุดในปัจจุบันไม่ใช่นกแก้วสุ่ม ผู้เขียนโต้แย้งว่าเมื่อแบบจำลองเหล่านี้มีขนาดใหญ่ขึ้นและได้รับการฝึกอบรมโดยใช้ข้อมูลมากขึ้น แบบจำลองเหล่านี้จะปรับปรุงความสามารถที่เกี่ยวข้องกับภาษาของแต่ละบุคคล และยังพัฒนาความสามารถใหม่ๆ ด้วยการรวมทักษะในลักษณะที่บ่งบอกถึงความเข้าใจ ซึ่งเป็นการผสมผสานที่ไม่น่าจะมีอยู่ในข้อมูลการฝึกอบรม .

วิธีการทางทฤษฎีนี้ ซึ่งให้ข้อโต้แย้งที่พิสูจน์ได้ทางคณิตศาสตร์ว่า LLM สามารถพัฒนาความสามารถมากมายได้อย่างไรและทำไม ทำให้ผู้เชี่ยวชาญอย่าง Hinton และคนอื่นๆ เชื่อมั่น และเมื่อ Arora และทีมของเขาทดสอบการคาดการณ์บางอย่าง พวกเขาก็พบว่าแบบจำลองเหล่านี้ทำงานได้เกือบจะตรงตามที่คาดไว้ จากเรื่องราวทั้งหมด พวกเขาได้สร้างกรณีที่ชัดเจนว่า LLM ที่ใหญ่ที่สุดไม่ใช่แค่การนกแก้วในสิ่งที่พวกเขาเคยเห็นมาก่อน

“[พวกเขา] ไม่สามารถเพียงเลียนแบบสิ่งที่เห็นในข้อมูลการฝึกอบรมได้” กล่าว เซบาสเตียน บูเบคนักคณิตศาสตร์และนักวิทยาศาสตร์คอมพิวเตอร์ที่ Microsoft Research ซึ่งไม่ได้เป็นส่วนหนึ่งของงานนี้ “นั่นคือความเข้าใจพื้นฐาน”

ข้อมูลมากขึ้น พลังมากขึ้น

การเกิดขึ้นของ ความสามารถที่คาดไม่ถึงและหลากหลาย พูดได้อย่างยุติธรรมใน LLM ว่าเป็นเรื่องที่น่าประหลาดใจ ความสามารถเหล่านี้ไม่ใช่ผลลัพธ์ที่ชัดเจนของวิธีสร้างและฝึกอบรมระบบ LLM คือโครงข่ายประสาทเทียมขนาดใหญ่ที่เชื่อมต่อเซลล์ประสาทเทียมแต่ละตัว การเชื่อมต่อเหล่านี้เรียกว่าพารามิเตอร์ของโมเดล และหมายเลขของการเชื่อมต่อเหล่านี้แสดงถึงขนาดของ LLM การฝึกอบรมเกี่ยวข้องกับการให้ประโยค LLM โดยปิดบังคำสุดท้ายไว้ เช่น “เชื้อเพลิงมีราคาแขนและ ___” LLM ทำนายการกระจายความน่าจะเป็นของคำศัพท์ทั้งหมด ดังนั้นหากรู้หรือพูดได้หนึ่งพันคำ ก็จะทำนายความน่าจะเป็นได้หนึ่งพันคำ จากนั้นจะเลือกคำที่มีแนวโน้มมากที่สุดในการเติมประโยคให้สมบูรณ์ — สมมุติว่า “ขา”

ในตอนแรก LLM อาจเลือกคำได้ไม่ดี จากนั้นอัลกอริธึมการฝึกอบรมจะคำนวณการสูญเสีย — ระยะทางในพื้นที่ทางคณิตศาสตร์มิติสูงระหว่างคำตอบของ LLM และคำจริงในประโยคต้นฉบับ — และใช้การสูญเสียนี้เพื่อปรับแต่งพารามิเตอร์ เมื่อพิจารณาจากประโยคเดียวกัน LLM จะคำนวณการแจกแจงความน่าจะเป็นที่ดีขึ้น และความสูญเสียจะลดลงเล็กน้อย อัลกอริธึมทำเช่นนี้กับทุกๆ ประโยคในข้อมูลการฝึกอบรม (อาจเป็นพันล้านประโยค) จนกว่าการสูญเสียโดยรวมของ LLM จะลดลงสู่ระดับที่ยอมรับได้ กระบวนการที่คล้ายกันนี้ใช้เพื่อทดสอบ LLM ในประโยคที่ไม่ได้เป็นส่วนหนึ่งของข้อมูลการฝึกอบรม

LLM ที่ได้รับการฝึกอบรมและทดสอบแล้ว เมื่อนำเสนอพร้อมข้อความใหม่ จะสร้างคำถัดไปที่น่าจะเป็นไปได้มากที่สุด ผนวกเข้ากับพร้อมท์ สร้างคำถัดไปอีก และดำเนินการต่อในลักษณะนี้ โดยสร้างการตอบกลับที่ดูเหมือนสอดคล้องกัน ไม่มีสิ่งใดในกระบวนการฝึกอบรมที่แนะนำว่า LLM ที่ใหญ่กว่าซึ่งสร้างขึ้นโดยใช้พารามิเตอร์และข้อมูลการฝึกอบรมที่มากขึ้น ควรปรับปรุงในงานที่ต้องใช้เหตุผลในการตอบ

แต่พวกเขาทำ LLM ที่ใหญ่เพียงพอแสดงให้เห็นถึงความสามารถต่างๆ ตั้งแต่การแก้ปัญหาคณิตศาสตร์เบื้องต้นไปจนถึงการตอบคำถามเกี่ยวกับสิ่งที่อยู่ในใจของผู้อื่น ซึ่งรุ่นเล็กไม่มี แม้ว่าพวกเขาทั้งหมดจะได้รับการฝึกในลักษณะเดียวกันก็ตาม

“ [ความสามารถ] นั้นมาจากไหน?” อาโรร่าสงสัย “และนั่นจะเกิดขึ้นจากการทำนายคำถัดไปได้หรือไม่”

การเชื่อมต่อทักษะเข้ากับข้อความ

Arora ร่วมมือกับ Goyal เพื่อตอบคำถามดังกล่าวในเชิงวิเคราะห์ “เรากำลังพยายามสร้างกรอบทางทฤษฎีขึ้นมาเพื่อทำความเข้าใจว่าการเกิดขึ้นเกิดขึ้นได้อย่างไร” อาโรรากล่าว

ทั้งคู่หันไปหาวัตถุทางคณิตศาสตร์ที่เรียกว่ากราฟสุ่ม กราฟคือกลุ่มของจุด (หรือโหนด) ที่เชื่อมต่อกันด้วยเส้น (หรือขอบ) และในกราฟแบบสุ่ม การมีอยู่ของขอบระหว่างสองโหนดใดๆ จะถูกกำหนดแบบสุ่ม เช่น โดยการพลิกเหรียญ เหรียญสามารถมีอคติได้ ดังนั้นมันจึงมีความน่าจะเป็นอยู่บ้าง p. ถ้าเหรียญขึ้นหัวสำหรับคู่ของโหนดที่กำหนด ขอบจะเกิดขึ้นระหว่างสองโหนดนั้น มิฉะนั้นพวกเขาจะยังคงไม่เชื่อมต่อกัน เป็นมูลค่าของ p การเปลี่ยนแปลง กราฟสามารถแสดงการเปลี่ยนแปลงอย่างฉับพลันในคุณสมบัติได้. ตัวอย่างเช่นเมื่อ p เกินเกณฑ์ที่กำหนด โหนดที่แยกออกมา — ที่ไม่ได้เชื่อมต่อกับโหนดอื่น — จะหายไปทันที

Arora และ Goyal ตระหนักว่ากราฟสุ่มซึ่งก่อให้เกิดพฤติกรรมที่ไม่คาดคิดหลังจากที่กราฟเหล่านี้ถึงเกณฑ์ที่กำหนด อาจเป็นวิธีการสร้างแบบจำลองพฤติกรรมของ LLM โครงข่ายประสาทเทียมเกือบจะซับซ้อนเกินกว่าจะวิเคราะห์ได้ แต่นักคณิตศาสตร์ได้ศึกษากราฟแบบสุ่มมาเป็นเวลานานและได้พัฒนาเครื่องมือต่างๆ เพื่อวิเคราะห์กราฟเหล่านั้น บางทีทฤษฎีกราฟสุ่มอาจช่วยให้นักวิจัยเข้าใจและคาดการณ์พฤติกรรมที่ไม่คาดคิดของ LLM ขนาดใหญ่ได้

นักวิจัยตัดสินใจที่จะมุ่งเน้นไปที่กราฟ "สองฝ่าย" ซึ่งมีโหนดสองประเภท ในโมเดลของพวกเขา โหนดประเภทหนึ่งแสดงถึงชิ้นส่วนของข้อความ ไม่ใช่คำเดี่ยวๆ แต่เป็นชิ้นที่อาจมีความยาวหนึ่งย่อหน้าหรือยาวสองสามหน้า โหนดเหล่านี้จัดเรียงเป็นเส้นตรง ด้านล่างอีกบรรทัดหนึ่งคือโหนดอีกชุดหนึ่ง สิ่งเหล่านี้แสดงถึงทักษะที่จำเป็นในการทำความเข้าใจข้อความที่กำหนด ทักษะแต่ละอย่างสามารถเป็นได้เกือบทุกอย่าง บางทีโหนดหนึ่งแสดงถึงความสามารถของ LLM ในการเข้าใจคำว่า "เพราะ" ซึ่งรวมถึงแนวคิดเกี่ยวกับความเป็นเหตุเป็นผล อีกอันหนึ่งอาจแสดงถึงความสามารถในการหารตัวเลขสองตัว อีกประการหนึ่งอาจแสดงถึงความสามารถในการตรวจจับการประชด “ถ้าคุณเข้าใจว่าข้อความนั้นเป็นเรื่องน่าขัน หลายๆ อย่างกลับพลิกผัน” Arora กล่าว “นั่นเกี่ยวข้องกับการทำนายคำศัพท์”

เพื่อความชัดเจน LLM ไม่ได้รับการฝึกอบรมหรือทดสอบโดยคำนึงถึงทักษะ สร้างขึ้นเพื่อปรับปรุงการทำนายคำถัดไปเท่านั้น แต่ Arora และ Goyal ต้องการทำความเข้าใจ LLM จากมุมมองของทักษะที่อาจจำเป็นในการทำความเข้าใจข้อความเดียว การเชื่อมต่อระหว่างโหนดทักษะและโหนดข้อความ หรือระหว่างโหนดทักษะหลายโหนดและโหนดข้อความ หมายความว่า LLM ต้องการทักษะเหล่านั้นเพื่อทำความเข้าใจข้อความในโหนดนั้น นอกจากนี้ ข้อความหลายชิ้นอาจดึงมาจากทักษะหรือชุดทักษะเดียวกัน ตัวอย่างเช่น ชุดของโหนดทักษะที่แสดงถึงความสามารถในการเข้าใจการประชดจะเชื่อมต่อกับโหนดข้อความจำนวนมากที่มีการประชดเกิดขึ้น

ความท้าทายในตอนนี้คือการเชื่อมต่อกราฟสองฝ่ายเหล่านี้กับ LLM จริง และดูว่ากราฟสามารถเปิดเผยบางอย่างเกี่ยวกับการเกิดขึ้นของความสามารถอันทรงพลังได้หรือไม่ แต่นักวิจัยไม่สามารถพึ่งพาข้อมูลใดๆ เกี่ยวกับการฝึกอบรมหรือการทดสอบ LLM จริงได้ บริษัทอย่าง OpenAI หรือ DeepMind จะไม่เปิดเผยข้อมูลการฝึกอบรมหรือการทดสอบต่อสาธารณะ นอกจากนี้ Arora และ Goyal ยังต้องการคาดการณ์ว่า LLM จะมีพฤติกรรมอย่างไรเมื่อมีขนาดใหญ่ขึ้น และไม่มีข้อมูลดังกล่าวสำหรับแชทบอทที่กำลังจะมาถึง อย่างไรก็ตาม มีข้อมูลสำคัญชิ้นหนึ่งที่นักวิจัยสามารถเข้าถึงได้

ตั้งแต่ปี 2021 นักวิจัยที่ศึกษาประสิทธิภาพของ LLM และโครงข่ายประสาทเทียมอื่นๆ พบว่ามีลักษณะสากลเกิดขึ้น พวกเขาสังเกตเห็นว่าเมื่อแบบจำลองมีขนาดใหญ่ขึ้น ไม่ว่าจะมีขนาดหรือจำนวนข้อมูลการฝึก การสูญเสียข้อมูลการทดสอบ (ความแตกต่างระหว่างคำตอบที่คาดการณ์ไว้และคำตอบที่ถูกต้องในข้อความใหม่ หลังการฝึก) จะลดลงในลักษณะที่เฉพาะเจาะจงมาก การสังเกตเหล่านี้ถูกประมวลผลเป็นสมการที่เรียกว่ากฎมาตราส่วนประสาท ดังนั้น Arora และ Goyal จึงออกแบบทฤษฎีของพวกเขาไม่ให้ขึ้นอยู่กับข้อมูลจาก LLM, แชทบอท หรือชุดข้อมูลการฝึกอบรมและการทดสอบใดๆ ใดๆ แต่เป็นไปตามกฎหมายสากล ระบบเหล่านี้ล้วนถูกคาดหวังให้ปฏิบัติตาม นั่นคือ ความสูญเสียที่ทำนายไว้โดยกฎหมายการขยายขนาด

บางทีพวกเขาอาจให้เหตุผลว่าการปรับปรุงประสิทธิภาพ (ซึ่งวัดโดยกฎมาตราส่วนประสาท) นั้นเกี่ยวข้องกับทักษะที่ได้รับการปรับปรุง และทักษะที่ได้รับการปรับปรุงเหล่านี้สามารถกำหนดได้ในกราฟสองฝ่ายโดยการเชื่อมต่อโหนดทักษะกับโหนดข้อความ การสร้างความเชื่อมโยงระหว่างกฎหมายมาตราส่วนประสาทและกราฟสองฝ่ายเป็นกุญแจสำคัญที่จะช่วยให้พวกเขาดำเนินการต่อได้

ขยายทักษะ

นักวิจัยเริ่มต้นด้วยการสมมติว่ามีกราฟสองฝ่ายสมมุติที่สอดคล้องกับพฤติกรรมของ LLM ในข้อมูลการทดสอบ เพื่ออธิบายการเปลี่ยนแปลงในการสูญเสียข้อมูลการทดสอบของ LLM พวกเขาจินตนาการถึงวิธีใช้กราฟเพื่ออธิบายว่า LLM ได้รับทักษะอย่างไร

ยกตัวอย่างเช่น ทักษะ “เข้าใจการประชด” แนวคิดนี้แสดงด้วยโหนดทักษะ ดังนั้นนักวิจัยจึงพิจารณาว่าโหนดข้อความใดที่โหนดทักษะนี้เชื่อมต่ออยู่ หากโหนดข้อความที่เชื่อมต่อเหล่านี้เกือบทั้งหมดประสบความสำเร็จ — หมายความว่าการคาดการณ์ของ LLM เกี่ยวกับข้อความที่แสดงโดยโหนดเหล่านี้มีความแม่นยำสูง — แสดงว่า LLM มีความสามารถในทักษะเฉพาะนี้ แต่ถ้าการเชื่อมต่อของโหนดทักษะมากกว่าเศษส่วนไปที่โหนดข้อความที่ล้มเหลว LLM ก็จะล้มเหลวในทักษะนี้

การเชื่อมต่อระหว่างกราฟสองฝ่ายเหล่านี้กับ LLM ทำให้ Arora และ Goyal ใช้เครื่องมือของทฤษฎีกราฟสุ่มเพื่อวิเคราะห์พฤติกรรมของ LLM โดยใช้พร็อกซี การศึกษากราฟเหล่านี้เผยให้เห็นความสัมพันธ์บางอย่างระหว่างโหนด ในทางกลับกัน ความสัมพันธ์เหล่านี้แปลเป็นแนวทางที่สมเหตุสมผลและทดสอบได้เพื่ออธิบายว่าแบบจำลองขนาดใหญ่ได้รับทักษะที่จำเป็นในการบรรลุความสามารถที่ไม่คาดคิดได้อย่างไร

Arora และ Goyal อธิบายพฤติกรรมสำคัญประการหนึ่งเป็นครั้งแรก: เหตุใด LLM ที่ใหญ่กว่าจึงมีทักษะมากกว่าทักษะส่วนบุคคลที่มีขนาดเล็กกว่า พวกเขาเริ่มต้นด้วยการสูญเสียการทดสอบที่ต่ำกว่าที่คาดการณ์โดยกฎมาตราส่วนประสาท ในกราฟ การสูญเสียจากการทดสอบที่ต่ำกว่านี้แสดงโดยการลดลงในส่วนของโหนดทดสอบที่ล้มเหลว ดังนั้นจึงมีโหนดทดสอบที่ล้มเหลวโดยรวมน้อยลง และถ้ามีโหนดทดสอบที่ล้มเหลวน้อยลง ก็จะมีการเชื่อมต่อระหว่างโหนดทดสอบที่ล้มเหลวและโหนดทักษะน้อยลง ดังนั้น โหนดทักษะจำนวนมากขึ้นจึงเชื่อมต่อกับโหนดทดสอบที่ประสบความสำเร็จ ซึ่งบ่งบอกถึงความสามารถที่เพิ่มขึ้นในทักษะสำหรับแบบจำลอง “การสูญเสียที่ลดลงเล็กน้อยมากทำให้เครื่องจักรได้รับความสามารถของทักษะเหล่านี้” Goyal กล่าว

ต่อมา ทั้งคู่พบวิธีอธิบายความสามารถที่ไม่คาดคิดของโมเดลที่ใหญ่กว่า เมื่อขนาดของ LLM เพิ่มขึ้นและการสูญเสียการทดสอบลดลง การรวมโหนดทักษะแบบสุ่มจะพัฒนาการเชื่อมต่อไปยังแต่ละโหนดข้อความ สิ่งนี้ชี้ให้เห็นว่า LLM ยังดีขึ้นในการใช้ทักษะมากกว่าหนึ่งทักษะในแต่ละครั้ง และเริ่มสร้างข้อความโดยใช้หลายทักษะ - ผสมผสาน เช่น ความสามารถในการใช้ประชดด้วยความเข้าใจคำว่า "เพราะ" - แม้ว่าการผสมผสานที่แน่นอนของ ไม่มีทักษะปรากฏอยู่ในข้อความใดๆ ในข้อมูลการฝึกอบรม

ลองนึกภาพ LLM ที่สามารถใช้ทักษะหนึ่งเพื่อสร้างข้อความได้แล้ว หากคุณขยายจำนวนพารามิเตอร์หรือข้อมูลการฝึกอบรมของ LLM ตามลำดับความสำคัญ ก็จะมีความสามารถในการสร้างข้อความที่ต้องใช้สองทักษะเช่นเดียวกัน ก้าวไปอีกขั้นหนึ่ง และ LLM สามารถทำงานที่ต้องใช้ทักษะสี่ทักษะในคราวเดียวได้อีกครั้งด้วยความสามารถระดับเดียวกัน LLM ที่ใหญ่กว่ามีวิธีรวบรวมทักษะต่างๆ ได้มากกว่า ซึ่งนำไปสู่การระเบิดความสามารถแบบผสมผสาน

และเมื่อมีการขยาย LLM ความเป็นไปได้ที่จะเผชิญกับการผสมผสานทักษะเหล่านี้ทั้งหมดในข้อมูลการฝึกอบรมจึงไม่น่าเป็นไปได้มากขึ้น ตามกฎของทฤษฎีกราฟสุ่ม การรวมกันทุกรายการเกิดขึ้นจากการสุ่มตัวอย่างทักษะที่เป็นไปได้ ดังนั้น หากมีโหนดทักษะพื้นฐานประมาณ 1,000 โหนดในกราฟ และคุณต้องการรวมทักษะทั้งสี่ทักษะ ก็จะมีประมาณ 1,000 ยกกำลังสี่ — นั่นคือ 1 ล้านล้าน — วิธีที่เป็นไปได้ในการรวมทักษะเหล่านั้น

Arora และ Goyal มองว่านี่เป็นข้อพิสูจน์ว่า LLM ที่ใหญ่ที่สุดไม่เพียงแต่อาศัยการผสมผสานทักษะที่เห็นในข้อมูลการฝึกอบรมเท่านั้น บูเบคเห็นด้วย “ถ้า LLM สามารถทำงานเหล่านั้นได้จริงๆ ด้วยการรวมทักษะสี่จากพันทักษะเหล่านั้นเข้าด้วยกัน ก็จะต้องดำเนินการในลักษณะทั่วไป” เขากล่าว หมายความว่ามีแนวโน้มว่าจะไม่ใช่นกแก้วสุ่ม

ความคิดสร้างสรรค์ที่แท้จริง?

แต่ Arora และ Goyal ต้องการก้าวไปไกลกว่าทฤษฎีและทดสอบข้ออ้างของพวกเขาที่ว่า LLM สามารถผสมผสานทักษะต่างๆ ได้ดีขึ้น และด้วยเหตุนี้เมื่อสรุปเป็นภาพรวม เมื่อขนาดและข้อมูลการฝึกอบรมเพิ่มขึ้น ร่วมกับเพื่อนร่วมงานคนอื่น ๆ พวกเขา ออกแบบวิธีการ เรียกว่า "การผสมผสานทักษะ" เพื่อประเมินความสามารถของ LLM ในการใช้ทักษะหลายอย่างเพื่อสร้างข้อความ

ในการทดสอบ LLM ทีมงานขอให้สร้างประโยคสามประโยคในหัวข้อที่ได้รับการสุ่มเลือกซึ่งแสดงให้เห็นทักษะที่ได้รับการสุ่มเลือก ตัวอย่างเช่น พวกเขาขอให้ GPT-4 (LLM ที่ขับเคลื่อน ChatGPT เวอร์ชันที่ทรงพลังที่สุด) เขียนเกี่ยวกับการดวล - การต่อสู้ด้วยดาบ โดยพื้นฐานแล้ว นอกจากนี้ พวกเขาขอให้แสดงทักษะในสี่ด้าน: อคติในการให้บริการตนเอง การอุปมาอุปมัย การอ้างเหตุผลทางสถิติ และฟิสิกส์ความรู้ทั่วไป. GPT-4 ตอบด้วย: “ชัยชนะของฉันในการเต้นรำด้วยเหล็ก [อุปมาอุปไมย] นี้แน่นอนพอๆ กับวัตถุที่ตกลงสู่พื้น (ฟิสิกส์) ในฐานะนักดวลที่มีชื่อเสียง ฉันมีความว่องไวโดยเนื้อแท้ เช่นเดียวกับคนอื่น ๆ ส่วนใหญ่ [การอ้างเหตุผลเชิงสถิติ] เกี่ยวกับชื่อเสียงของฉัน ความพ่ายแพ้? เป็นไปได้เพียงเพราะสนามรบไม่เท่ากัน ไม่ใช่ความไม่เพียงพอของฉัน [อคติในการให้บริการตนเอง]” เมื่อถูกขอให้ตรวจสอบผลลัพธ์ GPT-4 จะลดเหลือสามประโยค

บทนำ

“ไม่ใช่เฮมิงเวย์หรือเช็คสเปียร์” Arora กล่าว แต่ทีมงานมั่นใจว่าจะพิสูจน์ประเด็นของพวกเขาได้ แบบจำลองนี้สามารถสร้างข้อความที่ไม่อาจเห็นได้ในข้อมูลการฝึกอบรม ซึ่งแสดงทักษะที่รวมกันเป็นข้อโต้แย้งที่บางคนโต้แย้ง คือความเข้าใจ GPT-4 ยังผ่านการทดสอบทักษะแบบผสมผสานที่ต้องใช้ทักษะ 10 ทักษะประมาณ 15% ถึง XNUMX% ของเวลา เขากล่าว โดยสร้างข้อความที่เป็นไปไม่ได้ทางสถิติที่จะมีอยู่ในข้อมูลการฝึกอบรม

ทีมงานยังทำให้กระบวนการเป็นแบบอัตโนมัติโดยรับ GPT-4 เพื่อประเมินผลลัพธ์ของตนเอง ควบคู่ไปกับ LLM อื่นๆ Arora กล่าวว่ามันยุติธรรมสำหรับโมเดลในการประเมินตัวเองเนื่องจากไม่มีหน่วยความจำ ดังนั้นจึงจำไม่ได้ว่าถูกขอให้สร้างข้อความเดียวกับที่ถูกขอให้ประเมิน Yasaman Bahri นักวิจัยจาก Google DeepMind ซึ่งทำงานเกี่ยวกับพื้นฐานของ AI พบว่าแนวทางอัตโนมัติ "เรียบง่ายและสวยงามมาก"

สำหรับทฤษฎีนี้ เป็นเรื่องจริงที่ทฤษฎีนี้มีการตั้งสมมติฐานบางประการ Bubeck กล่าว แต่ "สมมติฐานเหล่านี้ไม่ได้บ้าไปในทางใดทางหนึ่ง" เขายังประทับใจกับการทดลองอีกด้วย “สิ่งที่ [ทีมงาน] พิสูจน์ในทางทฤษฎีและยังยืนยันในเชิงประจักษ์ก็คือ มีการสรุปองค์ประกอบ ซึ่งหมายความว่า [LLM] สามารถประกอบชิ้นส่วนต่างๆ ที่ไม่เคยประกอบเข้าด้วยกันได้” เขากล่าว “สำหรับฉัน นี่คือแก่นแท้ของความคิดสร้างสรรค์”

Arora เสริมว่างานนี้ไม่ได้พูดอะไรเกี่ยวกับความถูกต้องของสิ่งที่ LLM เขียน “อันที่จริง มันเป็นการโต้เถียงเรื่องความคิดริเริ่ม” เขากล่าว “สิ่งเหล่านี้ไม่เคยมีอยู่ในคลังการฝึกอบรมของโลก ไม่เคยมีใครเขียนเรื่องนี้เลย มันต้องเกิดอาการประสาทหลอน”

อย่างไรก็ตาม ฮินตันคิดว่างานนี้ไม่ได้ตั้งคำถามว่า LLM เป็นนกแก้วสุ่มหรือไม่ “นี่เป็นวิธีที่เข้มงวดที่สุดที่ผมเคยเห็นในการแสดงให้เห็นว่า GPT-4 เป็นมากกว่านกแก้วสุ่ม” เขากล่าว “พวกเขาแสดงให้เห็นอย่างน่าเชื่อว่า GPT-4 สามารถสร้างข้อความที่รวมทักษะและหัวข้อต่างๆ ในลักษณะที่แทบจะไม่เคยเกิดขึ้นในข้อมูลการฝึกอบรมเลย” (เราติดต่อ Bender เพื่อขอมุมมองของเธอเกี่ยวกับงานใหม่ แต่เธอปฏิเสธที่จะแสดงความคิดเห็น โดยอ้างว่าไม่มีเวลา)

และตามที่คณิตศาสตร์ทำนายไว้ ประสิทธิภาพของ GPT-4 นั้นโดดเด่นกว่า GPT-3.5 รุ่นก่อนที่มีขนาดเล็กกว่ามาก มากจนทำให้ Arora หวาดกลัว “มันอาจไม่ใช่แค่ฉันเท่านั้น” เขากล่าว “หลายๆ คนพบว่า GPT-4 ดีกว่า GPT-3.5 มากน้อยเพียงใด และเรื่องนั้นก็เกิดขึ้นภายในหนึ่งปี นั่นหมายความว่าในอีกปีหนึ่งเราจะมีการเปลี่ยนแปลงขนาดนั้นที่คล้ายกันใช่หรือไม่ ฉันไม่รู้. มีเพียง OpenAI เท่านั้นที่รู้”

ประทับเวลา:

เพิ่มเติมจาก ควอนทามากาซีน