ข้อมูล 'Grok' ของเครื่องจักรเป็นอย่างไร - นิตยสารควอนต้า

ข้อมูล 'Grok' ของเครื่องจักรเป็นอย่างไร - นิตยสารควอนต้า

ข้อมูล 'Grok' ของเครื่องจักรเป็นอย่างไร - นิตยสาร Quanta PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

บทนำ

เพื่อความฉลาดหลักแหลม โครงข่ายประสาทเทียมยังคงไม่อาจเข้าใจได้เช่นเคย เมื่อเครือข่ายเหล่านี้ขยายใหญ่ขึ้น ความสามารถของพวกเขาก็ระเบิดขึ้น แต่การถอดรหัสการทำงานภายในนั้นแทบจะเป็นไปไม่ได้เลย นักวิจัยมองหาข้อมูลเชิงลึกที่สามารถพบได้ในแบบจำลองเหล่านี้อยู่ตลอดเวลา

ไม่กี่ปีที่ผ่านมาพวกเขาค้นพบสิ่งใหม่

ในเดือนมกราคม 2022 นักวิจัยจาก OpenAI ซึ่งเป็นบริษัทที่อยู่เบื้องหลัง ChatGPT รายงาน ว่าเมื่อระบบเหล่านี้ยอมให้เคี้ยวข้อมูลนานกว่าปกติโดยไม่ได้ตั้งใจ ก็ได้พัฒนาวิธีการแก้ไขปัญหาที่ไม่เหมือนใคร โดยทั่วไป เมื่อวิศวกรสร้างโมเดลการเรียนรู้ของเครื่องจากโครงข่ายประสาทเทียม ซึ่งประกอบด้วยหน่วยการคำนวณที่เรียกว่าเซลล์ประสาทเทียม พวกเขามักจะหยุดการฝึก ณ จุดหนึ่งที่เรียกว่าระบอบการปกครองที่มากเกินไป นี่คือช่วงที่เครือข่ายเริ่มจดจำข้อมูลการฝึกอบรมและมักจะไม่สรุปเป็นข้อมูลใหม่ที่มองไม่เห็น แต่เมื่อทีม OpenAI ฝึกฝนเครือข่ายขนาดเล็กโดยบังเอิญนอกเหนือจากจุดนี้ ดูเหมือนว่าจะพัฒนาความเข้าใจในปัญหาที่นอกเหนือไปจากการจดจำ — มันสามารถจัดการข้อมูลการทดสอบใดๆ ได้ทันที

นักวิจัยตั้งชื่อปรากฏการณ์นี้ว่า "grokking" ซึ่งเป็นคำที่นักเขียนนิยายวิทยาศาสตร์ Robert A. Heinlein ตั้งขึ้นเพื่อหมายถึงการเข้าใจบางสิ่งบางอย่าง "อย่างละเอียดถี่ถ้วนจนผู้สังเกตการณ์กลายเป็นส่วนหนึ่งของกระบวนการที่กำลังถูกสังเกต" โครงข่ายประสาทเทียมที่ได้รับการฝึกมามากเกินไป ซึ่งออกแบบมาเพื่อดำเนินการทางคณิตศาสตร์บางอย่าง ได้เรียนรู้โครงสร้างทั่วไปของตัวเลขและปรับผลลัพธ์ให้เป็นภายใน มันคร่ำครวญและกลายเป็นทางออก

“นี่ [เป็น] ที่น่าตื่นเต้นมากและกระตุ้นความคิด” กล่าว มิคาอิล เบลคิน ของมหาวิทยาลัยแคลิฟอร์เนีย ซานดิเอโก ซึ่งศึกษาคุณสมบัติทางทฤษฎีและเชิงประจักษ์ของโครงข่ายประสาทเทียม “มันกระตุ้นให้เกิดการติดตามผลมากมาย”

อันที่จริง มีคนอื่นๆ จำลองผลลัพธ์และแม้แต่ทำวิศวกรรมย้อนกลับด้วยซ้ำ เอกสารล่าสุดไม่เพียงแต่ให้ความกระจ่างว่าโครงข่ายประสาทเทียมเหล่านี้กำลังทำอะไรอยู่เมื่อพวกมันทำงานผิดปกติ แต่ยังให้เลนส์ใหม่ที่ใช้ตรวจสอบอวัยวะภายในของพวกมันด้วย “การตั้งค่า Grokking เปรียบเสมือนสิ่งมีชีวิตต้นแบบที่ดีในการทำความเข้าใจแง่มุมต่างๆ ของการเรียนรู้เชิงลึก” กล่าว เอริค มิโชด์ ของสถาบันเทคโนโลยีแมสซาชูเซตส์

การมองดูภายในสิ่งมีชีวิตนี้บางครั้งก็ค่อนข้างเผยให้เห็น “ไม่เพียงแต่คุณจะพบโครงสร้างที่สวยงามเท่านั้น แต่โครงสร้างที่สวยงามนั้นมีความสำคัญต่อการทำความเข้าใจสิ่งที่เกิดขึ้นภายใน” กล่าว นีล นันดาขณะนี้อยู่ที่ Google DeepMind ในลอนดอน

เกินขีด จำกัด

โดยพื้นฐานแล้ว งานของโมเดลการเรียนรู้ของเครื่องดูเหมือนง่าย นั่นคือการแปลงอินพุตที่กำหนดให้เป็นเอาต์พุตที่ต้องการ เป็นหน้าที่ของอัลกอริธึมการเรียนรู้ที่จะมองหาฟังก์ชันที่ดีที่สุดเท่าที่จะเป็นไปได้ โมเดลใดก็ตามสามารถเข้าถึงชุดฟังก์ชันที่จำกัดเท่านั้น และชุดนั้นมักจะถูกกำหนดโดยจำนวนของพารามิเตอร์ในโมเดล ซึ่งในกรณีของโครงข่ายประสาทเทียมจะเทียบเท่ากับจำนวนการเชื่อมต่อระหว่างเซลล์ประสาทเทียมโดยประมาณ

บทนำ

เมื่อเครือข่ายฝึกฝน มีแนวโน้มที่จะเรียนรู้ฟังก์ชันที่ซับซ้อนมากขึ้น และความคลาดเคลื่อนระหว่างเอาต์พุตที่คาดหวังกับผลลัพธ์จริงเริ่มตกเป็นข้อมูลการฝึก ยิ่งไปกว่านั้น ความคลาดเคลื่อนนี้หรือที่เรียกว่าการสูญเสีย ก็เริ่มลดลงสำหรับข้อมูลทดสอบ ซึ่งเป็นข้อมูลใหม่ที่ไม่ได้ใช้ในการฝึก แต่เมื่อถึงจุดหนึ่ง แบบจำลองเริ่มมีความเหมาะสมมากเกินไป และในขณะที่การสูญเสียข้อมูลการฝึกยังคงลดลง การสูญเสียของข้อมูลการทดสอบก็เริ่มเพิ่มขึ้น โดยทั่วไปแล้ว นั่นคือเวลาที่นักวิจัยหยุดการฝึกอบรมเครือข่าย

นั่นคือภูมิปัญญาที่แพร่หลายเมื่อทีมงานของ OpenAI เริ่มสำรวจว่าโครงข่ายประสาทเทียมสามารถคำนวณทางคณิตศาสตร์ได้อย่างไร พวกเขาใช้ตัวเล็ก หม้อแปลงไฟฟ้า — สถาปัตยกรรมเครือข่ายที่เพิ่งปฏิวัติโมเดลภาษาขนาดใหญ่ — เพื่อทำการคำนวณแบบโมดูลาร์ประเภทต่างๆ ซึ่งคุณทำงานกับชุดตัวเลขที่จำกัดซึ่งวนกลับมาเอง ตัวอย่างเช่น Modulo 12 สามารถทำได้บนหน้าปัดนาฬิกา: 11 + 2 = 1 ทีมงานได้แสดงตัวอย่างเครือข่ายของการบวกตัวเลขสองตัว a และ bเพื่อสร้างผลผลิต c, ในโมดูโล 97 (เทียบเท่ากับหน้าปัดนาฬิกาที่มีตัวเลข 97 หลัก) จากนั้นพวกเขาก็ทดสอบหม้อแปลงด้วยการผสมผสานที่มองไม่เห็นของ a และ b เพื่อดูว่าสามารถทำนายได้ถูกต้องหรือไม่ c.

ตามที่คาดไว้ เมื่อเครือข่ายเข้าสู่โหมดการติดตั้งมากเกินไป การสูญเสียข้อมูลการฝึกอบรมก็แทบจะเป็นศูนย์ (เริ่มจดจำสิ่งที่เห็น) และการสูญเสียข้อมูลการทดสอบก็เริ่มเพิ่มขึ้น มันไม่ได้เป็นเรื่องทั่วไป “แล้ววันหนึ่ง เราก็โชคดี” หัวหน้าทีม Alethea Power กล่าว พูดในเดือนกันยายน 2022 ในการประชุมที่ซานฟรานซิสโก “และโชคดี ฉันหมายถึงขี้ลืม”

สมาชิกในทีมที่กำลังฝึกเครือข่ายได้ลาพักร้อนและลืมหยุดการฝึก ในขณะที่เครือข่ายเวอร์ชันนี้ยังคงฝึกอบรมต่อไป ข้อมูลที่มองไม่เห็นก็แม่นยำขึ้นทันใด การทดสอบอัตโนมัติเผยให้เห็นความแม่นยำที่ไม่คาดคิดนี้แก่ทีมที่เหลือ และในไม่ช้าพวกเขาก็ตระหนักว่าเครือข่ายได้ค้นพบวิธีที่ชาญฉลาดในการจัดการตัวเลข a และ b- ภายใน เครือข่ายจะแสดงตัวเลขในพื้นที่มิติสูง แต่เมื่อนักวิจัยฉายตัวเลขเหล่านี้ลงในพื้นที่ 2 มิติและแมปตัวเลขเหล่านั้น ตัวเลขเหล่านั้นก็กลายเป็นวงกลม

นี่มันน่าประหลาดใจมาก ทีมงานไม่เคยบอกแบบจำลองนี้ว่ากำลังทำคณิตศาสตร์แบบโมดูโล 97 หรือแม้แต่ความหมายของแบบโมดูโล พวกเขาแค่แสดงตัวอย่างทางคณิตศาสตร์ให้ฟังเท่านั้น ดูเหมือนว่าแบบจำลองจะสะดุดกับวิธีแก้ปัญหาเชิงวิเคราะห์ที่ลึกกว่านั้น ซึ่งเป็นสมการที่ใช้สรุปโดยรวมของการรวมกันของ a และ bแม้จะเกินกว่าข้อมูลการฝึกอบรมก็ตาม เครือข่ายขัดข้อง และความแม่นยำของข้อมูลทดสอบพุ่งสูงถึง 100% “นี่มันแปลก” พาวเวอร์บอกกับผู้ฟังของเธอ

ทีมงานตรวจสอบผลลัพธ์โดยใช้งานที่แตกต่างกันและเครือข่ายที่แตกต่างกัน การค้นพบดังกล่าวเกิดขึ้น

ของนาฬิกาและพิซซ่า

แต่สมการที่เครือข่ายพบคืออะไร? ในรายงาน OpenAI ไม่ได้กล่าวไว้ แต่ผลลัพธ์ที่ได้ดึงดูดความสนใจของ Nanda “หนึ่งในความลึกลับหลักและสิ่งที่น่ารำคาญเกี่ยวกับโครงข่ายประสาทเทียมก็คือพวกมันเก่งมากในสิ่งที่พวกเขาทำ แต่โดยค่าเริ่มต้นแล้ว เราไม่รู้ว่ามันทำงานอย่างไร” นันดาซึ่งทำงานมุ่งเน้นไปที่วิศวกรรมย้อนกลับที่ผ่านการฝึกอบรมกล่าว เครือข่ายเพื่อดูว่ามันเรียนรู้อัลกอริธึมอะไร

Nanda รู้สึกทึ่งกับการค้นพบ OpenAI และเขาตัดสินใจแยกโครงข่ายประสาทเทียมที่ขัดข้องออก เขาออกแบบโครงข่ายประสาทเทียม OpenAI เวอร์ชันที่เรียบง่ายยิ่งขึ้น เพื่อที่เขาจะได้ตรวจสอบพารามิเตอร์ของโมเดลได้อย่างใกล้ชิดในขณะที่เรียนรู้การคำนวณทางคณิตศาสตร์แบบโมดูลาร์ เขาเห็นพฤติกรรมแบบเดียวกัน นั่นคือ การปรับมากเกินไปจนทำให้เกิดลักษณะทั่วไปและการปรับปรุงความแม่นยำในการทดสอบอย่างกะทันหัน เครือข่ายของเขายังจัดเรียงตัวเลขเป็นวงกลมอีกด้วย ต้องใช้ความพยายามบ้าง แต่ในที่สุด Nanda ก็เข้าใจว่าทำไม

ในขณะที่มันแสดงตัวเลขบนวงกลม เครือข่ายไม่ได้เพียงแค่นับเลขเหมือนเด็กอนุบาลที่กำลังดูนาฬิกาเท่านั้น แต่มันกำลังดำเนินการทางคณิตศาสตร์ที่ซับซ้อนอีกด้วย โดยการศึกษาค่าพารามิเตอร์ของเครือข่าย นันดาและเพื่อนร่วมงานเปิดเผย เป็นการบวกเลขนาฬิกาโดยดำเนินการ "การแปลงฟูริเยร์แบบไม่ต่อเนื่อง" กับตัวเลขเหล่านั้น โดยการแปลงตัวเลขโดยใช้ฟังก์ชันตรีโกณมิติ เช่น ไซน์และโคไซน์ จากนั้นจัดการค่าเหล่านี้โดยใช้อัตลักษณ์ตรีโกณมิติเพื่อให้ได้คำตอบ อย่างน้อยนี่คือสิ่งที่เครือข่ายเฉพาะของเขากำลังทำอยู่

เมื่อทีมงานที่เอ็มไอที ติดตาม ในงานของ Nanda พวกเขาแสดงให้เห็นว่าเครือข่ายประสาทที่สั่นคลอนไม่ได้ค้นพบอัลกอริธึม "นาฬิกา" นี้เสมอไป บางครั้งเครือข่ายจะพบสิ่งที่นักวิจัยเรียกว่าอัลกอริธึม "พิซซ่า" แทน วิธีนี้จะจินตนาการถึงพิซซ่าที่แบ่งออกเป็นชิ้นๆ และเรียงหมายเลขตามลำดับ หากต้องการบวกตัวเลขสองตัว ให้จินตนาการถึงการวาดลูกศรจากจุดศูนย์กลางของพิซซ่าไปยังตัวเลขที่ต้องการ จากนั้นคำนวณเส้นที่แบ่งครึ่งมุมที่เกิดจากลูกศรสองตัวแรก เส้นนี้ลากผ่านตรงกลางของชิ้นพิซซ่า จำนวนชิ้นคือผลรวมของตัวเลขทั้งสอง การดำเนินการเหล่านี้สามารถเขียนลงไปได้ในแง่ของการบิดเบือนตรีโกณมิติและพีชคณิตของไซน์และโคไซน์ของ a และ bและตามทฤษฎีแล้ว พวกมันมีความแม่นยำเท่ากับการเข้าใกล้ของนาฬิกา

บทนำ

“ทั้งอัลกอริธึมนาฬิกาและพิซซ่ามีการแสดงแบบวงกลมนี้” กล่าว ซิหมิง หลิวซึ่งเป็นสมาชิกของทีมเอ็มไอที “แต่ … วิธีที่พวกเขาใช้ประโยชน์จากไซน์และโคไซน์เหล่านี้แตกต่างกัน นั่นเป็นเหตุผลที่เราเรียกมันว่าอัลกอริธึมที่แตกต่างกัน”

และนั่นยังไม่ใช่ทั้งหมด หลังจากฝึกอบรมเครือข่ายจำนวนมากเพื่อทำคณิตศาสตร์แบบโมดูโล Liu และเพื่อนร่วมงานพบว่าประมาณ 40% ของอัลกอริทึมที่ค้นพบโดยเครือข่ายเหล่านี้เป็นอัลกอริธึมพิซซ่าหรือนาฬิกาที่หลากหลาย ทีมงานไม่สามารถถอดรหัสสิ่งที่เครือข่ายกำลังทำอยู่ตลอดเวลาได้ สำหรับอัลกอริธึมพิซซ่าและนาฬิกา “มันบังเอิญว่ามันพบบางสิ่งที่มนุษย์สามารถตีความได้” Liu กล่าว

และไม่ว่าอัลกอริธึมใดที่เครือข่ายเรียนรู้เมื่อมันเกิดปัญหา มันจะมีประสิทธิภาพมากกว่าในการสรุปมากกว่าที่นักวิจัยสงสัย เมื่อทีมจากมหาวิทยาลัยแมริแลนด์ เลี้ยงโครงข่ายประสาทเทียมอย่างง่าย ข้อมูลการฝึกที่มีข้อผิดพลาดแบบสุ่ม ในตอนแรกเครือข่ายทำงานตามที่คาดไว้: ปรับข้อมูลการฝึกให้พอดี ข้อผิดพลาด และทั้งหมด และทำงานได้ไม่ดีกับข้อมูลการทดสอบที่ไม่เสียหาย อย่างไรก็ตาม เมื่อเครือข่ายขัดข้องและเริ่มตอบคำถามทดสอบได้อย่างถูกต้อง เครือข่ายก็สามารถสร้างคำตอบที่ถูกต้องได้แม้จะป้อนผิด โดยลืมคำตอบที่ไม่ถูกต้องที่จดจำไว้ และสรุปแม้กระทั่งข้อมูลการฝึกอบรม “จริงๆ แล้ว งานขุดเจาะนี้ค่อนข้างแข็งแกร่งต่อการคอร์รัปชันประเภทนี้” กล่าว ดาร์ชิล โดชิหนึ่งในผู้เขียนบทความ

การต่อสู้เพื่อการควบคุม

เป็นผลให้นักวิจัยเริ่มเข้าใจกระบวนการที่นำไปสู่เครือข่ายที่รวบรวมข้อมูลของตน นันดามองเห็นความฉับพลันภายนอกของการคร่ำครวญอันเป็นผลมาจากการเปลี่ยนแปลงภายในอย่างค่อยเป็นค่อยไปจากการท่องจำไปสู่ลักษณะทั่วไป ซึ่งใช้อัลกอริธึมที่แตกต่างกันสองแบบภายในโครงข่ายประสาทเทียม เมื่อเครือข่ายเริ่มเรียนรู้ เขากล่าวว่า อันดับแรกระบบจะค้นหาอัลกอริธึมการจำที่ง่ายกว่า อย่างไรก็ตาม แม้ว่าอัลกอริทึมจะง่ายกว่า แต่ก็ต้องใช้ทรัพยากรจำนวนมาก เนื่องจากเครือข่ายจำเป็นต้องจดจำข้อมูลการฝึกอบรมแต่ละอินสแตนซ์ แต่ในขณะที่กำลังท่องจำ บางส่วนของโครงข่ายประสาทเทียมก็เริ่มสร้างวงจรที่ใช้วิธีแก้ปัญหาทั่วไป อัลกอริธึมทั้งสองแย่งชิงทรัพยากรระหว่างการฝึก แต่การทำให้เป็นมาตรฐานจะชนะในที่สุดหากเครือข่ายได้รับการฝึกฝนด้วยส่วนประกอบเพิ่มเติมที่เรียกว่าการทำให้เป็นมาตรฐาน

“การทำให้เป็นมาตรฐานจะค่อย ๆ เลื่อนวิธีแก้ปัญหาไปสู่การแก้ปัญหาแบบทั่วไป” Liu กล่าว นี่เป็นกระบวนการที่ลดความสามารถในการทำงานของโมเดล ซึ่งเป็นความซับซ้อนของฟังก์ชันที่โมเดลสามารถเรียนรู้ได้ เมื่อการทำให้เป็นมาตรฐานจะตัดความซับซ้อนของโมเดลออกไป อัลกอริธึมการวางนัยทั่วไปซึ่งซับซ้อนน้อยกว่าก็ได้รับชัยชนะในที่สุด “ลักษณะทั่วไปนั้นง่ายกว่าสำหรับประสิทธิภาพ [ระดับ] ที่เท่ากัน” นันดากล่าว ในที่สุดโครงข่ายประสาทเทียมจะละทิ้งอัลกอริธึมการจำ

ดังนั้น ในขณะที่ความสามารถที่ล่าช้าในการสรุปดูเหมือนจะเกิดขึ้นอย่างกะทันหัน แต่พารามิเตอร์ภายในของเครือข่ายกำลังเรียนรู้อัลกอริธึมการวางนัยทั่วไปอย่างต่อเนื่อง เฉพาะเมื่อเครือข่ายได้เรียนรู้อัลกอริธึมการวางนัยทั่วไปและลบอัลกอริธึมการจดจำที่คุณได้รับออกไปโดยสิ้นเชิง “เป็นไปได้ที่สิ่งที่ดูเหมือนกะทันหันจะค่อย ๆ เกิดขึ้นจริง ๆ” นันดากล่าว ซึ่งเป็นปัญหาที่เกิดขึ้นเช่นกัน การวิจัยการเรียนรู้ของเครื่องอื่นๆ.

แม้จะมีความก้าวหน้าเหล่านี้ แต่สิ่งสำคัญคือต้องจำไว้ว่าการวิจัยเชิงรุกยังอยู่ในช่วงเริ่มต้น จนถึงตอนนี้ นักวิจัยได้ศึกษาเฉพาะเครือข่ายที่มีขนาดเล็กมากเท่านั้น และยังไม่ชัดเจนว่าการค้นพบนี้จะใช้ได้กับเครือข่ายที่ใหญ่กว่าและมีประสิทธิภาพมากกว่าหรือไม่ Belkin ยังเตือนด้วยว่าเลขคณิตแบบโมดูลาร์นั้นเป็น "หยดหนึ่งในมหาสมุทร" เมื่อเปรียบเทียบกับงานต่างๆ ทั้งหมดที่โครงข่ายประสาทเทียมในปัจจุบันทำกัน การทำวิศวกรรมย้อนกลับโซลูชันของโครงข่ายประสาทเทียมสำหรับคณิตศาสตร์ดังกล่าวอาจไม่เพียงพอที่จะเข้าใจหลักการทั่วไปที่ขับเคลื่อนเครือข่ายเหล่านี้ไปสู่ลักษณะทั่วไป “เป็นเรื่องดีที่ได้ศึกษาต้นไม้” เบลคินกล่าว “แต่เราก็ต้องศึกษาป่าด้วย”

อย่างไรก็ตาม ความสามารถในการตรวจสอบภายในเครือข่ายเหล่านี้และทำความเข้าใจในเชิงวิเคราะห์มีผลกระทบอย่างมาก สำหรับพวกเราส่วนใหญ่ การแปลงฟูริเยร์และการแบ่งส่วนโค้งของวงกลมเป็นวิธีที่แปลกมากในการบวกแบบโมดูโล เซลล์ประสาทของมนุษย์ไม่ได้คิดเช่นนั้น “แต่ถ้าคุณสร้างจากพีชคณิตเชิงเส้น มันก็สมเหตุสมผลดีที่ทำแบบนี้” นันดากล่าว

“สมอง [ประดิษฐ์] แปลกๆ เหล่านี้ทำงานแตกต่างจากสมองของเราเอง” เขากล่าว “[พวกเขา] มีกฎและโครงสร้างของตัวเอง เราต้องเรียนรู้ที่จะคิดว่าโครงข่ายประสาทเทียมคิดอย่างไร”

ประทับเวลา:

เพิ่มเติมจาก ควอนทามากาซีน