ผู้บุกเบิกด้านคอมพิวเตอร์ที่ช่วยให้ AI ดู | นิตยสารควอนต้า

ผู้บุกเบิกด้านคอมพิวเตอร์ที่ช่วยให้ AI ดู | นิตยสารควอนต้า

ผู้บุกเบิกด้านคอมพิวเตอร์ที่ช่วยให้ AI ดู | นิตยสาร Quanta PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

บทนำ

เมื่อ อเล็กซี่ เอฟรอส ย้ายไปอยู่กับครอบครัวจากรัสเซียไปยังแคลิฟอร์เนียตั้งแต่ยังเป็นวัยรุ่นในช่วงทศวรรษ 1980 เขานำคอมพิวเตอร์ส่วนบุคคลที่ผลิตโดยโซเวียตชื่อ Elektronika BK-0010 เครื่องไม่มีที่จัดเก็บข้อมูลภายนอกและเกิดความร้อนสูงเกินไปทุกๆ สองสามชั่วโมง ดังนั้นเพื่อที่จะเล่นวิดีโอเกม เขาจะต้องเขียนโค้ด แก้ไขปัญหา และเล่นอย่างรวดเร็ว ก่อนที่เครื่องจะปิดตัวลง วัฏจักรนั้นซึ่งเกิดขึ้นซ้ำๆ เกือบทุกวันช่วยเร่งการเรียนรู้ของเขา

“ฉันโชคดีมากที่คอมพิวเตอร์โซเวียตเครื่องนี้ไม่ค่อยดีนัก!” เอโฟรส์ที่หัวเราะง่ายและพูดสำเนียงรัสเซียเบาๆ กล่าว ทุกวันนี้เขาไม่ได้เล่นเกมมากนัก แต่ความเต็มใจที่จะสำรวจและใช้ประโยชน์สูงสุดจากเครื่องมือของเขายังคงอยู่

เมื่อสำเร็จการศึกษาจากมหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ เอฟรอสเริ่มเดินป่าและสำรวจความงามตามธรรมชาติของบริเวณอ่าว ไม่นานก่อนที่เขาจะเริ่มผสมผสานความหลงใหลในคอมพิวเตอร์เข้ากับความเพลิดเพลินในการชมสถานที่เหล่านี้ เขาพัฒนาวิธีการเจาะรูในภาพถ่ายอย่างแนบเนียน เช่น แทนที่ถังขยะที่หลงเหลืออยู่ในภาพถ่ายป่าเรดวู้ดด้วยต้นไม้ที่ดูเป็นธรรมชาติ ต่อมา Adobe Photoshop ได้นำเทคนิคเวอร์ชันหนึ่งมาใช้สำหรับเครื่องมือ "การเติมการรับรู้เนื้อหา"

ปัจจุบันเป็นนักวิทยาศาสตร์คอมพิวเตอร์ที่ Berkeley Artificial Intelligence Research Lab Efros ได้รวมชุดข้อมูลออนไลน์ขนาดใหญ่เข้ากับอัลกอริธึมการเรียนรู้ของเครื่องเพื่อทำความเข้าใจ สร้างแบบจำลอง และสร้างโลกแห่งภาพขึ้นมาใหม่ ในปี 2016 สมาคมเครื่องจักรคอมพิวเตอร์ได้มอบรางวัลให้เขา รางวัลสาขาคอมพิวเตอร์ สำหรับผลงานของเขาที่สร้างภาพสังเคราะห์ที่เหมือนจริงเรียกเขาว่า “นักเล่นแร่แปรธาตุภาพ".

บทนำ

Efros กล่าวว่าแม้นักวิจัยจะพยายามอย่างดีที่สุด แต่เครื่องจักรก็ยังคงมองเห็นความแตกต่างโดยพื้นฐานจากเรา “สีสันและความสว่างที่ต่างกันออกไปทำให้เราต้องเชื่อมโยงสิ่งที่เราเห็นอยู่ตอนนี้กับความทรงจำที่เราเคยเห็นสิ่งเหล่านี้มาก่อน” Efros กล่าว “การเชื่อมต่อนี้ให้ความหมายกับสิ่งที่เราเห็น” บ่อยครั้งที่เครื่องจักรมองเห็นสิ่งที่มีอยู่ในขณะนั้นโดยไม่ต้องเชื่อมต่อกับสิ่งที่พวกเขาเคยเห็นมาก่อน

แต่ความแตกต่างก็มีข้อดีได้ ในคอมพิวเตอร์วิทัศน์ Efros ชื่นชมความรวดเร็วในการทราบว่าอัลกอริทึมที่ออกแบบมาเพื่อจดจำวัตถุและฉากนั้นทำงานบนรูปภาพได้หรือไม่ คำถามเกี่ยวกับการมองเห็นคอมพิวเตอร์บางส่วนของเขา — เช่น “อะไรทำให้ปารีสดูเหมือนปารีส?” — มีความโน้มเอียงทางปรัชญา อื่นๆ เช่น วิธีจัดการกับความดื้อรั้น อคติในชุดข้อมูลใช้งานได้จริงและเร่งด่วน

“ขณะนี้มีคนจำนวนมากที่ใช้ AI ด้วยภาษา” Efros กล่าว “ฉันอยากจะดูรูปแบบการมองเห็นทั้งหมดที่เหลืออยู่ข้างหลัง” ด้วยการปรับปรุงการมองเห็นของคอมพิวเตอร์ เขาไม่เพียงแต่หวังว่าจะมีการใช้งานจริงที่ดีขึ้น เช่น รถยนต์ที่ขับเคลื่อนด้วยตนเอง เขายังต้องการขุดข้อมูลเชิงลึกเหล่านั้นเพื่อทำความเข้าใจสิ่งที่เขาเรียกว่า "ความฉลาดทางการมองเห็นของมนุษย์" ให้ดีขึ้น - วิธีที่ผู้คนเข้าใจสิ่งที่พวกเขาเห็น

นิตยสาร Quanta พบกับ Efros ในสำนักงานที่ Berkeley เพื่อพูดคุยเกี่ยวกับมหาอำนาจทางวิทยาศาสตร์ ความยากในการอธิบายด้วยภาพ และปัญญาประดิษฐ์นั้นอันตรายเพียงใด บทสัมภาษณ์ได้รับการย่อและเรียบเรียงเพื่อความชัดเจน

บทนำ

คอมพิวเตอร์วิทัศน์พัฒนาขึ้นอย่างไรตั้งแต่ยังเป็นนักเรียน

เมื่อฉันเริ่มปริญญาเอกแทบไม่มีประโยชน์อะไรเลย หุ่นยนต์บางตัวขันสกรูโดยใช้คอมพิวเตอร์วิทัศน์ แต่มันถูกจำกัดอยู่เพียงสภาพแวดล้อมทางอุตสาหกรรมที่มีการควบคุมอย่างมากเช่นนี้ ทันใดนั้น กล้องของฉันก็ตรวจพบใบหน้าและทำให้มันคมชัดยิ่งขึ้น

ปัจจุบัน คอมพิวเตอร์วิทัศน์มีการใช้งานมากมาย เช่น รถยนต์ที่ขับเคลื่อนด้วยตนเอง ใช้เวลานานกว่าที่บางคนคิดไว้ในตอนแรก แต่ยังคงมีความคืบหน้า สำหรับคนที่ไม่ขับรถ ถือว่าน่าตื่นเต้นมาก

เดี๋ยวนะ คุณไม่ขับรถเหรอ?

ไม่ ฉันเห็นว่าขับรถไม่ดีพอ! [หัวเราะ] สำหรับฉัน นี่อาจเป็นตัวเปลี่ยนเกม การมีรถที่จะพาฉันไปสถานที่ต่างๆ

ฉันไม่รู้ว่าสายตาของคุณทำให้คุณขับรถไม่ได้ คุณเห็นภาพที่คุณใช้งานบนจอคอมพิวเตอร์ได้หรือไม่?

ถ้าฉันทำให้มันใหญ่พอ คุณจะเห็นว่าแบบอักษรของฉันค่อนข้างใหญ่ ฉันเกิดมาไม่เห็นดี ฉันคิดว่าคนอื่นๆ เป็นคนประหลาดที่มีวิสัยทัศน์ดีเป็นบ้า

สถานะที่ไม่ใช่กะเทยของคุณมีอิทธิพลต่อทิศทางการวิจัยของคุณหรือไม่?

ใครจะรู้? ไม่มีความรู้สึกอย่างแน่นอนว่า “โอ้ ฉันมองเห็นได้ไม่ดี ดังนั้น ฉันจะสร้างคอมพิวเตอร์ที่มองเห็นได้ดีขึ้น” ไม่ ฉันไม่เคยมีสิ่งนั้นเป็นแรงจูงใจ

ในการเป็นนักวิทยาศาสตร์ที่ดี คุณต้องมีพลังพิเศษที่เป็นความลับ คุณต้องทำอะไรให้ดีกว่าใครๆ สิ่งที่ยอดเยี่ยมเกี่ยวกับวิทยาศาสตร์ก็คือ เราทุกคนไม่ได้มีพลังพิเศษเหมือนกัน บางทีมหาอำนาจของฉันอาจเป็นแบบนั้น เพราะว่าฉันมองเห็นได้ไม่ดีนัก ฉันจึงอาจมีความเข้าใจปัญหาการมองเห็นมากขึ้น

บทนำ

ฉันเข้าใจตั้งแต่เนิ่นๆ เกี่ยวกับความสำคัญของข้อมูลก่อนหน้านี้เมื่อมองโลก ฉันมองเห็นตัวเองได้ไม่ดีนัก แต่ความทรงจำเกี่ยวกับประสบการณ์ก่อนหน้านี้เต็มไปด้วยช่องโหว่มากพอที่ฉันจะสามารถทำงานได้ดีเหมือนคนปกติ คนส่วนใหญ่ไม่รู้ว่าฉันมองเห็นไม่ดี นั่นทำให้ฉัน — ฉันคิดว่า — สัญชาตญาณที่เป็นเอกลักษณ์นี้อาจจะเกี่ยวกับพิกเซลน้อยลงและเกี่ยวกับหน่วยความจำมากขึ้น

คอมพิวเตอร์มองเห็นเฉพาะสิ่งที่มีอยู่ในขณะนี้ ในขณะที่เราเห็นช่วงเวลาที่เชื่อมโยงกับทุกสิ่งที่เราเคยเห็นมาก่อน

เป็นไปได้ไหมที่จะแสดงรูปแบบการมองเห็นอันละเอียดอ่อนที่ทำให้ปารีสดูเหมือนปารีสด้วยคำพูด

เมื่อคุณอยู่ในเมืองใดเมืองหนึ่ง บางครั้งคุณก็รู้ว่าคุณอยู่เมืองไหน มีสิ่งนี้ je ne sais quoiแม้ว่าคุณจะไม่เคยไปหัวมุมถนนแห่งนั้นมาก่อนก็ตาม มันยากมากที่จะอธิบายเป็นคำพูด แต่มันอยู่ที่พิกเซลจริงๆ

[สำหรับปารีส] คุณสามารถพูดถึงว่าปกติแล้วจะเป็นอาคารหกชั้น และมักจะมีระเบียงบนชั้นที่สี่ คุณสามารถอธิบายบางส่วนเป็นคำพูดได้ แต่ส่วนมากไม่ใช่ภาษา สำหรับฉันนั่นเป็นเรื่องที่น่าตื่นเต้น

งานล่าสุดของคุณเกี่ยวข้องกับการสอนคอมพิวเตอร์ให้ นำเข้าข้อมูลภาพ ในลักษณะที่เลียนแบบการมองเห็นของมนุษย์ มันทำงานยังไง?

ขณะนี้ คอมพิวเตอร์มีชุดข้อมูลขนาดใหญ่: รูปภาพสุ่มนับพันล้านภาพที่ถูกคัดลอกมาจากอินเทอร์เน็ต พวกเขาถ่ายภาพแบบสุ่ม ประมวลผลภาพหนึ่ง จากนั้นถ่ายภาพสุ่มอีกภาพ ประมวลผลภาพนั้น ฯลฯ คุณฝึกระบบ [ภาพของคอมพิวเตอร์] ของคุณโดยการวนซ้ำชุดข้อมูลนี้

วิธีที่เราซึ่งเป็นตัวแทนทางชีวภาพนำเข้าข้อมูลนั้นแตกต่างกันมาก เมื่อเราเผชิญกับสถานการณ์ใหม่ นี่เป็นครั้งเดียวและครั้งเดียวที่ข้อมูลนี้จะอยู่เคียงข้างเรา เราไม่เคยอยู่ในสถานการณ์ที่แน่นอนเช่นนี้ ในห้องนี้ ที่มีแสงไฟแบบนี้ แต่งตัวแบบนี้ อันดับแรก เราใช้ข้อมูลนี้เพื่อทำสิ่งที่เราต้องทำเพื่อทำความเข้าใจโลก จากนั้นเราใช้ข้อมูลนี้เพื่อเรียนรู้จากมัน [เพื่อทำนาย] อนาคต

บทนำ

นอกจากนี้ข้อมูลที่เราเห็นไม่ได้สุ่ม สิ่งที่คุณเห็นตอนนี้มีความสัมพันธ์กับสิ่งที่คุณเห็นเมื่อไม่กี่วินาทีที่แล้วอย่างมาก คุณสามารถคิดว่ามันเป็นวิดีโอ เฟรมทั้งหมดของวิดีโอมีความสัมพันธ์กัน ซึ่งแตกต่างจากวิธีที่คอมพิวเตอร์ประมวลผลข้อมูลอย่างมาก

ฉันสนใจที่จะนำแนวทางการเรียนรู้ของเราไปใช้เพื่อให้คอมพิวเตอร์มองเห็นข้อมูลเมื่อเข้ามา ประมวลผล และเรียนรู้จากข้อมูลในขณะที่ดำเนินการ

ฉันคิดว่ามันไม่ง่ายเหมือนกับการให้คอมพิวเตอร์ดูวิดีโอแทนภาพนิ่ง

ไม่ คุณยังต้องมี [คอมพิวเตอร์] เพื่อปรับตัว ฉันสนใจในการเรียนรู้แนวทางที่เห็นข้อมูลเมื่อเข้ามา จากนั้นจึงประมวลผลและเรียนรู้จากข้อมูลในขณะที่ดำเนินการ แนวทางหนึ่งที่เรามีเรียกว่า การฝึกอบรมช่วงทดสอบ. แนวคิดก็คือ เมื่อคุณดูลำดับของภาพ เช่น วิดีโอ สิ่งต่างๆ อาจเปลี่ยนแปลงไป ดังนั้นคุณคงไม่อยากให้แบบจำลองของคุณได้รับการแก้ไข เช่นเดียวกับสารชีวภาพที่ปรับตัวเข้ากับสภาพแวดล้อมอยู่เสมอ เราต้องการให้คอมพิวเตอร์ปรับตัวอย่างต่อเนื่อง

กระบวนทัศน์มาตรฐานคือคุณฝึกฝนชุดข้อมูลขนาดใหญ่ก่อน จากนั้นจึงปรับใช้ Dall·E และ ChatGPT ได้รับการฝึกอบรมทางอินเทอร์เน็ตประมาณปี 2021 จากนั้น [ความรู้ของพวกเขา] ก็หยุดชะงัก แล้วมันก็พ่นสิ่งที่รู้อยู่แล้วออกมา วิธีที่เป็นธรรมชาติมากกว่าคือ [การฝึกอบรมเวลาทดสอบ] เพื่อพยายามให้การฝึกอบรมดูดซับข้อมูลและเรียนรู้จากงาน โดยไม่มีขั้นตอนการฝึกอบรมและการใช้งานแยกกัน

มีปัญหาอย่างแน่นอนกับคอมพิวเตอร์ ที่เรียกว่าการเปลี่ยนแปลงโดเมนหรืออคติชุดข้อมูล แนวคิดนี้ที่ว่าหากข้อมูลการฝึกอบรมของคุณแตกต่างจากข้อมูลที่คุณใช้อย่างมากเมื่อคุณปรับใช้ระบบ สิ่งต่างๆ จะไม่ทำงาน ดีมาก. เรากำลังดำเนินการบางอย่าง แต่ก็ยังไม่ถึงจุดนั้น

บทนำ

ปัญหาคล้ายกับการที่ธนาคารเตือนนักลงทุนว่าผลการดำเนินงานในอดีตอาจไม่สามารถทำนายรายได้ในอนาคตได้หรือไม่?

นั่นเป็นปัญหาจริงๆ ในโลกแห่งความเป็นจริง สิ่งต่างๆ เปลี่ยนไป เช่น ถ้าหนูสนามไปอยู่ในบ้าน มันก็จะไม่เป็นไร คุณจะไม่มีวันกำจัดหนูตัวนั้นทิ้ง! [หัวเราะ] มันเกิดในทุ่งนา ไม่เคยอยู่ในบ้านมาก่อน แต่มันจะค้นหาและกินเสบียงของคุณทั้งหมด มันปรับตัวได้เร็วมาก เรียนรู้และปรับตัวเข้ากับสภาพแวดล้อมใหม่

ความสามารถนั้นไม่มีอยู่ในระบบ [การมองเห็นด้วยคอมพิวเตอร์] ในปัจจุบัน ด้วยการขับรถด้วยตนเอง หากคุณฝึกรถในแคลิฟอร์เนียแล้วทดสอบในมินนิโซตา บูม! — มีหิมะ มันไม่เคยเห็นหิมะเลย มันเริ่มสับสน

ตอนนี้ผู้คนพูดถึงเรื่องนี้ด้วยการได้รับข้อมูลมากมายจน [ระบบ] เห็นทุกอย่างโดยพื้นฐานแล้ว แล้วมันไม่ต้องปรับตัว แต่นั่นก็ยังพลาดเหตุการณ์ที่หายาก

ดูเหมือนว่าระบบ AI จะเป็นก้าวต่อไปแล้ว นั่นจะทิ้งมนุษย์ไว้ที่ไหน?

งานที่ออกมาจาก OpenAI ทั้งด้านหน้าข้อความ (ChatGPT) และด้านหน้ารูปภาพ (Dall·E) น่าตื่นเต้นและน่าประหลาดใจอย่างไม่น่าเชื่อ เป็นการยืนยันแนวคิดนี้ว่าเมื่อคุณมีข้อมูลเพียงพอแล้ว วิธีการง่ายๆ ที่สมเหตุสมผลจะสามารถสร้างผลลัพธ์ที่ดีอย่างน่าประหลาดใจได้

บทนำ

แต่ ChatGPT ทำให้ฉันรู้ว่ามนุษย์ไม่ได้มีความคิดสร้างสรรค์และโดดเด่นเท่าที่เราต้องการเห็นตัวเอง โดยส่วนใหญ่แล้ว ตัวจดจำรูปแบบในตัวเราอาจเข้ามาแทนที่ เราพูดเป็นประโยคที่สร้างจากวลีหรือประโยคที่เราเคยได้ยินมาก่อน แน่นอนว่า เรามีเที่ยวบินที่เต็มไปด้วยจินตนาการและความคิดสร้างสรรค์ เราสามารถทำสิ่งที่คอมพิวเตอร์ทำไม่ได้ อย่างน้อยก็ในตอนนี้ แต่โดยส่วนใหญ่แล้ว ChatGPT อาจเข้ามาแทนที่เราได้ และคนส่วนใหญ่ก็ไม่สังเกตเห็น

มันน่าถ่อมใจ แต่มันก็เป็นแรงจูงใจที่จะแยกตัวออกจากรูปแบบเหล่านั้น เพื่อพยายามสร้างจินตนาการให้มากขึ้น เพื่อไม่ให้ติดอยู่กับความคิดโบราณและเรื่องเดิมๆ

นักวิทยาศาสตร์บางคนได้แสดงความกังวลเกี่ยวกับความเสี่ยงที่ AI มีต่อมนุษยชาติ คุณกังวลไหม?

นักวิจัยจำนวนมากที่ฉันเคารพอย่างสูงได้รับคำเตือนเกี่ยวกับปัญญาประดิษฐ์ ฉันไม่ต้องการที่จะย่อคำเหล่านั้น หลายสิ่งเหล่านั้นเป็นจุดที่ถูกต้อง แต่เราต้องใส่สิ่งต่าง ๆ ในมุมมอง

ในปัจจุบัน อันตรายที่ใหญ่ที่สุดต่ออารยธรรมไม่ได้มาจากคอมพิวเตอร์ แต่มาจากมนุษย์ Armageddon นิวเคลียร์และการเปลี่ยนแปลงสภาพภูมิอากาศเป็นความกังวลเร่งด่วนมากขึ้น สหพันธรัฐรัสเซียได้โจมตีเพื่อนบ้านที่ไร้เดียงสาของตนโดยสิ้นเชิง ฉันเกิดในรัสเซีย และเป็นเรื่องน่าตกใจอย่างยิ่งที่อดีตเพื่อนร่วมชาติของฉันทำเช่นนี้ ฉันกำลังทำทุกอย่างที่ทำได้เพื่อให้แน่ใจว่าหัวข้อนี้ยังคงเป็นหัวข้ออันดับหนึ่ง

เราอาจคิดว่าการปฏิวัติ AI เป็นเหตุการณ์ที่สำคัญที่สุดในชีวิตของเรา แต่การปฏิวัติ AI จะไร้ประโยชน์หากเราไม่กอบกู้โลกเสรี

คุณไม่กังวลเรื่อง AI เลยเหรอ?

ไม่ ฉันชอบที่จะกังวล ฉันเป็นคนกังวลมาก! แต่ถ้าปูตินผู้ทำลายโลกอยู่ที่นี่ [ยกมือขึ้น] และการเปลี่ยนแปลงสภาพภูมิอากาศอยู่ที่นี่ [เอามือลงที่ไหล่] แสดงว่า AI ก็อยู่ตรงนี้ [เอามือลงที่เท้าของเขา] เป็นเพียงเศษเสี้ยวของความกังวลของฉัน เมื่อเทียบกับปูตินและการเปลี่ยนแปลงสภาพภูมิอากาศ

ประทับเวลา:

เพิ่มเติมจาก ควอนทามากาซีน