ChattyG เข้าสอบการเขียนโปรแกรม C/C++ ระดับมหาวิทยาลัยปีแรก

ChattyG เข้าสอบการเขียนโปรแกรม C/C++ ระดับมหาวิทยาลัยปีแรก

ChattyG เข้าสอบ PlatoBlockchain Data Intelligence ปีแรก ค้นหาแนวตั้ง AI.

ChatGPT ได้รับการทดสอบผ่านชุดงานการเขียนโปรแกรม C/C++ สำหรับมือใหม่ และผ่านการทดสอบ แม้ว่าจะไม่ได้รับเกียรติก็ตาม

จากข้อมูลของทีมวิจัยชาวโครเอเชีย ในขณะที่นักศึกษาปีแรกอาจประสบปัญหากับงานที่ได้รับมอบหมายบางส่วน ผลลัพธ์ [PDF] แสดงให้เห็นว่า ChatGPT บรรลุเป้าหมายด้านความเชี่ยวชาญซึ่งอยู่ระหว่างค่าเฉลี่ยกับของโปรแกรมเมอร์ที่มีประสบการณ์ และแน่นอนว่า เช่นเดียวกับการสอบระดับวิทยาลัยอื่นๆ ผลลัพธ์สามารถกำหนดได้จากวิธีการใช้ถ้อยคำของคำถาม

ทีมงานของ University North ได้ออกแบบชุดความท้าทายในการเขียนโปรแกรมระดับนักศึกษาวิทยาลัย โดยเขียนครั้งแรกเป็นภาษาอังกฤษและต่อมา เพื่อดูว่าความแตกต่างระหว่างภาษาจะส่งผลต่อผลลัพธ์หรือไม่ โดยใช้ภาษาโครเอเชีย พวกเขาต้องการดูว่าโค้ด ChatGPT สามารถปรับให้เข้ากับภาษาต่างๆ ได้อย่างไร

แบบทดสอบแรกมุ่งเน้นไปที่งานการเขียนโปรแกรมขั้นพื้นฐาน: การคำนวณตัวหารร่วมมาก (GCD) ของตัวเลขสองตัว ในตอนแรก บอทแสดงข้อจำกัดบางประการในการตัดสินใจแก้ไขปัญหา โดยนักวิจัยกล่าวว่าบอทขาดความเฉียบแหลมที่คาดหวังจากโปรแกรมเมอร์ผู้ช่ำชอง แต่เช่นเดียวกับนักเรียนคนอื่นๆ มันเรียนรู้และผ่านการพยายามครั้งต่อๆ ไป โดยเฉพาะอย่างยิ่งในเวอร์ชันภาษาโครเอเชีย มันแสดงให้เห็นถึงการปรับปรุงบางอย่าง ซึ่งแสดงให้เห็นถึงความสามารถในการปรับตัวที่โดดเด่น

ตัวอย่างเช่น ในงานหนึ่ง มีการท้าทายให้เขียนโปรแกรมฟังก์ชันทางสถิติพื้นฐานในภาษา C++ ในขั้นต้น มีการกำกับดูแลโดยใช้ฟังก์ชันที่ไม่สร้างค่าเบี่ยงเบนมาตรฐานที่ "ถูกต้อง" ตามที่ต้องการ แต่เมื่องานเดียวกันถูกนำเสนอเป็นภาษาโครเอเชีย แชทบอทไม่เพียงแต่รับรู้ถึงข้อผิดพลาดก่อนหน้านี้เท่านั้น แต่ยังช่วยแก้ปัญหาที่ได้รับการปรับปรุงอีกด้วย

นักวิจัยตั้งข้อสังเกตว่าความสามารถในการปรับตัวนี้สะท้อนการเดินทางของน้องใหม่ โดยเริ่มจากความผิดพลาดแต่แสดงให้เห็นถึงความสามารถในการเรียนรู้และพัฒนาทักษะด้วยการฝึกฝนและการตอบรับซ้ำๆ อ้าว..

งานอื่นที่เกี่ยวข้องกับปัญหาที่เหมาะสมยิ่งขึ้น: การระบุตัวเลขภายในช่วงตามกฎการหารเฉพาะเจาะจง นี่คือจุดที่จุดอ่อนของ ChatGPT ปรากฏชัด ไม่ว่าภาษาใด — อังกฤษหรือโครเอเชีย — ChattyG ประสบปัญหากับตัวเลขติดลบ ความพยายามแต่ละครั้งของ ChatGPT นำไปสู่ผลลัพธ์ที่คล้ายคลึงกัน โดยชี้ไปที่ปัญหาที่สอดคล้องกันในตรรกะการเขียนโปรแกรมสำหรับงานนี้

คำถามโบนัสต้องการความแม่นยำ ต้องใช้ ChatGPT เพื่อสร้างตัวกรองอินพุต โดยเฉพาะสำหรับช่วงทศนิยมที่กำหนด วิธีแก้ปัญหาเบื้องต้นของ AI เมื่อนำเสนอเป็นภาษาอังกฤษก็ตรงประเด็น แต่ความพยายามครั้งต่อไป โดยเฉพาะอย่างยิ่งเมื่อมอบหมายงานเป็นภาษาโครเอเชีย พบว่ามีความไม่สอดคล้องกันบางประการ และในบางกรณี ChatGPT ใช้โครงสร้างการเขียนโปรแกรมที่ไม่จำเป็น แม้ว่าสิ่งเหล่านี้จะไม่ขัดขวางการทำงานของโปรแกรม แต่ก็บ่งบอกถึงการขาดการปรับให้เหมาะสม เหมือนกับว่าบางครั้ง ChatGPT ใช้เส้นทางที่ยาวกว่าไปยังปลายทาง แม้ว่าจะมีทางลัดก็ตาม

สิ่งต่างๆ มีความซับซ้อนมากขึ้นกับงานที่เกี่ยวข้องกับอาร์เรย์ ในที่นี้ ระบบจะขอให้ ChatGPT เก็บตัวเลขแล้วคำนวณสถิติบางอย่าง เช่น ค่าเฉลี่ย ส่วนเบี่ยงเบนมาตรฐาน และระบุค่าต่ำสุดและสูงสุด ประสิทธิภาพของ ChattyG ในความท้าทายนี้น่าสนใจเป็นพิเศษ ในการทดสอบต่างๆ มีการนำเสนอกลยุทธ์ที่แตกต่างกัน บางครั้งก็ช่วยแก้ปัญหาได้อย่างสวยงามโดยเสนอวิธีแก้ปัญหาที่ตรงไปตรงมา ในความพยายามอื่นๆ มันโน้มตัวไปทางวิธีการที่ซับซ้อนมากขึ้น แม้กระทั่งการรวมการดำเนินการหลายอย่างไว้ในฟังก์ชันเดียว

ทั้งหมดนี้ทำให้เกิดคำถามสำคัญ: ChatGPT จะเลือกกลยุทธ์ที่ดีที่สุดเสมอหรือไม่ หรือบางครั้งอาจใช้วิธีที่เรียนรู้แต่ไร้ประสิทธิภาพหรือไม่

อุปสรรคสุดท้ายสำหรับ ChatGPT คือการประมวลผลข้อความขั้นพื้นฐาน ได้รับมอบหมายให้ลบช่องว่างเพิ่มเติมออกจากอินพุตของผู้ใช้ ในการทดสอบภาษาอังกฤษครั้งแรก โซลูชันของ ChatGPT ตรงประเด็น อย่างไรก็ตาม การทดสอบของโครเอเชียทำให้เกิดลูกโค้ง แทนที่จะยึดมั่นในโซลูชันอินพุตเดียวที่มีประสิทธิภาพ ด้วยเหตุผลบางประการ AI เลือกใช้แนวทางที่ซับซ้อนมากขึ้น โดยต้องการอินพุตหลายรายการ แต่เมื่อนักวิจัยกลับมาทบทวนความท้าทายนี้เป็นภาษาอังกฤษ ดูเหมือนว่า ChatGPT จะได้เรียนรู้จากความผิดพลาดครั้งก่อน และกลับมาใช้วิธีที่ง่ายกว่านี้

โดยรวมแล้ว นักวิจัยพบว่าคำตอบมีความเหมือนกันกับนักศึกษาเขียนโปรแกรมน้องใหม่เป็นอย่างมาก โซลูชันนี้มักจะสะท้อนถึงกลยุทธ์ของโปรแกรมเมอร์ผู้มีประสบการณ์ แต่ ChatGPT ก็ไม่มีข้อผิดพลาดเช่นเดียวกับนักศึกษาคนอื่นๆ มีช่วงเวลาแห่งความสดใส แต่ก็มีบางกรณีที่ดูเหมือนว่าจะพลาดเป้าไปโดยสิ้นเชิง

ประโยชน์ที่แท้จริงที่นี่คือความสามารถในการปรับตัวได้เหมือนมนุษย์น้องใหม่ ไม่ใช่แค่การหาวิธีแก้ปัญหาที่ถูกต้องเท่านั้น มันเกี่ยวกับการปรับปรุง การเรียนรู้ และการทำซ้ำ

แล้ว ChattyG เกรดสุดท้ายเป็นเท่าไหร่?

จากนักวิจัย:

“ChatGPT ผ่านการสอบด้วยเกรดที่ดีมาก ซึ่งมีประสิทธิภาพเหนือกว่านักเรียนส่วนใหญ่ของเราในด้านคุณภาพของโซลูชัน นอกจากนี้ ยังแก้ปัญหาแต่ละงานได้ภายใน 20 ถึง 30 วินาที และแสดงความสามารถทั่วไปในการปรับเปลี่ยนหรือเปลี่ยนแปลงโซลูชันตามความต้องการเพิ่มเติม อย่างไรก็ตาม ในงานง่ายๆ บางงาน แสดงให้เห็นว่าไม่สามารถเข้าใจแก่นแท้ของปัญหาเชิงตรรกะและคณิตศาสตร์ได้ แม้ว่าจะได้รับแจ้งเกี่ยวกับข้อผิดพลาดหลายครั้งก็ตาม” ®

ประทับเวลา:

เพิ่มเติมจาก ลงทะเบียน