พนักงานที่ได้รับการว่าจ้างผ่านบริการคราวด์ซอร์สอย่าง Amazon Mechanical Turk กำลังใช้โมเดลภาษาขนาดใหญ่เพื่อทำงานให้เสร็จ ซึ่งอาจส่งผลเสียต่อโมเดล AI ในอนาคต
ข้อมูลมีความสำคัญต่อ AI นักพัฒนาต้องการชุดข้อมูลที่สะอาดและมีคุณภาพสูงเพื่อสร้างระบบแมชชีนเลิร์นนิงที่แม่นยำและเชื่อถือได้ อย่างไรก็ตาม การรวบรวมข้อมูลที่มีค่าและมีคุณภาพสูงสุดอาจเป็นเรื่องที่น่าเบื่อ บริษัทต่างๆ มักจะหันไปใช้แพลตฟอร์มของบุคคลที่สาม เช่น Amazon Mechanical Turk เพื่อสั่งให้กลุ่มคนทำงานราคาถูกทำงานซ้ำๆ เช่น ติดฉลากวัตถุ อธิบายสถานการณ์ ถอดความข้อความ และใส่คำอธิบายประกอบข้อความ
เอาต์พุตของพวกมันสามารถล้างข้อมูลและป้อนลงในโมเดลเพื่อฝึกให้จำลองการทำงานในสเกลอัตโนมัติที่ใหญ่ขึ้นมากได้
แบบจำลอง AI จึงถูกสร้างขึ้นบนหลังของแรงงานมนุษย์: ผู้คนที่ต้องทำงานหนัก ให้ตัวอย่างการฝึกอบรมจำนวนมากสำหรับระบบ AI ที่องค์กรสามารถใช้เพื่อสร้างรายได้หลายพันล้านดอลลาร์
แต่การทดลองที่ดำเนินการโดยนักวิจัยที่ École polytechnique fédérale de Lausanne (EPFL) ในสวิตเซอร์แลนด์ ได้ข้อสรุปว่าคนงานที่มาจากฝูงชนเหล่านี้กำลังใช้ระบบ AI เช่น แชทบอท ChatGPT ของ OpenAI เพื่อทำงานแปลกๆ ทางออนไลน์
ไม่แนะนำให้ฝึกโมเดลด้วยเอาต์พุตของตัวเอง เราอาจเห็นโมเดล AI ได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่ไม่ได้สร้างโดยคน แต่โดยโมเดล AI อื่นๆ ซึ่งบางทีอาจเป็นโมเดลเดียวกันด้วยซ้ำ ซึ่งอาจนำไปสู่คุณภาพผลลัพธ์ที่เลวร้าย มีอคติมากขึ้น และผลกระทบที่ไม่พึงประสงค์อื่นๆ
การทดลอง
นักวิชาการได้คัดเลือกชาวเติร์กเชิงกลจำนวน 44 คนเพื่อสรุปบทคัดย่อของเอกสารการวิจัยทางการแพทย์ 16 ฉบับ และประเมินว่า 33 ถึง 46 เปอร์เซ็นต์ของข้อความที่คนงานส่งมานั้นสร้างขึ้นโดยใช้แบบจำลองภาษาขนาดใหญ่ พนักงานจำนวนมากมักได้รับค่าจ้างต่ำ การใช้ AI เพื่อสร้างการตอบสนองโดยอัตโนมัติช่วยให้พวกเขาทำงานได้เร็วขึ้นและรับงานมากขึ้นเพื่อเพิ่มค่าจ้าง
ทีมงานชาวสวิสได้ฝึกตัวแยกประเภทเพื่อทำนายว่าสิ่งที่ส่งมาจากชาวเติร์กนั้นเกิดจากฝีมือมนุษย์หรือ AI นักวิชาการยังได้บันทึกการกดแป้นพิมพ์ของคนงานเพื่อตรวจสอบว่าพนักงานเสิร์ฟคัดลอกและวางข้อความลงบนแพลตฟอร์มหรือพิมพ์ข้อความเอง มีโอกาสเสมอที่ใครบางคนใช้แชทบอทแล้วพิมพ์ผลลัพธ์ด้วยตนเอง – แต่นั่นไม่น่าเป็นไปได้ เราคิดว่า
“เราพัฒนาวิธีการเฉพาะเจาะจงซึ่งทำงานได้ดีมากในการตรวจจับข้อความสังเคราะห์ในสถานการณ์ของเรา” Manoel Ribeiro ผู้เขียนร่วมของ การศึกษา และนักศึกษาปริญญาเอกที่ EPFL กล่าว ลงทะเบียน ในสัปดาห์นี้
“ในขณะที่วิธีการแบบดั้งเดิมพยายามตรวจหาข้อความสังเคราะห์ 'ในบริบทใดๆ' แนวทางของเรามุ่งเน้นไปที่การตรวจหาข้อความสังเคราะห์ในสถานการณ์เฉพาะของเรา”
ลักษณนามไม่สมบูรณ์แบบในการระบุว่ามีคนใช้ระบบ AI หรือสร้างผลงานของตนเองหรือไม่ นักวิชาการรวมผลลัพธ์ของตัวแยกประเภทเข้ากับข้อมูลการกดแป้นพิมพ์เพื่อให้แน่ใจมากขึ้นเมื่อมีคนคัดลอกและวางจากบอทหรือสร้างเนื้อหาของตนเอง
ข้อมูลของมนุษย์คือมาตรฐานทองคำ เพราะมนุษย์คือมนุษย์ที่เราให้ความสำคัญ
“เราสามารถตรวจสอบผลลัพธ์ของเราได้โดยใช้ข้อมูลการกดแป้นพิมพ์ที่เรารวบรวมจาก MTurk” Ribeiro กล่าวกับเรา “ตัวอย่างเช่น เราพบว่าข้อความทั้งหมดที่ไม่ได้คัดลอกมาถูกจัดประเภทโดยเราว่าเป็น 'ของจริง' ซึ่งแสดงให้เห็นว่ามีผลบวกลวงเพียงเล็กน้อย”
รหัสและข้อมูลที่ใช้ในการรันการทดสอบ สามารถพบได้ที่นี่บน GitHub
มีอีกเหตุผลหนึ่งที่การทดลองนี้ไม่น่าจะเป็นตัวแทนที่ยุติธรรมอย่างสมบูรณ์ของจำนวนคนงานจริงๆ ที่ใช้ AI เพื่อทำให้งานคราวด์ซอร์สเป็นแบบอัตโนมัติ ผู้เขียนทราบว่างานการสรุปข้อความนั้นเหมาะสมกับโมเดลภาษาขนาดใหญ่เมื่อเทียบกับงานประเภทอื่นๆ ซึ่งหมายความว่าผลลัพธ์อาจคลาดเคลื่อนต่อผู้ปฏิบัติงานจำนวนมากขึ้นโดยใช้เครื่องมือเช่น ChatGPT
ชุดข้อมูล 46 คำตอบจากพนักงาน 44 คนยังมีขนาดเล็ก คนงานได้รับค่าจ้าง 1 ดอลลาร์สำหรับการสรุปข้อความแต่ละครั้ง ซึ่งอีกครั้งอาจสนับสนุนเฉพาะการใช้ AI เท่านั้น
โมเดลภาษาขนาดใหญ่จะแย่ลงหากได้รับการฝึกฝนมากขึ้นเกี่ยวกับเนื้อหาปลอมที่สร้างโดย AI ที่รวบรวมจากแพลตฟอร์มคราวด์ซอร์ส นักวิจัยแย้ง ชุดอย่าง OpenAI จะเก็บวิธีฝึกโมเดลล่าสุดไว้เป็นความลับ และอาจไม่ต้องพึ่งพาสิ่งต่างๆ เช่น Mechanical Turk มากนัก หากเป็นเช่นนั้น ที่กล่าวว่า โมเดลอื่นๆ จำนวนมากอาจต้องพึ่งพาแรงงานมนุษย์ ซึ่งอาจใช้บอทเพื่อสร้างข้อมูลการฝึกอบรม ซึ่งเป็นปัญหา
ประการแรก Mechanical Turk วางตลาดในฐานะผู้ให้บริการ "โซลูชันการติดฉลากข้อมูลเพื่อขับเคลื่อนโมเดลแมชชีนเลิร์นนิง"
“ข้อมูลของมนุษย์คือมาตรฐานทองคำ เพราะมนุษย์คือมนุษย์ที่เราใส่ใจ ไม่ใช่โมเดลภาษาขนาดใหญ่” Riberio กล่าว “ผมจะไม่กินยาที่ได้รับการทดสอบในแบบจำลองทางชีวภาพของแมลงหวี่เท่านั้น” เขากล่าวเป็นตัวอย่าง
การตอบสนองที่เกิดจากโมเดล AI ในปัจจุบันมักจะค่อนข้างธรรมดาหรือเล็กน้อย และไม่จับความซับซ้อนและความหลากหลายของความคิดสร้างสรรค์ของมนุษย์ นักวิจัยแย้ง
“บางครั้งสิ่งที่เราต้องการศึกษาด้วยข้อมูลที่รวบรวมจากฝูงชนก็เป็นวิธีที่มนุษย์ไม่สมบูรณ์” โรเบิร์ต เวสต์ ผู้ร่วมเขียนรายงานและผู้ช่วยศาสตราจารย์แห่งคณะวิทยาการคอมพิวเตอร์และการสื่อสารของ EPFL กล่าวกับเรา
ในขณะที่ AI ปรับปรุงอย่างต่อเนื่อง มีแนวโน้มว่างานที่มาจากฝูงชนจะเปลี่ยนไป Riberio คาดการณ์ว่าโมเดลภาษาขนาดใหญ่สามารถแทนที่พนักงานบางคนในงานเฉพาะได้ “อย่างไรก็ตาม ในทางที่ขัดแย้งกัน ข้อมูลของมนุษย์อาจมีค่ามากกว่าที่เคย และอาจเป็นไปได้ว่าแพลตฟอร์มเหล่านี้จะสามารถใช้วิธีต่างๆ เพื่อป้องกันการใช้โมเดลภาษาขนาดใหญ่ และทำให้แน่ใจว่าข้อมูลดังกล่าวยังคงเป็นแหล่งข้อมูลของมนุษย์”
ใครจะไปรู้ บางทีมนุษย์อาจลงเอยด้วยการร่วมมือกับโมเดลภาษาขนาดใหญ่เพื่อสร้างการตอบสนองด้วยเช่นกัน เขากล่าวเสริม ®
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- การเงิน EVM ส่วนต่อประสานแบบครบวงจรสำหรับการเงินแบบกระจายอำนาจ เข้าถึงได้ที่นี่.
- กลุ่มสื่อควอนตัม IR/PR ขยาย เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. ข้อมูลอัจฉริยะ Web3 ขยายความรู้ เข้าถึงได้ที่นี่.
- ที่มา: https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/
- :มี
- :เป็น
- :ไม่
- $ ขึ้น
- 16
- 7
- a
- สามารถ
- เกี่ยวกับเรา
- บทคัดย่อ
- นักวิชาการ
- ถูกต้อง
- ที่เพิ่ม
- อีกครั้ง
- AI
- ทั้งหมด
- ช่วยให้
- ด้วย
- เสมอ
- อเมซอน
- an
- และ
- อื่น
- ใด
- เข้าใกล้
- เป็น
- ที่ถกเถียงกันอยู่
- เทียม
- ปัญญาประดิษฐ์
- AS
- ผู้ช่วย
- At
- ผู้เขียน
- โดยอัตโนมัติ
- อัตโนมัติ
- อัตโนมัติ
- ไป
- BE
- เพราะ
- กำลัง
- อคติ
- พันล้าน
- อ่อนโยน
- ธ ปท
- บอท
- สร้าง
- สร้าง
- แต่
- by
- CAN
- จับ
- ซึ่ง
- บาง
- โอกาส
- เปลี่ยนแปลง
- chatbot
- ChatGPT
- ถูก
- จัด
- ปิดหน้านี้
- CO
- ผู้เขียนร่วม
- รหัส
- การทำงานร่วมกัน
- รวม
- การสื่อสาร
- บริษัท
- เมื่อเทียบกับ
- สมบูรณ์
- อย่างสมบูรณ์
- ความซับซ้อน
- คอมพิวเตอร์
- สรุป
- ดำเนินการ
- เนื้อหา
- สิ่งแวดล้อม
- อย่างต่อเนื่อง
- บริษัท
- ได้
- ความคิดสร้างสรรค์
- วิกฤติ
- ฝูงชน
- ข้อมูล
- ชุดข้อมูล
- พัฒนา
- นักพัฒนา
- หายนะ
- ความหลากหลาย
- do
- ดอลลาร์
- แต่ละ
- ผลกระทบ
- ส่งเสริม
- ปลาย
- ทำให้มั่นใจ
- ประมาณ
- แม้
- เคย
- เผง
- ตัวอย่าง
- ตัวอย่าง
- การทดลอง
- ธรรม
- เทียม
- เท็จ
- เร็วขึ้น
- เฟด
- สองสาม
- มุ่งเน้น
- สำหรับ
- พบ
- ราคาเริ่มต้นที่
- อนาคต
- สร้าง
- สร้าง
- ได้รับ
- GitHub
- ทองคำ
- มาตรฐานทองคำ
- มี
- he
- หนัก
- ที่มีคุณภาพสูง
- สูงกว่า
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- อย่างไรก็ตาม
- HTTPS
- เป็นมนุษย์
- มนุษย์
- i
- ระบุ
- if
- การดำเนินการ
- ปรับปรุง
- in
- เพิ่ม
- ขึ้น
- Intelligence
- เข้าไป
- ISN
- IT
- ITS
- งาน
- jpg
- เก็บ
- การติดฉลาก
- แรงงาน
- ภาษา
- ใหญ่
- ที่มีขนาดใหญ่
- ล่าสุด
- นำ
- การเรียนรู้
- กดไลก์
- น่าจะ
- เข้า
- ต่ำ
- เครื่อง
- เรียนรู้เครื่อง
- ทำ
- การจัดการ
- ด้วยมือ
- หลาย
- วัสดุ
- อาจ..
- ความหมาย
- เชิงกล
- ทางการแพทย์
- การวิจัยทางการแพทย์
- ยา
- ระเบียบวิธี
- วิธีการ
- อาจ
- แบบ
- โมเดล
- ข้อมูลเพิ่มเติม
- มาก
- จำเป็นต้อง
- เชิงลบ
- จำนวน
- วัตถุ
- of
- มักจะ
- on
- ONE
- ออนไลน์
- เพียง
- OpenAI
- or
- อื่นๆ
- ของเรา
- เอาท์พุต
- ของตนเอง
- ต้องจ่าย
- กระดาษ
- เอกสาร
- พรรค
- ชำระ
- คน
- เปอร์เซ็นต์
- สมบูรณ์
- ดำเนินการ
- บางที
- เวที
- แพลตฟอร์ม
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- ความอุดมสมบูรณ์
- สระว่ายน้ำ
- อำนาจ
- ล้ำค่า
- อย่างแม่นยำ
- คาดการณ์
- ป้องกัน
- ปัญหา
- ผลิต
- ศาสตราจารย์
- ผู้จัดหา
- การให้
- คุณภาพ
- จริง
- จริงๆ
- เหตุผล
- แนะนำ
- น่าเชื่อถือ
- วางใจ
- ซากศพ
- ซ้ำ
- แทนที่
- การแสดง
- การวิจัย
- นักวิจัย
- การตอบสนอง
- ผลสอบ
- โรเบิร์ต
- วิ่ง
- s
- กล่าวว่า
- เดียวกัน
- ขนาด
- สถานการณ์
- โรงเรียน
- วิทยาศาสตร์
- ลับ
- เห็น
- บริการ
- สถานการณ์
- เล็ก
- โซลูชัน
- บาง
- บางคน
- แหล่ง
- โดยเฉพาะ
- มาตรฐาน
- นักเรียน
- ศึกษา
- ที่ส่ง
- ส่ง
- อย่างเช่น
- ชี้ให้เห็นถึง
- สรุป
- สรุป
- สวิสเซอร์แลนด์
- ประเทศสวิสเซอร์แลนด์
- สังเคราะห์
- ระบบ
- ระบบ
- เอา
- งาน
- งาน
- ทีม
- ทดสอบ
- การทดสอบ
- กว่า
- ที่
- พื้นที่
- ก้าวสู่อนาคต
- ของพวกเขา
- พวกเขา
- ตัวเอง
- แล้วก็
- ที่นั่น
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- พวกเขา
- สิ่ง
- ที่สาม
- นี้
- ในสัปดาห์นี้
- ไปยัง
- ในวันนี้
- เกินไป
- เครื่องมือ
- ไปทาง
- แบบดั้งเดิม
- รถไฟ
- ผ่านการฝึกอบรม
- การฝึกอบรม
- ลอง
- กลับ
- ชนิด
- ไม่แน่
- ที่ไม่พึงประสงค์
- us
- การใช้
- ใช้
- มือสอง
- ใช้
- การใช้
- มักจะ
- ตรวจสอบความถูกต้อง
- มีคุณค่า
- มาก
- ผ่านทาง
- ค่าจ้าง
- ต้องการ
- คือ
- วิธี
- we
- สัปดาห์
- ดี
- คือ
- ตะวันตก
- อะไร
- เมื่อ
- ว่า
- ที่
- ในขณะที่
- จะ
- กับ
- งาน
- ทำงาน
- แรงงาน
- แย่ลง
- ลมทะเล