ทีม Amazon EU Design and Construction (Amazon D&C) เป็นทีมวิศวกรที่ออกแบบและสร้างคลังสินค้าของ Amazon ทีมงานใช้เอกสารจำนวนมากและค้นหาข้อมูลที่ถูกต้องเพื่อให้แน่ใจว่าการออกแบบคลังสินค้าตรงตามมาตรฐานสูงสุด ในการโพสต์ โซลูชันที่ขับเคลื่อนด้วย AI แบบเจนเนอเรชั่นบน Amazon SageMaker เพื่อช่วยการออกแบบและการก่อสร้างของ Amazon EUเราได้นำเสนอคำถามที่ตอบวิธีแก้ปัญหาบอทโดยใช้ การดึงข้อมูล Augmented Generation (RAG) ไปป์ไลน์ที่มีการปรับแต่งอย่างละเอียด แบบจำลองภาษาขนาดใหญ่ (LLM) สำหรับ Amazon D&C เพื่อดึงข้อมูลที่ถูกต้องอย่างมีประสิทธิภาพจากเอกสารจำนวนมากที่ไม่ได้จัดระเบียบ และให้บริการที่ทันท่วงทีและมีคุณภาพสูงในโครงการก่อสร้างของพวกเขา ทีม Amazon D&C นำโซลูชันไปใช้ในโครงการนำร่องสำหรับวิศวกรของ Amazon และรวบรวมความคิดเห็นของผู้ใช้
ในโพสต์นี้ เราแบ่งปันวิธีที่เราวิเคราะห์ข้อมูลคำติชมและระบุข้อจำกัดของความถูกต้องและภาพหลอนที่ RAG มอบให้ และใช้คะแนนการประเมินโดยมนุษย์เพื่อฝึกแบบจำลองผ่าน การเรียนรู้การเสริมแรง- เพื่อเพิ่มตัวอย่างการฝึกอบรมเพื่อการเรียนรู้ที่ดีขึ้น เรายังใช้ LLM อื่นเพื่อสร้างคะแนนคำติชม วิธีการนี้แก้ไขข้อจำกัด RAG และปรับปรุงคุณภาพการตอบสนองของบอทให้ดียิ่งขึ้น เรานำเสนอกระบวนการเรียนรู้แบบเสริมกำลังและผลการเปรียบเทียบเพื่อแสดงให้เห็นถึงการปรับปรุงประสิทธิภาพของ LLM วิธีแก้ปัญหาใช้ Amazon SageMaker JumpStart เป็นบริการหลักสำหรับการปรับใช้โมเดล การปรับแต่ง และการเรียนรู้แบบเสริมกำลัง
รวบรวมคำติชมจากวิศวกรของ Amazon ในโครงการนำร่อง
หลังจากพัฒนาวิธีแก้ปัญหาตามที่อธิบายไว้ใน โซลูชันที่ขับเคลื่อนด้วย AI แบบเจนเนอเรชั่นบน Amazon SageMaker เพื่อช่วยการออกแบบและการก่อสร้างของ Amazon EUทีม Amazon D&C ได้ปรับใช้โซลูชันและดำเนินโครงการนำร่องร่วมกับวิศวกรของ Amazon วิศวกรเข้าถึงระบบนำร่องผ่านเว็บแอปพลิเคชันที่พัฒนาโดย สตรีมไลท์เชื่อมต่อกับไปป์ไลน์ RAG ในไปป์ไลน์เราใช้ บริการ Amazon OpenSearch สำหรับฐานข้อมูลเวกเตอร์ และปรับใช้โมเดล Mistral-7B-Instruct ที่ได้รับการปรับแต่งอย่างละเอียดบน Amazon SageMaker
วัตถุประสงค์หลักประการหนึ่งของโครงการนำร่องคือการรวบรวมความคิดเห็นจากวิศวกรของ Amazon และใช้ความคิดเห็นดังกล่าวเพื่อลดภาพหลอน LLM ต่อไป เพื่อให้บรรลุเป้าหมายนี้ เราได้พัฒนาโมดูลการรวบรวมคำติชมใน UI ดังแสดงในรูปต่อไปนี้ และจัดเก็บข้อมูลเซสชันเว็บและคำติชมของผู้ใช้ไว้ใน อเมซอน ไดนาโมดีบี- วิศวกรของ Amazon สามารถเลือกระดับความพึงพอใจได้ห้าระดับผ่าน UI การรวบรวมคำติชม: ไม่เห็นด้วยอย่างยิ่ง ไม่เห็นด้วย เป็นกลาง เห็นด้วย และเห็นด้วยอย่างยิ่ง ซึ่งสอดคล้องกับคะแนนคำติชมตั้งแต่ 1–5 พวกเขายังสามารถให้คำตอบที่ดีกว่าสำหรับคำถามหรือความคิดเห็นว่าเหตุใดการตอบกลับของ LLM จึงไม่เป็นที่พอใจ
ในระหว่างโครงการนำร่อง ผู้ใช้ให้การตอบกลับ 118 รายการ แผนภูมิต่อไปนี้แสดงการกระจายตัวจากลบไปบวก เราสังเกตเห็นคำตอบที่ไม่ถูกต้องซึ่งทำเครื่องหมายโดยการตอบรับเชิงลบ (ไม่เห็นด้วยและไม่เห็นด้วยอย่างยิ่ง) อยู่ที่ 45% จากความคิดเห็นทั้งหมด (53 จาก 118) ข้อผิดพลาดบางส่วน (ประมาณ 10% ของผลตอบรับเชิงลบ และ 7.5% ของผลตอบรับโดยรวม) สามารถแก้ไขได้โดยการให้ความรู้แก่ผู้ใช้และวิศวกรรมที่ทันท่วงที นอกจากนี้ เราสามารถแก้ไขปัญหาด้วยโซลูชันการปรับแต่ง LLM และการเรียนรู้การเสริมกำลังตามที่อธิบายไว้ในส่วนถัดไป
ผู้ใช้บางคนทิ้งข้อความไว้ เช่น “เยี่ยมมาก!” สำหรับคำตอบที่เห็นด้วยอย่างยิ่ง หรือ “ไม่ตอบคำถาม” สำหรับคำตอบที่ไม่เห็นด้วยอย่างยิ่ง ผู้ใช้รายอื่นให้คะแนนและอธิบายว่าพวกเขาปรับคำตอบ LLM อย่างไรในบันทึกย่อของพวกเขา ในตัวอย่างต่อไปนี้ ผู้ใช้จัดเตรียมเอกสารและเนื้อหาที่เพียงพอเพื่อแก้ไขภาพหลอน LLM โดยเฉพาะ
คำถาม | เรามีที่จอดรถได้กี่คัน? |
คำตอบของบอท |
จากบริบทที่กำหนด เราไม่มีข้อมูลเพียงพอที่จะกำหนดจำนวนที่จอดรถ บริบทกล่าวถึงขนาดพื้นที่จอดรถขั้นต่ำและข้อกำหนดสำหรับระดับแสงสว่างภายนอก แต่ไม่ได้ระบุจำนวนช่องจอดรถที่เฉพาะเจาะจง **คุณสามารถดูคำอธิบายเพิ่มเติมได้ในแหล่งข้อมูลต่อไปนี้:** * ARS GEN 10.0/05.01.02 เกณฑ์การออกแบบและภาคผนวก/แพ็คเกจประสิทธิภาพ AR เกณฑ์การออกแบบที่เรียงลำดับได้ v20.1.1.pdf – หน้า: 10 * ARS GEN 10.0/05.01.02 เกณฑ์การออกแบบและภาคผนวก/แพ็คเกจประสิทธิภาพ AR เกณฑ์การออกแบบที่เรียงลำดับได้ v20.1.1.pdf – หน้า: 79 |
คะแนนผู้ใช้ | ไม่เห็นด้วยอย่างยิ่ง |
บันทึกผู้ใช้ | สิ่งนี้ระบุไว้ในหน้า 21 ของเกณฑ์การออกแบบมาตรา 01 13 10 |
ปรับปรุงการตอบสนองของบอทด้วยการปรับแต่งแบบละเอียดและการเรียนรู้แบบเสริมภายใต้การดูแล
โซลูชันประกอบด้วยการปรับแต่งอย่างละเอียดสามขั้นตอน:
- ดำเนินการปรับแต่งแบบละเอียดภายใต้การดูแลโดยใช้ข้อมูลที่ติดป้ายกำกับ วิธีการนี้ได้อธิบายไว้ใน โซลูชันที่ขับเคลื่อนด้วย AI แบบเจนเนอเรชั่นบน Amazon SageMaker เพื่อช่วยการออกแบบและการก่อสร้างของ Amazon EU.
- รวบรวมคำติชมของผู้ใช้เพื่อติดป้ายกำกับคู่คำถาม-คำตอบเพื่อการปรับแต่ง LLM เพิ่มเติม
- เมื่อข้อมูลการฝึกพร้อมแล้ว ให้ปรับแต่งโมเดลเพิ่มเติมโดยใช้ การเรียนรู้การเสริมแรงจากคำติชมของมนุษย์ (RLHF)
RLHF ถูกนำมาใช้กันอย่างแพร่หลายตลอดทั้งแอปพลิเคชัน generative Artificial Intelligence (AI) และ LLM โดยจะรวมความคิดเห็นของมนุษย์ไว้ในฟังก์ชันการให้รางวัล และฝึกฝนโมเดลด้วยอัลกอริธึมการเรียนรู้แบบเสริมกำลังเพื่อเพิ่มรางวัลสูงสุด ซึ่งทำให้โมเดลทำงานได้สอดคล้องกับเป้าหมายของมนุษย์มากขึ้น แผนภาพต่อไปนี้แสดงไปป์ไลน์ของขั้นตอนต่างๆ
เราทดสอบวิธีการโดยใช้เอกสาร Amazon D&C กับโมเดล Mistral-7B บน SageMaker JumpStart
มีการดูแลปรับแต่งอย่างละเอียด
ในโพสต์ก่อนหน้านี้ เราได้แสดงให้เห็นว่าโมเดล Falcon-7B ที่ปรับแต่งอย่างละเอียดมีประสิทธิภาพเหนือกว่าไปป์ไลน์ RAG และปรับปรุงคุณภาพและความแม่นยำของการตอบสนองของบอท QA อย่างไร สำหรับโพสต์นี้ เราได้ดำเนินการปรับแต่งอย่างละเอียดภายใต้การดูแลของรุ่น Mistral-7B การปรับแต่งอย่างละเอียดภายใต้การดูแลใช้เทคนิค PEFT/LoRA (LoRA_r = 512, LoRA_alpha = 1024) บนพารามิเตอร์ 436,207,616 ตัว (5.68% ของพารามิเตอร์ทั้งหมด 7,677,964,288 ตัว) การฝึกอบรมดำเนินการบนโหนด p3.8x โดยมีตัวอย่าง 137 ตัวอย่างที่สร้างขึ้นโดย LLM สังเคราะห์และตรวจสอบโดยมนุษย์ กระบวนการนี้มาบรรจบกันอย่างดีหลังจาก 20 ยุค ดังแสดงในรูปต่อไปนี้
โมเดลที่ได้รับการปรับแต่งอย่างละเอียดได้รับการตรวจสอบโดยตัวอย่าง 274 ตัวอย่าง และผลการอนุมานถูกนำมาเปรียบเทียบกับคำตอบอ้างอิงด้วยคะแนนความคล้ายคลึงทางความหมาย คะแนนอยู่ที่ 0.8100 ซึ่งสูงกว่าคะแนน RAG แบบเดิมที่ได้ 0.6419
รวบรวมคำติชมของมนุษย์และ AI เพื่อการเรียนรู้แบบเสริมกำลัง
สำหรับ RLHF ตัวอย่างการฝึกอบรมคุณภาพสูงที่มีป้ายกำกับโดยผู้เชี่ยวชาญเฉพาะด้าน (SMEs) ในจำนวนที่เพียงพอถือเป็นสิ่งสำคัญ อย่างไรก็ตาม ป้ายกำกับของมนุษย์ที่มีคุณภาพต่ำอาจทำให้ประสิทธิภาพของโมเดลแย่ลงกว่าโมเดลดั้งเดิมหลังจากการฝึกอบรม RLHF ถึงเวลาของ SMEs แล้ว ทรัพยากรที่ขาดแคลนในองค์กรใดๆ- การตรวจสอบคำตอบของ LLM นับร้อยหรือหลายพันรายการและการให้ข้อเสนอแนะต้องใช้เวลาอย่างมากจาก SMEs ซึ่งอาจไม่ได้รับผลตอบแทนจากการลงทุนที่ชัดเจน
เพื่อจัดการกับความท้าทายนี้ เราได้นำ การเรียนรู้การเสริมกำลังจากข้อเสนอแนะของ AI (RLAIF) วิธีการ RLAIF จ้างผู้ช่วย AI (LLM อื่น) เพื่อให้คะแนนการประเมิน แทนที่จะจ้างจากมนุษย์ ในแนวทางการเรียนรู้แบบผสมผสานนี้ ตัวแทนการเรียนรู้จะปรับแต่งการกระทำไม่เพียงแต่ขึ้นอยู่กับการโต้ตอบกับมนุษย์เท่านั้น แต่ยังมาจากผลตอบรับที่ได้รับจากโมเดล AI อื่นด้วย สามารถปรับขนาดได้มากกว่ามากในการให้ข้อมูลการฝึกอบรมที่เพียงพอสำหรับการเรียนรู้แบบเสริมกำลัง และเป็นแบบอัตนัยน้อยกว่ามาก เนื่องจากการฝึกอบรมไม่ได้ขึ้นอยู่กับความชอบเฉพาะจาก SME กลุ่มเล็กๆ SMEs อาจยังคงมีส่วนร่วม แต่เพียงเพื่อดูแลกระบวนการและตรวจสอบคุณภาพผลตอบรับของ AI เท่านั้น สิ่งนี้ช่วยลดภาระงานของ SMEs ได้อย่างมาก เนื่องจากคะแนนและป้ายกำกับที่สร้างโดย AI นั้นมีความซับซ้อนน้อยกว่ามากสำหรับ SMEs ในการวิเคราะห์ กรอง และจัดเรียง
ในกรณีการใช้งานนี้ เราจัดเตรียมคำแนะนำต่อไปนี้ให้กับแบบจำลอง Anthropic Claude 2 เพื่อสร้างคะแนนการประเมินเป็นตัวอย่างการฝึกอบรมสำหรับขั้นตอนการเรียนรู้แบบเสริมกำลัง:
แบบจำลอง Claude 2 จะสร้างคะแนนการประเมินและความคิดเห็นว่าเหตุใดจึงให้คะแนน ดังที่แสดงในตัวอย่างต่อไปนี้
คำถาม | 'Fit Out Works' มีความหมายว่าอะไรในบริบทนี้ |
คำตอบอ้างอิง | Fit Out Works หมายถึงงานที่ดำเนินการภายใต้สัญญาก่อสร้างโดยหรือในนามของ Amazon ผ่านทางนักพัฒนาจนถึงวันที่ได้รับครั้งแรกจากตำแหน่ง Developer Shell & Core Base-build โดยประมาณ งานเหล่านี้ประกอบด้วย Fit-Outs ที่จำเป็นของ Amazon การติดตั้งแบบ Big-Box และแบบกำหนดเอง |
การตอบสนองของบอท QA | Fit Out Works หมายถึงงานที่ดำเนินการภายใต้สัญญาก่อสร้างโดยหรือในนามของ Amazon ผ่านทางนักพัฒนาจนถึงวันที่ได้รับครั้งแรกจากตำแหน่ง Developer Shell และ Core Base-build โดยประมาณ |
คะแนนเอไอ | 4.5 |
ความคิดเห็นของเอไอ | คำตอบของเครื่องให้ข้อมูลสำคัญจากคำตอบมาตรฐาน โดยที่ Fit Out Works หมายถึงงานที่ดำเนินการภายใต้สัญญาก่อสร้างโดยหรือในนามของ Amazon ผ่านทางนักพัฒนาจนถึงวันที่ได้รับครั้งแรกจากตำแหน่ง Developer Shell และ Core Base โดยประมาณ . รายละเอียดเพิ่มเติมเกี่ยวกับการรวม Fit-Outs ที่จำเป็นของ Amazon การติดตั้ง Big-Box และการปรับแต่งต่างๆ มีความเกี่ยวข้องและช่วยให้บริบทเพิ่มเติม ดังนั้นฉันจึงได้คะแนนคำตอบของเครื่อง 4.5 จาก 5 คะแนน ซึ่งรวบรวมสาระสำคัญของคำตอบมาตรฐานและให้บางส่วน รายละเอียดเพิ่มเติมที่เป็นประโยชน์ |
จากคำถามตรวจสอบความถูกต้อง 274 ข้อ โมเดลที่ได้รับการปรับแต่งอย่างละเอียดนั้นสร้างคำตอบได้ 159 คำตอบที่มีคะแนน AI มากกว่า 4 เราสังเกตคำตอบ 60 คำตอบที่มีคะแนนต่ำกว่า 3; มีพื้นที่ในการปรับปรุงคุณภาพการตอบสนองโดยรวม
Amazon Engineering SMEs ตรวจสอบผลตอบรับ AI นี้และรับทราบถึงประโยชน์ของการใช้คะแนน AI หากไม่มีข้อเสนอแนะจาก AI SMEs จะต้องใช้เวลาในการตรวจสอบและวิเคราะห์การตอบสนองของ LLM แต่ละรายการเพื่อระบุคำตอบที่ถูกตัดออกและภาพหลอน และเพื่อตัดสินว่า LLM ส่งเนื้อหาและแนวคิดหลักที่ถูกต้องกลับมาหรือไม่ ข้อเสนอแนะของ AI จะให้คะแนน AI โดยอัตโนมัติ และช่วยให้ SMEs สามารถใช้การกรอง การเรียงลำดับ และการจัดกลุ่มเพื่อตรวจสอบคะแนนและระบุแนวโน้มในการตอบกลับ ซึ่งจะช่วยลดเวลาในการตรวจสอบโดยเฉลี่ยของ SME ได้ถึง 80%
การเรียนรู้แบบเสริมกำลังจากการตอบสนองของมนุษย์และ AI
เมื่อตัวอย่างการฝึกอบรมพร้อม เราจะใช้ อัลกอริธึมการเพิ่มประสิทธิภาพนโยบายใกล้เคียง (PPO) เพื่อทำการเรียนรู้แบบเสริมกำลัง PPO ใช้วิธีการไล่ระดับนโยบาย ซึ่งใช้ขั้นตอนเล็กๆ ในการอัปเดตนโยบายในกระบวนการเรียนรู้ เพื่อให้ตัวแทนการเรียนรู้สามารถเข้าถึงเครือข่ายนโยบายที่เหมาะสมที่สุดได้อย่างน่าเชื่อถือ ทำให้กระบวนการฝึกอบรมมีเสถียรภาพมากขึ้น และลดโอกาสที่จะเกิดความแตกต่าง
ในระหว่างการฝึกอบรม ขั้นแรกเราใช้ข้อมูลที่ติดป้ายกำกับโดยมนุษย์และ AI เพื่อสร้างโมเดลรางวัล ซึ่งจะใช้เป็นแนวทางในการอัปเดตน้ำหนักในกระบวนการเรียนรู้ สำหรับกรณีการใช้งานนี้ เราเลือกแบบจำลองการให้รางวัลแบบฐานดิสทิลโรแบร์ตา และฝึกอบรมตามตัวอย่างในรูปแบบต่อไปนี้:
[Instruction, Chosen_response, Rejected_response]
ต่อไปนี้เป็นตัวอย่างของบันทึกการฝึกอบรม
การแนะนำ | ตามบริบท อะไรคือสิ่งที่ระบุไว้สำหรับการออกแบบที่ครอบคลุมและเข้าถึงได้? |
เลือกแล้ว_ตอบกลับ | BREEAM Credit HEA06 - การออกแบบที่ครอบคลุมและเข้าถึงได้ - อาคารได้รับการออกแบบให้เหมาะสมกับวัตถุประสงค์ เหมาะสม และเข้าถึงได้โดยผู้ใช้ที่มีศักยภาพทุกคน กลยุทธ์การเข้าถึงได้รับการพัฒนาให้สอดคล้องกับรายการตรวจสอบ BREEAM A3 |
ถูกปฏิเสธ_ตอบกลับ | บริบทระบุไว้ว่า |
โมเดลรางวัลได้รับการฝึกฝนด้วยอัตราการเรียนรู้ 1e-5 ดังที่แสดงในแผนภูมิต่อไปนี้ บ่อน้ำการฝึกอบรมจะมาบรรจบกันหลังจากผ่านไป 10 ยุค
จากนั้นโมเดลรางวัลจะถูกนำมาใช้เพื่อการเรียนรู้แบบเสริมกำลัง สำหรับกรณีการใช้งานนี้ เราใช้ PEFT/LoRA เพื่อเร่งการเรียนรู้ LoRA_r คือ 32 และ LoRA_alpha คือ 64 การเรียนรู้แบบ PPO อยู่ที่อัตรา 1.41e-5 ในสามยุค การฝึกอบรมการเสริมกำลังมีความผันผวนสูงและมีความอ่อนไหวมากต่อข้อมูลฉลากและข้อมูลป้อนกลับ เราใช้ตัวชี้วัดรางวัลเฉลี่ย ซึ่งเป็นรางวัลโดยเฉลี่ยที่ได้รับจากสภาพแวดล้อมโดยการตรวจสอบโมเดลรางวัลโดยเฉพาะ เพื่อสังเกตกระบวนการเรียนรู้
หลังจาก RLAIF เราจะเห็นจำนวนการตอบสนองของบอทที่มีคะแนนเป็นบวก (สูงกว่า 3) เพิ่มขึ้นจาก 78.1% เป็น 85.5% และผู้ที่มีคะแนนติดลบ (ต่ำกว่า 3) ลดลงจาก 21.9% เป็น 14.5% โดยรวมแล้วคะแนนตอบรับ AI โดยเฉลี่ยเพิ่มขึ้นถึง 8% จาก 3.9 เป็น 4.2
คุณสามารถดูการปรับปรุงได้ในตัวอย่างต่อไปนี้
คำถาม | พื้นที่พื้นปูกระเบื้อง จำเป็นต้องปูกระเบื้องอะไร? |
อ้างอิง | พื้นคอนกรีตปาดใช้ได้เฉพาะในพื้นที่ปูกระเบื้องเท่านั้น อ้างถึงภาพวาดซีรีส์ A-32 เพื่อดูว่าสามารถใช้กระเบื้องปูพื้นได้ที่ไหน |
การตอบสนองของบอทก่อน RLAIF | พื้นคอนกรีตปาดใช้ได้เฉพาะใน |
คะแนน AI ก่อน RLAIF | 3 |
การตอบสนองของบอทหลังจาก RLAIF | พื้นคอนกรีตปาดใช้ได้เฉพาะในพื้นที่ปูกระเบื้องเท่านั้น อ้างถึงภาพวาดซีรีส์ A-32 เพื่อดูว่าพื้นกระเบื้องสามารถใช้ได้ในส่วนใดบ้าง |
คะแนน AI หลังจาก RLAIF | 4.5 |
สรุป
โพสต์นี้เป็นความต่อเนื่องของการทำงานของเรากับทีมออกแบบและก่อสร้างของ Amazon EU ตามที่กล่าวไว้ใน โซลูชันที่ขับเคลื่อนด้วย AI แบบเจนเนอเรชั่นบน Amazon SageMaker เพื่อช่วยการออกแบบและการก่อสร้างของ Amazon EU- ในโพสต์นี้ เราได้แสดงให้เห็นว่าเราสร้างข้อมูลตอบรับของมนุษย์และ AI เพื่อปรับแต่งโมเดล Mistral-7B ด้วยการเรียนรู้แบบเสริมกำลังได้อย่างไร โมเดลหลังจาก RLAIF มอบประสิทธิภาพที่ดีขึ้นสำหรับบอตตอบคำถามของ Amazon Engineering ทำให้คะแนนคำติชมของ AI ดีขึ้น 8% ในโครงการนำร่องของทีม Amazon D&C การใช้ RLAIF ช่วยลดปริมาณงานการตรวจสอบสำหรับ SME ลงได้ประมาณ 80% ในขั้นตอนถัดไป เราจะขยายขนาดโซลูชันนี้โดยการเชื่อมต่อกับโครงสร้างพื้นฐานข้อมูลของ Amazon Engineering และออกแบบเฟรมเวิร์กเพื่อทำให้กระบวนการเรียนรู้อย่างต่อเนื่องเป็นอัตโนมัติโดยมีมนุษย์อยู่ในลูป นอกจากนี้เรายังจะปรับปรุงคุณภาพผลตอบรับของ AI เพิ่มเติมด้วยการปรับแต่งเทมเพลตพร้อมท์
ผ่านกระบวนการนี้ เราได้เรียนรู้วิธีปรับปรุงคุณภาพและประสิทธิภาพของงานตอบคำถามผ่าน RLHF และ RLAIF เพิ่มเติม
- การตรวจสอบและเสริมโดยมนุษย์ถือเป็นสิ่งสำคัญเพื่อให้ผลลัพธ์ที่ถูกต้องและมีความรับผิดชอบจาก LLM ผลตอบรับจากมนุษย์สามารถนำมาใช้ใน RLHF เพื่อปรับปรุงการตอบสนองของโมเดลให้ดียิ่งขึ้น
- RLAIF ทำให้วงจรการประเมินและการเรียนรู้เป็นแบบอัตโนมัติ ความคิดเห็นที่สร้างโดย AI นั้นมีความเป็นส่วนตัวน้อยกว่า เนื่องจากไม่ได้ขึ้นอยู่กับความชอบเฉพาะจากกลุ่ม SME กลุ่มเล็กๆ
- RLAIF สามารถปรับขนาดได้มากขึ้นเพื่อปรับปรุงคุณภาพบอทผ่านการเรียนรู้แบบเสริมกำลังอย่างต่อเนื่อง ในขณะเดียวกันก็ลดความพยายามที่จำเป็นจาก SMEs ให้เหลือน้อยที่สุด มีประโยชน์อย่างยิ่งสำหรับการพัฒนาโซลูชัน AI ที่สร้างเฉพาะโดเมนภายในองค์กรขนาดใหญ่
- กระบวนการนี้ควรทำเป็นประจำ โดยเฉพาะอย่างยิ่งเมื่อมีข้อมูลโดเมนใหม่เพื่อให้โซลูชันครอบคลุม
ในกรณีการใช้งานนี้ เราใช้ SageMaker JumpStart เพื่อทดสอบ LLM หลายรายการ และทดสอบด้วยวิธีการฝึกอบรม LLM หลายวิธี ช่วยเร่งการตอบสนองของ AI และวงจรการเรียนรู้อย่างมีนัยสำคัญด้วยประสิทธิภาพและคุณภาพสูงสุด สำหรับโปรเจ็กต์ของคุณเอง คุณสามารถแนะนำแนวทางแบบมนุษย์ในวงเพื่อรวบรวมคำติชมของผู้ใช้ของคุณ หรือสร้างคำติชม AI โดยใช้ LLM อื่น จากนั้น คุณสามารถปฏิบัติตามกระบวนการสามขั้นตอนที่กำหนดไว้ในโพสต์นี้เพื่อปรับแต่งโมเดลของคุณโดยใช้ RLHF และ RLAIF เราขอแนะนำให้ทดลองใช้วิธีการต่างๆ โดยใช้ SageMaker JumpStart เพื่อเร่งกระบวนการ
เกี่ยวกับผู้เขียน
หยุนเฟยไป๋ เป็นสถาปนิกโซลูชันอาวุโสที่ AWS ด้วยพื้นฐานด้าน AI/ML วิทยาศาสตร์ข้อมูล และการวิเคราะห์ Yunfei ช่วยให้ลูกค้าเลือกใช้บริการของ AWS เพื่อส่งมอบผลลัพธ์ทางธุรกิจ เขาออกแบบโซลูชัน AI/ML และการวิเคราะห์ข้อมูลที่เอาชนะความท้าทายด้านเทคนิคที่ซับซ้อนและขับเคลื่อนวัตถุประสงค์เชิงกลยุทธ์ หยุนเฟยสำเร็จการศึกษาระดับปริญญาเอกสาขาวิศวกรรมอิเล็กทรอนิกส์และไฟฟ้า นอกเวลางาน หยุนเฟยชอบอ่านหนังสือและฟังเพลง
เอลาด ดเว็ก เป็นผู้จัดการเทคโนโลยีการก่อสร้างที่ Amazon ด้วยพื้นฐานด้านการก่อสร้างและการบริหารโครงการ Elad ช่วยให้ทีมนำเทคโนโลยีใหม่และกระบวนการที่อิงข้อมูลมาใช้ในการส่งมอบโครงการก่อสร้าง เขาระบุความต้องการและแนวทางแก้ไข และอำนวยความสะดวกในการพัฒนาคุณลักษณะที่ตรงตามความต้องการ เอลาดสำเร็จการศึกษาระดับปริญญาโทสาขาบริหารธุรกิจและปริญญาตรีสาขาวิศวกรรมโครงสร้าง นอกเหนือจากการทำงาน เอลาดชอบเล่นโยคะ ทำงานไม้ และท่องเที่ยวกับครอบครัว
ลูก้า เซราโบน เป็นวิศวกรระบบธุรกิจอัจฉริยะที่ Amazon จากภูมิหลังของเขาในด้านวิทยาศาสตร์ข้อมูลและการวิเคราะห์ Luca สร้างสรรค์โซลูชันทางเทคนิคที่ปรับแต่งให้ตรงกับความต้องการเฉพาะของลูกค้า ขับเคลื่อนพวกเขาไปสู่กระบวนการที่ยั่งยืนและปรับขนาดได้มากขึ้น ด้วยปริญญาโทสาขาวิทยาศาสตร์ข้อมูล Luca สนุกกับการทำโปรเจ็กต์ DIY ทำสวน และทดลองทำอาหารในช่วงเวลาว่าง
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
- ที่มา: https://aws.amazon.com/blogs/machine-learning/improve-llm-performance-with-human-and-ai-feedback-on-amazon-sagemaker-for-amazon-engineering/
- :มี
- :เป็น
- :ไม่
- :ที่ไหน
- $ ขึ้น
- 01
- 1
- 10
- 100
- 118
- 13
- 14
- 16
- 17
- 20
- 32
- 60
- 7
- 8
- 9
- a
- เกี่ยวกับเรา
- ข้างบน
- เร่งความเร็ว
- เร่ง
- เข้า
- Accessed
- สามารถเข้าถึงได้
- ความถูกต้อง
- ถูกต้อง
- บรรลุ
- ที่ยอมรับ
- การปฏิบัติ
- เพิ่มเติม
- นอกจากนี้
- ที่อยู่
- จ่าหน้า
- เพียงพอ
- นำมาใช้
- บุญธรรม
- หลังจาก
- ตัวแทน
- ตัวแทน
- AI
- ผู้ช่วย AI
- ขับเคลื่อนด้วย AI
- AI / ML
- ขั้นตอนวิธี
- ชิด
- ทั้งหมด
- ด้วย
- am
- อเมซอน
- อเมซอน SageMaker
- Amazon Web Services
- ในหมู่
- จำนวน
- an
- การวิเคราะห์
- วิเคราะห์
- วิเคราะห์
- และ
- อื่น
- คำตอบ
- ตอบ
- คำตอบ
- มานุษยวิทยา
- ใด
- เหมาะสม
- การใช้งาน
- การใช้งาน
- เข้าใกล้
- วิธีการ
- เหมาะสม
- AR
- เป็น
- พื้นที่
- ติดอาวุธ
- เทียม
- ปัญญาประดิษฐ์
- ปัญญาประดิษฐ์ (AI)
- AS
- ผู้ช่วย
- At
- แอตทริบิวต์
- เติม
- โดยอัตโนมัติ
- โดยอัตโนมัติ
- อัตโนมัติ
- ใช้ได้
- เฉลี่ย
- AWS
- พื้นหลัง
- ตาม
- รากฐาน
- BE
- เพราะ
- ก่อน
- ตัวแทน
- กำลัง
- ด้านล่าง
- การเปรียบเทียบ
- ประโยชน์ที่ได้รับ
- bespoke
- ดีกว่า
- ระหว่าง
- ธ ปท
- บีเอสซี
- สร้าง
- การก่อสร้าง
- ธุรกิจ
- ระบบธุรกิจอัจฉริยะ
- แต่
- by
- CAN
- จับ
- รถ
- ดำเนินการ
- กรณี
- ก่อให้เกิด
- ท้าทาย
- ความท้าทาย
- แผนภูมิ
- ตรวจสอบ
- ชัดเจน
- รวบรวม
- ชุด
- ความเห็น
- เมื่อเทียบกับ
- อย่างสมบูรณ์
- ซับซ้อน
- ซับซ้อน
- แนวความคิด
- ดำเนินการ
- งานที่เชื่อมต่อ
- การเชื่อมต่อ
- ประกอบ
- ก่อสร้าง
- การก่อสร้าง
- เนื้อหา
- เนื้อหา
- สิ่งแวดล้อม
- ความต่อเนื่อง
- อย่างต่อเนื่อง
- ต่อเนื่องกัน
- สัญญา
- แกน
- แก้ไข
- ตรงกัน
- ปกคลุม
- เครดิต
- เกณฑ์
- ลูกค้า
- วงจร
- ข้อมูล
- วิเคราะห์ข้อมูล
- โครงสร้างพื้นฐานข้อมูล
- วิทยาศาสตร์ข้อมูล
- ฐานข้อมูล
- วันที่
- ลดลง
- กำหนด
- ส่งมอบ
- สาธิต
- แสดงให้เห็นถึง
- ขึ้นอยู่กับ
- ขึ้นอยู่กับ
- นำไปใช้
- การใช้งาน
- อธิบาย
- ออกแบบ
- ได้รับการออกแบบ
- การออกแบบ
- การออกแบบ
- รายละเอียด
- กำหนด
- พัฒนา
- ผู้พัฒนา
- ที่กำลังพัฒนา
- พัฒนาการ
- แผนภาพ
- กล่าวถึง
- กล่าวถึง
- การกระจาย
- การแตกต่าง
- DIY
- do
- เอกสาร
- เอกสาร
- ทำ
- ไม่
- โดเมน
- ทำ
- Dont
- การวาดภาพ
- ขับรถ
- การขับขี่
- แต่ละ
- การศึกษา
- อย่างมีประสิทธิภาพ
- อย่างมีประสิทธิภาพ
- ความพยายาม
- อิเล็กทรอนิกส์
- พนักงาน
- ช่วยให้
- น่าสนใจ
- วิศวกร
- ชั้นเยี่ยม
- วิศวกร
- พอ
- สิ่งแวดล้อม
- ยุค
- ข้อผิดพลาด
- โดยเฉพาะอย่างยิ่ง
- แก่นแท้
- จำเป็น
- ประมาณ
- EU
- การประเมินผล
- ตรวจสอบ
- ตัวอย่าง
- การทดลอง
- ทดลอง
- ผู้เชี่ยวชาญ
- อธิบาย
- คำอธิบาย
- ภายนอก
- พิเศษ
- อำนวยความสะดวก
- ครอบครัว
- ข้อเสนอแนะ
- รูป
- กรอง
- กรอง
- ปลาย
- ชื่อจริง
- พอดี
- ห้า
- ชั้น
- ปฏิบัติตาม
- ดังต่อไปนี้
- สำหรับ
- รูป
- กรอบ
- ราคาเริ่มต้นที่
- ฟังก์ชัน
- ต่อไป
- Gen
- สร้าง
- สร้าง
- สร้าง
- กำเนิด
- กำเนิด AI
- ให้
- กำหนด
- เป้าหมาย
- ไป
- มากขึ้น
- บัญชีกลุ่ม
- ให้คำแนะนำ
- มี
- he
- ช่วย
- จะช่วยให้
- ที่มีคุณภาพสูง
- สูงกว่า
- ที่สูงที่สุด
- อย่างสูง
- ของเขา
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- อย่างไรก็ตาม
- HTTPS
- เป็นมนุษย์
- มนุษย์
- ร้อย
- เป็นลูกผสม
- i
- ระบุ
- ระบุ
- แยกแยะ
- if
- การดำเนินการ
- ปรับปรุง
- การปรับปรุง
- การปรับปรุง
- ช่วยเพิ่ม
- in
- ประกอบด้วย
- รวมทั้ง
- รวมทั้ง
- รวม
- ไม่ถูกต้อง
- เพิ่ม
- เพิ่มขึ้น
- ข้อมูล
- โครงสร้างพื้นฐาน
- ภายใน
- Intelligence
- ปฏิสัมพันธ์
- แนะนำ
- การลงทุน
- ร่วมมือ
- ปัญหา
- IT
- jpeg
- jpg
- ผู้พิพากษา
- คีย์
- วัตถุประสงค์หลัก
- ฉลาก
- ป้ายกำกับ
- ภาษา
- ใหญ่
- ได้เรียนรู้
- การเรียนรู้
- ซ้าย
- น้อยลง
- ระดับ
- โคมไฟ
- น่าจะ
- การ จำกัด
- ข้อ จำกัด
- Line
- รายการ
- LLM
- ลด
- เครื่อง
- ทำ
- ทำให้
- การจัดการ
- ผู้จัดการ
- หลาย
- โดดเด่น
- การจับคู่
- ที่ตรงกัน
- เรื่อง
- เพิ่ม
- อาจ..
- วิธี
- หมายความว่า
- พบ
- มีคุณสมบัติตรงตาม
- วิธี
- ระเบียบวิธี
- วิธีการ
- เมตริก
- การลด
- ขั้นต่ำ
- แบบ
- โมเดล
- โมดูล
- Moments
- การตรวจสอบ
- ข้อมูลเพิ่มเติม
- มาก
- หลาย
- ดนตรี
- นำทาง
- จำเป็นต้อง
- จำเป็น
- ความต้องการ
- เชิงลบ
- เครือข่าย
- เป็นกลาง
- ใหม่
- เทคโนโลยีใหม่ ๆ
- ถัดไป
- ปม
- หมายเหตุ
- หมายเหตุ / รายละเอียดเพิ่มเติม
- ทางความคิด
- จำนวน
- วัตถุประสงค์
- สังเกต
- ที่ได้รับ
- of
- on
- เพียง
- ดีที่สุด
- การเพิ่มประสิทธิภาพ
- or
- องค์กร
- เป็นต้นฉบับ
- อื่นๆ
- ของเรา
- ออก
- ประสิทธิภาพเหนือกว่า
- เอาท์พุท
- ด้านนอก
- ทั้งหมด
- เอาชนะ
- ของตนเอง
- แพ็คเกจ
- หน้า
- คู่
- พารามิเตอร์
- ที่จอดรถ
- ในสิ่งที่สนใจ
- รูปแบบไฟล์ PDF
- ดำเนินการ
- การปฏิบัติ
- ดำเนินการ
- phd
- นักบิน
- โครงการนำร่อง
- ท่อ
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- กรุณา
- นโยบาย
- สระ
- ตำแหน่ง
- บวก
- ความเป็นไปได้
- โพสต์
- ที่มีศักยภาพ
- การตั้งค่า
- นำเสนอ
- นำเสนอ
- ก่อน
- กระบวนการ
- กระบวนการ
- โครงการ
- การบริหารจัดการโครงการ
- โครงการ
- ให้
- ให้
- ให้
- การให้
- วัตถุประสงค์
- Q & A
- คุณภาพ
- คำถาม
- คำถาม
- เศษผ้า
- คะแนน
- ค่อนข้าง
- มาถึง
- การอ่าน
- พร้อม
- เหตุผล
- รับ
- แนะนำ
- ระเบียน
- ลด
- ลดลง
- ลด
- อ้างอิง
- การอ้างอิง
- หมายถึง
- ปกติ
- ตรงประเด็น
- จำเป็นต้องใช้
- ความต้องการ
- ต้อง
- ทรัพยากร
- แหล่งข้อมูล
- คำตอบ
- การตอบสนอง
- รับผิดชอบ
- ผลสอบ
- กลับ
- การคืน
- ทบทวน
- การตรวจสอบ
- รางวัล
- รางวัล
- ขวา
- แย่แล้ว
- sagemaker
- ความพอใจ
- ที่ปรับขนาดได้
- ขนาด
- หายาก
- วิทยาศาสตร์
- คะแนน
- คะแนน
- คะแนน
- Section
- เห็น
- เลือก
- ความหมาย
- ระดับอาวุโส
- มีความละเอียดอ่อน
- ชุด
- บริการ
- บริการ
- เซสชั่น
- Share
- เปลือก
- น่า
- แสดงให้เห็นว่า
- แสดง
- แสดงให้เห็นว่า
- สำคัญ
- อย่างมีความหมาย
- ง่ายดาย
- ขนาด
- เล็ก
- SMEs
- So
- ทางออก
- โซลูชัน
- บาง
- ช่องว่าง
- ช่องว่าง
- โดยเฉพาะ
- เฉพาะ
- ที่ระบุไว้
- ความเร็ว
- มั่นคง
- มาตรฐาน
- มาตรฐาน
- สหรัฐอเมริกา
- ขั้นตอน
- ขั้นตอน
- ยังคง
- เก็บไว้
- ยุทธศาสตร์
- กลยุทธ์
- เสถียร
- โครงสร้าง
- หรือ
- อัตนัย
- อย่างเช่น
- เพียงพอ
- แน่ใจ
- ที่ยั่งยืน
- สังเคราะห์
- ระบบ
- ปรับปรุง
- ใช้เวลา
- งาน
- ทีม
- ทีม
- วิชาการ
- เทคนิค
- เทคโนโลยี
- เทคโนโลยี
- เทมเพลต
- ทดสอบ
- การทดสอบ
- กว่า
- ที่
- พื้นที่
- ของพวกเขา
- พวกเขา
- แล้วก็
- ที่นั่น
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- พวกเขา
- คิด
- นี้
- เหล่านั้น
- พัน
- สาม
- สามขั้นตอน
- ตลอด
- ตลอด
- เวลา
- ทันเวลา
- ไปยัง
- รวม
- ไปทาง
- แบบดั้งเดิม
- รถไฟ
- ผ่านการฝึกอบรม
- การฝึกอบรม
- รถไฟ
- การเดินทาง
- อย่างมาก
- แนวโน้ม
- ปรับแต่ง
- จูน
- ui
- ภายใต้
- เป็นเอกลักษณ์
- บันทึก
- ใช้
- ใช้กรณี
- มือสอง
- มีประโยชน์
- ผู้ใช้งาน
- ผู้ใช้
- ใช้
- การใช้
- ตรวจสอบความถูกต้อง
- การตรวจสอบ
- การตรวจสอบ
- มาก
- ผ่านทาง
- ระเหย
- ปริมาณ
- คือ
- we
- เว็บ
- โปรแกรมประยุกต์บนเว็บ
- บริการเว็บ
- ดี
- คือ
- อะไร
- ความหมายของ
- เมื่อ
- ว่า
- ที่
- ในขณะที่
- ทำไม
- อย่างกว้างขวาง
- วิกิพีเดีย
- จะ
- กับ
- ภายใน
- ไม่มี
- งาน
- เวิร์กโฟลว์
- โรงงาน
- แย่ลง
- จะ
- โยคะ
- คุณ
- ของคุณ
- ลมทะเล