สมุดบันทึกพร้อมภาพประกอบใน Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สมุดบันทึกภาพประกอบใน Amazon SageMaker JumpStart

Amazon SageMaker JumpStart คือศูนย์กลางการเรียนรู้ของเครื่อง (ML) ของ SageMaker ซึ่งนำเสนอแบบจำลองที่ได้รับการฝึกอบรมล่วงหน้าและเผยแพร่ต่อสาธารณะสำหรับปัญหาประเภทต่างๆ เพื่อช่วยให้คุณเริ่มต้นใช้งานการเรียนรู้ของเครื่อง

JumpStart ยังมีสมุดบันทึกตัวอย่างที่ใช้ อเมซอน SageMaker คุณลักษณะต่างๆ เช่น การฝึกอบรมอินสแตนซ์เฉพาะจุดและการทดสอบในประเภทโมเดลและกรณีการใช้งานที่หลากหลาย สมุดบันทึกตัวอย่างเหล่านี้มีโค้ดที่แสดงวิธีใช้โซลูชัน ML โดยใช้ SageMaker และ JumpStart สามารถปรับให้ตรงกับความต้องการของคุณและทำให้การพัฒนาแอปพลิเคชันเร็วขึ้น

เมื่อเร็ว ๆ นี้ เราได้เพิ่มสมุดบันทึกใหม่ 10 เล่มใน JumpStart สตูดิโอ Amazon SageMaker. โพสต์นี้มุ่งเน้นไปที่โน้ตบุ๊กใหม่เหล่านี้ ขณะที่เขียนบทความนี้ JumpStart นำเสนอโน้ตบุ๊ก 56 รายการ ตั้งแต่การใช้โมเดลการประมวลผลภาษาธรรมชาติ (NLP) ที่ล้ำสมัย ไปจนถึงการแก้ไขอคติในชุดข้อมูลเมื่อฝึกโมเดล

สมุดบันทึกใหม่ 10 รายการสามารถช่วยคุณได้ด้วยวิธีต่อไปนี้:

  • พวกเขามีโค้ดตัวอย่างให้คุณเรียกใช้จาก JumpStart UI ใน Studio และดูว่าโค้ดทำงานอย่างไร
  • แสดงการใช้งาน SageMaker และ JumpStart API ต่างๆ
  • พวกเขานำเสนอโซลูชันทางเทคนิคที่คุณสามารถปรับแต่งเพิ่มเติมได้ตามความต้องการของคุณเอง

จำนวนสมุดบันทึกที่นำเสนอผ่าน JumpStart เพิ่มขึ้นเป็นประจำเมื่อมีการเพิ่มสมุดบันทึกมากขึ้น สมุดบันทึกเหล่านี้ยังมีอยู่ใน GitHub.

ภาพรวมของโน้ตบุ๊ก

โน้ตบุ๊กใหม่ทั้ง 10 รายการมีดังนี้

  • การเรียนรู้ในบริบทด้วย AlexaTM 20B – สาธิตวิธีการใช้ Alexa™ 20B สำหรับการเรียนรู้ในบริบทด้วยการเรียนรู้แบบ Zero-shot และแบบไม่กี่ช็อตในงานห้าตัวอย่าง: การสรุปข้อความ การสร้างภาษาธรรมชาติ การแปลด้วยเครื่อง การตอบคำถามแยก และการอนุมานและจัดหมวดหมู่ภาษาธรรมชาติ
  • ผู้เรียนเชิงเส้นตรงอย่างยุติธรรมใน SageMaker – เมื่อเร็ว ๆ นี้มีความกังวลเกี่ยวกับความลำเอียงในอัลกอริทึม ML อันเป็นผลมาจากการเลียนแบบอคติของมนุษย์ที่มีอยู่ สมุดบันทึกนี้ใช้แนวคิดความเป็นธรรมเพื่อปรับการคาดคะเนแบบจำลองให้เหมาะสม
  • จัดการทดลอง ML โดยใช้ SageMaker Search – Amazon SageMaker Search ช่วยให้คุณค้นหาและประเมินการฝึกอบรมแบบจำลองที่เกี่ยวข้องมากที่สุดซึ่งเรียกใช้จากงานการฝึกอบรมแบบจำลองของ SageMaker ที่อาจเป็นไปได้อย่างรวดเร็ว
  • โมเดลหัวข้อระบบประสาทของ SageMaker – SageMaker Neural Topic Model (NTM) เป็นอัลกอริธึมการเรียนรู้แบบไม่มีผู้ดูแลที่พยายามอธิบายชุดของการสังเกตเป็นส่วนผสมของหมวดหมู่ที่แตกต่างกัน
  • ทำนายการละเมิดความเร็วในการขับขี่ - สามารถใช้อัลกอริทึม SageMaker DeepAR เพื่อฝึกโมเดลสำหรับถนนหลายสายพร้อมกัน และคาดการณ์การละเมิดสำหรับกล้องตามท้องถนนหลายตัว
  • การทำนายมะเร็งเต้านม - สมุดบันทึกนี้ใช้ชุดข้อมูลการวินิจฉัยมะเร็งเต้านมของ UCI เพื่อสร้างแบบจำลองคาดการณ์ว่าภาพมวลเต้านมบ่งชี้ว่าเป็นเนื้องอกชนิดไม่ร้ายแรงหรือชนิดร้าย
  • รวมการคาดการณ์จากหลายรุ่น – ด้วยการรวมหรือเฉลี่ยการคาดการณ์จากแหล่งที่มาและแบบจำลองต่างๆ เรามักจะได้รับการคาดการณ์ที่ดีขึ้น สมุดบันทึกนี้แสดงแนวคิดนี้
  • การอนุมานแบบอะซิงโครนัสของ SageMaker – การอนุมานแบบอะซิงโครนัสเป็นตัวเลือกการอนุมานใหม่สำหรับความต้องการการอนุมานแบบเกือบเรียลไทม์ คำขออาจใช้เวลาดำเนินการสูงสุด 15 นาทีและมีขนาดเพย์โหลดสูงสุด 1 GB
  • TensorFlow นำโมเดลของคุณเอง – เรียนรู้วิธีฝึกโมเดล TensorFlow ในเครื่องและปรับใช้บน SageMaker โดยใช้สมุดบันทึกนี้
  • Scikit-learn นำแบบจำลองของคุณเอง – สมุดบันทึกนี้แสดงวิธีใช้โมเดล Scikit-learn ที่ผ่านการฝึกอบรมล่วงหน้ากับคอนเทนเนอร์ SageMaker Scikit-learn เพื่อสร้างจุดสิ้นสุดที่เป็นโฮสต์สำหรับโมเดลนั้นอย่างรวดเร็ว

เบื้องต้น

หากต้องการใช้สมุดบันทึกเหล่านี้ ตรวจสอบให้แน่ใจว่าคุณมีสิทธิ์เข้าถึง Studio ที่มีบทบาทการดำเนินการที่อนุญาตให้คุณเรียกใช้ฟังก์ชัน SageMaker วิดีโอสั้นๆ ด้านล่างนี้จะช่วยคุณนำทางไปยังสมุดบันทึก JumpStart

ในส่วนต่อไปนี้ เราจะพูดถึงโซลูชันใหม่แต่ละรายการจากทั้งหมด 10 รายการและหารือเกี่ยวกับรายละเอียดที่น่าสนใจบางประการ

การเรียนรู้ในบริบทด้วย AlexaTM 20B

AlexaTM 20B เป็นแบบจำลองลำดับต่อลำดับ (seq2seq) แบบมัลติทาสก์ พูดได้หลายภาษา ได้รับการฝึกฝนบนส่วนผสมของ Common Crawl (mC4) และข้อมูล Wikipedia ใน 12 ภาษา โดยใช้งาน denoising และ Causal Language Modeling (CLM) โดยได้รับประสิทธิภาพที่ล้ำสมัยสำหรับงานภาษาทั่วไปในบริบท เช่น การสรุปแบบ one-shot และการแปลด้วยเครื่องแบบ one-shot ซึ่งมีประสิทธิภาพเหนือกว่ารุ่นถอดรหัสเท่านั้น เช่น GPT3 ของ Open AI และ PaLM ของ Google ซึ่งใหญ่กว่าถึงแปดเท่า

การเรียนรู้ในบริบทหรือที่เรียกว่า กระตุ้นหมายถึงวิธีการที่คุณใช้โมเดล NLP กับงานใหม่โดยไม่ต้องปรับแต่งอย่างละเอียด ตัวอย่างงานบางส่วนมีไว้สำหรับโมเดลโดยเป็นส่วนหนึ่งของอินพุตการอนุมานเท่านั้น ซึ่งเป็นกระบวนทัศน์ที่เรียกว่า การเรียนรู้ในบริบทเพียงไม่กี่ช็อต. ในบางกรณี แบบจำลองสามารถทำงานได้ดีโดยไม่ต้องใช้ข้อมูลการฝึกอบรมใดๆ เลย มีเพียงคำอธิบายว่าควรคาดการณ์อะไรบ้าง สิ่งนี้เรียกว่า การเรียนรู้ในบริบทแบบ Zero-shot.

สมุดบันทึกนี้สาธิตวิธีปรับใช้ AlexaTM 20B ผ่าน JumpStart API และเรียกใช้การอนุมาน นอกจากนี้ยังสาธิตวิธีการใช้ AlexaTM 20B สำหรับการเรียนรู้ในบริบทด้วยตัวอย่างงาน XNUMX อย่าง ได้แก่ การสรุปข้อความ การสร้างภาษาธรรมชาติ การแปลด้วยคอมพิวเตอร์ การตอบคำถามแยก และการอนุมานและจัดหมวดหมู่ภาษาธรรมชาติ

สมุดบันทึกพร้อมภาพประกอบใน Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. สมุดบันทึกพร้อมภาพประกอบใน Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สมุดบันทึกแสดงสิ่งต่อไปนี้:

  • การสรุปข้อความในช็อตเดียว การสร้างภาษาธรรมชาติ และการแปลด้วยคอมพิวเตอร์โดยใช้ตัวอย่างการฝึกอบรมเดียวสำหรับแต่ละงานเหล่านี้
  • การตอบคำถามแบบ Zero-shot และการอนุมานด้วยภาษาธรรมชาติและการจัดหมวดหมู่โดยใช้แบบจำลองตามที่เป็นอยู่ โดยไม่จำเป็นต้องให้ตัวอย่างการฝึกอบรมใดๆ

ลองเรียกใช้ข้อความของคุณเองกับโมเดลนี้และดูว่าสรุปข้อความ แยกคำถามและคำตอบ หรือแปลจากภาษาหนึ่งเป็นอีกภาษาหนึ่งอย่างไร

ผู้เรียนเชิงเส้นตรงอย่างยุติธรรมใน SageMaker

เมื่อเร็ว ๆ นี้มีความกังวลเกี่ยวกับความลำเอียงในอัลกอริทึม ML อันเป็นผลมาจากการเลียนแบบอคติของมนุษย์ที่มีอยู่ ปัจจุบัน วิธี ML หลายวิธีมีความหมายทางสังคมที่ชัดเจน เช่น ใช้ในการทำนายสินเชื่อธนาคาร อัตราประกัน หรือการโฆษณา น่าเสียดายที่อัลกอริทึมที่เรียนรู้จากข้อมูลในอดีตจะสืบทอดอคติในอดีตโดยธรรมชาติ สมุดบันทึกนี้นำเสนอวิธีแก้ไขปัญหานี้โดยใช้ SageMaker และอัลกอริทึมที่ยุติธรรมในบริบทของผู้เรียนเชิงเส้น

เริ่มต้นด้วยการแนะนำแนวคิดและคณิตศาสตร์บางส่วนที่อยู่เบื้องหลังความยุติธรรม จากนั้นจะดาวน์โหลดข้อมูล ฝึกโมเดล และสุดท้ายใช้แนวคิดความเป็นธรรมเพื่อปรับการคาดการณ์ของโมเดลอย่างเหมาะสม

สมุดบันทึกพร้อมภาพประกอบใน Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. สมุดบันทึกพร้อมภาพประกอบใน Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สมุดบันทึกแสดงสิ่งต่อไปนี้:

  • เรียกใช้โมเดลเชิงเส้นมาตรฐานในชุดข้อมูลสำหรับผู้ใหญ่ของ UCI
  • แสดงความไม่ยุติธรรมในการคาดคะเนโมเดล
  • แก้ไขข้อมูลเพื่อลบอคติ
  • การอบรมขึ้นใหม่โมเดล

ลองเรียกใช้ข้อมูลของคุณเองโดยใช้โค้ดตัวอย่างนี้และตรวจหาว่ามีอคติหรือไม่ หลังจากนั้น ให้ลองลบอคติในชุดข้อมูลของคุณออก (ถ้ามี) โดยใช้ฟังก์ชันที่มีให้ในสมุดบันทึกตัวอย่างนี้

จัดการทดลอง ML โดยใช้ SageMaker Search

SageMaker Search ช่วยให้คุณค้นหาและประเมินการฝึกอบรมแบบจำลองที่เกี่ยวข้องมากที่สุดซึ่งเรียกใช้จากงานการฝึกอบรมแบบจำลองของ SageMaker ที่อาจเป็นไปได้อย่างรวดเร็ว การพัฒนาโมเดล ML จำเป็นต้องมีการทดลองอย่างต่อเนื่อง การลองใช้อัลกอริธึมการเรียนรู้ใหม่ และการปรับแต่งไฮเปอร์พารามิเตอร์ ทั้งหมดนี้ต้องสังเกตผลกระทบของการเปลี่ยนแปลงดังกล่าวต่อประสิทธิภาพและความแม่นยำของโมเดล แบบฝึกหัดซ้ำๆ นี้มักจะนำไปสู่การระเบิดของการทดลองฝึกโมเดลและเวอร์ชันโมเดลหลายร้อยรายการ ทำให้การบรรจบกันช้าลงและการค้นพบโมเดลที่ชนะ นอกจากนี้ การระเบิดของข้อมูลยังทำให้การติดตามย้อนกลับสายเลือดของรุ่นโมเดลเป็นเรื่องยากมาก ซึ่งเป็นชุดข้อมูล ชุดอัลกอริทึม และพารามิเตอร์ที่ไม่เหมือนใครที่สร้างโมเดลนั้นตั้งแต่แรก

สมุดบันทึกนี้แสดงวิธีใช้ SageMaker Search เพื่อจัดระเบียบ ติดตาม และประเมินผลงานการฝึกอบรมแบบจำลองของคุณบน SageMaker อย่างรวดเร็วและง่ายดาย คุณสามารถค้นหาแอตทริบิวต์ที่กำหนดทั้งหมดจากอัลกอริทึมการเรียนรู้ที่ใช้ การตั้งค่าไฮเปอร์พารามิเตอร์ ชุดข้อมูลการฝึกที่ใช้ และแม้แต่แท็กที่คุณเพิ่มในงานการฝึกโมเดล คุณยังสามารถเปรียบเทียบและจัดอันดับการดำเนินการฝึกอบรมของคุณได้อย่างรวดเร็วโดยอิงตามเมตริกประสิทธิภาพ เช่น การสูญเสียการฝึกอบรมและความแม่นยำในการตรวจสอบ ด้วยเหตุนี้จึงสร้างลีดเดอร์บอร์ดสำหรับการระบุโมเดลที่ชนะซึ่งสามารถนำไปใช้ในสภาพแวดล้อมการผลิตได้ SageMaker Search สามารถติดตามย้อนกลับสายตระกูลทั้งหมดของรุ่นโมเดลที่ใช้งานในสภาพแวดล้อมจริงได้อย่างรวดเร็ว จนถึงชุดข้อมูลที่ใช้ในการฝึกอบรมและตรวจสอบความถูกต้องของโมเดล

สมุดบันทึกพร้อมภาพประกอบใน Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. สมุดบันทึกพร้อมภาพประกอบใน Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สมุดบันทึกแสดงสิ่งต่อไปนี้:

  • ฝึกโมเดลเชิงเส้นสามครั้ง
  • การใช้ SageMaker Search เพื่อจัดระเบียบและประเมินการทดลองเหล่านี้
  • แสดงผลลัพธ์ในลีดเดอร์บอร์ด
  • การปรับใช้โมเดลไปยังจุดสิ้นสุด
  • การติดตามสายเลือดของโมเดลที่เริ่มต้นจากจุดสิ้นสุด

ในการพัฒนาแบบจำลองการคาดการณ์ของคุณเอง คุณอาจทำการทดสอบหลายอย่าง ลองใช้ SageMaker Search ในการทดลองดังกล่าวและสัมผัสว่ามันสามารถช่วยคุณได้หลายวิธี

โมเดลหัวข้อประสาทของ SageMaker

SageMaker Neural Topic Model (NTM) เป็นอัลกอริธึมการเรียนรู้แบบไม่มีผู้ดูแลที่พยายามอธิบายชุดของการสังเกตเป็นส่วนผสมของหมวดหมู่ที่แตกต่างกัน โดยทั่วไปจะใช้ NTM เพื่อค้นหาหัวข้อตามจำนวนที่ผู้ใช้ระบุซึ่งแบ่งปันโดยเอกสารภายในคลังข้อความ ข้อสังเกตแต่ละข้อในที่นี้คือเอกสาร คุณลักษณะคือการมีอยู่ (หรือจำนวนครั้งที่เกิดขึ้น) ของแต่ละคำ และหมวดหมู่คือหัวข้อ เนื่องจากวิธีการนี้ไม่มีการควบคุมดูแล หัวข้อจึงไม่ได้รับการระบุล่วงหน้าและไม่รับประกันว่าจะสอดคล้องกับวิธีที่มนุษย์อาจจัดหมวดหมู่เอกสารตามธรรมชาติ หัวข้อต่างๆ จะได้เรียนรู้เป็นการกระจายความน่าจะเป็นของคำที่เกิดขึ้นในแต่ละเอกสาร ในทางกลับกัน เอกสารแต่ละฉบับจะอธิบายเป็นชุดของหัวข้อต่างๆ

สมุดบันทึกนี้ใช้อัลกอริทึม SageMaker NTM เพื่อฝึกโมเดลในชุดข้อมูล 20NewsGroups ชุดข้อมูลนี้ถูกใช้อย่างกว้างขวางเป็นเกณฑ์มาตรฐานสำหรับการสร้างแบบจำลองหัวข้อ

สมุดบันทึกพร้อมภาพประกอบใน Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. สมุดบันทึกพร้อมภาพประกอบใน Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สมุดบันทึกแสดงสิ่งต่อไปนี้:

  • การสร้างงานฝึกอบรม SageMaker ในชุดข้อมูลเพื่อสร้างโมเดล NTM
  • การใช้โมเดลเพื่อทำการอนุมานด้วยตำแหน่งข้อมูล SageMaker
  • สำรวจแบบจำลองที่ผ่านการฝึกอบรมและแสดงภาพหัวข้อที่เรียนรู้

คุณสามารถแก้ไขสมุดบันทึกนี้ให้ทำงานบนเอกสารข้อความของคุณได้อย่างง่ายดาย และแบ่งออกเป็นหัวข้อต่างๆ

ทำนายการละเมิดความเร็วในการขับขี่

สมุดบันทึกนี้แสดงการคาดการณ์อนุกรมเวลาโดยใช้อัลกอริธึม SageMaker DeepAR โดยการวิเคราะห์ชุดข้อมูลการละเมิดกล้องจับความเร็วของเมืองชิคาโก ชุดข้อมูลนี้โฮสต์โดย Data.gov และจัดการโดย US General Services Administration, Technology Transformation Service

การละเมิดเหล่านี้ถูกบันทึกโดยระบบกล้องและพร้อมที่จะปรับปรุงชีวิตของประชาชนผ่านทางพอร์ทัลข้อมูลของเมืองชิคาโก สามารถใช้ชุดข้อมูลการละเมิดกล้องจับความเร็วเพื่อแยกแยะรูปแบบในข้อมูลและรับข้อมูลเชิงลึกที่มีความหมาย

ชุดข้อมูลประกอบด้วยตำแหน่งของกล้องหลายตัวและจำนวนการละเมิดรายวัน การนับการละเมิดกล้องแต่ละรายการในแต่ละวันถือเป็นอนุกรมเวลาที่แยกจากกัน คุณสามารถใช้อัลกอริทึม SageMaker DeepAR เพื่อฝึกโมเดลสำหรับถนนหลายสายพร้อมกัน และคาดการณ์การละเมิดสำหรับกล้องตามท้องถนนหลายตัว

สมุดบันทึกพร้อมภาพประกอบใน Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. สมุดบันทึกพร้อมภาพประกอบใน Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สมุดบันทึกแสดงสิ่งต่อไปนี้:

  • ฝึกฝนอัลกอริทึม SageMaker DeepAR บนชุดข้อมูลอนุกรมเวลาโดยใช้อินสแตนซ์สปอต
  • การอนุมานแบบจำลองที่ผ่านการฝึกอบรมเพื่อคาดการณ์การละเมิดกฎจราจร

ด้วยสมุดบันทึกนี้ คุณสามารถเรียนรู้วิธีการแก้ปัญหาอนุกรมเวลาโดยใช้อัลกอริทึม DeepAR ใน SageMaker และลองนำไปใช้กับชุดข้อมูลอนุกรมเวลาของคุณเอง

การทำนายมะเร็งเต้านม

สมุดบันทึกนี้ใช้ตัวอย่างสำหรับการทำนายมะเร็งเต้านมโดยใช้ชุดข้อมูลการวินิจฉัยมะเร็งเต้านมของ UCI โดยจะใช้ชุดข้อมูลนี้เพื่อสร้างแบบจำลองในการทำนายว่าภาพมวลเต้านมบ่งชี้ว่าเป็นเนื้องอกชนิดไม่ร้ายหรือชนิดร้าย

สมุดบันทึกพร้อมภาพประกอบใน Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. สมุดบันทึกพร้อมภาพประกอบใน Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สมุดบันทึกแสดงสิ่งต่อไปนี้:

  • การตั้งค่าพื้นฐานสำหรับการใช้ SageMaker
  • การแปลงชุดข้อมูลเป็นรูปแบบ Protobuf ที่ใช้โดยอัลกอริทึม SageMaker และอัปโหลดไปยัง บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3)
  • ฝึกโมเดลผู้เรียนเชิงเส้นของ SageMaker ในชุดข้อมูล
  • โฮสต์โมเดลที่ผ่านการฝึกอบรม
  • การให้คะแนนโดยใช้แบบฝึก

คุณสามารถอ่านสมุดบันทึกนี้เพื่อเรียนรู้วิธีแก้ปัญหาทางธุรกิจโดยใช้ SageMaker และทำความเข้าใจขั้นตอนที่เกี่ยวข้องกับการฝึกอบรมและการโฮสต์แบบจำลอง

รวมการคาดการณ์จากหลายรุ่น

ในการใช้งานจริงของ ML กับงานคาดการณ์ โมเดลหนึ่งตัวมักจะไม่เพียงพอ โดยทั่วไปการแข่งขันการทำนายส่วนใหญ่ต้องการการรวมการพยากรณ์จากหลายแหล่งเพื่อให้ได้การพยากรณ์ที่ดีขึ้น ด้วยการรวมหรือเฉลี่ยการคาดการณ์จากหลายแหล่งหรือแบบจำลอง โดยทั่วไปแล้วเราจะได้รับการคาดการณ์ที่ดีขึ้น สิ่งนี้เกิดขึ้นเนื่องจากมีความไม่แน่นอนอย่างมากในการเลือกแบบจำลอง และไม่มีแบบจำลองที่แท้จริงในการใช้งานจริงจำนวนมาก ดังนั้นจึงเป็นประโยชน์ที่จะรวมการคาดการณ์จากแบบจำลองต่างๆ ในวรรณคดีแบบเบส์ แนวคิดนี้เรียกว่าการเฉลี่ยแบบจำลองแบบเบย์ และแสดงให้เห็นว่าทำงานได้ดีกว่าการเลือกแบบจำลองเพียงอย่างเดียว

สมุดบันทึกนี้แสดงตัวอย่างเพื่อคาดการณ์ว่าบุคคลหนึ่งทำเงินได้มากกว่า $50,000 ต่อปีหรือไม่ โดยพิจารณาจากข้อมูลเกี่ยวกับการศึกษา ประสบการณ์การทำงาน เพศ และอื่นๆ

สมุดบันทึกพร้อมภาพประกอบใน Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. สมุดบันทึกพร้อมภาพประกอบใน Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สมุดบันทึกแสดงสิ่งต่อไปนี้:

  • การเตรียมสมุดบันทึก SageMaker ของคุณ
  • กำลังโหลดชุดข้อมูลจาก Amazon S3 โดยใช้ SageMaker
  • ตรวจสอบและแปลงข้อมูลเพื่อให้สามารถป้อนเข้าสู่อัลกอริทึมของ SageMaker
  • การประมาณโมเดลโดยใช้อัลกอริทึม SageMaker XGBoost (Extreme Gradient Boosting)
  • โฮสต์โมเดลบน SageMaker เพื่อคาดการณ์อย่างต่อเนื่อง
  • การประมาณแบบจำลองที่สองโดยใช้วิธีการเรียนรู้เชิงเส้นของ SageMaker
  • รวมการคาดคะเนจากทั้งสองแบบและประเมินการคาดคะเนรวมกัน
  • สร้างการคาดการณ์ขั้นสุดท้ายในชุดข้อมูลทดสอบ

ลองเรียกใช้สมุดบันทึกนี้บนชุดข้อมูลของคุณและใช้อัลกอริทึมหลายตัว ลองทดสอบด้วยชุดรูปแบบต่างๆ ที่นำเสนอโดย SageMaker และ JumpStart และดูว่าชุดรูปแบบใดที่ให้ผลลัพธ์ที่ดีที่สุดจากข้อมูลของคุณเอง

SageMaker การอนุมานแบบอะซิงโครนัส

การอนุมานแบบอะซิงโครนัสของ SageMaker เป็นความสามารถใหม่ใน SageMaker ที่จัดคิวคำขอที่เข้ามาและประมวลผลแบบอะซิงโครนัส ปัจจุบัน SageMaker มีตัวเลือกการอนุมานสองแบบสำหรับลูกค้าในการปรับใช้โมเดล ML: ตัวเลือกแบบเรียลไทม์สำหรับปริมาณงานที่มีความหน่วงแฝงต่ำ และการแปลงเป็นชุด ซึ่งเป็นตัวเลือกแบบออฟไลน์ในการประมวลผลคำขอการอนุมานในชุดข้อมูลที่พร้อมใช้งานล่วงหน้า การอนุมานตามเวลาจริงเหมาะสำหรับปริมาณงานที่มีขนาดเพย์โหลดน้อยกว่า 6 MB และต้องการให้ประมวลผลคำขอการอนุมานภายใน 60 วินาที การแปลงเป็นชุดเหมาะสำหรับการอนุมานแบบออฟไลน์เกี่ยวกับชุดข้อมูล

การอนุมานแบบอะซิงโครนัสเป็นตัวเลือกการอนุมานใหม่สำหรับความต้องการการอนุมานแบบเกือบเรียลไทม์ คำขออาจใช้เวลาดำเนินการสูงสุด 15 นาทีและมีขนาดเพย์โหลดสูงสุด 1 GB การอนุมานแบบอะซิงโครนัสเหมาะสำหรับปริมาณงานที่ไม่มีข้อกำหนดด้านเวลาแฝงรองวินาทีและมีข้อกำหนดด้านเวลาแฝงที่ผ่อนคลาย ตัวอย่างเช่น คุณอาจต้องดำเนินการอนุมานภาพขนาดใหญ่หลาย MB ภายใน 5 นาที นอกจากนี้ จุดสิ้นสุดการอนุมานแบบอะซิงโครนัสยังช่วยให้คุณควบคุมค่าใช้จ่ายโดยลดจำนวนอินสแตนซ์จุดสิ้นสุดให้เหลือศูนย์เมื่อไม่ได้ใช้งาน ดังนั้นคุณจะจ่ายเฉพาะเมื่อจุดสิ้นสุดของคุณกำลังดำเนินการตามคำขอเท่านั้น

สมุดบันทึกพร้อมภาพประกอบใน Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. สมุดบันทึกพร้อมภาพประกอบใน Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สมุดบันทึกแสดงสิ่งต่อไปนี้:

  • การสร้างโมเดล SageMaker
  • การสร้างจุดสิ้นสุดโดยใช้โมเดลนี้และการกำหนดค่าการอนุมานแบบอะซิงโครนัส
  • การคาดการณ์กับจุดสิ้นสุดแบบอะซิงโครนัสนี้

สมุดบันทึกนี้แสดงตัวอย่างการทำงานของการรวมจุดสิ้นสุดแบบอะซิงโครนัสสำหรับโมเดล SageMaker

TensorFlow นำโมเดลของคุณเอง

โมเดล TensorFlow ได้รับการฝึกฝนแบบโลคัลเกี่ยวกับงานการจัดหมวดหมู่ที่โน้ตบุ๊กนี้กำลังเรียกใช้ จากนั้นจึงปรับใช้บนตำแหน่งข้อมูล SageMaker

สมุดบันทึกพร้อมภาพประกอบใน Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. สมุดบันทึกพร้อมภาพประกอบใน Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สมุดบันทึกแสดงสิ่งต่อไปนี้:

  • ฝึกโมเดล TensorFlow บนชุดข้อมูล IRIS ภายในเครื่อง
  • การอิมพอร์ตโมเดลนั้นเข้าสู่ SageMaker
  • โฮสต์บนปลายทาง

หากคุณมีโมเดล TensorFlow ที่คุณพัฒนาขึ้นเอง สมุดบันทึกตัวอย่างนี้สามารถช่วยคุณโฮสต์โมเดลของคุณบนตำแหน่งข้อมูลที่ได้รับการจัดการของ SageMaker

Scikit-learn นำแบบจำลองของคุณเอง

SageMaker มีฟังก์ชันการทำงานเพื่อรองรับสภาพแวดล้อมโน้ตบุ๊กที่โฮสต์ การฝึกอบรมแบบกระจาย ไร้เซิร์ฟเวอร์ และการโฮสต์แบบเรียลไทม์ จะทำงานได้ดีที่สุดเมื่อใช้บริการทั้งสามนี้ร่วมกัน แต่ก็สามารถใช้แยกกันได้ กรณีการใช้งานบางอย่างอาจต้องใช้การโฮสต์เท่านั้น โมเดลอาจได้รับการฝึกอบรมก่อนที่จะมี SageMaker ในบริการอื่น

สมุดบันทึกพร้อมภาพประกอบใน Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สมุดบันทึกแสดงสิ่งต่อไปนี้:

  • การใช้โมเดล Scikit-learn ที่ฝึกไว้ล่วงหน้ากับคอนเทนเนอร์ SageMaker Scikit-learn เพื่อสร้างจุดสิ้นสุดที่เป็นโฮสต์สำหรับโมเดลนั้นอย่างรวดเร็ว

หากคุณมีโมเดล Scikit-learn ที่คุณพัฒนาขึ้นเอง สมุดบันทึกตัวอย่างนี้สามารถช่วยคุณโฮสต์โมเดลของคุณบนตำแหน่งข้อมูลที่ได้รับการจัดการของ SageMaker

ทำความสะอาดทรัพยากร

หลังจากที่คุณเรียกใช้โน้ตบุ๊กใน JumpStart เสร็จแล้ว อย่าลืม ลบทรัพยากรทั้งหมด เพื่อให้ทรัพยากรทั้งหมดที่คุณสร้างขึ้นในกระบวนการถูกลบออก และการเรียกเก็บเงินของคุณจะหยุดลง เซลล์สุดท้ายในสมุดบันทึกเหล่านี้มักจะลบปลายทางที่สร้างขึ้น

สรุป

โพสต์นี้จะแนะนำสมุดบันทึกตัวอย่างใหม่ 10 เล่มที่เพิ่งเพิ่มใน JumpStart แม้ว่าโพสต์นี้จะเน้นไปที่โน้ตบุ๊กใหม่ทั้ง 10 รุ่นนี้ แต่ก็มีโน้ตบุ๊กทั้งหมด 56 โน้ตที่พร้อมใช้งานในขณะที่เขียนบทความนี้ เราขอแนะนำให้คุณลงชื่อเข้าใช้ Studio และสำรวจสมุดบันทึก JumpStart ด้วยตัวคุณเอง และเริ่มรับคุณค่าทันทีจากสมุดบันทึกเหล่านั้น สำหรับข้อมูลเพิ่มเติม โปรดดูที่ สตูดิโอ Amazon SageMaker และ SageMaker JumpStart.


เกี่ยวกับผู้เขียน

สมุดบันทึกพร้อมภาพประกอบใน Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.นพ. ราชุ เพ็ญมัจฉา เป็นสถาปนิกโซลูชันผู้เชี่ยวชาญด้าน AI/ML ในแพลตฟอร์ม AI ที่ AWS เขาได้รับปริญญาเอกจากมหาวิทยาลัยสแตนฟอร์ด เขาทำงานอย่างใกล้ชิดกับบริการชุดโค้ดต่ำ/ไม่มีโค้ดใน SageMaker ที่ช่วยให้ลูกค้าสร้างและปรับใช้โมเดลและโซลูชันการเรียนรู้ของเครื่องได้อย่างง่ายดาย

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS

วิเคราะห์การใช้จ่ายของ Amazon SageMaker และกำหนดโอกาสในการเพิ่มประสิทธิภาพต้นทุนตามการใช้งาน ส่วนที่ 4: งานฝึกอบรม | บริการเว็บอเมซอน

โหนดต้นทาง: 1843423
ประทับเวลา: May 30, 2023

Amazon SageMaker Domain ในโหมด VPC เท่านั้นเพื่อรองรับ SageMaker Studio พร้อมการปิดระบบอัตโนมัติ การกำหนดค่าวงจรชีวิต และ SageMaker Canvas พร้อม Terraform | อเมซอนเว็บเซอร์วิส

โหนดต้นทาง: 1888314
ประทับเวลา: กันยายน 11, 2023