ระบบนำร่องอัตโนมัติของ Amazon SageMaker ทำให้องค์กรสามารถสร้างและปรับใช้โมเดลการเรียนรู้ของเครื่องแบบ end-to-end (ML) และไปป์ไลน์การอนุมานได้อย่างรวดเร็วด้วยโค้ดเพียงไม่กี่บรรทัดหรือแม้กระทั่ง ไม่มีรหัส เลยด้วย สตูดิโอ Amazon SageMaker. Autopilot ช่วยลดภาระของโครงสร้างพื้นฐานการกำหนดค่าและเวลาที่ใช้ในการสร้างไปป์ไลน์ทั้งหมด รวมถึงวิศวกรรมคุณลักษณะ การเลือกรุ่น และการปรับแต่งไฮเปอร์พารามิเตอร์
ในโพสต์นี้ เราแสดงวิธีการเปลี่ยนจากข้อมูลดิบไปยังไปป์ไลน์การอนุมานที่มีประสิทธิภาพและปรับใช้อย่างสมบูรณ์ด้วย Autopilot
ภาพรวมโซลูชัน
เราใช้ ชุดข้อมูลสาธารณะของ Lyft เกี่ยวกับการแชร์จักรยาน สำหรับการจำลองนี้เพื่อทำนายว่าผู้ใช้มีส่วนร่วมใน แชร์จักรยานสำหรับทุกโปรแกรม. นี่เป็นปัญหาการจำแนกเลขฐานสองอย่างง่าย
เราต้องการแสดงให้เห็นว่าการสร้างไปป์ไลน์การอนุมานแบบอัตโนมัติและแบบเรียลไทม์เพื่อจำแนกผู้ใช้นั้นง่ายเพียงใดโดยพิจารณาจากการเข้าร่วมโปรแกรม Bike Share for All ด้วยเหตุนี้ เราจึงจำลองการนำเข้าข้อมูลแบบ end-to-end และไปป์ไลน์การอนุมานสำหรับบริษัท bikeshare ในจินตนาการที่ดำเนินการอยู่ในบริเวณอ่าวซานฟรานซิสโก
สถาปัตยกรรมแบ่งออกเป็นสองส่วน: ไปป์ไลน์การส่งผ่านข้อมูลและไปป์ไลน์การอนุมาน
เราเน้นที่ไปป์ไลน์ ML เป็นหลักในส่วนแรกของโพสต์นี้ และตรวจสอบไปป์ไลน์การนำเข้าข้อมูลในส่วนที่สอง
เบื้องต้น
เพื่อทำตามตัวอย่างนี้ ให้ทำตามข้อกำหนดเบื้องต้นต่อไปนี้:
- สร้างอินสแตนซ์สมุดบันทึก SageMaker ใหม่.
- สร้าง สายไฟ Amazon Kinesis Data สตรีมการจัดส่งด้วย an AWS แลมบ์ดา ฟังก์ชั่นการแปลง ดูคำแนะนำได้ที่ การแปลงข้อมูล Amazon Kinesis Firehose ด้วย AWS Lambda. ขั้นตอนนี้เป็นทางเลือกและจำเป็นสำหรับการจำลองการสตรีมข้อมูลเท่านั้น
การสำรวจข้อมูล
มาดาวน์โหลดและเห็นภาพชุดข้อมูลซึ่งอยู่ในสาธารณะ บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) บัคเก็ตและเว็บไซต์แบบคงที่:
ภาพหน้าจอต่อไปนี้แสดงชุดย่อยของข้อมูลก่อนการแปลง
คอลัมน์สุดท้ายของข้อมูลมีเป้าหมายที่เราต้องการคาดการณ์ ซึ่งเป็นตัวแปรไบนารีที่ใช้ค่าใช่หรือไม่ใช่ ซึ่งระบุว่าผู้ใช้เข้าร่วมในโปรแกรม Bike Share for All
มาดูการกระจายของตัวแปรเป้าหมายสำหรับข้อมูลที่ไม่สมดุลกัน
ตามที่แสดงในกราฟด้านบน ข้อมูลไม่สมดุล โดยมีผู้เข้าร่วมโปรแกรมน้อยลง
เราจำเป็นต้องสร้างสมดุลของข้อมูลเพื่อป้องกันอคติในการนำเสนอมากเกินไป ขั้นตอนนี้เป็นทางเลือก เนื่องจาก Autopilot ยังเสนอวิธีการภายในเพื่อจัดการกับความไม่สมดุลของคลาสโดยอัตโนมัติ ซึ่งมีค่าเริ่มต้นเป็นเมตริกการตรวจสอบคะแนน F1 นอกจากนี้ หากคุณเลือกสร้างสมดุลข้อมูลด้วยตนเอง คุณสามารถใช้เทคนิคขั้นสูงเพิ่มเติมในการจัดการความไม่สมดุลของคลาส เช่น สโมต or GAN.
สำหรับโพสต์นี้ เราสุ่มตัวอย่างคลาสส่วนใหญ่ (ไม่) เป็นเทคนิคการปรับสมดุลข้อมูล:
รหัสต่อไปนี้ทำให้ข้อมูลสมบูรณ์ยิ่งขึ้นและแสดงตัวอย่างต่ำกว่าในคลาสที่แสดงเกิน:
เราจงใจปล่อยให้คุณลักษณะตามหมวดหมู่ของเราไม่ถูกเข้ารหัส ซึ่งรวมถึงค่าเป้าหมายไบนารีของเราด้วย นี่เป็นเพราะว่า Autopilot ดูแลการเข้ารหัสและถอดรหัสข้อมูลสำหรับเราโดยเป็นส่วนหนึ่งของวิศวกรรมคุณลักษณะอัตโนมัติและการปรับใช้ไปป์ไลน์ดังที่เราเห็นในหัวข้อถัดไป
ภาพหน้าจอต่อไปนี้แสดงตัวอย่างข้อมูลของเรา
ข้อมูลในกราฟต่อไปนี้จะดูเป็นเรื่องปกติ โดยมีการแจกแจงแบบทวิโมดัลแทนจุดสูงสุดสองจุดสำหรับชั่วโมงเช้าและชั่วโมงเร่งด่วนในช่วงบ่าย อย่างที่คุณคาดไว้ นอกจากนี้เรายังสังเกตกิจกรรมต่ำในวันหยุดสุดสัปดาห์และตอนกลางคืน
ในส่วนถัดไป เราจะป้อนข้อมูลไปยัง Autopilot เพื่อให้ทำการทดสอบให้เราได้
สร้างแบบจำลองการจำแนกประเภทไบนารี
Autopilot ต้องการให้เราระบุบัคเก็ตปลายทางอินพุตและเอาต์พุต ใช้อินพุตบัคเก็ตเพื่อโหลดข้อมูลและเอาต์พุตบัคเก็ตเพื่อบันทึกอาร์ติแฟกต์ เช่น วิศวกรรมฟีเจอร์และโน้ตบุ๊ก Jupyter ที่สร้างขึ้น เราเก็บรักษาชุดข้อมูลไว้ 5% เพื่อประเมินและตรวจสอบประสิทธิภาพของโมเดลหลังจากการฝึกอบรมเสร็จสิ้น และอัปโหลดชุดข้อมูล 95% ไปยังบัคเก็ตอินพุต S3 ดูรหัสต่อไปนี้:
หลังจากที่เราอัปโหลดข้อมูลไปยังปลายทางอินพุต ก็ถึงเวลาเริ่มต้น Autopilot:
ทั้งหมดที่เราต้องเริ่มการทดลองคือการเรียกเมธอด fit() Autopilot ต้องการตำแหน่งอินพุตและเอาต์พุต S3 และคอลัมน์แอตทริบิวต์เป้าหมายเป็นพารามิเตอร์ที่จำเป็น หลังจากประมวลผลคุณสมบัติแล้ว Autopilot จะเรียก การปรับโมเดลอัตโนมัติของ SageMaker เพื่อค้นหารุ่นที่ดีที่สุดของแบบจำลองโดยเรียกใช้งานการฝึกอบรมจำนวนมากบนชุดข้อมูลของคุณ เราได้เพิ่มพารามิเตอร์ตัวเลือก max_candidates เพื่อจำกัดจำนวนผู้สมัครเป็น 30 คน ซึ่งเป็นจำนวนงานการฝึกอบรมที่ Autopilot เปิดตัวด้วยอัลกอริธึมและไฮเปอร์พารามิเตอร์ต่างๆ ผสมกัน เพื่อค้นหาโมเดลที่ดีที่สุด หากคุณไม่ระบุพารามิเตอร์นี้ ค่าเริ่มต้นจะอยู่ที่ 250
เราสามารถสังเกตความคืบหน้าของ Autopilot ด้วยรหัสต่อไปนี้:
การฝึกอบรมต้องใช้เวลาพอสมควร ขณะที่กำลังทำงาน มาดูเวิร์กโฟลว์ Autopilot กัน
เพื่อค้นหาผู้สมัครที่ดีที่สุด ใช้รหัสต่อไปนี้:
ภาพหน้าจอต่อไปนี้แสดงผลลัพธ์ของเรา
โมเดลของเรามีความถูกต้องในการตรวจสอบถึง 96% ดังนั้นเราจะปรับใช้มัน เราสามารถเพิ่มเงื่อนไขที่เราใช้แบบจำลองได้ก็ต่อเมื่อความถูกต้องสูงกว่าระดับที่กำหนดเท่านั้น
ไปป์ไลน์การอนุมาน
ก่อนที่เราจะปรับใช้โมเดลของเรา ให้ตรวจสอบผู้สมัครที่ดีที่สุดของเราและสิ่งที่เกิดขึ้นในไปป์ไลน์ของเรา ดูรหัสต่อไปนี้:
แผนภาพต่อไปนี้แสดงผลลัพธ์ของเรา
Autopilot ได้สร้างแบบจำลองและบรรจุไว้ในคอนเทนเนอร์ที่แตกต่างกันสามคอนเทนเนอร์ โดยแต่ละรายการจะรันงานเฉพาะตามลำดับ: แปลง ทำนาย และแปลงกลับ การอนุมานแบบหลายขั้นตอนนี้เป็นไปได้ด้วย a ไปป์ไลน์การอนุมาน SageMaker
การอนุมานแบบหลายขั้นตอนยังสามารถโยงโมเดลการอนุมานได้หลายแบบ ตัวอย่างเช่น หนึ่งคอนเทนเนอร์สามารถดำเนินการได้ การวิเคราะห์องค์ประกอบหลัก ก่อนส่งข้อมูลไปยังคอนเทนเนอร์ XGBoost
ปรับใช้ไพพ์ไลน์การอนุมานไปยังปลายทาง
กระบวนการปรับใช้เกี่ยวข้องกับโค้ดเพียงไม่กี่บรรทัด:
มากำหนดค่าปลายทางของเราสำหรับการคาดคะเนด้วยตัวทำนาย:
ตอนนี้เรามีจุดสิ้นสุดและตัวทำนายพร้อมแล้ว ก็ถึงเวลาใช้ข้อมูลการทดสอบที่เราแยกไว้และทดสอบความถูกต้องของแบบจำลองของเรา เราเริ่มต้นด้วยการกำหนดฟังก์ชันยูทิลิตี้ที่ส่งข้อมูลครั้งละหนึ่งบรรทัดไปยังจุดสิ้นสุดการอนุมาน และรับการทำนายเป็นการตอบแทน เพราะเรามี XGBoost โมเดล เราปล่อยตัวแปรเป้าหมายก่อนที่จะส่งบรรทัด CSV ไปยังปลายทาง นอกจากนี้ เราได้ลบส่วนหัวออกจาก CSV การทดสอบก่อนที่จะวนซ้ำในไฟล์ ซึ่งเป็นข้อกำหนดอื่นสำหรับ XGBoost บน SageMaker ดูรหัสต่อไปนี้:
ภาพหน้าจอต่อไปนี้แสดงผลลัพธ์ของเรา
ตอนนี้ มาคำนวณความแม่นยำของแบบจำลองของเรากัน
ดูรหัสต่อไปนี้:
เราได้รับความแม่นยำ 92% ซึ่งต่ำกว่า 96% ที่ได้รับเล็กน้อยระหว่างขั้นตอนการตรวจสอบความถูกต้อง แต่ก็ยังสูงพอ เราไม่ได้คาดหวังว่าความแม่นยำจะเหมือนกันทุกประการ เนื่องจากการทดสอบดำเนินการกับชุดข้อมูลใหม่
การนำเข้าข้อมูล
เราดาวน์โหลดข้อมูลโดยตรงและกำหนดค่าสำหรับการฝึกอบรม ในชีวิตจริง คุณอาจต้องส่งข้อมูลโดยตรงจากอุปกรณ์ Edge ไปยัง Data Lake และให้ SageMaker โหลดจาก Data Lake ลงในโน้ตบุ๊กโดยตรง
Kinesis Data Firehose เป็นตัวเลือกที่ดีและเป็นวิธีที่ตรงไปตรงมาที่สุดในการโหลดข้อมูลการสตรีมลงใน Data Lake ที่เก็บข้อมูล และเครื่องมือวิเคราะห์อย่างน่าเชื่อถือ สามารถจับ แปลง และโหลดข้อมูลการสตรีมไปยัง Amazon S3 และที่จัดเก็บข้อมูล AWS อื่นๆ
สำหรับกรณีการใช้งานของเรา เราสร้างสตรีมการนำส่ง Kinesis Data Firehose ด้วยฟังก์ชันการแปลงแลมบ์ดาเพื่อทำความสะอาดข้อมูลบางส่วนในขณะที่ข้ามสตรีม ดูรหัสต่อไปนี้:
ฟังก์ชัน Lambda นี้ทำการแปลงข้อมูลที่สตรีมจากอุปกรณ์ไปยัง Data Lake แบบเบาบาง คาดว่าจะเป็นไฟล์ข้อมูลที่จัดรูปแบบ CSV
สำหรับขั้นตอนการนำเข้า เราดาวน์โหลดข้อมูลและจำลองสตรีมข้อมูลไปยัง Kinesis Data Firehose ด้วยฟังก์ชันการแปลง Lambda และลงใน Data Lake S3 ของเรา
มาจำลองการสตรีมสองสามบรรทัด:
ทำความสะอาด
สิ่งสำคัญคือต้องลบทรัพยากรทั้งหมดที่ใช้ในแบบฝึกหัดนี้เพื่อลดต้นทุน โค้ดต่อไปนี้จะลบจุดสิ้นสุดการอนุมานของ SageMaker ที่เราสร้างขึ้น ตลอดจนข้อมูลการฝึกอบรมและการทดสอบที่เราอัปโหลด:
สรุป
วิศวกร ML นักวิทยาศาสตร์ข้อมูล และนักพัฒนาซอฟต์แวร์สามารถใช้ Autopilot เพื่อสร้างและปรับใช้ไปป์ไลน์การอนุมานโดยมีประสบการณ์ในการเขียนโปรแกรม ML เพียงเล็กน้อยหรือไม่มีเลย Autopilot ช่วยประหยัดเวลาและทรัพยากร โดยใช้วิทยาศาสตร์ข้อมูลและแนวทางปฏิบัติที่ดีที่สุดของ ML องค์กรขนาดใหญ่สามารถเปลี่ยนทรัพยากรด้านวิศวกรรมออกจากการกำหนดค่าโครงสร้างพื้นฐานไปสู่การปรับปรุงรูปแบบและแก้ปัญหาการใช้งานทางธุรกิจได้ สตาร์ทอัพและองค์กรขนาดเล็กสามารถเริ่มต้นใช้งานแมชชีนเลิร์นนิงได้โดยไม่ต้องใช้ความเชี่ยวชาญ ML เพียงเล็กน้อยหรือไม่มีเลย
ในการเริ่มต้นใช้งาน SageMaker Autopilot โปรดดูที่ หน้าสินค้า หรือเข้าถึง SageMaker Autopilot ภายใน SageMaker Studio
เรายังแนะนำให้เรียนรู้เพิ่มเติมเกี่ยวกับคุณสมบัติที่สำคัญอื่นๆ ของ SageMaker เช่น Amazon SageMaker ฟีเจอร์สโตร์ซึ่งรวมเข้ากับ ท่อส่ง Amazon SageMaker เพื่อสร้าง เพิ่มการค้นหาและค้นพบคุณลักษณะ และนำเวิร์กโฟลว์ ML อัตโนมัติมาใช้ซ้ำ คุณสามารถเรียกใช้การจำลอง Autopilot ได้หลายแบบด้วยคุณลักษณะหรือตัวแปรเป้าหมายที่แตกต่างกันในชุดข้อมูลของคุณ คุณยังสามารถใช้วิธีนี้ในฐานะปัญหาการจัดสรรรถแบบไดนามิก ซึ่งโมเดลของคุณพยายามคาดการณ์ความต้องการรถตามเวลา (เช่น เวลาของวันหรือวันในสัปดาห์) หรือสถานที่ หรือทั้งสองอย่างรวมกัน
เกี่ยวกับผู้เขียน
ดั๊ก เอ็มบาย่า เป็นสถาปนิกโซลูชันอาวุโสที่เน้นข้อมูลและการวิเคราะห์ Doug ทำงานอย่างใกล้ชิดกับคู่ค้าของ AWS ช่วยผสานรวมข้อมูลและโซลูชันการวิเคราะห์ในระบบคลาวด์ ประสบการณ์ก่อนหน้าของ Doug รวมถึงการสนับสนุนลูกค้า AWS ในส่วนการแชร์รถและการจัดส่งอาหาร
วาเลริโอ เปโรเน เป็น Applied Science Manager ที่ทำงานเกี่ยวกับ Amazon SageMaker Automatic Model Tuning และ Autopilot
- คอยน์สมาร์ท การแลกเปลี่ยน Bitcoin และ Crypto ที่ดีที่สุดในยุโรป
- เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าฟรี
- คริปโตฮอว์ก เรดาร์ Altcoin ทดลองฟรี.
- ที่มา: https://aws.amazon.com/blogs/machine-learning/automate-a-shared-bikes-and-scooters-classification-model-with-amazon-sagemaker-autopilot/
- '
- "
- &
- 100
- เกี่ยวกับเรา
- เข้า
- ประสบความสำเร็จ
- กิจกรรม
- สูง
- อัลกอริทึม
- ทั้งหมด
- การจัดสรร
- อเมซอน
- การวิเคราะห์
- อื่น
- API
- เข้าใกล้
- สถาปัตยกรรม
- AREA
- ข้อโต้แย้ง
- อัตโนมัติ
- AWS
- อ่าว
- ที่ดีที่สุด
- ปฏิบัติที่ดีที่สุด
- สร้าง
- ธุรกิจ
- โทรศัพท์
- สามารถรับ
- ซึ่ง
- กรณี
- เปลี่ยนแปลง
- ทางเลือก
- การจัดหมวดหมู่
- การทำความสะอาด
- เมฆ
- รหัส
- คอลัมน์
- การผสมผสาน
- รวม
- บริษัท
- ส่วนประกอบ
- สภาพ
- องค์ประกอบ
- ภาชนะ
- ภาชนะบรรจุ
- มี
- ได้
- ลูกค้า
- ข้อมูล
- การประมวลผล
- วิทยาศาสตร์ข้อมูล
- วัน
- การจัดส่ง
- ความต้องการ
- ปรับใช้
- การใช้งาน
- นักพัฒนา
- เครื่อง
- อุปกรณ์
- ต่าง
- การค้นพบ
- แสดง
- การกระจาย
- ลง
- หล่น
- พลวัต
- ขอบ
- การเข้ารหัสลับ
- ปลายทาง
- ชั้นเยี่ยม
- วิศวกร
- เหตุการณ์
- ตัวอย่าง
- ยกเว้น
- การออกกำลังกาย
- คาดว่า
- ประสบการณ์
- การทดลอง
- ความชำนาญ
- ลักษณะ
- คุณสมบัติ
- ชื่อจริง
- โฟกัส
- ปฏิบัติตาม
- ดังต่อไปนี้
- อาหาร
- ฟรานซิส
- ฟังก์ชัน
- ได้รับ
- ไป
- ดี
- การจัดการ
- โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม
- จุดสูง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- HTTPS
- สำคัญ
- รวมทั้ง
- โครงสร้างพื้นฐาน
- รวบรวม
- IT
- การสัมภาษณ์
- งาน
- ใหญ่
- การเปิดตัว
- การเรียนรู้
- ชั้น
- ห้องสมุด
- เบา
- มีน้ำหนักเบา
- Line
- น้อย
- โหลด
- ในท้องถิ่น
- ที่ตั้ง
- เครื่อง
- เรียนรู้เครื่อง
- ส่วนใหญ่
- การทำ
- ผู้จัดการ
- ML
- แบบ
- โมเดล
- มากที่สุด
- สมุดบันทึก
- เสนอ
- เสนอ
- การดำเนินงาน
- ตัวเลือกเสริม (Option)
- ใบสั่ง
- องค์กร
- อื่นๆ
- มิฉะนั้น
- การมีส่วนร่วม
- พาร์ทเนอร์
- คน
- การปฏิบัติ
- เป็นไปได้
- คำทำนาย
- ปัญหา
- กระบวนการ
- โครงการ
- การเขียนโปรแกรม
- ให้
- สาธารณะ
- อย่างรวดเร็ว
- ดิบ
- เรียลไทม์
- แนะนำ
- ระเบียน
- บันทึก
- จำเป็นต้องใช้
- แหล่งข้อมูล
- รับคืน
- ทบทวน
- กฎระเบียบ
- วิ่ง
- วิ่ง
- รีบเร่ง
- ซาน
- ซานฟรานซิสโก
- ประหยัด
- วิทยาศาสตร์
- นักวิทยาศาสตร์
- ค้นหา
- เลือก
- ชุด
- ชุด
- Share
- ที่ใช้ร่วมกัน
- เปลี่ยน
- ง่าย
- จำลอง
- ขนาด
- นอนหลับ
- So
- ซอฟต์แวร์
- แยก
- เริ่มต้น
- ข้อความที่เริ่ม
- startups
- การเก็บรักษา
- ร้านค้า
- กระแส
- สตรีม
- ที่พริ้ว
- สตูดิโอ
- เป้า
- เทคนิค
- ทดสอบ
- การทดสอบ
- ตลอด
- เวลา
- ในวันนี้
- เครื่องมือ
- การฝึกอบรม
- แปลง
- การแปลง
- us
- ใช้
- ผู้ใช้
- ประโยชน์
- ความคุ้มค่า
- พาหนะ
- Website
- สัปดาห์
- ว่า
- วิกิพีเดีย
- ภายใน
- การทำงาน
- โรงงาน