Amazon SageMaker ข้อมูล Wrangler ลดเวลาที่ใช้ในการรวบรวมและเตรียมข้อมูลสำหรับการเรียนรู้ของเครื่อง (ML) จากสัปดาห์เหลือเป็นนาทีใน สตูดิโอ Amazon SageMakerสภาพแวดล้อมการพัฒนาแบบครบวงจร (IDE) ตัวแรกสำหรับ ML ด้วย Data Wrangler คุณสามารถลดความซับซ้อนของกระบวนการเตรียมข้อมูลและวิศวกรรมคุณลักษณะ และดำเนินการแต่ละขั้นตอนของเวิร์กโฟลว์การเตรียมข้อมูล ซึ่งรวมถึงการเลือกข้อมูล การล้าง การสำรวจ และการแสดงภาพ จากอินเทอร์เฟซภาพเดียว คุณสามารถนำเข้าข้อมูลจากหลายแหล่งข้อมูลเช่น บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3) อเมซอน Redshift, เกล็ดหิมะและ 26 แหล่งข้อมูลแบบสอบถามรวม สนับสนุนโดย อเมซอน อาเธน่า.
เริ่มตั้งแต่วันนี้ เมื่อนำเข้าข้อมูลจากแหล่งข้อมูล Athena คุณสามารถกำหนดค่าตำแหน่งเอาต์พุตการสืบค้น S3 และระยะเวลาการเก็บรักษาข้อมูลเพื่อนำเข้าข้อมูลใน Data Wrangler เพื่อควบคุมตำแหน่งและระยะเวลาที่ Athena จัดเก็บข้อมูลตัวกลาง ในโพสต์นี้ เราจะแนะนำคุณเกี่ยวกับคุณลักษณะใหม่นี้
ภาพรวมโซลูชัน
Athena เป็นบริการสืบค้นแบบโต้ตอบที่ทำให้ง่ายต่อการเรียกดู AWS กาว Data Catalog และวิเคราะห์ข้อมูลใน Amazon S3 และแหล่งข้อมูลการสืบค้นรวม 26 แหล่งโดยใช้ SQL มาตรฐาน เมื่อคุณใช้ Athena เพื่อนำเข้าข้อมูล คุณสามารถใช้ตำแหน่ง S3 เริ่มต้นของ Data Wrangler สำหรับเอาต์พุตคิวรี Athena หรือระบุเวิร์กกรุ๊ป Athena เพื่อบังคับใช้ตำแหน่ง S3 ที่กำหนดเองได้ ก่อนหน้านี้ คุณต้องใช้เวิร์กโฟลว์การล้างข้อมูลเพื่อลบข้อมูลตัวกลางนี้ หรือตั้งค่าการกำหนดค่าวงจรชีวิตของ S3 ด้วยตนเองเพื่อควบคุมต้นทุนการจัดเก็บข้อมูลและเป็นไปตามข้อกำหนดด้านความปลอดภัยข้อมูลขององค์กรของคุณ นี่เป็นค่าใช้จ่ายในการดำเนินงานขนาดใหญ่และไม่สามารถปรับขนาดได้
ขณะนี้ Data Wrangler รองรับตำแหน่ง S3 ที่กำหนดเองและระยะเวลาการเก็บรักษาข้อมูลสำหรับเอาต์พุตการสืบค้น Athena ของคุณ ด้วยคุณสมบัติใหม่นี้ คุณสามารถเปลี่ยนตำแหน่งเอาต์พุตการสืบค้น Athena เป็นบัคเก็ต S3 แบบกำหนดเองได้ ตอนนี้คุณมีนโยบายการเก็บรักษาข้อมูลเริ่มต้นเป็นเวลา 5 วันสำหรับผลลัพธ์การสืบค้น Athena และคุณสามารถเปลี่ยนสิ่งนี้เพื่อให้เป็นไปตามข้อกำหนดด้านความปลอดภัยข้อมูลขององค์กรของคุณ ตามระยะเวลาเก็บรักษา เอาต์พุตการสืบค้น Athena ในบัคเก็ต S3 จะถูกล้างโดยอัตโนมัติ หลังจากที่คุณนำเข้าข้อมูล คุณสามารถทำการวิเคราะห์ข้อมูลเชิงสำรวจบนชุดข้อมูลนี้ และจัดเก็บข้อมูลที่สะอาดกลับไปยัง Amazon S3
ไดอะแกรมต่อไปนี้แสดงสถาปัตยกรรมนี้
สำหรับกรณีการใช้งานของเรา เราใช้ชุดข้อมูลธนาคารตัวอย่างเพื่ออธิบายแนวทางแก้ไขปัญหา เวิร์กโฟลว์ประกอบด้วยขั้นตอนต่อไปนี้:
- ดาวน์โหลด ชุดข้อมูลตัวอย่าง และอัปโหลดไปยังบัคเก็ต S3
- ตั้งค่า AWS Glue ไม้เลื้อย เพื่อรวบรวมข้อมูลสคีมาและจัดเก็บสคีมาข้อมูลเมตาใน AWS Glue Data Catalog
- ใช้ Athena เพื่อเข้าถึง Data Catalog เพื่อสืบค้นข้อมูลจากบัคเก็ต S3
- สร้างโฟลว์ Data Wrangler ใหม่เพื่อเชื่อมต่อกับ Athena
- เมื่อสร้างการเชื่อมต่อ ให้ตั้งค่าการเก็บข้อมูล TTL สำหรับชุดข้อมูล
- ใช้การเชื่อมต่อนี้ในเวิร์กโฟลว์และจัดเก็บข้อมูลที่สะอาดในบัคเก็ต S3 อื่น
เพื่อความง่าย เราคิดว่าคุณได้ตั้งค่าสภาพแวดล้อม Athena แล้ว (ขั้นตอนที่ 1–3) เราให้รายละเอียดขั้นตอนที่ตามมาในโพสต์นี้
เบื้องต้น
หากต้องการตั้งค่าสภาพแวดล้อม Athena ให้ดูที่ คู่มือการใช้งาน สำหรับคำแนะนำทีละขั้นตอน และทำตามขั้นตอนที่ 1–3 ตามที่อธิบายไว้ในส่วนก่อนหน้า
นำเข้าข้อมูลของคุณจาก Athena ไปยัง Data Wrangler
ในการนำเข้าข้อมูลของคุณ ให้ทำตามขั้นตอนต่อไปนี้:
- บนคอนโซล Studio ให้เลือก แหล่งข้อมูล ไอคอนในบานหน้าต่างนำทาง
- Choose ดาต้าแรงเลอร์ บนเมนูแบบเลื่อนลง
- Choose กระแสใหม่.
- เกี่ยวกับ นำเข้า เลือกแท็บ อเมซอน อาเธน่า.
หน้ารายละเอียดจะเปิดขึ้นซึ่งคุณสามารถเชื่อมต่อกับ Athena และเขียนแบบสอบถาม SQL เพื่อนำเข้าจากฐานข้อมูล - ป้อนชื่อสำหรับการเชื่อมต่อของคุณ
- แสดง การกำหนดค่าขั้นสูง.
เมื่อเชื่อมต่อกับ Athena Data Wrangler จะใช้ Amazon S3 เพื่อแบ่งระยะข้อมูลที่สืบค้น โดยค่าเริ่มต้น ข้อมูลนี้จะถูกจัดฉากที่ตำแหน่ง S3s3://sagemaker-{region}-{account_id}/athena/
โดยมีระยะเวลาเก็บรักษา 5 วัน - สำหรับ ตำแหน่งผลลัพธ์การค้นหาของ Amazon S3ป้อนตำแหน่ง S3 ของคุณ
- เลือก ระยะเวลาการเก็บรักษาข้อมูล และกำหนดระยะเวลาเก็บรักษาข้อมูล (สำหรับโพสต์นี้ 1 วัน)
หากคุณยกเลิกการเลือกตัวเลือกนี้ ข้อมูลจะคงอยู่อย่างไม่มีกำหนดเบื้องหลัง Data Wrangler แนบนโยบายการกำหนดค่าวงจรชีวิตของ S3 กับตำแหน่ง S3 นั้นเพื่อล้างข้อมูลโดยอัตโนมัติ ดูนโยบายตัวอย่างต่อไปนี้:คุณต้องการ
s3:GetLifecycleConfiguration
และs3:PutLifecycleConfiguration
เพื่อให้บทบาทการดำเนินการ SageMaker ของคุณใช้นโยบายการกำหนดค่าวงจรชีวิตได้อย่างถูกต้อง หากไม่มีสิทธิ์เหล่านี้ คุณจะได้รับข้อความแสดงข้อผิดพลาดเมื่อคุณพยายามนำเข้าข้อมูลข้อความแสดงข้อผิดพลาดต่อไปนี้เป็นตัวอย่างของการไม่มี
GetLifecycleConfiguration
การอนุญาตข้อความแสดงข้อผิดพลาดต่อไปนี้เป็นตัวอย่างของการไม่มี
PutLifecycleConfiguration
การอนุญาต - หรือสำหรับ กลุ่มงานคุณสามารถระบุเวิร์กกรุ๊ป Athena ได้
เวิร์กกรุ๊ป Athena จะแยกผู้ใช้ ทีม แอปพลิเคชัน หรือปริมาณงานออกเป็นกลุ่มต่างๆ โดยแต่ละกลุ่มจะมีสิทธิ์และการตั้งค่าการกำหนดค่าของตัวเอง เมื่อคุณระบุเวิร์กกรุ๊ป Data Wrangler จะสืบทอดการตั้งค่าเวิร์กกรุ๊ปที่กำหนดไว้ใน Athena ตัวอย่างเช่น หากเวิร์กกรุ๊ปมีตำแหน่ง S3 ที่กำหนดไว้เพื่อจัดเก็บผลลัพธ์การสืบค้นและเปิดใช้งาน แทนที่ฝั่งไคลเอ็นต์ การตั้งค่า คุณไม่สามารถแก้ไขตำแหน่งผลลัพธ์การสืบค้น S3 ได้ตามค่าเริ่มต้น Data Wrangler จะบันทึกการเชื่อมต่อ Athena ให้คุณด้วย สิ่งนี้แสดงเป็นไทล์ Athena ใหม่ใน นำเข้า แท็บ คุณสามารถเปิดการเชื่อมต่อนั้นอีกครั้งเพื่อสอบถามและนำข้อมูลต่างๆ มาสู่ Data Wrangler - ยกเลิกการเลือก บันทึกการเชื่อมต่อ หากคุณไม่ต้องการบันทึกการเชื่อมต่อ
- ในการกำหนดค่าการเชื่อมต่อ Athena ให้เลือก ไม่มี for
การสุ่มตัวอย่าง เพื่อนำเข้าชุดข้อมูลทั้งหมด
สำหรับชุดข้อมูลขนาดใหญ่ Data Wrangler อนุญาตให้คุณนำเข้าชุดย่อยของข้อมูลเพื่อสร้างเวิร์กโฟลว์การแปลงของคุณ และประมวลผลเฉพาะชุดข้อมูลทั้งหมดเมื่อคุณพร้อม ซึ่งจะช่วยเร่งความเร็วรอบการทำซ้ำและประหยัดเวลาในการประมวลผลและต้นทุน หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับตัวเลือกการสุ่มตัวอย่างข้อมูลต่างๆ ที่มีจำหน่าย โปรดไปที่ ตอนนี้ Amazon SageMaker Data Wrangler รองรับการสุ่มตัวอย่างแบบสุ่มและการสุ่มตัวอย่างแบบแบ่งชั้น. - สำหรับ แคตตาล็อกข้อมูล¸ เลือก AwsDataCatalog.
- สำหรับ ฐานข้อมูล, เลือกฐานข้อมูลของคุณ
Data Wrangler แสดงตารางที่มีอยู่ คุณสามารถเลือกแต่ละตารางเพื่อตรวจสอบสคีมาและดูตัวอย่างข้อมูลได้ - ป้อนรหัสต่อไปนี้ในฟิลด์แบบสอบถาม:
- Choose วิ่ง เพื่อดูตัวอย่างข้อมูล
- ถ้าดูดีไปหมดให้เลือก นำเข้า.
- ป้อนชื่อชุดข้อมูลและเลือก เพิ่ม เพื่อนำเข้าข้อมูลไปยังพื้นที่ทำงาน Data Wrangler ของคุณ
วิเคราะห์และประมวลผลข้อมูลด้วย Data Wrangler
หลังจากที่คุณโหลดข้อมูลลงใน Data Wrangler คุณสามารถทำการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) และเตรียมข้อมูลสำหรับการเรียนรู้ของเครื่อง
- เลือกเครื่องหมายบวกถัดจาก
bank-data
ชุดข้อมูลในโฟลว์ข้อมูล แล้วเลือก เพิ่มบทวิเคราะห์.
Data Wrangler ให้การวิเคราะห์ในตัว รวมถึงรายงานคุณภาพข้อมูลและข้อมูลเชิงลึก ความสัมพันธ์ของข้อมูล รายงานอคติก่อนการฝึกอบรม สรุปชุดข้อมูลของคุณ และการแสดงภาพ (เช่น ฮิสโตแกรมและพล็อตแบบกระจาย) นอกจากนี้ คุณสามารถสร้างการแสดงภาพแบบกำหนดเองของคุณเองได้ - สำหรับ ประเภทการวิเคราะห์¸ เลือก รายงานคุณภาพข้อมูลและข้อมูลเชิงลึก.
สิ่งนี้จะสร้างการแสดงภาพโดยอัตโนมัติ วิเคราะห์เพื่อระบุปัญหาด้านคุณภาพของข้อมูล และคำแนะนำสำหรับการแปลงที่ถูกต้องที่จำเป็นสำหรับชุดข้อมูลของคุณ - สำหรับ คอลัมน์เป้าหมายเลือก Y.
- เนื่องจากเป็นคำแถลงปัญหาการจำแนกประเภทสำหรับ ประเภทปัญหาให้เลือก การจัดหมวดหมู่.
- Choose สร้างบัญชีตัวแทน.
Data Wrangler สร้างรายงานโดยละเอียดเกี่ยวกับชุดข้อมูลของคุณ คุณยังสามารถดาวน์โหลดรายงานไปยังเครื่องของคุณได้อีกด้วย - สำหรับการเตรียมข้อมูล ให้เลือกเครื่องหมายบวกข้างชุดข้อมูลธนาคารในโฟลว์ข้อมูล แล้วเลือก เพิ่มการแปลง.
- Choose เพิ่มขั้นตอน เพื่อเริ่มสร้างการเปลี่ยนแปลงของคุณ
ในขณะที่เขียนบทความนี้ Data Wrangler มีการแปลงในตัวมากกว่า 300 รายการ คุณยังสามารถเขียนการเปลี่ยนแปลงของคุณเองโดยใช้ Pandas หรือ PySpark
ตอนนี้คุณสามารถเริ่มสร้างการเปลี่ยนแปลงและวิเคราะห์ตามความต้องการทางธุรกิจของคุณได้
ทำความสะอาด
เพื่อหลีกเลี่ยงค่าใช้จ่ายต่อเนื่อง ให้ลบทรัพยากร Data Wrangler โดยใช้ขั้นตอนด้านล่างเมื่อคุณทำเสร็จแล้ว
- เลือกไอคอน Running Instances and Kernels
- ภายใต้ RUNNING APPS ให้คลิกที่ไอคอนปิดเครื่องถัดจาก
sagemaker-data-wrangler-1.0 app
. - เลือก Shut down all เพื่อยืนยัน
สรุป
ในโพสต์นี้ เราได้ให้ภาพรวมของการกำหนดตำแหน่ง S3 ของคุณเองและเปิดใช้งานการกำหนดค่าวงจรชีวิต S3 สำหรับการนำเข้าข้อมูลจาก Athena ไปยัง Data Wrangler ด้วยคุณสมบัตินี้ คุณสามารถจัดเก็บข้อมูลตัวกลางในตำแหน่ง S3 ที่ปลอดภัย และลบสำเนาข้อมูลโดยอัตโนมัติหลังจากระยะเวลาเก็บรักษาเพื่อลดความเสี่ยงในการเข้าถึงข้อมูลโดยไม่ได้รับอนุญาต เราขอแนะนำให้คุณลองใช้คุณลักษณะใหม่นี้ สร้างสุข!
หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ Athena และ SageMaker โปรดไปที่ คู่มือผู้ใช้ Athena และ เอกสารประกอบ Amazon SageMaker.
เกี่ยวกับผู้แต่ง
มีนคชีสันดาราม ทันดาวารายัน เป็นผู้เชี่ยวชาญด้าน AI/ML อาวุโสของ AWS เขาช่วยบัญชีเชิงกลยุทธ์ไฮเทคในการเดินทางของ AI และ ML เขาหลงใหลเกี่ยวกับ AI ที่ขับเคลื่อนด้วยข้อมูลเป็นอย่างมาก
หริศ ราชโกปาลัน เป็นสถาปนิกโซลูชันอาวุโสที่ Amazon Web Services Harish ทำงานร่วมกับลูกค้าองค์กรและช่วยเหลือพวกเขาในการเดินทางบนคลาวด์
เจมส์ หวู่ เป็นสถาปนิกโซลูชันผู้เชี่ยวชาญด้าน AI/ML อาวุโสที่ AWS ช่วยลูกค้าออกแบบและสร้างโซลูชัน AI/ML งานของ James ครอบคลุมกรณีการใช้งาน ML ที่หลากหลาย โดยมีความสนใจหลักในด้านการมองเห็นคอมพิวเตอร์ การเรียนรู้เชิงลึก และการปรับขนาด ML ทั่วทั้งองค์กร ก่อนที่จะร่วมงานกับ AWS เจมส์เคยเป็นสถาปนิก นักพัฒนา และผู้นำด้านเทคโนโลยีมานานกว่า 10 ปี รวมถึง 6 ปีในด้านวิศวกรรมและ 4 ปีในอุตสาหกรรมการตลาดและการโฆษณา
- AI
- ไอ อาร์ต
- เครื่องกำเนิดไออาร์ท
- หุ่นยนต์ไอ
- อเมซอน อาเธน่า
- อเมซอน SageMaker
- Amazon SageMaker ข้อมูล Wrangler
- Amazon Simple Storage Service (S3)
- ปัญญาประดิษฐ์
- ใบรับรองปัญญาประดิษฐ์
- ปัญญาประดิษฐ์ในการธนาคาร
- หุ่นยนต์ปัญญาประดิษฐ์
- หุ่นยนต์ปัญญาประดิษฐ์
- ซอฟต์แวร์ปัญญาประดิษฐ์
- AWS Machine Learning AWS
- blockchain
- การประชุม blockchain ai
- เหรียญอัจฉริยะ
- ปัญญาประดิษฐ์สนทนา
- การประชุม crypto ai
- ดัล-อี
- การเรียนรู้ลึก ๆ
- google ai
- เรียนรู้เครื่อง
- เพลโต
- เพลโตไอ
- เพลโตดาต้าอินเทลลิเจนซ์
- เกมเพลโต
- เพลโตดาต้า
- เพลโตเกม
- ขนาดไอ
- วากยสัมพันธ์
- ลมทะเล