กำหนดค่าตำแหน่งเอาต์พุตการสืบค้น Amazon S3 แบบกำหนดเองและนโยบายการเก็บรักษาข้อมูลสำหรับแหล่งข้อมูล Amazon Athena ใน Amazon SageMaker Data Wrangler

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

Amazon SageMaker ข้อมูล Wrangler ลดเวลาที่ใช้ในการรวบรวมและเตรียมข้อมูลสำหรับการเรียนรู้ของเครื่อง (ML) จากสัปดาห์เหลือเป็นนาทีใน สตูดิโอ Amazon SageMakerสภาพแวดล้อมการพัฒนาแบบครบวงจร (IDE) ตัวแรกสำหรับ ML ด้วย Data Wrangler คุณสามารถลดความซับซ้อนของกระบวนการเตรียมข้อมูลและวิศวกรรมคุณลักษณะ และดำเนินการแต่ละขั้นตอนของเวิร์กโฟลว์การเตรียมข้อมูล ซึ่งรวมถึงการเลือกข้อมูล การล้าง การสำรวจ และการแสดงภาพ จากอินเทอร์เฟซภาพเดียว คุณสามารถนำเข้าข้อมูลจากหลายแหล่งข้อมูลเช่น บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3) อเมซอน Redshift, เกล็ดหิมะและ 26 แหล่งข้อมูลแบบสอบถามรวม สนับสนุนโดย อเมซอน อาเธน่า.

เริ่มตั้งแต่วันนี้ เมื่อนำเข้าข้อมูลจากแหล่งข้อมูล Athena คุณสามารถกำหนดค่าตำแหน่งเอาต์พุตการสืบค้น S3 และระยะเวลาการเก็บรักษาข้อมูลเพื่อนำเข้าข้อมูลใน Data Wrangler เพื่อควบคุมตำแหน่งและระยะเวลาที่ Athena จัดเก็บข้อมูลตัวกลาง ในโพสต์นี้ เราจะแนะนำคุณเกี่ยวกับคุณลักษณะใหม่นี้

ภาพรวมโซลูชัน

Athena เป็นบริการสืบค้นแบบโต้ตอบที่ทำให้ง่ายต่อการเรียกดู AWS กาว Data Catalog และวิเคราะห์ข้อมูลใน Amazon S3 และแหล่งข้อมูลการสืบค้นรวม 26 แหล่งโดยใช้ SQL มาตรฐาน เมื่อคุณใช้ Athena เพื่อนำเข้าข้อมูล คุณสามารถใช้ตำแหน่ง S3 เริ่มต้นของ Data Wrangler สำหรับเอาต์พุตคิวรี Athena หรือระบุเวิร์กกรุ๊ป Athena เพื่อบังคับใช้ตำแหน่ง S3 ที่กำหนดเองได้ ก่อนหน้านี้ คุณต้องใช้เวิร์กโฟลว์การล้างข้อมูลเพื่อลบข้อมูลตัวกลางนี้ หรือตั้งค่าการกำหนดค่าวงจรชีวิตของ S3 ด้วยตนเองเพื่อควบคุมต้นทุนการจัดเก็บข้อมูลและเป็นไปตามข้อกำหนดด้านความปลอดภัยข้อมูลขององค์กรของคุณ นี่เป็นค่าใช้จ่ายในการดำเนินงานขนาดใหญ่และไม่สามารถปรับขนาดได้

ขณะนี้ Data Wrangler รองรับตำแหน่ง S3 ที่กำหนดเองและระยะเวลาการเก็บรักษาข้อมูลสำหรับเอาต์พุตการสืบค้น Athena ของคุณ ด้วยคุณสมบัติใหม่นี้ คุณสามารถเปลี่ยนตำแหน่งเอาต์พุตการสืบค้น Athena เป็นบัคเก็ต S3 แบบกำหนดเองได้ ตอนนี้คุณมีนโยบายการเก็บรักษาข้อมูลเริ่มต้นเป็นเวลา 5 วันสำหรับผลลัพธ์การสืบค้น Athena และคุณสามารถเปลี่ยนสิ่งนี้เพื่อให้เป็นไปตามข้อกำหนดด้านความปลอดภัยข้อมูลขององค์กรของคุณ ตามระยะเวลาเก็บรักษา เอาต์พุตการสืบค้น Athena ในบัคเก็ต S3 จะถูกล้างโดยอัตโนมัติ หลังจากที่คุณนำเข้าข้อมูล คุณสามารถทำการวิเคราะห์ข้อมูลเชิงสำรวจบนชุดข้อมูลนี้ และจัดเก็บข้อมูลที่สะอาดกลับไปยัง Amazon S3

ไดอะแกรมต่อไปนี้แสดงสถาปัตยกรรมนี้

สำหรับกรณีการใช้งานของเรา เราใช้ชุดข้อมูลธนาคารตัวอย่างเพื่ออธิบายแนวทางแก้ไขปัญหา เวิร์กโฟลว์ประกอบด้วยขั้นตอนต่อไปนี้:

ดาวน์โหลด ชุดข้อมูลตัวอย่าง และอัปโหลดไปยังบัคเก็ต S3
ตั้งค่า AWS Glue ไม้เลื้อย เพื่อรวบรวมข้อมูลสคีมาและจัดเก็บสคีมาข้อมูลเมตาใน AWS Glue Data Catalog
ใช้ Athena เพื่อเข้าถึง Data Catalog เพื่อสืบค้นข้อมูลจากบัคเก็ต S3
สร้างโฟลว์ Data Wrangler ใหม่เพื่อเชื่อมต่อกับ Athena
เมื่อสร้างการเชื่อมต่อ ให้ตั้งค่าการเก็บข้อมูล TTL สำหรับชุดข้อมูล
ใช้การเชื่อมต่อนี้ในเวิร์กโฟลว์และจัดเก็บข้อมูลที่สะอาดในบัคเก็ต S3 อื่น

เพื่อความง่าย เราคิดว่าคุณได้ตั้งค่าสภาพแวดล้อม Athena แล้ว (ขั้นตอนที่ 1–3) เราให้รายละเอียดขั้นตอนที่ตามมาในโพสต์นี้

เบื้องต้น

หากต้องการตั้งค่าสภาพแวดล้อม Athena ให้ดูที่ คู่มือการใช้งาน สำหรับคำแนะนำทีละขั้นตอน และทำตามขั้นตอนที่ 1–3 ตามที่อธิบายไว้ในส่วนก่อนหน้า

นำเข้าข้อมูลของคุณจาก Athena ไปยัง Data Wrangler

ในการนำเข้าข้อมูลของคุณ ให้ทำตามขั้นตอนต่อไปนี้:

บนคอนโซล Studio ให้เลือก แหล่งข้อมูล ไอคอนในบานหน้าต่างนำทาง
Choose ดาต้าแรงเลอร์ บนเมนูแบบเลื่อนลง
Choose กระแสใหม่.
เกี่ยวกับ นำเข้า เลือกแท็บ อเมซอน อาเธน่า.

หน้ารายละเอียดจะเปิดขึ้นซึ่งคุณสามารถเชื่อมต่อกับ Athena และเขียนแบบสอบถาม SQL เพื่อนำเข้าจากฐานข้อมูล
ป้อนชื่อสำหรับการเชื่อมต่อของคุณ
แสดง การกำหนดค่าขั้นสูง.
เมื่อเชื่อมต่อกับ Athena Data Wrangler จะใช้ Amazon S3 เพื่อแบ่งระยะข้อมูลที่สืบค้น โดยค่าเริ่มต้น ข้อมูลนี้จะถูกจัดฉากที่ตำแหน่ง S3 s3://sagemaker-{region}-{account_id}/athena/ โดยมีระยะเวลาเก็บรักษา 5 วัน
สำหรับ ตำแหน่งผลลัพธ์การค้นหาของ Amazon S3ป้อนตำแหน่ง S3 ของคุณ
เลือก ระยะเวลาการเก็บรักษาข้อมูล และกำหนดระยะเวลาเก็บรักษาข้อมูล (สำหรับโพสต์นี้ 1 วัน)
หากคุณยกเลิกการเลือกตัวเลือกนี้ ข้อมูลจะคงอยู่อย่างไม่มีกำหนดเบื้องหลัง Data Wrangler แนบนโยบายการกำหนดค่าวงจรชีวิตของ S3 กับตำแหน่ง S3 นั้นเพื่อล้างข้อมูลโดยอัตโนมัติ ดูนโยบายตัวอย่างต่อไปนี้:
```
 "Rules": [
        {
            "Expiration": {
                "Days": 1
            },
            "ID": "sm-data-wrangler-retention-policy-xxxxxxx",
            "Filter": {
                "Prefix": "athena/test"
            },
            "Status": "Enabled"
        }
    ]
```
คุณต้องการ s3:GetLifecycleConfiguration และ s3:PutLifecycleConfiguration เพื่อให้บทบาทการดำเนินการ SageMaker ของคุณใช้นโยบายการกำหนดค่าวงจรชีวิตได้อย่างถูกต้อง หากไม่มีสิทธิ์เหล่านี้ คุณจะได้รับข้อความแสดงข้อผิดพลาดเมื่อคุณพยายามนำเข้าข้อมูล

ข้อความแสดงข้อผิดพลาดต่อไปนี้เป็นตัวอย่างของการไม่มี GetLifecycleConfiguration การอนุญาต

ข้อความแสดงข้อผิดพลาดต่อไปนี้เป็นตัวอย่างของการไม่มี PutLifecycleConfiguration การอนุญาต
หรือสำหรับ กลุ่มงานคุณสามารถระบุเวิร์กกรุ๊ป Athena ได้
เวิร์กกรุ๊ป Athena จะแยกผู้ใช้ ทีม แอปพลิเคชัน หรือปริมาณงานออกเป็นกลุ่มต่างๆ โดยแต่ละกลุ่มจะมีสิทธิ์และการตั้งค่าการกำหนดค่าของตัวเอง เมื่อคุณระบุเวิร์กกรุ๊ป Data Wrangler จะสืบทอดการตั้งค่าเวิร์กกรุ๊ปที่กำหนดไว้ใน Athena ตัวอย่างเช่น หากเวิร์กกรุ๊ปมีตำแหน่ง S3 ที่กำหนดไว้เพื่อจัดเก็บผลลัพธ์การสืบค้นและเปิดใช้งาน แทนที่ฝั่งไคลเอ็นต์ การตั้งค่า คุณไม่สามารถแก้ไขตำแหน่งผลลัพธ์การสืบค้น S3 ได้ตามค่าเริ่มต้น Data Wrangler จะบันทึกการเชื่อมต่อ Athena ให้คุณด้วย สิ่งนี้แสดงเป็นไทล์ Athena ใหม่ใน นำเข้า แท็บ คุณสามารถเปิดการเชื่อมต่อนั้นอีกครั้งเพื่อสอบถามและนำข้อมูลต่างๆ มาสู่ Data Wrangler
ยกเลิกการเลือก บันทึกการเชื่อมต่อ หากคุณไม่ต้องการบันทึกการเชื่อมต่อ
ในการกำหนดค่าการเชื่อมต่อ Athena ให้เลือก ไม่มี for การสุ่มตัวอย่าง เพื่อนำเข้าชุดข้อมูลทั้งหมด

สำหรับชุดข้อมูลขนาดใหญ่ Data Wrangler อนุญาตให้คุณนำเข้าชุดย่อยของข้อมูลเพื่อสร้างเวิร์กโฟลว์การแปลงของคุณ และประมวลผลเฉพาะชุดข้อมูลทั้งหมดเมื่อคุณพร้อม ซึ่งจะช่วยเร่งความเร็วรอบการทำซ้ำและประหยัดเวลาในการประมวลผลและต้นทุน หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับตัวเลือกการสุ่มตัวอย่างข้อมูลต่างๆ ที่มีจำหน่าย โปรดไปที่ ตอนนี้ Amazon SageMaker Data Wrangler รองรับการสุ่มตัวอย่างแบบสุ่มและการสุ่มตัวอย่างแบบแบ่งชั้น.
สำหรับ แคตตาล็อกข้อมูล¸ เลือก AwsDataCatalog.
สำหรับ ฐานข้อมูล, เลือกฐานข้อมูลของคุณ

Data Wrangler แสดงตารางที่มีอยู่ คุณสามารถเลือกแต่ละตารางเพื่อตรวจสอบสคีมาและดูตัวอย่างข้อมูลได้
ป้อนรหัสต่อไปนี้ในฟิลด์แบบสอบถาม:
```
Select *
From bank_additional_full
```
Choose วิ่ง เพื่อดูตัวอย่างข้อมูล
ถ้าดูดีไปหมดให้เลือก นำเข้า.
ป้อนชื่อชุดข้อมูลและเลือก เพิ่ม เพื่อนำเข้าข้อมูลไปยังพื้นที่ทำงาน Data Wrangler ของคุณ

วิเคราะห์และประมวลผลข้อมูลด้วย Data Wrangler

หลังจากที่คุณโหลดข้อมูลลงใน Data Wrangler คุณสามารถทำการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) และเตรียมข้อมูลสำหรับการเรียนรู้ของเครื่อง

เลือกเครื่องหมายบวกถัดจาก bank-data ชุดข้อมูลในโฟลว์ข้อมูล แล้วเลือก เพิ่มบทวิเคราะห์.
Data Wrangler ให้การวิเคราะห์ในตัว รวมถึงรายงานคุณภาพข้อมูลและข้อมูลเชิงลึก ความสัมพันธ์ของข้อมูล รายงานอคติก่อนการฝึกอบรม สรุปชุดข้อมูลของคุณ และการแสดงภาพ (เช่น ฮิสโตแกรมและพล็อตแบบกระจาย) นอกจากนี้ คุณสามารถสร้างการแสดงภาพแบบกำหนดเองของคุณเองได้
สำหรับ ประเภทการวิเคราะห์¸ เลือก รายงานคุณภาพข้อมูลและข้อมูลเชิงลึก.
สิ่งนี้จะสร้างการแสดงภาพโดยอัตโนมัติ วิเคราะห์เพื่อระบุปัญหาด้านคุณภาพของข้อมูล และคำแนะนำสำหรับการแปลงที่ถูกต้องที่จำเป็นสำหรับชุดข้อมูลของคุณ
สำหรับ คอลัมน์เป้าหมายเลือก Y.
เนื่องจากเป็นคำแถลงปัญหาการจำแนกประเภทสำหรับ ประเภทปัญหาให้เลือก การจัดหมวดหมู่.
Choose สร้างบัญชีตัวแทน.

Data Wrangler สร้างรายงานโดยละเอียดเกี่ยวกับชุดข้อมูลของคุณ คุณยังสามารถดาวน์โหลดรายงานไปยังเครื่องของคุณได้อีกด้วย
สำหรับการเตรียมข้อมูล ให้เลือกเครื่องหมายบวกข้างชุดข้อมูลธนาคารในโฟลว์ข้อมูล แล้วเลือก เพิ่มการแปลง.
Choose เพิ่มขั้นตอน เพื่อเริ่มสร้างการเปลี่ยนแปลงของคุณ

ในขณะที่เขียนบทความนี้ Data Wrangler มีการแปลงในตัวมากกว่า 300 รายการ คุณยังสามารถเขียนการเปลี่ยนแปลงของคุณเองโดยใช้ Pandas หรือ PySpark

ตอนนี้คุณสามารถเริ่มสร้างการเปลี่ยนแปลงและวิเคราะห์ตามความต้องการทางธุรกิจของคุณได้

ทำความสะอาด

เพื่อหลีกเลี่ยงค่าใช้จ่ายต่อเนื่อง ให้ลบทรัพยากร Data Wrangler โดยใช้ขั้นตอนด้านล่างเมื่อคุณทำเสร็จแล้ว

เลือกไอคอน Running Instances and Kernels
ภายใต้ RUNNING APPS ให้คลิกที่ไอคอนปิดเครื่องถัดจาก sagemaker-data-wrangler-1.0 app.
เลือก Shut down all เพื่อยืนยัน

สรุป

ในโพสต์นี้ เราได้ให้ภาพรวมของการกำหนดตำแหน่ง S3 ของคุณเองและเปิดใช้งานการกำหนดค่าวงจรชีวิต S3 สำหรับการนำเข้าข้อมูลจาก Athena ไปยัง Data Wrangler ด้วยคุณสมบัตินี้ คุณสามารถจัดเก็บข้อมูลตัวกลางในตำแหน่ง S3 ที่ปลอดภัย และลบสำเนาข้อมูลโดยอัตโนมัติหลังจากระยะเวลาเก็บรักษาเพื่อลดความเสี่ยงในการเข้าถึงข้อมูลโดยไม่ได้รับอนุญาต เราขอแนะนำให้คุณลองใช้คุณลักษณะใหม่นี้ สร้างสุข!

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ Athena และ SageMaker โปรดไปที่ คู่มือผู้ใช้ Athena และ เอกสารประกอบ Amazon SageMaker.

เกี่ยวกับผู้แต่ง

กำหนดค่าตำแหน่งเอาต์พุตการสืบค้น Amazon S3 แบบกำหนดเองและนโยบายการเก็บรักษาข้อมูลสำหรับแหล่งข้อมูล Amazon Athena ใน Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. มีนคชีสันดาราม ทันดาวารายัน เป็นผู้เชี่ยวชาญด้าน AI/ML อาวุโสของ AWS เขาช่วยบัญชีเชิงกลยุทธ์ไฮเทคในการเดินทางของ AI และ ML เขาหลงใหลเกี่ยวกับ AI ที่ขับเคลื่อนด้วยข้อมูลเป็นอย่างมาก

หริศ ราชโกปาลัน เป็นสถาปนิกโซลูชันอาวุโสที่ Amazon Web Services Harish ทำงานร่วมกับลูกค้าองค์กรและช่วยเหลือพวกเขาในการเดินทางบนคลาวด์

เจมส์ หวู่ เป็นสถาปนิกโซลูชันผู้เชี่ยวชาญด้าน AI/ML อาวุโสที่ AWS ช่วยลูกค้าออกแบบและสร้างโซลูชัน AI/ML งานของ James ครอบคลุมกรณีการใช้งาน ML ที่หลากหลาย โดยมีความสนใจหลักในด้านการมองเห็นคอมพิวเตอร์ การเรียนรู้เชิงลึก และการปรับขนาด ML ทั่วทั้งองค์กร ก่อนที่จะร่วมงานกับ AWS เจมส์เคยเป็นสถาปนิก นักพัฒนา และผู้นำด้านเทคโนโลยีมานานกว่า 10 ปี รวมถึง 6 ปีในด้านวิศวกรรมและ 4 ปีในอุตสาหกรรมการตลาดและการโฆษณา

ประทับเวลา: September 20, 2022September 21, 2022

ประทับเวลา: Mar 10, 2023

การปกป้องผู้บริโภคและการส่งเสริมนวัตกรรม – กฎระเบียบของ AI และการสร้างความไว้วางใจใน AI ที่มีความรับผิดชอบ

คลัสเตอร์ต้นทาง:

AWS Machine Learning AWS

โหนดต้นทาง: 1765573

ประทับเวลา: ธันวาคม 1, 2022

ขณะนี้ Amazon SageMaker JumpStart มีสมุดบันทึก Amazon Comprehend สำหรับการจัดหมวดหมู่แบบกำหนดเองและการตรวจจับเอนทิตีแบบกำหนดเอง PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ตอนนี้ Amazon SageMaker JumpStart มีสมุดบันทึก Amazon Comprehend สำหรับการจัดหมวดหมู่แบบกำหนดเองและการตรวจจับเอนทิตีแบบกำหนดเอง

คลัสเตอร์ต้นทาง:

AWS Machine Learning AWS

โหนดต้นทาง: 1771393

ประทับเวลา: ธันวาคม 12, 2022

Amazon Personalize เปิดตัวสูตรอาหารใหม่ที่รองรับแคตตาล็อกรายการขนาดใหญ่ขึ้นโดยมีเวลาแฝงที่ต่ำกว่า | อเมซอนเว็บเซอร์วิส

คลัสเตอร์ต้นทาง:

AWS Machine Learning AWS

โหนดต้นทาง: 1970709

ประทับเวลา: May 2, 2024

กำหนดค่าตำแหน่งเอาต์พุตการสืบค้น Amazon S3 และนโยบายการเก็บรักษาข้อมูลสำหรับแหล่งข้อมูล Amazon Athena ใน Amazon SageMaker Data Wrangler

เผยแพร่ซ้ำโดยเพลโต

ภาพรวมโซลูชัน

เบื้องต้น

นำเข้าข้อมูลของคุณจาก Athena ไปยัง Data Wrangler

วิเคราะห์และประมวลผลข้อมูลด้วย Data Wrangler

ทำความสะอาด

สรุป

เกี่ยวกับผู้แต่ง

เพิ่มเติมจาก AWS Machine Learning AWS

ฝึกฝนและปรับใช้โมเดล ML ในสภาพแวดล้อมมัลติคลาวด์โดยใช้ Amazon SageMaker | อเมซอนเว็บเซอร์วิส

เปิดใช้งานการฝึกอบรมที่รวดเร็วยิ่งขึ้นด้วย Amazon SageMaker data Parallel Library | อเมซอนเว็บเซอร์วิส

โลคัลไลซ์เนื้อหาเป็นหลายภาษาโดยใช้บริการการเรียนรู้ของเครื่องของ AWS

การปกป้องผู้บริโภคและการส่งเสริมนวัตกรรม – กฎระเบียบของ AI และการสร้างความไว้วางใจใน AI ที่มีความรับผิดชอบ

ตอนนี้ Amazon SageMaker JumpStart มีสมุดบันทึก Amazon Comprehend สำหรับการจัดหมวดหมู่แบบกำหนดเองและการตรวจจับเอนทิตีแบบกำหนดเอง

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้