เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler

ทีมวิทยาศาสตร์ข้อมูลและวิศวกรรมข้อมูลใช้เวลาส่วนใหญ่ของพวกเขาในขั้นตอนการเตรียมข้อมูลของวงจรชีวิตการเรียนรู้ของเครื่อง (ML) ที่ดำเนินการเลือกข้อมูล ทำความสะอาด และขั้นตอนการแปลงข้อมูล เป็นขั้นตอนที่สำคัญและจำเป็นของเวิร์กโฟลว์ ML ใดๆ เพื่อสร้างข้อมูลเชิงลึกและการคาดการณ์ที่มีความหมาย เนื่องจากข้อมูลที่ไม่ดีหรือคุณภาพต่ำจะลดความเกี่ยวข้องของข้อมูลเชิงลึกที่ได้รับอย่างมาก

ตามธรรมเนียมแล้ว ทีมวิศวกรรมข้อมูลมีหน้าที่รับผิดชอบในการนำเข้า การรวมบัญชี และการแปลงข้อมูลดิบสำหรับการบริโภคปลายน้ำ นักวิทยาศาสตร์ข้อมูลมักจะต้องดำเนินการเพิ่มเติมกับข้อมูลสำหรับกรณีการใช้งาน ML เฉพาะโดเมน เช่น ภาษาธรรมชาติและอนุกรมเวลา ตัวอย่างเช่น อัลกอริธึม ML บางอย่างอาจอ่อนไหวต่อค่าที่หายไป คุณลักษณะกระจัดกระจาย หรือค่าผิดปกติ และจำเป็นต้องได้รับการพิจารณาเป็นพิเศษ แม้ในกรณีที่ชุดข้อมูลอยู่ในสภาพดี นักวิทยาศาสตร์ด้านข้อมูลอาจต้องการเปลี่ยนรูปแบบการกระจายคุณลักษณะหรือสร้างคุณลักษณะใหม่เพื่อเพิ่มข้อมูลเชิงลึกที่ได้รับจากแบบจำลองให้มากที่สุด เพื่อให้บรรลุวัตถุประสงค์เหล่านี้ นักวิทยาศาสตร์ข้อมูลต้องพึ่งพาทีมวิศวกรรมข้อมูลเพื่อรองรับการเปลี่ยนแปลงที่ร้องขอ ส่งผลให้เกิดการพึ่งพาและความล่าช้าในกระบวนการพัฒนาแบบจำลอง อีกทางหนึ่ง ทีมวิทยาการข้อมูลอาจเลือกดำเนินการเตรียมข้อมูลและวิศวกรรมคุณลักษณะภายในโดยใช้กระบวนทัศน์การเขียนโปรแกรมต่างๆ อย่างไรก็ตาม มันต้องใช้เวลาและความพยายามอย่างมากในการติดตั้งและกำหนดค่าไลบรารีและเฟรมเวิร์ก ซึ่งไม่เหมาะเพราะเวลานั้นสามารถใช้เวลาปรับปรุงประสิทธิภาพของโมเดลให้เหมาะสมได้ดีขึ้น

Amazon SageMaker ข้อมูล Wrangler ลดความยุ่งยากในการเตรียมข้อมูลและกระบวนการวิศวกรรมคุณลักษณะ โดยลดเวลาที่ใช้ในการรวบรวมและเตรียมข้อมูลสำหรับ ML จากสัปดาห์เหลือเป็นนาที โดยให้อินเทอร์เฟซแบบภาพเดียวสำหรับนักวิทยาศาสตร์ข้อมูลเพื่อเลือก ล้าง และสำรวจชุดข้อมูลของตน Data Wrangler นำเสนอการแปลงข้อมูลในตัวมากกว่า 300 แบบเพื่อช่วยทำให้เป็นมาตรฐาน แปลง และรวมคุณสมบัติต่างๆ โดยไม่ต้องเขียนโค้ดใดๆ คุณสามารถนำเข้าข้อมูลจากแหล่งข้อมูลได้หลายแหล่ง เช่น บริการ Amazon Simple Storage (Amazon S3) อเมซอน อาเธน่า, อเมซอน Redshiftและ เกล็ดหิมะ. คุณยังสามารถใช้ อิฐข้อมูล เป็นแหล่งข้อมูลใน Data Wrangler เพื่อเตรียมข้อมูลสำหรับ ML อย่างง่ายดาย

แพลตฟอร์ม Databricks Lakehouse ผสมผสานองค์ประกอบที่ดีที่สุดของ Data Lake และคลังข้อมูล เพื่อส่งมอบความน่าเชื่อถือ การกำกับดูแลที่เข้มงวด และประสิทธิภาพของคลังข้อมูลด้วยการเปิดกว้าง ความยืดหยุ่น และการสนับสนุนการเรียนรู้ด้วยเครื่องของ Data Lake ด้วย Databricks เป็นแหล่งข้อมูลสำหรับ Data Wrangler คุณสามารถเชื่อมต่อกับ Databricks ได้อย่างรวดเร็วและง่ายดาย สืบค้นข้อมูลแบบโต้ตอบที่จัดเก็บไว้ใน Databricks โดยใช้ SQL และแสดงตัวอย่างข้อมูลก่อนนำเข้า นอกจากนี้ คุณสามารถรวมข้อมูลของคุณใน Databricks ด้วยข้อมูลที่จัดเก็บไว้ใน Amazon S3 และข้อมูลที่สืบค้นผ่าน Amazon Athena, Amazon Redshift และ Snowflake เพื่อสร้างชุดข้อมูลที่เหมาะสมสำหรับกรณีการใช้งาน ML ของคุณ

ในโพสต์นี้ เราแปลงชุดข้อมูล Lending Club Loan โดยใช้ Amazon SageMaker Data Wrangler เพื่อใช้ในการฝึกอบรมโมเดล ML

ภาพรวมโซลูชัน

ไดอะแกรมต่อไปนี้แสดงสถาปัตยกรรมโซลูชันของเรา

เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ชุดข้อมูล Lending Club Loan ประกอบด้วยข้อมูลสินเชื่อที่สมบูรณ์สำหรับสินเชื่อทั้งหมดที่ออกในปี 2007-2011 รวมถึงสถานะเงินกู้ปัจจุบันและข้อมูลการชำระเงินล่าสุด มี 39,717 แถว 22 คอลัมน์คุณลักษณะและ 3 ป้ายชื่อเป้าหมาย

ในการแปลงข้อมูลของเราโดยใช้ Data Wrangler เราทำตามขั้นตอนระดับสูงต่อไปนี้:

  1. ดาวน์โหลดและแยกชุดข้อมูล
  2. สร้างโฟลว์ Data Wrangler
  3. นำเข้าข้อมูลจาก Databricks ไปยัง Data Wrangler
  4. นำเข้าข้อมูลจาก Amazon S3 ไปยัง Data Wrangler
  5. เข้าร่วมข้อมูล
  6. ใช้การแปลง
  7. ส่งออกชุดข้อมูล

เบื้องต้น

โพสต์ถือว่าคุณมีคลัสเตอร์ Databricks ที่ทำงานอยู่ หากคลัสเตอร์ของคุณทำงานบน AWS ให้ตรวจสอบว่าคุณได้กำหนดค่าต่อไปนี้:

การตั้งค่า Databricks

ติดตาม เข้าถึงบัคเก็ต S3 ได้อย่างปลอดภัยโดยใช้โปรไฟล์อินสแตนซ์ ตามความต้องการ AWS Identity และการจัดการการเข้าถึง บทบาท (IAM) นโยบายบัคเก็ต S3 และการกำหนดค่าคลัสเตอร์ Databricks ตรวจสอบให้แน่ใจว่าได้กำหนดค่าคลัสเตอร์ Databricks ด้วยค่าที่เหมาะสม Instance Profileเลือกภายใต้ตัวเลือกขั้นสูง เพื่อเข้าถึงบัคเก็ต S3 ที่ต้องการ

เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

หลังจากที่คลัสเตอร์ Databricks เริ่มทำงานและต้องเข้าถึง Amazon S3 แล้ว คุณสามารถดึงข้อมูล JDBC URL จากคลัสเตอร์ Databricks ของคุณที่จะใช้โดย Data Wrangler เพื่อเชื่อมต่อ

ดึง JDBC URL

ในการดึง JDBC URL ให้ทำตามขั้นตอนต่อไปนี้:

  1. ใน Databricks ให้ไปที่ UI ของคลัสเตอร์
  2. เลือกคลัสเตอร์ของคุณ
  3. เกี่ยวกับ องค์ประกอบ เลือกแท็บ ตัวเลือกขั้นสูง.
  4. ภายใต้ ตัวเลือกขั้นสูง, เลือก เจดีบีซี/โอดีบีซี แถบ
  5. คัดลอก JDBC URL
    เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

อย่าลืมเปลี่ยนการเข้าถึงส่วนบุคคลของคุณ โทเค็น ใน URL

การตั้งค่า Wrangler ข้อมูล

ขั้นตอนนี้ถือว่าคุณมีสิทธิ์เข้าถึง Amazon SageMaker ซึ่งเป็นอินสแตนซ์ของ สตูดิโอ Amazon SageMakerและผู้ใช้ Studio

ในการอนุญาตการเข้าถึงการเชื่อมต่อ Databricks JDBC จาก Data Wrangler ผู้ใช้ Studio ต้องได้รับอนุญาตดังต่อไปนี้:

  • secretsmanager:PutResourcePolicy

ทำตามขั้นตอนด้านล่างเพื่ออัปเดตบทบาทการดำเนินการ IAM ที่กำหนดให้กับผู้ใช้ Studio โดยมีสิทธิ์ด้านบน ในฐานะผู้ใช้ที่เป็นผู้ดูแลระบบ IAM

  1. บนคอนโซล IAM ให้เลือก บทบาท ในบานหน้าต่างนำทาง
  2. เลือกบทบาทที่กำหนดให้กับผู้ใช้ Studio ของคุณ
  3. Choose เพิ่มสิทธิ์.
  4. Choose สร้างนโยบายอินไลน์.
  5. สำหรับบริการ เลือก ผู้จัดการความลับ.
  6. On สถานะเลือก ระดับการเข้าถึง.
  7. Choose การจัดการสิทธิ์.
  8. Choose ใส่นโยบายทรัพยากร.
  9. สำหรับ แหล่งข้อมูลเลือก โดยเฉพาะ และเลือก อะไรก็ได้ในบัญชีนี้.
    เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ดาวน์โหลดและแยกชุดข้อมูล

คุณสามารถเริ่มต้นด้วย กำลังดาวน์โหลดชุดข้อมูล. เพื่อจุดประสงค์ในการสาธิต เราแยกชุดข้อมูลโดยคัดลอกคอลัมน์คุณลักษณะ id, emp_title, emp_length, home_ownerและ annual_inc เพื่อสร้างวินาที เงินกู้_2.csv ไฟล์. เราลบคอลัมน์ดังกล่าวออกจากไฟล์เงินกู้เดิมยกเว้น id คอลัมน์และเปลี่ยนชื่อไฟล์ต้นฉบับเป็น เงินกู้_1.csv. อัปโหลด เงินกู้_1.csv ไฟล์ไปที่ อิฐข้อมูล เพื่อสร้างตาราง loans_1 และ เงินกู้_2.csv ในถัง S3

สร้างโฟลว์ Data Wrangler

สำหรับข้อมูลเกี่ยวกับข้อกำหนดเบื้องต้นของ Data Wrangler โปรดดูที่ เริ่มต้นใช้งาน Data Wrangler.

เริ่มต้นด้วยการสร้างโฟลว์ข้อมูลใหม่

  1. บนคอนโซล Studio บน เนื้อไม่มีมัน เมนูให้เลือก ใหม่.
  2. Choose การไหลของข้อมูล Wrangler.
  3. เปลี่ยนชื่อโฟลว์ตามต้องการ
    เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

หรือคุณสามารถสร้างโฟลว์ข้อมูลใหม่จาก Launcher ได้

  • บนคอนโซล Studio ให้เลือก สตูดิโอ Amazon SageMaker ในบานหน้าต่างนำทาง
  • Choose การไหลของข้อมูลใหม่.
    เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

การสร้างโฟลว์ใหม่อาจใช้เวลาสักครู่จึงจะเสร็จสมบูรณ์ หลังจากสร้างโฟลว์แล้ว คุณจะเห็น นำเข้าข้อมูล หน้า.

นำเข้าข้อมูลจาก Databricks ไปยัง Data Wrangler

ต่อไป เราตั้งค่า Databricks (JDBC) เป็นแหล่งข้อมูลใน Data Wrangler ในการนำเข้าข้อมูลจาก Databricks ก่อนอื่นเราต้องเพิ่ม Databricks เป็นแหล่งข้อมูล

  1. เกี่ยวกับ นำเข้าข้อมูล แท็บของโฟลว์ Data Wrangler ของคุณ เลือก เพิ่มแหล่งข้อมูล.
  2. บนเมนูแบบเลื่อนลง ให้เลือก ดาต้าบริกส์ (JDBC).
    เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

เกี่ยวกับ นำเข้าข้อมูลจาก Databricks หน้า คุณป้อนรายละเอียดคลัสเตอร์ของคุณ

  1. สำหรับ ชื่อชุดข้อมูลป้อนชื่อที่คุณต้องการใช้ในไฟล์โฟลว์
  2. สำหรับ คนขับรถ, เลือกคนขับ com.simba.spark.jdbc.Driver.
  3. สำหรับ URL ของ JDBCให้ป้อน URL ของคลัสเตอร์ Databricks ที่ได้รับก่อนหน้านี้

URL ควรมีลักษณะคล้ายกับรูปแบบต่อไปนี้ jdbc:spark://<serve- hostname>:443/default;transportMode=http;ssl=1;httpPath=<http- path>;AuthMech=3;UID=token;PWD=<personal-access-token>.

  1. ในตัวแก้ไขแบบสอบถาม SQL ระบุคำสั่ง SQL SELECT ต่อไปนี้:
    select * from loans_1

หากคุณเลือกชื่อตารางอื่นขณะอัปโหลดข้อมูลไปยัง Databricks ให้แทนที่ Loan_1 ในการสืบค้น SQL ด้านบนตามลำดับ

ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร แบบสอบถาม SQL ใน Data Wrangler คุณสามารถสอบถามตารางใดๆ ที่เชื่อมต่อกับฐานข้อมูล JDBC Databricks ที่เลือกไว้ล่วงหน้า เปิดใช้งานการสุ่มตัวอย่าง การตั้งค่าจะดึงข้อมูล 50,000 แถวแรกของชุดข้อมูลของคุณโดยค่าเริ่มต้น ขึ้นอยู่กับขนาดของชุดข้อมูล ยกเลิกการเลือก เปิดใช้งานการสุ่มตัวอย่าง อาจส่งผลให้ใช้เวลาในการนำเข้านานขึ้น

  1. Choose วิ่ง.

การเรียกใช้คิวรีจะแสดงตัวอย่างชุดข้อมูล Databricks ของคุณโดยตรงใน Data Wrangler
เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

  1. Choose นำเข้า.
    เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

Data Wrangler ให้ความยืดหยุ่นในการตั้งค่าการเชื่อมต่อหลาย ๆ การเชื่อมต่อพร้อมกันกับคลัสเตอร์ Databricks หนึ่งคลัสเตอร์หรือหลายคลัสเตอร์ หากจำเป็น ทำให้สามารถวิเคราะห์และเตรียมชุดข้อมูลที่รวมกันได้

นำเข้าข้อมูลจาก Amazon S3 ไปยัง Data Wrangler

ต่อไปมานำเข้า loan_2.csv ไฟล์จาก Amazon S3

  1. บนแท็บ นำเข้า เลือก Amazon S3 เป็นแหล่งข้อมูล
    เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  2. นำทางไปยังบัคเก็ต S3 สำหรับ loan_2.csv ไฟล์

เมื่อคุณเลือกไฟล์ CSV คุณสามารถดูตัวอย่างข้อมูลได้

  1. ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร รายละเอียด บานหน้าต่างเลือก การกำหนดค่าขั้นสูง เพื่อให้แน่ใจว่า เปิดใช้งานการสุ่มตัวอย่าง ถูกเลือกและ จุลภาค ถูกเลือกสำหรับ คั่น.
  2. Choose นำเข้า.
    เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

หลังจาก loans_2.csv นำเข้าชุดข้อมูลเรียบร้อยแล้ว อินเทอร์เฟซการไหลของข้อมูลจะแสดงทั้งแหล่งข้อมูล Databricks JDBC และ Amazon S3

เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

เข้าร่วมดาต้า

ตอนนี้เราได้นำเข้าข้อมูลจาก Databricks และ Amazon S3 แล้ว มารวมชุดข้อมูลโดยใช้คอลัมน์ตัวระบุที่ไม่ซ้ำทั่วไปกัน

  1. เกี่ยวกับ การไหลของข้อมูล แท็บสำหรับ ประเภทข้อมูล, เลือกเครื่องหมายบวกสำหรับ loans_1.
  2. Choose ร่วมเป็นผู้ขายกับเราที่.
    เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  3. เลือก loans_2.csv ไฟล์เป็น ขวา ชุดข้อมูล
  4. Choose กำหนดค่า เพื่อกำหนดเกณฑ์การเข้าร่วม
    เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  5. สำหรับ Nameป้อนชื่อสำหรับการเข้าร่วม
  6. สำหรับ ประเภทการเข้าร่วมเลือก ภายใน สำหรับโพสต์นี้
  7. เลือก id คอลัมน์ที่จะเข้าร่วม
  8. Choose ใช้ เพื่อดูตัวอย่างชุดข้อมูลที่เข้าร่วม
  9. Choose เพิ่ม เพื่อเพิ่มเข้าไปในกระแสข้อมูล
    เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ใช้การแปลงร่าง

Data Wrangler มาพร้อมกับการแปลงในตัวมากกว่า 300 แบบ ซึ่งไม่จำเป็นต้องมีการเข้ารหัส ลองใช้การแปลงในตัวเพื่อเตรียมชุดข้อมูล

วางคอลัมน์

ก่อนอื่นเราวางคอลัมน์ ID ที่ซ้ำซ้อน

  1. บนโหนดที่เข้าร่วม ให้เลือกเครื่องหมายบวก
  2. Choose เพิ่มการแปลง.
    เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  3. ภายใต้ แปลงร่าง เลือก + เพิ่มขั้นตอน.
  4. Choose จัดการคอลัมน์.
  5. สำหรับ แปลงเลือก วางคอลัมน์.
  6. สำหรับ คอลัมน์ที่จะปล่อย, เลือกคอลัมน์ id_0.
  7. Choose ดูตัวอย่าง.
    เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  8. Choose เพิ่ม.

รูปแบบสตริง

ลองใช้การจัดรูปแบบสตริงเพื่อลบสัญลักษณ์เปอร์เซ็นต์จาก int_rate และ revol_util คอลัมน์

  1. เกี่ยวกับ ข้อมูล แท็บ ภายใต้ แปลงเลือก + เพิ่มขั้นตอน.
    เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  2. Choose รูปแบบสตริง.
  3. สำหรับ แปลงเลือก ตัดอักขระจากด้านขวา.

Data Wrangler ช่วยให้คุณสามารถใช้การแปลงที่คุณเลือกกับหลายคอลัมน์พร้อมกันได้

  1. สำหรับ คอลัมน์อินพุตเลือก int_rate และ revol_util.
  2. สำหรับ ตัวละครที่จะลบป้อน %.
  3. Choose ดูตัวอย่าง.
    เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  4. Choose เพิ่ม.

นำเสนอข้อความ

มาสร้างภาพเวกเตอร์กัน verification_statusคอลัมน์คุณลักษณะข้อความ เราแปลงคอลัมน์ข้อความเป็นเวกเตอร์ความถี่ของเทอม – ความถี่เอกสารผกผัน (TF-IDF) โดยใช้ตัวนับเวกเตอร์และตัวสร้างโทเค็นมาตรฐานตามที่อธิบายไว้ด้านล่าง Data Wrangler ยังให้ตัวเลือกในการนำ tokenizer ของคุณเอง ถ้าต้องการ

  1. ภายใต้ หม้อแปลงเลือก + เพิ่มขั้นตอน.
  2. Choose นำเสนอข้อความ.
  3. สำหรับ แปลงเลือก vectorize.
  4. สำหรับ คอลัมน์อินพุตเลือก verification_status.
  5. Choose ดูตัวอย่าง.
    เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  6. Choose เพิ่ม.

ส่งออกชุดข้อมูล

หลังจากที่เราใช้การแปลงหลายแบบกับคอลัมน์ประเภทต่างๆ รวมทั้งข้อความ การจัดหมวดหมู่ และตัวเลข เราก็พร้อมที่จะใช้ชุดข้อมูลที่แปลงแล้วสำหรับการฝึกโมเดล ML ขั้นตอนสุดท้ายคือการส่งออกชุดข้อมูลที่แปลงแล้วไปยัง Amazon S3 ใน Data Wrangler คุณมีตัวเลือกมากมายสำหรับการใช้การแปลงแบบดาวน์สตรีม:

ในโพสต์นี้ เราใช้ประโยชน์จาก ส่งออกข้อมูล ตัวเลือกใน แปลง ดูเพื่อส่งออกชุดข้อมูลที่แปลงแล้วไปยัง Amazon S3 โดยตรง

  1. Choose ส่งออกข้อมูล.
    เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  2. สำหรับ ที่ตั้ง S3เลือก หมวดหมู่สินค้า แล้วเลือกบัคเก็ต S3 ของคุณ
  3. Choose ส่งออกข้อมูล.
    เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ทำความสะอาด

หากงานของคุณกับ Data Wrangler เสร็จสมบูรณ์ ปิดอินสแตนซ์ Data Wrangler ของคุณ เพื่อหลีกเลี่ยงค่าธรรมเนียมเพิ่มเติม

สรุป

ในโพสต์นี้ เราได้กล่าวถึงวิธีที่คุณสามารถตั้งค่าและเชื่อมต่อ Databricks เป็นแหล่งข้อมูลใน Data Wrangler ได้อย่างรวดเร็วและง่ายดาย สืบค้นข้อมูลแบบโต้ตอบที่จัดเก็บไว้ใน Databricks โดยใช้ SQL และแสดงตัวอย่างข้อมูลก่อนนำเข้า นอกจากนี้ เราได้ดูวิธีที่คุณสามารถรวมข้อมูลของคุณใน Databricks ด้วยข้อมูลที่จัดเก็บไว้ใน Amazon S3 จากนั้น เราใช้การแปลงข้อมูลกับชุดข้อมูลที่รวมกันเพื่อสร้างไปป์ไลน์การเตรียมข้อมูล หากต้องการสำรวจความสามารถในการวิเคราะห์ของ Data Wrangler เพิ่มเติม รวมถึงเป้าหมายการรั่วไหลและการสร้างรายงานอคติ โปรดดูที่โพสต์บล็อกต่อไปนี้ เร่งการเตรียมข้อมูลโดยใช้ Amazon SageMaker Data Wrangler สำหรับการคาดคะเนการกลับเข้ารับการรักษาของผู้ป่วยเบาหวาน.

ในการเริ่มต้นใช้งาน Data Wrangler โปรดดูที่ เตรียมข้อมูล ML ด้วย Amazon SageMaker Data Wranglerและดูข้อมูลล่าสุดเกี่ยวกับ Data Wrangler หน้าสินค้า.


เกี่ยวกับผู้เขียน

เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.รูป เบนส์ เป็นสถาปนิกโซลูชันที่ AWS โดยมุ่งเน้นที่ AI/ML เขาหลงใหลในการช่วยลูกค้าสร้างสรรค์นวัตกรรมและบรรลุวัตถุประสงค์ทางธุรกิจโดยใช้ปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง ในเวลาว่าง Roop ชอบอ่านหนังสือและเดินป่า

เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.Igor Alekseev เป็น Partner Solution Architect ที่ AWS ในด้านข้อมูลและการวิเคราะห์ Igor ทำงานร่วมกับพันธมิตรเชิงกลยุทธ์เพื่อช่วยสร้างสถาปัตยกรรมที่ซับซ้อนและปรับให้เหมาะสมกับ AWS ก่อนร่วมงานกับ AWS ในฐานะสถาปนิกข้อมูล/โซลูชัน เขาได้ดำเนินการหลายโครงการใน Big Data รวมถึง Data Lake หลายแห่งในระบบนิเวศ Hadoop ในฐานะวิศวกรข้อมูล เขามีส่วนร่วมในการใช้ AI/ML กับการตรวจจับการฉ้อโกงและระบบอัตโนมัติในสำนักงาน โครงการของ Igor อยู่ในหลากหลายอุตสาหกรรม รวมถึงการสื่อสาร การเงิน ความปลอดภัยสาธารณะ การผลิต และการดูแลสุขภาพ ก่อนหน้านี้ Igor ทำงานเป็นวิศวกรเต็มกอง/หัวหน้าฝ่ายเทคโนโลยี

เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.Huong Nguyen เป็น Sr. Product Manager ที่ AWS เธอเป็นผู้นำประสบการณ์ผู้ใช้สำหรับ SageMaker Studio เธอมีประสบการณ์ 13 ปีในการสร้างผลิตภัณฑ์ที่เน้นลูกค้าและขับเคลื่อนด้วยข้อมูลสำหรับทั้งองค์กรและพื้นที่สำหรับผู้บริโภค ในเวลาว่าง เธอชอบอ่านหนังสือ อยู่ในธรรมชาติ และใช้เวลาอยู่กับครอบครัว

เตรียมข้อมูลจาก Databricks สำหรับการเรียนรู้ของเครื่องโดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.เฮนรี่วัง เป็นวิศวกรพัฒนาซอฟต์แวร์ที่ AWS เขาเพิ่งเข้าร่วมทีม Data Wrangler หลังจากสำเร็จการศึกษาจาก UC Davis เขามีความสนใจในด้านวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่อง และทำการพิมพ์ 3 มิติเป็นงานอดิเรก

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS