การเขียนการแปลงแบบกำหนดเองใน Amazon SageMaker Data Wrangler โดยใช้ NLTK และ SciPy

การเขียนการแปลงแบบกำหนดเองใน Amazon SageMaker Data Wrangler โดยใช้ NLTK และ SciPy

“แทนที่จะเน้นที่โค้ด บริษัทต่างๆ ควรเน้นที่การพัฒนาวิธีปฏิบัติทางวิศวกรรมอย่างเป็นระบบเพื่อปรับปรุงข้อมูลด้วยวิธีที่เชื่อถือได้ มีประสิทธิภาพ และเป็นระบบ กล่าวอีกนัยหนึ่ง บริษัทต่างๆ จำเป็นต้องเปลี่ยนจากวิธีการที่เน้นแบบจำลองไปสู่แนวทางที่มีข้อมูลเป็นศูนย์กลาง” – แอนดรูว์ อึ้ง

แนวทาง AI ที่เน้นข้อมูลเป็นศูนย์กลางเกี่ยวข้องกับการสร้างระบบ AI ด้วยข้อมูลคุณภาพที่เกี่ยวข้องกับการเตรียมข้อมูลและวิศวกรรมคุณสมบัติ นี่อาจเป็นงานที่น่าเบื่อที่เกี่ยวข้องกับการรวบรวมข้อมูล การค้นพบ การทำโปรไฟล์ การล้างข้อมูล การสร้างโครงสร้าง การแปลง การเพิ่มคุณค่า การตรวจสอบ และการจัดเก็บข้อมูลอย่างปลอดภัย

Amazon SageMaker ข้อมูล Wrangler เป็นบริการใน สตูดิโอ Amazon SageMaker ที่ให้โซลูชันแบบ end-to-end เพื่อนำเข้า เตรียม แปลง แสดงคุณลักษณะ และวิเคราะห์ข้อมูลโดยใช้การเข้ารหัสเพียงเล็กน้อยหรือไม่มีเลย คุณสามารถรวมโฟลว์การเตรียมข้อมูล Data Wrangler เข้ากับเวิร์กโฟลว์แมชชีนเลิร์นนิง (ML) เพื่อลดความซับซ้อนของการประมวลผลข้อมูลล่วงหน้าและวิศวกรรมคุณลักษณะ ทำให้การเตรียมข้อมูลไปสู่การผลิตเร็วขึ้นโดยไม่จำเป็นต้องเขียนโค้ด PySpark ติดตั้ง Apache Spark หรือสร้างคลัสเตอร์

สำหรับสถานการณ์ที่คุณต้องเพิ่มสคริปต์ที่กำหนดเองสำหรับการแปลงข้อมูล คุณสามารถเขียนตรรกะการแปลงของคุณใน Pandas, PySpark, PySpark SQL ขณะนี้ Data Wrangler รองรับไลบรารี NLTK และ SciPy สำหรับการเขียนการแปลงแบบกำหนดเองเพื่อเตรียมข้อมูลข้อความสำหรับ ML และดำเนินการปรับข้อจำกัดให้เหมาะสม

คุณอาจพบสถานการณ์ที่คุณต้องเพิ่มสคริปต์ที่กำหนดเองสำหรับการแปลงข้อมูล ด้วยความสามารถในการแปลงแบบกำหนดเองของ Data Wrangler คุณสามารถเขียนตรรกะการแปลงของคุณใน Pandas, PySpark, PySpark SQL

ในโพสต์นี้ เราจะพูดถึงวิธีเขียนการแปลงแบบกำหนดเองใน NLTK เพื่อเตรียมข้อมูลข้อความสำหรับ ML นอกจากนี้ เราจะแชร์ตัวอย่างการแปลงโค้ดแบบกำหนดเองโดยใช้เฟรมเวิร์กทั่วไปอื่นๆ เช่น NLTK, NumPy, SciPy และ scikit-learn รวมถึงบริการ AWS AI สำหรับจุดประสงค์ของแบบฝึกหัดนี้ เราใช้ ชุดข้อมูลไททานิคซึ่งเป็นชุดข้อมูลยอดนิยมในชุมชน ML ซึ่งขณะนี้ได้รับการเพิ่มเป็น ชุดข้อมูลตัวอย่าง ภายใน Data Wrangler

ภาพรวมโซลูชัน

Data Wrangler มีตัวเชื่อมต่อในตัวมากกว่า 40 รายการสำหรับการนำเข้าข้อมูล หลังจากนำเข้าข้อมูลแล้ว คุณสามารถสร้างการวิเคราะห์และการแปลงข้อมูลโดยใช้การแปลงในตัวมากกว่า 300 รายการ จากนั้นคุณสามารถสร้างไปป์ไลน์ทางอุตสาหกรรมเพื่อผลักดันคุณลักษณะต่างๆ ได้ บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) หรือ Amazon SageMaker ฟีเจอร์สโตร์. แผนภาพต่อไปนี้แสดงสถาปัตยกรรมระดับสูงแบบ end-to-end

การเขียนการแปลงแบบกำหนดเองใน Amazon SageMaker Data Wrangler โดยใช้ NLTK และ SciPy PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

เบื้องต้น

Data Wrangler เป็นคุณลักษณะของ SageMaker ที่มีอยู่ภายใน สตูดิโอ Amazon SageMaker. คุณสามารถติดตาม ขั้นตอนการเริ่มต้นใช้งาน Studio เพื่อหมุนสภาพแวดล้อมสตูดิโอและโน้ตบุ๊ก แม้ว่าคุณสามารถเลือกวิธีการรับรองความถูกต้องได้หลายวิธี แต่วิธีที่ง่ายที่สุดในการสร้างโดเมน Studio คือทำตาม คำแนะนำเริ่มต้นอย่างรวดเร็ว. การเริ่มต้นอย่างรวดเร็วใช้การตั้งค่าเริ่มต้นเดียวกันกับการตั้งค่า Studio มาตรฐาน คุณยังสามารถเลือกที่จะออนบอร์ดโดยใช้ ศูนย์ข้อมูลประจำตัว AWS IAM (ต่อจาก AWS Single Sign-On) สำหรับการรับรองความถูกต้อง (ดู ออนบอร์ดไปยังโดเมน Amazon SageMaker โดยใช้ IAM Identity Center).

นำเข้าชุดข้อมูลไททานิค

เริ่มสภาพแวดล้อมสตูดิโอของคุณและสร้างใหม่ การไหลของข้อมูล Wrangler. คุณสามารถนำเข้าชุดข้อมูลของคุณเองหรือใช้ชุดข้อมูลตัวอย่าง (Titanic) ดังที่แสดงในภาพหน้าจอต่อไปนี้ Data Wrangler ช่วยให้คุณสามารถนำเข้าชุดข้อมูลจากแหล่งข้อมูลต่างๆ สำหรับกรณีการใช้งานของเรา เรานำเข้าชุดข้อมูลตัวอย่างจากบัคเก็ต S3

การเขียนการแปลงแบบกำหนดเองใน Amazon SageMaker Data Wrangler โดยใช้ NLTK และ SciPy PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

เมื่อนำเข้าแล้ว คุณจะเห็นโหนดสองโหนด (โหนดต้นทางและโหนดประเภทข้อมูล) ในโฟลว์ข้อมูล Data Wrangler จะระบุประเภทข้อมูลสำหรับคอลัมน์ทั้งหมดในชุดข้อมูลโดยอัตโนมัติ

การเขียนการแปลงแบบกำหนดเองใน Amazon SageMaker Data Wrangler โดยใช้ NLTK และ SciPy PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

การแปลงแบบกำหนดเองด้วย NLTK

สำหรับการเตรียมข้อมูลและวิศวกรรมฟีเจอร์ด้วย Data Wrangler คุณสามารถใช้การแปลงในตัวมากกว่า 300 รายการหรือสร้างการแปลงแบบกำหนดเองของคุณเอง การแปลงแบบกำหนดเอง สามารถเขียนเป็นขั้นตอนแยกกันภายใน Data Wrangler พวกเขากลายเป็นส่วนหนึ่งของไฟล์ .flow ภายใน Data Wrangler คุณลักษณะการแปลงแบบกำหนดเองรองรับ Python, PySpark และ SQL เป็นขั้นตอนที่แตกต่างกันในข้อมูลโค้ด หลังจากไฟล์สมุดบันทึก (.ipynb) ถูกสร้างขึ้นจากไฟล์ .flow หรือไฟล์ .flow ถูกใช้เป็นสูตรอาหาร ข้อมูลโค้ดการแปลงแบบกำหนดเองจะยังคงอยู่โดยไม่ต้องทำการเปลี่ยนแปลงใดๆ การออกแบบ Data Wrangler นี้ช่วยให้การแปลงแบบกำหนดเองกลายเป็นส่วนหนึ่งของงาน SageMaker Processing สำหรับการประมวลผลชุดข้อมูลขนาดใหญ่ด้วยการแปลงแบบกำหนดเอง

ชุดข้อมูล Titanic มีคุณสมบัติสองอย่าง (ชื่อและ home.dest) ที่มีข้อมูลข้อความ เราใช้ เอ็นแอลทีเค เพื่อแบ่งคอลัมน์ชื่อและแยกนามสกุล และพิมพ์ความถี่ของนามสกุล NLTK เป็นแพลตฟอร์มชั้นนำสำหรับการสร้างโปรแกรม Python เพื่อทำงานกับข้อมูลภาษามนุษย์ มีอินเตอร์เฟสที่ใช้งานง่าย มากกว่า 50 องค์กรและทรัพยากรคำศัพท์ เช่น WordNet พร้อมกับชุดของไลบรารีการประมวลผลข้อความสำหรับการจำแนกประเภท โทเค็น การแยกส่วน การแท็ก การแยกวิเคราะห์ และการให้เหตุผลเชิงความหมาย และตัวห่อหุ้มสำหรับไลบรารี่การประมวลผลภาษาธรรมชาติ (NLP) ที่แข็งแกร่งระดับอุตสาหกรรม

ในการเพิ่มการแปลงใหม่ ให้ทำตามขั้นตอนต่อไปนี้:

  1. เลือกเครื่องหมายบวกแล้วเลือก เพิ่มการแปลง.
  2. Choose เพิ่มขั้นตอน และเลือก แปลงร่างเอง.

คุณสามารถสร้างการแปลงแบบกำหนดเองได้โดยใช้ Pandas, PySpark, ฟังก์ชันที่ผู้ใช้กำหนดเองของ Python และ SQL PySpark

การเขียนการแปลงแบบกำหนดเองใน Amazon SageMaker Data Wrangler โดยใช้ NLTK และ SciPy PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

  1. Choose หลาม (แพนด้า) และเพิ่มรหัสต่อไปนี้เพื่อแยกนามสกุลออกจากคอลัมน์ชื่อ:
    import nltk
    nltk.download('punkt')
    tokens = [nltk.word_tokenize(name) for name in df['Name']] # Extract the last names of the passengers
    df['last_name'] = [token[0] for token in tokens]

  2. Choose ดูตัวอย่าง เพื่อตรวจสอบผลลัพธ์

ภาพหน้าจอต่อไปนี้แสดงให้เห็น last_name แยกคอลัมน์แล้ว

การเขียนการแปลงแบบกำหนดเองใน Amazon SageMaker Data Wrangler โดยใช้ NLTK และ SciPy PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

  1. เพิ่มขั้นตอนการแปลงแบบกำหนดเองอื่นเพื่อระบุการกระจายความถี่ของนามสกุล โดยใช้รหัสต่อไปนี้:
    import nltk
    fd = nltk.FreqDist(df["last_name"])
    print(fd.most_common(10))

  2. Choose ดูตัวอย่าง เพื่อตรวจสอบผลลัพธ์ของความถี่การเขียนการแปลงแบบกำหนดเองใน Amazon SageMaker Data Wrangler โดยใช้ NLTK และ SciPy PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

การแปลงแบบกำหนดเองด้วยบริการ AI ของ AWS

บริการ AI ที่ผ่านการฝึกอบรมล่วงหน้าของ AWS มอบข้อมูลอัจฉริยะสำเร็จรูปสำหรับแอปพลิเคชันและเวิร์กโฟลว์ของคุณ บริการ AWS AI ผสานรวมกับแอปพลิเคชันของคุณได้อย่างง่ายดายเพื่อจัดการกับกรณีการใช้งานทั่วไปจำนวนมาก ตอนนี้คุณสามารถใช้ความสามารถสำหรับบริการ AWS AI เป็นขั้นตอนการแปลงแบบกำหนดเองใน Data Wrangler

เข้าใจ Amazon ใช้ NLP เพื่อดึงข้อมูลเชิงลึกเกี่ยวกับเนื้อหาของเอกสาร พัฒนาข้อมูลเชิงลึกโดยการจดจำเอนทิตี วลีสำคัญ ภาษา ความรู้สึก และองค์ประกอบทั่วไปอื่นๆ ในเอกสาร

เราใช้ Amazon Comprehend เพื่อแยกเอนทิตีออกจากคอลัมน์ชื่อ ทำตามขั้นตอนต่อไปนี้:

  1. เพิ่มขั้นตอนการแปลงแบบกำหนดเอง
  2. Choose หลาม (แพนด้า).
  3. ป้อนรหัสต่อไปนี้เพื่อแยกเอนทิตี:
    import boto3
    comprehend = boto3.client("comprehend") response = comprehend.detect_entities(LanguageCode = 'en', Text = df['name'].iloc[0]) for entity in response['Entities']:
    print(entity['Type'] + ":" + entity["Text"])

  4. Choose ดูตัวอย่าง และเห็นภาพผลลัพธ์

การเขียนการแปลงแบบกำหนดเองใน Amazon SageMaker Data Wrangler โดยใช้ NLTK และ SciPy PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ตอนนี้เราได้เพิ่มการแปลงแบบกำหนดเองสามรายการใน Data Wrangler

  1. Choose การไหลของข้อมูล เพื่อให้เห็นภาพการไหลของข้อมูลแบบ end-to-end

การเขียนการแปลงแบบกำหนดเองใน Amazon SageMaker Data Wrangler โดยใช้ NLTK และ SciPy PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

การแปลงแบบกำหนดเองด้วย NumPy และ SciPy

นำพาย เป็นไลบรารีโอเพ่นซอร์สสำหรับ Python ที่เสนอฟังก์ชันทางคณิตศาสตร์ที่ครอบคลุม เครื่องกำเนิดเลขสุ่ม รูทีนพีชคณิตเชิงเส้น การแปลงฟูริเยร์ และอื่นๆ วิทย์ เป็นไลบรารี Python แบบโอเพ่นซอร์สที่ใช้สำหรับการคำนวณทางวิทยาศาสตร์และการคำนวณทางเทคนิค ประกอบด้วยโมดูลสำหรับการเพิ่มประสิทธิภาพ พีชคณิตเชิงเส้น การรวม การประมาณค่า ฟังก์ชันพิเศษ การแปลงฟูริเยร์แบบเร็ว (FFT) การประมวลผลสัญญาณและภาพ ตัวแก้ และอื่นๆ

การแปลงแบบกำหนดเองของ Data Wrangler ช่วยให้คุณรวม Python, PySpark และ SQL เป็นขั้นตอนต่างๆ ได้ ในขั้นตอน Data Wrangler ต่อไปนี้ ฟังก์ชันต่างๆ จากแพ็คเกจ Python, NumPy และ SciPy จะถูกนำไปใช้กับชุดข้อมูล Titanic ในหลายขั้นตอน

การเขียนการแปลงแบบกำหนดเองใน Amazon SageMaker Data Wrangler โดยใช้ NLTK และ SciPy PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

การแปลง NumPy

คอลัมน์ค่าโดยสารของชุดข้อมูลไททานิคมีค่าโดยสารของผู้โดยสารที่แตกต่างกัน ฮิสโตแกรมของคอลัมน์ค่าโดยสารแสดงการแจกแจงแบบสม่ำเสมอ ยกเว้นถังขยะใบสุดท้าย ด้วยการใช้การแปลง NumPy เช่น log หรือกรณฑ์ เราสามารถเปลี่ยนการแจกแจง (ดังแสดงโดยการแปลงรากที่สอง)

การเขียนการแปลงแบบกำหนดเองใน Amazon SageMaker Data Wrangler โดยใช้ NLTK และ SciPy PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. การเขียนการแปลงแบบกำหนดเองใน Amazon SageMaker Data Wrangler โดยใช้ NLTK และ SciPy PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ดูรหัสต่อไปนี้:

import pandas as pd
import numpy as np
df["fare_log"] = np.log(df["fare_interpolate"])
df["fare_sqrt"] = np.sqrt(df["fare_interpolate"])
df["fare_cbrt"] = np.cbrt(df["fare_interpolate"])

การแปลง SciPy

ฟังก์ชัน SciPy เช่น z-score ถูกนำมาใช้เป็นส่วนหนึ่งของการแปลงแบบกำหนดเองเพื่อสร้างมาตรฐานการกระจายค่าโดยสารด้วยค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน

การเขียนการแปลงแบบกำหนดเองใน Amazon SageMaker Data Wrangler โดยใช้ NLTK และ SciPy PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ดูรหัสต่อไปนี้:

df["fare_zscore"] = zscore(df["fare_interpolate"])
from scipy.stats import zscore

การเพิ่มประสิทธิภาพข้อจำกัดด้วย NumPy และ SciPy

การแปลงแบบกำหนดเองของ Data Wrangler สามารถจัดการการแปลงขั้นสูง เช่น การเพิ่มประสิทธิภาพข้อจำกัดโดยใช้ฟังก์ชันการปรับให้เหมาะสมของ SciPy และการรวม SciPy กับ NumPy ในตัวอย่างต่อไปนี้ ค่าโดยสารตามฟังก์ชันของอายุจะไม่แสดงแนวโน้มที่สังเกตได้ อย่างไรก็ตาม การเพิ่มประสิทธิภาพข้อจำกัดสามารถเปลี่ยนค่าโดยสารเป็นฟังก์ชันของอายุได้ เงื่อนไขข้อจำกัดในกรณีนี้คือ ค่าโดยสารใหม่ทั้งหมดยังคงเท่าเดิมกับค่าโดยสารรวมเก่า การแปลงแบบกำหนดเองของ Data Wrangler ช่วยให้คุณสามารถเรียกใช้ฟังก์ชันเพิ่มประสิทธิภาพ SciPy เพื่อกำหนดค่าสัมประสิทธิ์ที่เหมาะสมที่สุดที่สามารถเปลี่ยนค่าโดยสารเป็นฟังก์ชันของอายุภายใต้เงื่อนไขข้อจำกัด

การเขียนการแปลงแบบกำหนดเองใน Amazon SageMaker Data Wrangler โดยใช้ NLTK และ SciPy PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. การเขียนการแปลงแบบกำหนดเองใน Amazon SageMaker Data Wrangler โดยใช้ NLTK และ SciPy PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

นิยามการเพิ่มประสิทธิภาพ นิยามวัตถุประสงค์ และข้อจำกัดหลายข้อสามารถกล่าวถึงเป็นฟังก์ชันต่างๆ ได้ในขณะกำหนดสูตรการเพิ่มประสิทธิภาพข้อจำกัดในการแปลงแบบกำหนดเองของ Data Wrangler โดยใช้ SciPy และ NumPy การแปลงแบบกำหนดเองยังสามารถนำวิธีการแก้ปัญหาต่างๆ ที่มีให้เป็นส่วนหนึ่งของแพ็คเกจเพิ่มประสิทธิภาพ SciPy ตัวแปรที่แปลงใหม่สามารถสร้างได้โดยการคูณค่าสัมประสิทธิ์ที่เหมาะสมที่สุดกับคอลัมน์เดิมและเพิ่มลงในคอลัมน์ที่มีอยู่ของ Data Wrangler ดูรหัสต่อไปนี้:

import numpy as np
import scipy.optimize as opt
import pandas as pd df2 = pd.DataFrame({"Y":df["fare_interpolate"], "X1":df["age_interpolate"]}) # optimization defination
def main(df2):
x0 = [0.1]
res = opt.minimize(fun=obj, x0=x0, args=(df2), method="SLSQP", bounds=[(0,50)], constraints=cons)
return res # objective function
def obj(x0, df2):
sumSquares = np.sum(df2["Y"] - x0*df2["X1"])
return sumSquares # constraints
def constraint1(x0):
sum_cons1 = np.sum(df2["Y"] - x0*df2["X1"]) - 0
return sum_cons1
con1 = {'type': 'eq', 'fun': constraint1}
cons = ([con1]) print(main(df2)) df["new_fare_age_optimized"]=main(df2).x*df2["X1"]

คุณลักษณะการแปลงแบบกำหนดเองของ Data Wrangler มีความสามารถ UI เพื่อแสดงผลลัพธ์ของฟังก์ชันการปรับให้เหมาะสมของ SciPy เช่น ค่าสัมประสิทธิ์ที่เหมาะสมที่สุด (หรือหลายค่าสัมประสิทธิ์)

การเขียนการแปลงแบบกำหนดเองใน Amazon SageMaker Data Wrangler โดยใช้ NLTK และ SciPy PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

การแปลงแบบกำหนดเองด้วย scikit-learn

scikit เรียนรู้ เป็นโมดูล Python สำหรับการเรียนรู้ของเครื่องที่สร้างขึ้นจาก SciPy เป็นไลบรารี ML แบบโอเพ่นซอร์สที่รองรับการเรียนรู้ภายใต้การดูแลและไม่มีผู้ดูแล นอกจากนี้ยังมีเครื่องมือต่างๆ สำหรับการปรับโมเดล การประมวลผลข้อมูลล่วงหน้า การเลือกโมเดล การประเมินโมเดล และยูทิลิตี้อื่นๆ อีกมากมาย

ดุลยพินิจ

ดุลยพินิจ (หรือเรียกอีกอย่างว่า การหาปริมาณ or บินนิ่ง) ให้วิธีการแบ่งพาร์ติชันคุณลักษณะที่ต่อเนื่องเป็นค่าที่ไม่ต่อเนื่อง ชุดข้อมูลบางชุดที่มีคุณสมบัติต่อเนื่องอาจได้รับประโยชน์จากการแยกส่วน เนื่องจากการแยกส่วนสามารถแปลงชุดข้อมูลของแอตทริบิวต์ต่อเนื่องเป็นชุดเดียวที่มีแอตทริบิวต์เล็กน้อยเท่านั้น ฟีเจอร์ที่ไม่ต่อเนื่องแบบเข้ารหัสแบบ Hot-Hot สามารถทำให้โมเดลสื่อความหมายได้มากขึ้น ในขณะที่ยังคงความสามารถในการตีความ ตัวอย่างเช่น การประมวลผลล่วงหน้าด้วย discretizer สามารถแนะนำความไม่เชิงเส้นให้กับโมเดลเชิงเส้น

ในโค้ดต่อไปนี้ เราใช้ KBinsDiscretizer เพื่อแยกคอลัมน์อายุออกเป็น 10 ถังขยะ:

# Table is available as variable `df`
from sklearn.preprocessing import KBinsDiscretizer
import numpy as np
# discretization transform the raw data
df = df.dropna()
kbins = KBinsDiscretizer(n_bins=10, encode='ordinal', strategy='uniform')
ages = np.array(df["age"]).reshape(-1, 1)
df["age"] = kbins.fit_transform(ages)
print(kbins.bin_edges_)

คุณสามารถดูขอบถังขยะที่พิมพ์ในภาพหน้าจอต่อไปนี้

การเขียนการแปลงแบบกำหนดเองใน Amazon SageMaker Data Wrangler โดยใช้ NLTK และ SciPy PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

การเข้ารหัสแบบร้อนครั้งเดียว

ค่าในคอลัมน์ที่ลงมือคือค่าที่เป็นหมวดหมู่ ดังนั้นเราจึงต้องแสดงสตริงเหล่านี้เป็นค่าตัวเลขเพื่อดำเนินการจัดประเภทด้วยแบบจำลองของเรา เราสามารถทำได้โดยใช้การแปลงการเข้ารหัสแบบร้อนครั้งเดียว

มีค่าสามค่าสำหรับ Embarked: S, C และ Q เราแสดงค่าเหล่านี้ด้วยตัวเลข ดูรหัสต่อไปนี้:

# Table is available as variable `df`
from sklearn.preprocessing import LabelEncoder le_embarked = LabelEncoder()
le_embarked.fit(df["embarked"]) encoded_embarked_training = le_embarked.transform(df["embarked"])
df["embarked"] = encoded_embarked_training

การเขียนการแปลงแบบกำหนดเองใน Amazon SageMaker Data Wrangler โดยใช้ NLTK และ SciPy PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ทำความสะอาด

เมื่อคุณไม่ได้ใช้ Data Wrangler สิ่งสำคัญคือต้องปิดอินสแตนซ์ที่ทำงานเพื่อหลีกเลี่ยงค่าธรรมเนียมเพิ่มเติม

Data Wrangler จะบันทึกข้อมูลของคุณโดยอัตโนมัติทุกๆ 60 วินาที เพื่อหลีกเลี่ยงการสูญเสียงาน ให้บันทึกโฟลว์ข้อมูลของคุณก่อนที่จะปิด Data Wrangler

  1. หากต้องการบันทึกโฟลว์ข้อมูลของคุณใน Studio ให้เลือก เนื้อไม่มีมันแล้วเลือก บันทึกข้อมูล Wrangler Flow.
  2. หากต้องการปิดอินสแตนซ์ Data Wrangler ใน Studio ให้เลือก อินสแตนซ์และเคอร์เนลที่ใช้งาน.
  3. ภายใต้ แอพวิ่งให้เลือกไอคอนปิดเครื่องข้างแอป sagemaker-data-wrangler-1.0
  4. Choose ปิดทั้งหมด เพื่อยืนยัน.

Data Wrangler ทำงานบนอินสแตนซ์ ml.m5.4xlarge อินสแตนซ์นี้หายไปจาก อินสแตนซ์ที่ใช้งาน เมื่อคุณปิดแอพ Data Wrangler

หลังจากที่คุณปิดแอป Data Wrangler แอปจะต้องรีสตาร์ทในครั้งต่อไปที่คุณเปิดไฟล์โฟลว์ Data Wrangler อาจใช้เวลาสักครู่

สรุป

ในโพสต์นี้ เราได้สาธิตวิธีการใช้การแปลงแบบกำหนดเองใน Data Wrangler เราใช้ไลบรารีและเฟรมเวิร์กภายในคอนเทนเนอร์ Data Wrangler เพื่อขยายความสามารถในการแปลงข้อมูลในตัว ตัวอย่างในโพสต์นี้แสดงถึงส่วนย่อยของเฟรมเวิร์กที่ใช้ การแปลงในโฟลว์ Data Wrangler สามารถปรับขนาดเป็นไปป์ไลน์สำหรับ DataOps ได้แล้ว

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการใช้โฟลว์ข้อมูลกับ Data Wrangler โปรดดูที่ สร้างและใช้ Data Wrangler Flow และ ราคา Amazon SageMaker. ในการเริ่มต้นใช้งาน Data Wrangler โปรดดูที่ เตรียมข้อมูล ML ด้วย Amazon SageMaker Data Wrangler. หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ Autopilot และ AutoML บน SageMaker โปรดไปที่ พัฒนาโมเดลอัตโนมัติด้วย Amazon SageMaker Autopilot.


เกี่ยวกับผู้แต่ง

การเขียนการแปลงแบบกำหนดเองใน Amazon SageMaker Data Wrangler โดยใช้ NLTK และ SciPy PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.มีนคชีสันดาราม ทันดาวารายัน เป็นผู้เชี่ยวชาญด้าน AI/ML อาวุโสของ AWS เขาช่วยบัญชีเชิงกลยุทธ์ไฮเทคในการเดินทางของ AI และ ML เขาหลงใหลเกี่ยวกับ AI ที่ขับเคลื่อนด้วยข้อมูลเป็นอย่างมาก

 การเขียนการแปลงแบบกำหนดเองใน Amazon SageMaker Data Wrangler โดยใช้ NLTK และ SciPy PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.โสวิกกุมารนาถ เป็นสถาปนิกโซลูชัน AI/ML กับ AWS เขามีประสบการณ์มากมายในการออกแบบและโซลูชั่นแบบครบวงจรสำหรับแมชชีนเลิร์นนิง การวิเคราะห์ธุรกิจภายในการวิเคราะห์ทางการเงิน การปฏิบัติการ และการตลาด ดูแลสุขภาพ; ห่วงโซ่อุปทาน; และไอโอที การทำงานนอกสถานที่ Sovik ชอบท่องเที่ยวและดูภาพยนตร์

การเขียนการแปลงแบบกำหนดเองใน Amazon SageMaker Data Wrangler โดยใช้ NLTK และ SciPy PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.abigail เป็นวิศวกรพัฒนาซอฟต์แวร์ที่ Amazon SageMaker เธอมีความกระตือรือร้นในการช่วยลูกค้าจัดเตรียมข้อมูลใน DataWrangler และสร้างระบบแมชชีนเลิร์นนิงแบบกระจาย ในเวลาว่างของเธอ Abigail ชอบท่องเที่ยว ปีนเขา เล่นสกี และทำขนม

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS

สร้างและประเมินโมเดลการเรียนรู้ของเครื่องด้วยการกำหนดค่าขั้นสูงโดยใช้กระดานผู้นำโมเดล SageMaker Canvas | อเมซอนเว็บเซอร์วิส

โหนดต้นทาง: 1920800
ประทับเวลา: พฤศจิกายน 30, 2023