แมชชีนเลิร์นนิง (ML) กำลังทำลายอุตสาหกรรมจำนวนมากอย่างไม่เคยปรากฏมาก่อน อุตสาหกรรมการดูแลสุขภาพและวิทยาศาสตร์เพื่อชีวิต (HCLS) กำลังผ่านวิวัฒนาการอย่างรวดเร็วในช่วงไม่กี่ปีที่ผ่านมา โดยเปิดรับ ML ในกรณีการใช้งานที่หลากหลายเพื่อการดูแลที่มีคุณภาพและปรับปรุงผลลัพธ์ของผู้ป่วย
ในวงจรชีวิต ML ทั่วไป วิศวกรข้อมูลและนักวิทยาศาสตร์ใช้เวลาส่วนใหญ่ในการเตรียมข้อมูลและขั้นตอนทางวิศวกรรมคุณลักษณะ ก่อนเริ่มต้นกระบวนการสร้างแบบจำลองและการฝึกอบรมด้วยซ้ำ การมีเครื่องมือที่สามารถลดอุปสรรคในการป้อนข้อมูลเพื่อเตรียมข้อมูล ซึ่งจะช่วยปรับปรุงประสิทธิภาพการทำงาน เป็นสิ่งที่พึงปรารถนาอย่างมากสำหรับบุคคลเหล่านี้ Amazon SageMaker ข้อมูล Wrangler เป็นจุดประสงค์ที่สร้างขึ้นโดย AWS เพื่อลดเส้นโค้งการเรียนรู้และช่วยให้ผู้ปฏิบัติงานด้านข้อมูลสามารถจัดเตรียมข้อมูล ทำความสะอาด และงานวิศวกรรมคุณลักษณะได้สำเร็จโดยใช้เวลาและความพยายามน้อยลง มีอินเทอร์เฟซ GUI พร้อมฟังก์ชันในตัวและการผสานรวมกับบริการอื่นๆ ของ AWS เช่น บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) และ Amazon SageMaker ฟีเจอร์สโตร์รวมถึงแหล่งข้อมูลของพันธมิตร เช่น Snowflake และ Databricks
ในโพสต์นี้ เราสาธิตวิธีใช้ Data Wrangler เพื่อเตรียมข้อมูลด้านการดูแลสุขภาพสำหรับการฝึกแบบจำลองเพื่อทำนายภาวะหัวใจล้มเหลว โดยพิจารณาจากข้อมูลประชากรของผู้ป่วย เงื่อนไขทางการแพทย์ก่อนหน้า และประวัติผลการทดสอบในห้องปฏิบัติการ
ภาพรวมโซลูชัน
การแก้ปัญหาประกอบด้วยขั้นตอนต่อไปนี้:
- รับชุดข้อมูลด้านการดูแลสุขภาพเป็นอินพุตไปยัง Data Wrangler
- ใช้ฟังก์ชันการแปลงในตัวของ Data Wrangler เพื่อแปลงชุดข้อมูล ซึ่งรวมถึงคอลัมน์ดรอป แสดงข้อมูล/เวลา รวมชุดข้อมูล ใส่ค่าที่หายไป เข้ารหัสตัวแปรตามหมวดหมู่ ปรับขนาดค่าตัวเลข ปรับสมดุลชุดข้อมูล และอื่นๆ
- ใช้ฟังก์ชันการแปลงแบบกำหนดเองของ Data Wrangler (โค้ด Pandas หรือ PySpark) เพื่อเสริมการแปลงเพิ่มเติมที่จำเป็นนอกเหนือจากการแปลงในตัว และแสดงความสามารถในการขยายของ Data Wrangler ซึ่งรวมถึงแถวตัวกรอง กลุ่มข้อมูล สร้าง dataframe ใหม่ตามเงื่อนไข และอื่นๆ
- ใช้ฟังก์ชันการแสดงภาพในตัวของ Data Wrangler เพื่อทำการวิเคราะห์ด้วยภาพ ซึ่งรวมถึงเป้าหมายการรั่วไหล ความสัมพันธ์ของคุณลักษณะ โมเดลด่วน และอื่นๆ
- ใช้ตัวเลือกการส่งออกในตัวของ Data Wrangler เพื่อส่งออกชุดข้อมูลที่แปลงแล้วไปยัง Amazon S3
- เปิดใช้โน้ตบุ๊ก Jupyter เพื่อใช้ชุดข้อมูลที่แปลงแล้วใน Amazon S3 เป็นอินพุตเพื่อฝึกโมเดล
สร้างชุดข้อมูล
ตอนนี้เราได้ตกลงกับคำชี้แจงปัญหา ML แล้ว อันดับแรกเราตั้งเป้าหมายในการรับข้อมูลที่เราต้องการ การศึกษาวิจัยเช่น การทำนายภาวะหัวใจล้มเหลว อาจให้ข้อมูลที่อยู่ในสภาพดีอยู่แล้ว อย่างไรก็ตาม เรามักพบสถานการณ์ที่ข้อมูลค่อนข้างยุ่งเหยิงและต้องมีการรวม การล้างข้อมูล และการเปลี่ยนแปลงอื่นๆ อีกหลายอย่างที่มีความเฉพาะเจาะจงมากสำหรับโดเมนด้านการรักษาพยาบาลก่อนจึงจะสามารถใช้สำหรับการฝึกอบรม ML ได้ เราต้องการค้นหาหรือสร้างข้อมูลที่ยุ่งเหยิงเพียงพอ และแนะนำคุณตลอดขั้นตอนการเตรียมข้อมูลโดยใช้ Data Wrangler ด้วยเหตุนี้ เราจึงเลือก Synthea เป็นเครื่องมือในการสร้างข้อมูลสังเคราะห์ที่เหมาะกับเป้าหมายของเรา ซินเทีย เป็นเครื่องกำเนิดผู้ป่วยสังเคราะห์แบบโอเพนซอร์สที่จำลองประวัติทางการแพทย์ของผู้ป่วยสังเคราะห์ ในการสร้างชุดข้อมูลของคุณ ให้ทำตามขั้นตอนต่อไปนี้:
- ทำตามคำแนะนำตาม เริ่มต้นอย่างรวดเร็ว เอกสารประกอบการสร้าง an สตูดิโอ Amazon SageMaker โดเมนและเปิด Studio
นี่เป็นขั้นตอนเบื้องต้น เป็นทางเลือกหากมีการตั้งค่า Studio ในบัญชีของคุณแล้ว - หลังจากเปิดตัว Studio บน เปิด เลือกแท็บ เทอร์มินัลระบบ.
การดำเนินการนี้จะเริ่มต้นเซสชันเทอร์มินัลที่ให้อินเทอร์เฟซบรรทัดคำสั่งเพื่อใช้งาน - ในการติดตั้ง Synthea และสร้างชุดข้อมูลในรูปแบบ CSV ให้เรียกใช้คำสั่งต่อไปนี้ในเซสชันเทอร์มินัลที่เปิดใช้งาน:
เราจัดหาพารามิเตอร์เพื่อสร้างชุดข้อมูลที่มีขนาดประชากร 10,000 หมายเหตุ พารามิเตอร์ขนาดหมายถึงจำนวนสมาชิกที่ยังมีชีวิตอยู่ของประชากร นอกจากนี้ Synthea ยังสร้างข้อมูลสำหรับสมาชิกที่เสียชีวิตของประชากร ซึ่งอาจเพิ่มจุดข้อมูลพิเศษสองสามจุดนอกเหนือจากขนาดกลุ่มตัวอย่างที่ระบุ
รอจนกว่าการสร้างข้อมูลจะเสร็จสมบูรณ์ ขั้นตอนนี้มักใช้เวลาประมาณหนึ่งชั่วโมงหรือน้อยกว่านั้น Synthea สร้างชุดข้อมูลหลายชุด รวมถึง patients
, medications
, allergies
, conditions
, และอื่น ๆ. สำหรับโพสต์นี้ เราใช้ชุดข้อมูลผลลัพธ์สามชุด:
- ผู้ป่วย.csv – ชุดข้อมูลนี้มีขนาดประมาณ 3.2 MB และมีข้อมูลผู้ป่วยประมาณ 11,000 แถว (25 คอลัมน์รวมถึง ID ผู้ป่วย วันเกิด เพศ ที่อยู่ และอื่นๆ)
- เงื่อนไข.csv – ชุดข้อมูลนี้มีขนาดประมาณ 47 MB และมีข้อมูลสภาพทางการแพทย์ประมาณ 370,000 แถว (หกคอลัมน์รวมถึง ID ผู้ป่วย วันที่เริ่มต้นของเงื่อนไข รหัสเงื่อนไข และอื่นๆ)
- การสังเกต.csv – ชุดข้อมูลนี้มีขนาดประมาณ 830 MB และมีข้อมูลการสังเกตประมาณ 5 ล้านแถว (แปดคอลัมน์รวมถึง ID ผู้ป่วย วันที่สังเกต รหัสการสังเกต ค่า และอื่นๆ)
มีความสัมพันธ์แบบหนึ่งต่อกลุ่มระหว่าง patients
และ conditions
ชุดข้อมูล นอกจากนี้ยังมีความสัมพันธ์แบบหนึ่งต่อกลุ่มระหว่าง patients
และ observations
ชุดข้อมูล สำหรับพจนานุกรมข้อมูลโดยละเอียด โปรดดูที่ พจนานุกรมข้อมูลไฟล์ CSV.
- ในการอัปโหลดชุดข้อมูลที่สร้างขึ้นไปยังบัคเก็ตต้นทางใน Amazon S3 ให้เรียกใช้คำสั่งต่อไปนี้ในเซสชันเทอร์มินัล:
เปิดตัว Data Wrangler
Choose แหล่งข้อมูล SageMaker ในหน้าการนำทางใน Studio และบน โครงการ เมนูให้เลือก ดาต้าแรงเลอร์ เพื่อสร้างกระแสข้อมูล Data Wrangler สำหรับขั้นตอนโดยละเอียดในการเปิดใช้ Data Wrangler จากภายใน Studio โปรดดูที่ เริ่มต้นใช้งาน Data Wrangler.
นำเข้าข้อมูล
ในการนำเข้าข้อมูลของคุณ ให้ทำตามขั้นตอนต่อไปนี้:
- Choose Amazon S3 และค้นหาไฟล์ Patient.csv ในบัคเก็ต S3
- ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร รายละเอียด บานหน้าต่างเลือก เฟิร์ส K for การสุ่มตัวอย่าง.
- เข้าสู่
1100
for ขนาดตัวอย่าง.
ในบานหน้าต่างแสดงตัวอย่าง Data Wrangler จะดึง 100 แถวแรกจากชุดข้อมูลและแสดงรายการเป็นการแสดงตัวอย่าง - Choose นำเข้า.
Data Wrangler เลือกผู้ป่วย 1,100 รายแรกจากผู้ป่วยทั้งหมด (11,000 แถว) ที่สร้างโดย Synthea และนำเข้าข้อมูล วิธีการสุ่มตัวอย่างช่วยให้ Data Wrangler ประมวลผลข้อมูลตัวอย่างเท่านั้น ช่วยให้เราสามารถพัฒนาโฟลว์ข้อมูลของเราด้วยชุดข้อมูลที่มีขนาดเล็กลง ซึ่งส่งผลให้มีการประมวลผลที่รวดเร็วขึ้นและมีลูปป้อนกลับที่สั้นลง หลังจากที่เราสร้างกระแสข้อมูลแล้ว เราก็สามารถส่งสูตรที่พัฒนาแล้วไปที่ a การประมวลผล SageMaker งานเพื่อขยายการประมวลผลในแนวนอนสำหรับชุดข้อมูลทั้งหมดหรือใหญ่กว่าในแบบกระจาย - ทำซ้ำขั้นตอนนี้สำหรับ
conditions
และobservations
ชุดข้อมูล- สำหรับ
conditions
ชุดข้อมูล ใส่37000
for ขนาดตัวอย่างซึ่งเท่ากับ 1/10 ของทั้งหมด 370,000 แถวที่สร้างโดย Synthea - สำหรับ
observations
ชุดข้อมูล ใส่500000
for ขนาดตัวอย่างซึ่งเท่ากับ 1 ใน 10 ของการสังเกตทั้งหมด 5 ล้านแถวที่สร้างโดย Synthea
- สำหรับ
คุณควรเห็นชุดข้อมูลสามชุดตามที่แสดงในภาพหน้าจอต่อไปนี้
แปลงข้อมูล
การแปลงข้อมูลเป็นกระบวนการในการเปลี่ยนโครงสร้าง ค่า หรือรูปแบบของคอลัมน์อย่างน้อยหนึ่งคอลัมน์ในชุดข้อมูล กระบวนการนี้มักจะพัฒนาโดยวิศวกรข้อมูลและอาจเป็นสิ่งที่ท้าทายสำหรับผู้ที่มีทักษะด้านวิศวกรรมข้อมูลขนาดเล็กกว่าในการถอดรหัสตรรกะที่เสนอสำหรับการแปลง การแปลงข้อมูลเป็นส่วนหนึ่งของกระบวนการทางวิศวกรรมคุณลักษณะที่กว้างขึ้น และลำดับขั้นตอนที่ถูกต้องเป็นเกณฑ์สำคัญอีกประการหนึ่งที่ควรคำนึงถึงขณะคิดค้นสูตรดังกล่าว
Data Wrangler ได้รับการออกแบบให้เป็นเครื่องมือที่ใช้โค้ดน้อยเพื่อลดอุปสรรคในการป้อนข้อมูลเพื่อการเตรียมข้อมูลอย่างมีประสิทธิภาพ มันมาพร้อมกับการแปลงข้อมูลที่กำหนดไว้ล่วงหน้ามากกว่า 300 แบบให้คุณเลือกโดยไม่ต้องเขียนโค้ดแม้แต่บรรทัดเดียว ในส่วนต่อไปนี้ เราจะดูวิธีแปลงชุดข้อมูลที่นำเข้าใน Data Wrangler
วางคอลัมน์ใน Patients.csv
ก่อนอื่นเราวางบางคอลัมน์จาก patients
ชุดข้อมูล การทิ้งคอลัมน์ที่ซ้ำซ้อนจะลบข้อมูลที่ไม่เกี่ยวข้องออกจากชุดข้อมูล และช่วยให้เราลดจำนวนทรัพยากรการคำนวณที่จำเป็นในการประมวลผลชุดข้อมูลและฝึกโมเดล ในส่วนนี้ เราจะวางคอลัมน์ต่างๆ เช่น SSN หรือหมายเลขหนังสือเดินทางตามสามัญสำนึกที่คอลัมน์เหล่านี้ไม่มีค่าคาดการณ์ กล่าวอีกนัยหนึ่ง สิ่งเหล่านี้ไม่ได้ช่วยให้แบบจำลองของเราทำนายภาวะหัวใจล้มเหลว การศึกษาของเราไม่ได้กังวลเกี่ยวกับคอลัมน์อื่นๆ เช่น บ้านเกิดหรืออิทธิพลของค่ารักษาพยาบาลที่ส่งผลต่อภาวะหัวใจล้มเหลวของผู้ป่วย ดังนั้นเราจึงยกเลิกการศึกษานี้เช่นกัน คอลัมน์ที่ซ้ำซ้อนสามารถระบุได้ด้วยการเรียกใช้การวิเคราะห์ในตัว เช่น การรั่วไหลของเป้าหมาย ความสัมพันธ์ของคุณลักษณะ การทำงานร่วมกันหลายแบบ และอื่นๆ ซึ่งสร้างไว้ใน Data Wrangler สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับประเภทการวิเคราะห์ที่รองรับ โปรดดูที่ วิเคราะห์และเห็นภาพ. นอกจากนี้ คุณสามารถใช้ รายงานคุณภาพข้อมูลและข้อมูลเชิงลึก เพื่อทำการวิเคราะห์อัตโนมัติในชุดข้อมูลเพื่อไปยังรายการคอลัมน์ที่ซ้ำซ้อนเพื่อกำจัด
- เลือกเครื่องหมายบวกถัดจาก ประเภทข้อมูล สำหรับชุดข้อมูล Patient.csv และเลือก เพิ่มการแปลง.
- Choose เพิ่มขั้นตอน และเลือก จัดการคอลัมน์.
- สำหรับ แปลง¸ เลือก วางคอลัมน์.
- สำหรับ คอลัมน์ที่จะปล่อย, เลือกคอลัมน์ต่อไปนี้:
SSN
DRIVERS
PASSPORT
PREFIX
FIRST
LAST
SUFFIX
MAIDEN
RACE
ETHNICITY
BIRTHPLACE
ADDRESS
CITY
STATE
COUNTY
ZIP
LAT
LON
HEALTHCARE_EXPENSES
HEALTHCARE_COVERAGE
- Choose ดูตัวอย่าง เพื่อตรวจสอบชุดข้อมูลที่แปลงแล้ว จากนั้นเลือก เพิ่ม.
คุณควรเห็นขั้นตอน วางคอลัมน์ ในรายการการแปลงของคุณ
ระบุวันที่/เวลาใน Patients.csv
ตอนนี้เราใช้ฟังก์ชันคุณลักษณะวันที่/เวลาเพื่อสร้างคุณลักษณะใหม่ Year
จาก BIRTHDATE
คอลัมน์ใน patients
ชุดข้อมูล เราใช้คุณลักษณะใหม่นี้ในขั้นตอนต่อไปเพื่อคำนวณอายุของผู้ป่วยในขณะที่มีการสังเกต
- ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร แปลง บานหน้าต่างของคุณ วางคอลัมน์ หน้าสำหรับ
patients
ชุดข้อมูล เลือก เพิ่มขั้นตอน. - เลือก ระบุวันที่/เวลา แปลง.
- Choose แยกคอลัมน์.
- สำหรับ คอลัมน์อินพุต, เพิ่มคอลัมน์
BIRTHDATE
. - เลือก ปี และยกเลิกการเลือก เดือน, วัน, ชั่วโมง, นาที, ที่สอง
- Choose ดูตัวอย่างแล้วเลือก เพิ่ม.
เพิ่มการแปลงในข้อสังเกต.csv
Data Wrangler รองรับการแปลงแบบกำหนดเองโดยใช้ Python (ฟังก์ชันที่ผู้ใช้กำหนดเอง), PySpark, Pandas หรือ PySpark (SQL) คุณสามารถเลือกประเภทการแปลงตามความคุ้นเคยกับแต่ละตัวเลือกและความชอบ สำหรับสามตัวเลือกหลัง Data Wrangler จะเปิดเผยตัวแปร df
ให้คุณเข้าถึง dataframe และใช้การแปลงกับมัน สำหรับคำอธิบายโดยละเอียดและตัวอย่าง โปรดดูที่ แปลงร่างเอง. ในส่วนนี้ เราเพิ่มการแปลงแบบกำหนดเองสามแบบไปที่ observations
ชุดข้อมูล
- เพิ่มการแปลงเป็นข้อสังเกต.csv แล้วปล่อย
DESCRIPTION
คอลัมน์. - Choose ดูตัวอย่างแล้วเลือก เพิ่ม.
- ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร แปลง บานหน้าต่างเลือก เพิ่มขั้นตอน และเลือก แปลงร่างเอง.
- บนเมนูแบบเลื่อนลง ให้เลือก หลาม (แพนด้า).
- ป้อนรหัสต่อไปนี้:
นี่คือรหัส LONIC ที่สอดคล้องกับข้อสังเกตต่อไปนี้ที่เราสนใจใช้เป็นคุณลักษณะในการทำนายภาวะหัวใจล้มเหลว:
- Choose ดูตัวอย่างแล้วเลือก เพิ่ม.
- เพิ่มการแปลงร่างเพื่อแยก
Year
และQuarter
จากDATE
คอลัมน์. - Choose ดูตัวอย่างแล้วเลือก เพิ่ม.
- Choose เพิ่มขั้นตอน และเลือก แปลงร่างเอง.
- บนเมนูแบบเลื่อนลง ให้เลือก หลาม (PySpark).
การสังเกตห้าประเภทอาจไม่ถูกบันทึกในวันเดียวกันเสมอไป ตัวอย่างเช่น ผู้ป่วยอาจไปพบแพทย์ประจำครอบครัวในวันที่ 21 มกราคม และทำการวัดและบันทึกความดันโลหิตขณะหัวใจคลายตัว ความดันโลหิตตัวล่าง อัตราการเต้นของหัวใจ และดัชนีมวลกาย อย่างไรก็ตาม การทดสอบในห้องปฏิบัติการที่มีเกล็ดเลือดอาจทำได้ในภายหลังในวันที่ 2 กุมภาพันธ์ ดังนั้นจึงเป็นไปไม่ได้ที่จะเข้าร่วมดาต้าเฟรมภายในวันที่สังเกต ในที่นี้ เรารวม dataframes แบบละเอียดเป็นรายไตรมาส - ป้อนรหัสต่อไปนี้:
- Choose ดูตัวอย่างแล้วเลือก เพิ่ม.
- Choose เพิ่มขั้นตอนแล้วเลือก จัดการแถว.
- สำหรับ แปลงเลือก วางรายการซ้ำ.
- Choose ดูตัวอย่างแล้วเลือก เพิ่ม.
- Choose เพิ่มขั้นตอน และเลือก แปลงร่างเอง.
- บนเมนูแบบเลื่อนลง ให้เลือก หลาม (แพนด้า).
- ป้อนรหัสต่อไปนี้เพื่อใช้ค่าเฉลี่ยของจุดข้อมูลที่มีค่าเวลาเท่ากัน:
- Choose ดูตัวอย่างแล้วเลือก เพิ่ม.
เข้าร่วม Patient.csv และข้อสังเกต.csv
ในขั้นตอนนี้ เราแสดงวิธีการดำเนินการรวมที่ซับซ้อนบนชุดข้อมูลอย่างมีประสิทธิภาพและง่ายดายโดยไม่ต้องเขียนโค้ดใดๆ ผ่าน UI อันทรงพลังของ Data Wrangler หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับประเภทการรวมที่รองรับ โปรดดูที่ แปลงข้อมูล.
- ทางด้านขวาของ แปลง: Patient.csv, เลือกเครื่องหมายบวกถัดจาก ขั้นตอน และเลือก ร่วมเป็นผู้ขายกับเราที่.
คุณสามารถดูไฟล์ Patient.csv ที่แปลงแล้วซึ่งอยู่ภายใต้ ชุดข้อมูล ในบานหน้าต่างด้านซ้าย - ทางด้านขวาของ แปลง: การสังเกต.csv, คลิกที่ ขั้นตอน เพื่อเริ่มต้นการดำเนินการเข้าร่วม
ขณะนี้ไฟล์ข้อสังเกตที่แปลงแล้ว.csv อยู่ภายใต้ ชุดข้อมูล ในบานหน้าต่างด้านซ้าย - Choose กำหนดค่า.
- สำหรับ ประเภทการเข้าร่วมเลือก ภายใน.
- สำหรับ ซ้ายเลือก Id.
- สำหรับ ขวาเลือก ผู้ป่วย.
- Choose ดูตัวอย่างแล้วเลือก เพิ่ม.
เพิ่มการแปลงแบบกำหนดเองให้กับชุดข้อมูลที่เข้าร่วม
ในขั้นตอนนี้ เราคำนวณอายุของผู้ป่วยในขณะที่สังเกต นอกจากนี้เรายังวางคอลัมน์ที่ไม่ต้องการอีกต่อไป
- เลือกเครื่องหมายบวกถัดจาก เข้าร่วมครั้งแรก และเลือก เพิ่มการแปลง.
- เพิ่มการแปลงแบบกำหนดเองใน Pandas:
- Choose ดูตัวอย่างแล้วเลือก เพิ่ม.
เพิ่มการแปลงแบบกำหนดเองเป็น condition.csv
- เลือกเครื่องหมายบวกถัดจาก แปลง: condition.csv และเลือก เพิ่มการแปลง.
- เพิ่มการแปลงแบบกำหนดเองใน Pandas:
หมายเหตุ ดังที่เราได้แสดงให้เห็นก่อนหน้านี้ คุณสามารถวางคอลัมน์ได้โดยใช้โค้ดที่กำหนดเองหรือใช้การแปลงในตัวที่ Data Wrangler จัดเตรียมไว้ให้ การแปลงแบบกำหนดเองภายใน Data Wrangler มอบความยืดหยุ่นในการนำตรรกะการแปลงของคุณมาในรูปแบบของข้อมูลโค้ดในเฟรมเวิร์กที่รองรับ ตัวอย่างข้อมูลเหล่านี้สามารถค้นหาและนำไปใช้ได้ในภายหลังหากจำเป็น
รหัสในการแปลงก่อนหน้าคือรหัส SNOMED-CT ที่สอดคล้องกับเงื่อนไขต่อไปนี้ ดิ heart failure
or chronic congestive heart failure
สภาพกลายเป็นฉลาก เราใช้เงื่อนไขที่เหลือเป็นคุณสมบัติในการทำนายภาวะหัวใจล้มเหลว นอกจากนี้เรายังปล่อยคอลัมน์บางคอลัมน์ที่ไม่ต้องการอีกต่อไป
- ต่อไป มาเพิ่มการแปลงแบบกำหนดเองใน PySpark:
เราทำการรวมภายนอกด้านซ้ายเพื่อเก็บรายการทั้งหมดในดาต้าเฟรมหัวใจล้มเหลว คอลัมน์ใหม่
has_xxx
คำนวณสำหรับแต่ละเงื่อนไขนอกเหนือจากภาวะหัวใจล้มเหลวตามวันที่เริ่มต้นของเงื่อนไข เราสนใจเฉพาะเงื่อนไขทางการแพทย์ที่บันทึกไว้ก่อนเกิดภาวะหัวใจล้มเหลวและใช้เป็นคุณสมบัติในการทำนายภาวะหัวใจล้มเหลว - เพิ่มในตัว จัดการคอลัมน์ แปลงเพื่อวางคอลัมน์ที่ซ้ำซ้อนที่ไม่ต้องการอีกต่อไป:
hypertension
diabetes
coronary
smoke
atrial
- สารสกัด
Year
และQuarter
จากheartfailure
คอลัมน์.
ซึ่งตรงกับความละเอียดที่เราใช้ก่อนหน้านี้ในการแปลงของobservations
ชุดข้อมูล - เราควรจะมีทั้งหมด 6 ขั้นตอนสำหรับเงื่อนไข.csv.
เข้าร่วม condition.csv กับ dataset ที่เข้าร่วม
ตอนนี้เราทำการ join ใหม่เพื่อเข้าร่วมเงื่อนไข dataset กับ join patients
และ observations
ชุดข้อมูล
- Choose แปลงร่าง: เข้าร่วมครั้งแรก.
- เลือกเครื่องหมายบวกแล้วเลือก ร่วมเป็นผู้ขายกับเราที่.
- Choose ขั้นตอน ติด แปลง: condition.csv.
- Choose กำหนดค่า.
- สำหรับ ประเภทการเข้าร่วมเลือก ด้านซ้ายด้านนอก.
- สำหรับ ซ้ายเลือก Id.
- สำหรับ ขวาเลือก ผู้ป่วย.
- Choose ดูตัวอย่างแล้วเลือก เพิ่ม.
เพิ่มการแปลงไปยังชุดข้อมูลที่เข้าร่วม
ตอนนี้เรารวมชุดข้อมูลทั้งสามชุดแล้ว มาลองใช้การแปลงเพิ่มเติมกัน
- เพิ่มการแปลงแบบกำหนดเองต่อไปนี้ใน PySpark ดังนั้น
has_heartfailure
กลายเป็นคอลัมน์ป้ายกำกับของเรา: - เพิ่มการแปลงแบบกำหนดเองต่อไปนี้ใน PySpark:
- วางคอลัมน์ที่ซ้ำซ้อนที่ไม่ต้องการอีกต่อไป:
Id
DATE_year
DATE_quarter
patient
heartfailure
heartfailure_year
heartfailure_quarter
- เกี่ยวกับ การวิเคราะห์ แท็บสำหรับ ประเภทการวิเคราะห์¸ เลือก สรุปตาราง.
การสแกนอย่างรวดเร็วผ่านการสรุปแสดงให้เห็นว่าMARITAL
คอลัมน์มีข้อมูลที่ขาดหายไป - เลือก ข้อมูล แท็บและเพิ่มขั้นตอน
- Choose จัดการที่หายไป.
- สำหรับ แปลงเลือก เติมขาด.
- สำหรับ คอลัมน์อินพุตเลือก สมรส.
- สำหรับ เติมค่าป้อน
S
.
กลยุทธ์ของเราคือสมมติว่าผู้ป่วยเป็นโสดหากสถานภาพการสมรสมีค่าขาดหายไป คุณสามารถมีกลยุทธ์ที่แตกต่างออกไป - Choose ดูตัวอย่างแล้วเลือก เพิ่ม.
- เติมค่าที่ขาดหายไปเป็น 0 สำหรับ
has_hypertension
,has_diabetes
,has_coronary
,has_smoke
,has_atrial
.
Marital
และ Gender
เป็นตัวแปรหมวดหมู่ Data Wrangler มีฟังก์ชันในตัวเพื่อเข้ารหัสตัวแปรตามหมวดหมู่
- เพิ่มขั้นตอนและเลือก เข้ารหัสหมวดหมู่.
- สำหรับ แปลงเลือก การเข้ารหัสแบบร้อนครั้งเดียว.
- สำหรับ คอลัมน์อินพุตเลือก สมรส.
- สำหรับ สไตล์เอาต์พุตเลือก คอลัมน์.
ลักษณะเอาต์พุตนี้สร้างค่าที่เข้ารหัสในคอลัมน์ที่แยกจากกัน - Choose ดูตัวอย่างแล้วเลือก เพิ่ม.
- ทำซ้ำขั้นตอนเหล่านี้สำหรับ เพศ คอลัมน์.
การเข้ารหัสแบบร้อนครั้งเดียวแบ่งคอลัมน์สมรสออกเป็น Marital_M
(แต่งงานแล้ว) และ Marital_S
(เดี่ยว) และแบ่งคอลัมน์เพศเป็น Gender_M
(ชาย) และ Gender_F
(หญิง). เพราะ Marital_M
และ Marital_S
แยกออกจากกัน (ตามที่เป็นอยู่ Gender_M
และ Gender_F
) เราสามารถวางหนึ่งคอลัมน์เพื่อหลีกเลี่ยงคุณสมบัติที่ซ้ำซ้อน
- หล่น
Marital_S
และGender_F
.
คุณสมบัติตัวเลข เช่น systolic อัตราการเต้นของหัวใจ และอายุ มีหน่วยมาตรฐานที่แตกต่างกัน สำหรับตัวแบบที่ใช้การถดถอยเชิงเส้น เราต้องทำให้คุณสมบัติตัวเลขเหล่านี้เป็นมาตรฐานก่อน มิฉะนั้น คุณลักษณะบางอย่างที่มีค่าสัมบูรณ์สูงกว่าอาจมีข้อได้เปรียบที่ไม่สมเหตุสมผลเหนือคุณลักษณะอื่นๆ ที่มีค่าสัมบูรณ์ต่ำกว่าและส่งผลให้ประสิทธิภาพของแบบจำลองต่ำ Data Wrangler มีตัวปรับขนาด Min-max ในตัวเพื่อทำให้ข้อมูลเป็นมาตรฐาน สำหรับแบบจำลองการจัดประเภทตามแผนผังการตัดสินใจ ไม่จำเป็นต้องทำให้เป็นมาตรฐาน การศึกษาของเราเป็นปัญหาการจำแนกประเภท ดังนั้นเราจึงไม่จำเป็นต้องใช้การปรับให้เป็นมาตรฐาน คลาสที่ไม่สมดุลเป็นปัญหาทั่วไปในการจัดหมวดหมู่ ความไม่สมดุลเกิดขึ้นเมื่อชุดข้อมูลการฝึกมีการกระจายคลาสที่เบ้อย่างรุนแรง ตัวอย่างเช่น เมื่อชุดข้อมูลของเรามีผู้ป่วยที่ไม่มีภาวะหัวใจล้มเหลวมากกว่าผู้ป่วยที่มีภาวะหัวใจล้มเหลวอย่างไม่เป็นสัดส่วน อาจทำให้แบบจำลองมีอคติต่อการทำนายว่าไม่มีภาวะหัวใจล้มเหลวและทำงานได้ไม่ดี Data Wrangler มีฟังก์ชันในตัวเพื่อจัดการกับปัญหา
- เพิ่มการแปลงแบบกำหนดเองใน Pandas เพื่อแปลงประเภทข้อมูลของคอลัมน์จากประเภท "object" เป็นประเภทตัวเลข:
- เลือก การวิเคราะห์ แถบ
- สำหรับ ประเภทการวิเคราะห์¸ เลือก Histogram.
- สำหรับ แกน Xเลือก has_heartfailure.
- Choose ดูตัวอย่าง.
เห็นได้ชัดว่าเรามีคลาสที่ไม่สมดุล (มีจุดข้อมูลที่มีป้ายกำกับว่าไม่มีภาวะหัวใจล้มเหลวมากกว่าจุดข้อมูลที่ระบุว่าเป็นภาวะหัวใจล้มเหลว) - กลับไปที่ ข้อมูล แท็บ เลือก เพิ่มขั้นตอน และเลือก ข้อมูลยอดคงเหลือ.
- สำหรับ คอลัมน์เป้าหมายเลือก has_heartfailure.
- สำหรับ อัตราส่วนที่ต้องการป้อน
1
. - สำหรับ แปลงเลือก สโมต.
SMOTE ย่อมาจากเทคนิคการสุ่มตัวอย่างมากเกินไปของผู้ถือหุ้นส่วนน้อยสังเคราะห์ เป็นเทคนิคในการสร้างอินสแตนซ์ของชนกลุ่มน้อยใหม่และเพิ่มลงในชุดข้อมูลเพื่อให้เกิดความสมดุลของคลาส ดูรายละเอียดได้ที่ SMOTE: เทคนิคการสุ่มตัวอย่างมากเกินไปของชนกลุ่มน้อยสังเคราะห์. - Choose ดูตัวอย่างแล้วเลือก เพิ่ม.
- ทำซ้ำการวิเคราะห์ฮิสโตแกรมในขั้นตอนที่ 20-23 ผลที่ได้คือคลาสที่สมดุล
เห็นภาพการรั่วไหลของเป้าหมายและความสัมพันธ์ของคุณลักษณะ
ต่อไป เราจะทำการวิเคราะห์ด้วยภาพบางส่วนโดยใช้ชุดเครื่องมือที่สมบูรณ์ของประเภทการวิเคราะห์ที่รองรับ ML ขั้นสูงของ Data Wrangler อันดับแรก เราดูที่การรั่วไหลของเป้าหมาย การรั่วไหลของเป้าหมายเกิดขึ้นเมื่อข้อมูลในชุดข้อมูลการฝึกมีความสัมพันธ์อย่างยิ่งกับป้ายกำกับเป้าหมาย แต่ไม่มีข้อมูลในโลกแห่งความเป็นจริงในเวลาอนุมาน
- เกี่ยวกับ แท็บการวิเคราะห์สำหรับ ประเภทการวิเคราะห์¸ เลือก เป้าหมายรั่ว.
- สำหรับ ประเภทของปัญหาเลือก การจัดหมวดหมู่.
- สำหรับ เป้าเลือก has_heartfailure.
- Choose ดูตัวอย่าง.
จากการวิเคราะห์พบว่าhr
คือเป้าหมายรั่วไหล เราจะปล่อยมันไปในขั้นตอนต่อไปage
ถูกตั้งค่าสถานะการรั่วไหลของเป้าหมาย มีเหตุผลที่จะกล่าวว่าอายุของผู้ป่วยจะสามารถใช้ได้ในช่วงเวลาอนุมาน ดังนั้นเราจึงคงอายุไว้เป็นคุณลักษณะSystolic
และdiastolic
ยังถูกระบุว่าเป็นเป้าหมายที่รั่วไหล เราคาดว่าจะมีการวัดสองครั้งในช่วงเวลาอนุมาน ดังนั้นเราจึงเก็บไว้เป็นคุณลักษณะ - Choose เพิ่ม เพื่อเพิ่มการวิเคราะห์
จากนั้นเราดูความสัมพันธ์ของคุณสมบัติ เราต้องการเลือกคุณสมบัติที่สัมพันธ์กับเป้าหมายแต่ไม่สัมพันธ์กันระหว่างกัน
- เกี่ยวกับ แท็บการวิเคราะห์สำหรับ ประเภทการวิเคราะห์¸ เลือก ความสัมพันธ์ของคุณลักษณะ.
- สำหรับ ประเภทความสัมพันธ์¸ เลือก เชิงเส้น.
- Choose ดูตัวอย่าง.
คะแนนสัมประสิทธิ์บ่งบอกถึงความสัมพันธ์ที่แข็งแกร่งระหว่างคู่ต่อไปนี้:
systolic
และdiastolic
bmi
และage
has_hypertension
และhas_heartfailure
(ฉลาก)
สำหรับคุณสมบัติที่มีความสัมพันธ์กันอย่างมาก เมทริกซ์จะแปลงกลับทางการคำนวณได้ยาก ซึ่งอาจนำไปสู่การประมาณค่าที่ไม่เสถียรเชิงตัวเลข เพื่อลดความสัมพันธ์ เราสามารถลบหนึ่งรายการออกจากคู่ เราปล่อย diastolic
และ bmi
และเก็บ systolic
และ age
ในขั้นตอนต่อไป
วางคอลัมน์ diastolic และ bmi
เพิ่มขั้นตอนการแปลงเพิ่มเติมเพื่อปล่อย hr
, diastolic
และ bmi
คอลัมน์ที่ใช้การแปลงในตัว
สร้างรายงานคุณภาพข้อมูลและข้อมูลเชิงลึก
AWS เมื่อเร็วๆ นี้ ประกาศ ฟีเจอร์รายงานคุณภาพข้อมูลและข้อมูลเชิงลึกใหม่ใน Data Wrangler รายงานนี้จะตรวจสอบคุณภาพข้อมูลโดยอัตโนมัติและตรวจจับความผิดปกติในข้อมูลของคุณ นักวิทยาศาสตร์ข้อมูลและวิศวกรข้อมูลสามารถใช้เครื่องมือนี้เพื่อนำความรู้โดเมนไปใช้อย่างมีประสิทธิภาพและรวดเร็วในการประมวลผลชุดข้อมูลสำหรับการฝึกอบรมโมเดล ML ขั้นตอนนี้เป็นทางเลือก ในการสร้างรายงานนี้ในชุดข้อมูลของเรา ให้ทำตามขั้นตอนต่อไปนี้:
- เกี่ยวกับ การวิเคราะห์ แท็บสำหรับ ประเภทการวิเคราะห์เลือก รายงานคุณภาพข้อมูลและข้อมูลเชิงลึก.
- สำหรับ คอลัมน์เป้าหมายเลือก has_heartfailure.
- สำหรับ ประเภทปัญหาให้เลือก การจัดหมวดหมู่.
- Choose สร้างบัญชีตัวแทน.
ภายในไม่กี่นาที จะสร้างรายงานพร้อมข้อมูลสรุป ภาพ และคำแนะนำ
สร้างการวิเคราะห์แบบจำลองด่วน
เราได้เตรียมข้อมูล ทำความสะอาด และวิศวกรรมคุณลักษณะเสร็จเรียบร้อยแล้ว Data Wrangler มีฟังก์ชันในตัวที่ให้ค่าประมาณคร่าวๆ ของคุณภาพที่คาดการณ์ไว้และพลังการทำนายของฟีเจอร์ในชุดข้อมูลของเรา
- เกี่ยวกับ การวิเคราะห์ แท็บสำหรับ ประเภทการวิเคราะห์¸ เลือก โมเดลด่วน.
- สำหรับ ฉลากเลือก has_heartfailure.
- Choose ดูตัวอย่าง.
ตามการวิเคราะห์ Quick Model ของเรา เราจะเห็นคุณสมบัติ has_hypertension
มีคะแนนความสำคัญด้านคุณลักษณะสูงสุดในบรรดาคุณลักษณะทั้งหมด
ส่งออกข้อมูลและฝึกโมเดล
ตอนนี้ มาส่งออกฟีเจอร์ที่พร้อมสำหรับ ML ที่แปลงแล้วไปยังบัคเก็ต S3 ปลายทางและปรับขนาดไปป์ไลน์ทางวิศวกรรมฟีเจอร์ทั้งหมดที่เราสร้างขึ้นจนถึงตอนนี้โดยใช้ตัวอย่างไปยังชุดข้อมูลทั้งหมดในรูปแบบกระจาย
- เลือกเครื่องหมายบวกถัดจากช่องสุดท้ายในโฟลว์ข้อมูลแล้วเลือก เพิ่มปลายทาง.
- Choose Amazon S3.
- ป้อน ชื่อชุดข้อมูล. สำหรับ ที่ตั้งของ Amazon S3เลือกบัคเก็ต S3 จากนั้นเลือก เพิ่มปลายทาง.
- Choose สร้างงาน เพื่อเริ่มงานการประมวลผล PySpark แบบกระจายเพื่อดำเนินการแปลงและส่งออกข้อมูลไปยังบัคเก็ต S3 ปลายทาง
ขึ้นอยู่กับขนาดของชุดข้อมูล ตัวเลือกนี้ช่วยให้เรากำหนดค่าคลัสเตอร์ได้อย่างง่ายดายและปรับขนาดตามแนวนอนในแบบไม่มีโค้ด เราไม่ต้องกังวลเกี่ยวกับการแบ่งพาร์ติชั่นชุดข้อมูลหรือการจัดการคลัสเตอร์และภายใน Spark ทั้งหมดนี้ได้รับการดูแลโดยอัตโนมัติจาก Data Wrangler - ในบานหน้าต่างด้านซ้าย เลือก ถัดไป 2. กำหนดค่างาน
- จากนั้นเลือก วิ่ง.
อีกทางหนึ่ง เราสามารถส่งออกเอาต์พุตที่แปลงแล้วไปยัง S3 ผ่าน Jupyter Notebook ด้วยวิธีนี้ Data Wrangler จะสร้างโน้ตบุ๊ก Jupyter โดยอัตโนมัติพร้อมรหัสทั้งหมดที่จำเป็นในการเริ่มงานการประมวลผลเพื่อใช้ขั้นตอนการไหลของข้อมูล (สร้างโดยใช้ตัวอย่าง) กับชุดข้อมูลทั้งหมดที่มีขนาดใหญ่กว่า และใช้ชุดข้อมูลที่แปลงแล้วเป็นคุณสมบัติที่จะเริ่มต้น ออกจากงานฝึกอบรมในภายหลัง รหัสสมุดบันทึกสามารถเรียกใช้ได้ทันทีโดยมีหรือไม่มีการเปลี่ยนแปลง มาดูขั้นตอนเกี่ยวกับวิธีการทำสิ่งนี้ผ่าน UI ของ Data Wrangler
- เลือกเครื่องหมายบวกถัดจากขั้นตอนสุดท้ายในโฟลว์ข้อมูลแล้วเลือก ส่งออกไปที่.
- Choose Amazon S3 (ผ่าน Jupyter Notebook).
- จะเปิดแท็บใหม่โดยอัตโนมัติด้วยสมุดบันทึก Jupyter
- ในสมุดบันทึก Jupyter ให้ค้นหาเซลล์ใน (ไม่บังคับ) ขั้นตอนต่อไป ส่วนและการเปลี่ยนแปลง
run_optional_steps
ราคาเริ่มต้นที่False
ไปยังTrue
.
ขั้นตอนเสริมที่เปิดใช้งานในโน้ตบุ๊กดำเนินการดังต่อไปนี้: - กลับไปที่ด้านบนของสมุดบันทึกและบน วิ่ง เมนูให้เลือก เรียกใช้ทุกเซลล์.
หากคุณใช้โน้ตบุ๊กที่สร้างขึ้นตามที่เป็นอยู่ ระบบจะเปิดใช้งานการประมวลผล SageMaker ซึ่งจะขยายการประมวลผลในอินสแตนซ์ m5.4xlarge สองอินสแตนซ์เพื่อประมวลผลชุดข้อมูลทั้งหมดบนบัคเก็ต S3 คุณสามารถปรับจำนวนอินสแตนซ์และประเภทอินสแตนซ์ตามขนาดชุดข้อมูลและเวลาที่คุณต้องการเพื่อให้งานเสร็จสมบูรณ์
รอจนกว่างานการฝึกจากเซลล์สุดท้ายจะเสร็จสิ้น มันสร้างโมเดลในบัคเก็ต S3 เริ่มต้นของ SageMaker
โมเดลที่ผ่านการฝึกอบรมพร้อมสำหรับการปรับใช้สำหรับการอนุมานแบบเรียลไทม์หรือการแปลงเป็นชุด โปรดทราบว่าเราใช้ข้อมูลสังเคราะห์เพื่อสาธิตฟังก์ชันการทำงานใน Data Wrangler และใช้ข้อมูลที่ประมวลผลแล้วสำหรับโมเดลการฝึกอบรม เนื่องจากข้อมูลที่เราใช้นั้นเป็นข้อมูลสังเคราะห์ ผลการอนุมานจากแบบจำลองที่ได้รับการฝึกอบรมไม่ได้มีไว้สำหรับการวินิจฉัยสภาพทางการแพทย์ในโลกแห่งความเป็นจริงหรือการทดแทนการตัดสินจากแพทย์
คุณยังสามารถส่งออกชุดข้อมูลที่แปลงแล้วไปยัง Amazon S3 ได้โดยตรงโดยเลือก ส่งออก ที่ด้านบนของหน้าแสดงตัวอย่างการแปลง ตัวเลือกการส่งออกโดยตรงจะส่งออกเฉพาะตัวอย่างที่แปลงแล้วหากเปิดใช้งานการสุ่มตัวอย่างระหว่างการนำเข้า ตัวเลือกนี้เหมาะที่สุดหากคุณกำลังจัดการกับชุดข้อมูลที่มีขนาดเล็กลง ข้อมูลที่แปลงแล้วยังสามารถนำเข้าไปยังที่เก็บคุณลักษณะได้โดยตรง สำหรับข้อมูลเพิ่มเติม โปรดดูที่ Amazon SageMaker ฟีเจอร์สโตร์. โฟลว์ข้อมูลยังสามารถส่งออกเป็นไปป์ไลน์ SageMaker ที่สามารถประสานและกำหนดเวลาได้ตามความต้องการของคุณ ดูข้อมูลเพิ่มเติมได้ที่ ท่อส่ง Amazon SageMaker.
สรุป
ในโพสต์นี้ เราแสดงวิธีใช้ Data Wrangler เพื่อประมวลผลข้อมูลด้านการดูแลสุขภาพและดำเนินการวิศวกรรมคุณสมบัติที่ปรับขนาดได้ในรูปแบบที่ใช้เครื่องมือและมีโค้ดน้อย เราได้เรียนรู้วิธีใช้การแปลงในตัวและวิเคราะห์อย่างเหมาะสมในทุกที่ที่ต้องการ รวมกับการแปลงแบบกำหนดเองเพื่อเพิ่มความยืดหยุ่นให้กับเวิร์กโฟลว์การเตรียมข้อมูลของเรา เรายังดำเนินการผ่านตัวเลือกต่างๆ สำหรับการปรับขนาดสูตรการไหลของข้อมูลผ่านงานการประมวลผลแบบกระจาย นอกจากนี้เรายังได้เรียนรู้ว่าข้อมูลที่แปลงแล้วนั้นสามารถใช้อย่างง่ายดายสำหรับการฝึกแบบจำลองเพื่อทำนายภาวะหัวใจล้มเหลวได้อย่างไร
มีฟีเจอร์อื่นๆ อีกมากมายใน Data Wrangler ที่เรายังไม่ได้กล่าวถึงในโพสต์นี้ สำรวจสิ่งที่เป็นไปได้ใน เตรียมข้อมูล ML ด้วย Amazon SageMaker Data Wrangler และเรียนรู้วิธีใช้ประโยชน์จาก Data Wrangler สำหรับวิทยาศาสตร์ข้อมูลหรือโปรเจ็กต์แมชชีนเลิร์นนิงครั้งต่อไปของคุณ
เกี่ยวกับผู้เขียน
ฟอเรสต์ ซัน เป็นสถาปนิกโซลูชันอาวุโสกับทีมงาน AWS Public Sector ในโตรอนโต ประเทศแคนาดา เขาเคยทำงานในอุตสาหกรรมการดูแลสุขภาพและการเงินมาเป็นเวลาสองทศวรรษที่ผ่านมา นอกเวลางาน เขาสนุกกับการตั้งแคมป์กับครอบครัว
อรุณประศาสน์ เป็นสถาปนิกโซลูชันผู้เชี่ยวชาญด้านปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง (AI/ML) กับ AWS ซึ่งช่วยให้ลูกค้าทั่วโลกปรับขนาดโซลูชัน AI ของตนในระบบคลาวด์ได้อย่างมีประสิทธิภาพและประสิทธิผล ในเวลาว่าง อรุณชอบดูหนังไซไฟและฟังเพลงคลาสสิก
- AI
- ไอ อาร์ต
- เครื่องกำเนิดไออาร์ท
- หุ่นยนต์ไอ
- อเมซอน SageMaker
- Amazon SageMaker ข้อมูล Wrangler
- ปัญญาประดิษฐ์
- ใบรับรองปัญญาประดิษฐ์
- ปัญญาประดิษฐ์ในการธนาคาร
- หุ่นยนต์ปัญญาประดิษฐ์
- หุ่นยนต์ปัญญาประดิษฐ์
- ซอฟต์แวร์ปัญญาประดิษฐ์
- AWS Machine Learning AWS
- blockchain
- การประชุม blockchain ai
- เหรียญอัจฉริยะ
- ปัญญาประดิษฐ์สนทนา
- การประชุม crypto ai
- ดัล-อี
- การเรียนรู้ลึก ๆ
- google ai
- เรียนรู้เครื่อง
- เพลโต
- เพลโตไอ
- เพลโตดาต้าอินเทลลิเจนซ์
- เกมเพลโต
- เพลโตดาต้า
- เพลโตเกม
- ขนาดไอ
- วากยสัมพันธ์
- ลมทะเล