สร้างแบบจำลองความเสี่ยงในการเรียนรู้ของเครื่องด้านสุขภาพจิตโดยใช้ Amazon SageMaker Data Wrangler

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

โพสต์นี้ร่วมเขียนโดย Shibangi Saha นักวิทยาศาสตร์ข้อมูล และ Graciela Kravtzov ผู้ร่วมก่อตั้งและ CTO แห่ง Equilibrium Point

บุคคลจำนวนมากกำลังประสบกับอาการป่วยทางจิตใหม่ๆ เช่น ความเครียด ความวิตกกังวล ภาวะซึมเศร้า การใช้สารเสพติด และโรคเครียดหลังเหตุการณ์สะเทือนใจ (PTSD) ตาม มูลนิธิครอบครัวไกเซอร์ประมาณครึ่งหนึ่งของผู้ใหญ่ (47%) ทั่วประเทศรายงานผลกระทบด้านสุขภาพจิตในเชิงลบระหว่างการระบาดใหญ่ ซึ่งเพิ่มขึ้นอย่างมากจากระดับก่อนเกิดโรคระบาด นอกจากนี้ เพศและกลุ่มอายุบางกลุ่มมีแนวโน้มที่จะรายงานความเครียดและความกังวลมากที่สุดในอัตราที่สูงกว่าคนอื่นๆ นอกจากนี้ กลุ่มชาติพันธุ์บางกลุ่มมีแนวโน้มที่จะรายงาน “ผลกระทบสำคัญ” ต่อสุขภาพจิตของพวกเขามากกว่ากลุ่มอื่นๆ

การสำรวจหลายครั้งรวมทั้งที่รวบรวมโดยศูนย์ควบคุมโรค (CDC) ได้แสดงให้เห็นอาการทางพฤติกรรมสุขภาพที่รายงานด้วยตนเองเพิ่มขึ้นอย่างมาก ตามรายงานของ CDC ฉบับหนึ่งซึ่งสำรวจผู้ใหญ่ทั่วสหรัฐอเมริกาเมื่อปลายเดือนมิถุนายน 2020 พบว่า 31% ของผู้ตอบแบบสอบถามรายงานอาการวิตกกังวลหรือซึมเศร้า 13% รายงานว่าเริ่มหรือมีการใช้สารเสพติดเพิ่มขึ้น 26% รายงานอาการที่เกี่ยวข้องกับความเครียด และ 11% รายงานว่ามีความคิดฆ่าตัวตายอย่างจริงจังในช่วง 30 วันที่ผ่านมา

ข้อมูลที่รายงานด้วยตนเอง แม้จะมีความสำคัญอย่างยิ่งในการวินิจฉัยความผิดปกติด้านสุขภาพจิต แต่ก็อาจได้รับอิทธิพลที่เกี่ยวข้องกับการตีตราอย่างต่อเนื่องเกี่ยวกับสุขภาพจิตและการรักษาสุขภาพจิต แทนที่จะพึ่งพาข้อมูลที่รายงานด้วยตนเองเพียงอย่างเดียว เราสามารถประมาณและคาดการณ์ความทุกข์ทางจิตโดยใช้ข้อมูลจากบันทึกด้านสุขภาพและอ้างข้อมูลเพื่อพยายามตอบคำถามพื้นฐาน: เราสามารถคาดการณ์ได้ว่าใครต้องการความช่วยเหลือด้านสุขภาพจิตก่อนที่พวกเขาจำเป็นต้องใช้ หากสามารถระบุตัวบุคคลเหล่านี้ได้ จะสามารถพัฒนาและปรับใช้โปรแกรมการแทรกแซงในระยะแรกและทรัพยากรเพื่อตอบสนองต่ออาการใหม่หรืออาการที่เพิ่มขึ้น เพื่อลดผลกระทบและค่าใช้จ่ายของความผิดปกติทางจิต

พูดง่ายกว่าทำสำหรับผู้ที่มีปัญหาในการจัดการและประมวลผลข้อมูลการอ้างสิทธิ์ที่ซับซ้อนและมีช่องว่างจำนวนมาก! ในโพสต์นี้ เราจะมาแชร์วิธีการ จุดสมดุล IoT มือสอง Amazon SageMaker ข้อมูล Wrangler เพื่อปรับปรุงการจัดเตรียมข้อมูลการเรียกร้องค่าสินไหมทดแทนสำหรับกรณีการใช้งานด้านสุขภาพจิตของเรา ในขณะที่รับรองคุณภาพของข้อมูลตลอดแต่ละขั้นตอนในกระบวนการ

ภาพรวมโซลูชัน

การเตรียมข้อมูลหรือวิศวกรรมคุณลักษณะเป็นกระบวนการที่น่าเบื่อ โดยกำหนดให้นักวิทยาศาสตร์ข้อมูลและวิศวกรข้อมูลที่มีประสบการณ์ต้องใช้เวลาและพลังงานอย่างมากในการกำหนดสูตรสำหรับการแปลงรูปแบบต่างๆ (ขั้นตอน) ที่จำเป็นเพื่อให้ได้ข้อมูลในรูปแบบที่ถูกต้อง อันที่จริง การวิจัยแสดงให้เห็นว่าการเตรียมข้อมูลสำหรับการเรียนรู้ของเครื่อง (ML) นั้นใช้เวลาถึง 80% ของนักวิทยาศาสตร์ด้านข้อมูล โดยทั่วไปแล้ว นักวิทยาศาสตร์และวิศวกรจะใช้กรอบการประมวลผลข้อมูลต่างๆ เช่น Pandas, PySpark และ SQL เพื่อเข้ารหัสการเปลี่ยนแปลงและสร้างงานการประมวลผลแบบกระจาย ด้วย Data Wrangler คุณสามารถทำให้กระบวนการนี้เป็นไปโดยอัตโนมัติ Data Wrangler เป็นส่วนประกอบของ สตูดิโอ Amazon SageMaker ที่ให้โซลูชันแบบครบวงจรในการนำเข้า จัดเตรียม แปลง นำเสนอ และวิเคราะห์ข้อมูล คุณสามารถรวม Data Wrangler การไหลของข้อมูล ลงในเวิร์กโฟลว์ ML ที่มีอยู่ของคุณเพื่อลดความซับซ้อนและปรับปรุงการประมวลผลข้อมูลและวิศวกรรมคุณลักษณะโดยใช้การเข้ารหัสเพียงเล็กน้อยหรือไม่มีเลย

ในโพสต์นี้ เราจะอธิบายขั้นตอนต่างๆ ในการแปลงชุดข้อมูลดิบดั้งเดิมให้เป็นฟีเจอร์ที่พร้อมใช้งาน ML เพื่อใช้สำหรับสร้างแบบจำลองการคาดการณ์ในขั้นต่อไป อันดับแรก เราเจาะลึกถึงลักษณะของชุดข้อมูลต่างๆ ที่ใช้สำหรับกรณีการใช้งานของเรา และวิธีที่เราเข้าร่วมชุดข้อมูลเหล่านี้ผ่าน Data Wrangler หลังจากการรวมและการรวมชุดข้อมูล เราจะอธิบายการแปลงแต่ละรายการที่เรานำไปใช้กับชุดข้อมูล เช่น การขจัดความซ้ำซ้อน การจัดการค่าที่หายไป และสูตรที่กำหนดเอง ตามด้วยวิธีที่เราใช้การวิเคราะห์ Quick Model ในตัวเพื่อตรวจสอบสถานะปัจจุบันของการแปลง สำหรับการทำนาย

ชุดข้อมูล

สำหรับการทดลองของเรา ก่อนอื่นเราดาวน์โหลดข้อมูลผู้ป่วยจากลูกค้าด้านพฤติกรรมสุขภาพของเรา ข้อมูลนี้มีดังต่อไปนี้:

ข้อมูลการเรียกร้อง
จำนวนการเยี่ยมชมห้องฉุกเฉิน
จำนวนการเยี่ยมผู้ป่วยใน
การนับใบสั่งยาที่เกี่ยวข้องกับสุขภาพจิต
Hierarchical condition coding (HCC) วินิจฉัยการนับที่เกี่ยวข้องกับสุขภาพจิต

เป้าหมายคือการเข้าร่วมชุดข้อมูลแยกเหล่านี้ตามรหัสผู้ป่วยและใช้ข้อมูลเพื่อทำนายการวินิจฉัยสุขภาพจิต เราใช้ Data Wrangler เพื่อสร้างชุดข้อมูลขนาดใหญ่ที่มีข้อมูลหลายล้านแถว ซึ่งเป็นการรวมชุดข้อมูลห้าชุดแยกกัน เรายังใช้ Data Wrangler เพื่อทำการแปลงหลายอย่างเพื่อให้สามารถคำนวณคอลัมน์ได้ ในส่วนต่อไปนี้ เราจะอธิบายการแปลงการเตรียมข้อมูลต่างๆ ที่เรานำไปใช้

วางคอลัมน์ที่ซ้ำกันหลังจากเข้าร่วม

Amazon SageMaker Data Wrangler ให้การแปลงข้อมูล ML จำนวนมากเพื่อเพิ่มความคล่องตัวในการทำความสะอาด แปลงสภาพ และนำเสนอข้อมูลของคุณ เมื่อคุณเพิ่มการแปลง จะเป็นการเพิ่มขั้นตอนในโฟลว์ข้อมูล การแปลงแต่ละครั้งที่คุณเพิ่มจะแก้ไขชุดข้อมูลของคุณและสร้างดาต้าเฟรมใหม่ การแปลงที่ตามมาทั้งหมดนำไปใช้กับ dataframe ที่เป็นผลลัพธ์ Data Wrangler มีการแปลงในตัว ซึ่งคุณสามารถใช้แปลงคอลัมน์โดยไม่ต้องใช้โค้ดใดๆ คุณยังสามารถเพิ่มการแปลงแบบกำหนดเองได้โดยใช้ PySpark, Pandas และ PySpark SQL การแปลงบางส่วนทำงานในขณะที่บางรูปแบบสร้างคอลัมน์เอาต์พุตใหม่ในชุดข้อมูลของคุณ

สำหรับการทดลองของเรา เนื่องจากหลังจากเข้าร่วมใน ID ผู้ป่วยแต่ละครั้ง เราจึงเหลือคอลัมน์ ID ผู้ป่วยที่ซ้ำกัน เราจำเป็นต้องวางคอลัมน์เหล่านี้ เราลบคอลัมน์ ID ผู้ป่วยที่ถูกต้องตามที่แสดงในภาพหน้าจอต่อไปนี้โดยใช้ที่สร้างไว้ล่วงหน้า จัดการคอลัมน์ ->วางคอลัมน์ แปลง เพื่อรักษาคอลัมน์ ID ผู้ป่วยเพียงคอลัมน์เดียว (patient_id ในชุดข้อมูลสุดท้าย)

ML8274-image001

หมุนชุดข้อมูลโดยใช้ Pandas

ชุดข้อมูลการเรียกร้องคือระดับผู้ป่วยที่มีการมาเยี่ยมฉุกเฉิน (ER) ผู้ป่วยใน (IP) การนับใบสั่งยา และข้อมูลการวินิจฉัยที่จัดกลุ่มไว้แล้วตามรหัส HCC ที่เกี่ยวข้อง (ประมาณ 189 รหัส) ในการสร้าง datamart ของผู้ป่วย เรารวบรวมรหัส HCC การอ้างสิทธิ์ตามผู้ป่วย และหมุนรหัส HCC จากแถวหนึ่งไปอีกคอลัมน์หนึ่ง เราใช้ Pandas เพื่อหมุนชุดข้อมูล นับจำนวนรหัส HCC ตามผู้ป่วย จากนั้นจึงรวมเข้ากับชุดข้อมูลหลักบน ID ผู้ป่วย เราใช้ตัวเลือกการแปลงแบบกำหนดเองใน Data Wrangler โดยเลือก Python (Pandas) เป็นเฟรมเวิร์กที่เลือก

ML8274-image002

ข้อมูลโค้ดต่อไปนี้แสดงลอจิกการแปลงเพื่อเปลี่ยนตาราง:

# Table is available as variable df
import pandas as pd
import numpy as np table = pd.pivot_table(df, values = 'claim_count', index=['patient_id0'], columns = 'hcc', fill_value=0).reset_index()
df = table

สร้างคอลัมน์ใหม่โดยใช้สูตรที่กำหนดเอง

เราศึกษาเอกสารการวิจัยเพื่อพิจารณาว่ารหัส HCC ใดที่กำหนดในการวินิจฉัยสุขภาพจิต จากนั้น เราเขียนตรรกะนี้โดยใช้การแปลงสูตรแบบกำหนดเองของ Data Wrangler ที่ใช้นิพจน์ Spark SQL เพื่อคำนวณคอลัมน์เป้าหมายการวินิจฉัยสุขภาพจิต (MH) ซึ่งเราเพิ่มไว้ที่ส่วนท้ายของ DataFrame

ML8274-image003

เราใช้ตรรกะการแปลงต่อไปนี้:

# Output: MH
IF (HCC_Code_11 > 0 or HCC_Code_22 > 0 or HCC_Code_23 > 0 or HCC_Code_54 > 0 or HCC_Code_55 > 0 or HCC_Code_57 > 0 or HCC_Code_72 > 0, 1, 0)

วางคอลัมน์จาก DataFrame โดยใช้ PySpark

หลังจากคำนวณคอลัมน์เป้าหมาย (MH) เราลบคอลัมน์ที่ซ้ำกันที่ไม่จำเป็นทั้งหมด เราเก็บรักษา ID ผู้ป่วยและคอลัมน์ MH เพื่อรวมเข้ากับชุดข้อมูลหลักของเรา สิ่งนี้อำนวยความสะดวกโดยการแปลง SQL แบบกำหนดเองที่ใช้ PySpark SQL เป็นเฟรมเวิร์กที่เราเลือก

ML8274-image005

เราใช้ตรรกะต่อไปนี้:

/* Table is available as variable df */ select MH, patient_id0 from df

ย้ายคอลัมน์ MH เพื่อเริ่มต้น

อัลกอริทึม ML ของเรากำหนดให้อินพุตที่มีป้ายกำกับอยู่ในคอลัมน์แรก ดังนั้นเราจึงย้ายคอลัมน์จากการคำนวณ MH ไปยังจุดเริ่มต้นของ DataFrame เพื่อให้พร้อมสำหรับการส่งออก

ML8274-image006

เติม 0 ในช่องว่างโดยใช้ Pandas

อัลกอริธึม ML ของเรากำหนดให้ข้อมูลที่ป้อนไม่มีฟิลด์ว่าง ดังนั้นเราจึงเติมฟิลด์ว่างของชุดข้อมูลสุดท้ายด้วย 0s เราสามารถทำได้โดยง่ายผ่านการแปลงแบบกำหนดเอง (Pandas) ใน Data Wrangler

ML8274-image007

เราใช้ตรรกะต่อไปนี้:

# Table is available as variable df
df.fillna(0, inplace=True)

หล่อคอลัมน์จากลอยไปยาว

คุณยังสามารถแยกวิเคราะห์และส่งคอลัมน์ไปยังประเภทข้อมูลใหม่ได้อย่างง่ายดายใน Data Wrangler เพื่อวัตถุประสงค์ในการเพิ่มประสิทธิภาพหน่วยความจำ เราแคสต์คอลัมน์ป้อนข้อมูลป้ายกำกับสุขภาพจิตเป็นแบบลอย

ML8274-image008

การวิเคราะห์แบบจำลองอย่างรวดเร็ว: กราฟความสำคัญของคุณลักษณะ

หลังจากสร้างชุดข้อมูลสุดท้ายแล้ว เราใช้ประเภทการวิเคราะห์แบบจำลองด่วนใน Data Wrangler เพื่อระบุข้อมูลที่ไม่สอดคล้องกันอย่างรวดเร็ว และหากความแม่นยำของแบบจำลองของเราอยู่ในช่วงที่คาดไว้ หรือหากเราจำเป็นต้องดำเนินการวิศวกรรมคุณลักษณะต่อไปก่อนที่จะใช้เวลาในการฝึกอบรมแบบจำลอง แบบจำลองส่งคืนคะแนน F1 ที่ 0.901 โดยที่ 1 เป็นคะแนนสูงสุด คะแนน F1 เป็นวิธีการผสมผสานความแม่นยำและการเรียกคืนของแบบจำลอง และถูกกำหนดให้เป็นค่าเฉลี่ยฮาร์มอนิกของทั้งสอง หลังจากตรวจสอบผลลัพธ์ที่เป็นบวกในเบื้องต้นแล้ว เราก็พร้อมที่จะส่งออกข้อมูลและดำเนินการฝึกอบรมแบบจำลองโดยใช้ชุดข้อมูลที่ส่งออก

ML8274-image009

ส่งออกชุดข้อมูลสุดท้ายไปยัง Amazon S3 ผ่านโน้ตบุ๊ก Jupyter

เป็นขั้นตอนสุดท้าย ในการส่งออกชุดข้อมูลในรูปแบบปัจจุบัน (แปลงแล้ว) เป็น บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) สำหรับใช้ในอนาคตในการฝึกโมเดล เราใช้ บันทึกไปยัง Amazon S3 (ผ่าน Jupyter Notebook) ตัวเลือกการส่งออก สมุดบันทึกนี้เริ่มต้นการกระจายและปรับขนาดได้ การประมวลผล Amazon SageMaker งานที่นำสูตรที่สร้างขึ้น (โฟลว์ข้อมูล) ไปใช้กับอินพุตที่ระบุ (โดยปกติแล้วจะเป็นชุดข้อมูลที่ใหญ่กว่า) และบันทึกผลลัพธ์ใน Amazon S3 คุณยังสามารถส่งออกคอลัมน์ (คุณสมบัติ) ที่แปลงแล้วของคุณเป็น Amazon SageMaker ฟีเจอร์สโตร์ หรือส่งออกการแปลงเป็นไปป์ไลน์โดยใช้ ท่อส่ง Amazon SageMakerหรือเพียงแค่ส่งออกการแปลงเป็นโค้ด Python

ในการส่งออกข้อมูลไปยัง Amazon S3 คุณมีสามตัวเลือก:

ส่งออกข้อมูลที่แปลงแล้วโดยตรงไปยัง Amazon S3 ผ่าน Data Wrangler UI
ส่งออกการแปลงเป็นงาน SageMaker Processing ผ่านสมุดบันทึก Jupyter (เช่นเดียวกับที่เราทำสำหรับโพสต์นี้)
ส่งออกการแปลงไปยัง Amazon S3 ผ่านโหนดปลายทาง โหนดปลายทางจะบอก Data Wrangler ว่าจะเก็บข้อมูลไว้ที่ใดหลังจากที่คุณได้ประมวลผลแล้ว หลังจากที่คุณสร้างโหนดปลายทาง คุณจะสร้างงานการประมวลผลเพื่อส่งออกข้อมูล

ML8274-image010

สรุป

ในโพสต์นี้ เราแสดงให้เห็นว่า Equilibrium Point IoT ใช้ Data Wrangler เพื่อเพิ่มความเร็วในกระบวนการโหลดข้อมูลการเคลมของเราจำนวนมากสำหรับการล้างข้อมูลและการแปลงข้อมูลเพื่อเตรียมพร้อมสำหรับ ML อย่างไร เรายังสาธิตวิธีรวมวิศวกรรมคุณสมบัติเข้ากับการแปลงแบบกำหนดเองโดยใช้ Pandas และ PySpark ใน Data Wrangler ซึ่งช่วยให้เราสามารถส่งออกข้อมูลทีละขั้นตอน (หลังจากเข้าร่วมในแต่ละครั้ง) เพื่อวัตถุประสงค์ในการประกันคุณภาพ การประยุกต์ใช้การแปลงข้อมูลที่ใช้งานง่ายเหล่านี้ใน Data Wrangler ช่วยลดเวลาที่ใช้ในการแปลงข้อมูลตั้งแต่ต้นทางถึงปลายทางได้เกือบ 50% นอกจากนี้ คุณลักษณะการวิเคราะห์แบบจำลองด่วนใน Data Wrangler ช่วยให้เราตรวจสอบสถานะของการแปลงได้อย่างง่ายดาย ขณะที่เราวนรอบกระบวนการเตรียมข้อมูลและวิศวกรรมคุณลักษณะ

ตอนนี้เราได้เตรียมข้อมูลสำหรับกรณีการใช้งานแบบจำลองความเสี่ยงด้านสุขภาพจิตแล้ว ในขั้นตอนต่อไป เราวางแผนที่จะสร้างแบบจำลอง ML โดยใช้ SageMaker และอัลกอริทึมในตัวที่นำเสนอ โดยใช้ชุดข้อมูลการเรียกร้องของเราเพื่อระบุสมาชิกที่ควรแสวงหาสุขภาพจิต บริการก่อนที่จะไปถึงจุดที่ต้องการ คอยติดตาม!

เกี่ยวกับผู้เขียน

ชิบังกิ ซาฮา เป็นนักวิทยาศาสตร์ข้อมูลที่จุดสมดุล เธอผสมผสานความเชี่ยวชาญของเธอในด้านข้อมูลการเรียกร้องค่ารักษาพยาบาลและการเรียนรู้ด้วยเครื่องเพื่อออกแบบ นำไปใช้ ทำให้เป็นอัตโนมัติ และจัดทำเอกสารสำหรับไปป์ไลน์ข้อมูลสุขภาพ การรายงาน และกระบวนการวิเคราะห์ที่ขับเคลื่อนข้อมูลเชิงลึกและการปรับปรุงที่ดำเนินการได้ในระบบการจัดส่งด้านการดูแลสุขภาพ Shibangi สำเร็จการศึกษาวิทยาศาสตรมหาบัณฑิตสาขาชีวสารสนเทศจากวิทยาลัยวิทยาศาสตร์มหาวิทยาลัย Northeastern และปริญญาตรีสาขาวิทยาศาสตร์ชีววิทยาและวิทยาการคอมพิวเตอร์จากวิทยาลัย Khoury College of Computer Science and Information Sciences

กราเซียลา คราฟตซอฟ เป็นผู้ร่วมก่อตั้งและ CTO ของ Equilibrium Point เกรซดำรงตำแหน่งผู้นำระดับ C/VP ในสาขาวิศวกรรม ปฏิบัติการ และคุณภาพ และทำหน้าที่เป็นที่ปรึกษาผู้บริหารสำหรับกลยุทธ์ทางธุรกิจและการพัฒนาผลิตภัณฑ์ภายในอุตสาหกรรมการดูแลสุขภาพและการศึกษา และพื้นที่อุตสาหกรรม IoT เกรซสำเร็จการศึกษาระดับปริญญาโทด้านวิทยาศาสตรมหาบัณฑิตสาขาวิศวกรรมไฟฟ้าจากมหาวิทยาลัยบัวโนสไอเรส และปริญญาวิทยาศาสตรมหาบัณฑิตสาขาวิทยาการคอมพิวเตอร์จากมหาวิทยาลัยบอสตัน

อรุณประศาสน์ เป็นสถาปนิกโซลูชันผู้เชี่ยวชาญด้านปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง (AI/ML) กับ AWS ซึ่งช่วยให้ลูกค้าทั่วโลกปรับขนาดโซลูชัน AI ของตนในระบบคลาวด์ได้อย่างมีประสิทธิภาพและประสิทธิผล ในเวลาว่าง อรุณชอบดูหนังไซไฟและฟังเพลงคลาสสิก

อาจาย ชาร์มา เป็นผู้จัดการผลิตภัณฑ์อาวุโสของ Amazon SageMaker ซึ่งเขาเน้นที่ SageMaker Data Wrangler ซึ่งเป็นเครื่องมือเตรียมข้อมูลภาพสำหรับนักวิทยาศาสตร์ด้านข้อมูล ก่อนหน้าร่วมงานกับ AWS Ajai เป็นผู้เชี่ยวชาญด้านวิทยาศาสตร์ข้อมูลของ McKinsey and Company ซึ่งเขาเป็นผู้นำการนัดหมายที่เน้น ML ให้กับบริษัทการเงินและประกันภัยชั้นนำทั่วโลก Ajai หลงใหลเกี่ยวกับวิทยาศาสตร์ข้อมูลและชอบที่จะสำรวจอัลกอริธึมล่าสุดและเทคนิคการเรียนรู้ของเครื่อง