Tính năng kỹ thuật ở quy mô lớn dành cho chăm sóc sức khỏe và khoa học đời sống với Amazon SageMaker Data Wrangler

Được xuất bản lại bởi Plato

Người theo dõi: 0

Học máy (ML) đang phá vỡ nhiều ngành công nghiệp với tốc độ chưa từng có. Ngành chăm sóc sức khỏe và khoa học đời sống (HCLS) đã trải qua một quá trình phát triển nhanh chóng trong những năm gần đây với ML qua vô số trường hợp sử dụng để cung cấp dịch vụ chăm sóc chất lượng và cải thiện kết quả của bệnh nhân.

Trong một vòng đời ML điển hình, các kỹ sư dữ liệu và nhà khoa học dành phần lớn thời gian của họ cho các bước chuẩn bị dữ liệu và kỹ thuật tính năng trước khi bắt đầu với quá trình xây dựng và đào tạo mô hình. Có một công cụ có thể hạ thấp rào cản đối với việc chuẩn bị dữ liệu, do đó cải thiện năng suất, là một yêu cầu rất đáng mong đợi đối với những nhân vật này. Trình sắp xếp dữ liệu Amazon SageMaker là mục đích được AWS xây dựng để giảm bớt đường cong học tập và cho phép những người thực hành dữ liệu hoàn thành các nhiệm vụ chuẩn bị dữ liệu, làm sạch và kỹ thuật tính năng với ít nỗ lực và thời gian hơn. Nó cung cấp giao diện GUI với nhiều chức năng tích hợp và tích hợp với các dịch vụ AWS khác như Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) và Cửa hàng tính năng Amazon SageMaker, cũng như các nguồn dữ liệu đối tác bao gồm Snowflake và Databricks.

Trong bài đăng này, chúng tôi trình bày cách sử dụng Data Wrangler để chuẩn bị dữ liệu chăm sóc sức khỏe nhằm đào tạo mô hình dự đoán suy tim, dựa trên nhân khẩu học của bệnh nhân, tình trạng y tế trước đây và lịch sử kết quả xét nghiệm trong phòng thí nghiệm.

Tổng quan về giải pháp

Giải pháp bao gồm các bước sau:

Nhận tập dữ liệu chăm sóc sức khỏe làm đầu vào cho Data Wrangler.
Sử dụng các hàm chuyển đổi có sẵn của Data Wrangler để biến đổi tập dữ liệu. Điều này bao gồm thả cột, phân loại dữ liệu / thời gian, kết hợp các tập dữ liệu, nhập các giá trị còn thiếu, mã hóa các biến phân loại, chia tỷ lệ giá trị số, cân bằng tập dữ liệu và hơn thế nữa.
Sử dụng chức năng biến đổi tùy chỉnh của Data Wrangler (mã Pandas hoặc PySpark) để bổ sung các phép biến đổi bổ sung cần thiết ngoài các phép biến đổi tích hợp sẵn và chứng minh khả năng mở rộng của Data Wrangler. Điều này bao gồm các hàng lọc, dữ liệu nhóm, tạo khung dữ liệu mới dựa trên các điều kiện và hơn thế nữa.
Sử dụng các chức năng trực quan hóa có sẵn của Data Wrangler để thực hiện phân tích trực quan. Điều này bao gồm rò rỉ mục tiêu, tương quan tính năng, mô hình nhanh và hơn thế nữa.
Sử dụng các tùy chọn xuất tích hợp của Data Wrangler để xuất tập dữ liệu đã chuyển đổi sang Amazon S3.
Khởi chạy sổ ghi chép Jupyter để sử dụng tập dữ liệu đã chuyển đổi trong Amazon S3 làm đầu vào để đào tạo mô hình.

Tạo tập dữ liệu

Bây giờ chúng ta đã giải quyết xong tuyên bố vấn đề ML, trước tiên chúng ta đặt mục tiêu thu thập dữ liệu chúng ta cần. Các nghiên cứu nghiên cứu như Dự đoán suy tim có thể cung cấp dữ liệu đã ở trạng thái tốt. Tuy nhiên, chúng tôi thường gặp các tình huống trong đó dữ liệu khá lộn xộn và yêu cầu kết hợp, làm sạch và một số biến đổi khác rất cụ thể cho miền chăm sóc sức khỏe trước khi nó có thể được sử dụng cho đào tạo ML. Chúng tôi muốn tìm hoặc tạo dữ liệu đủ lộn xộn và hướng dẫn bạn qua các bước chuẩn bị bằng Data Wrangler. Với suy nghĩ đó, chúng tôi đã chọn Synthea làm công cụ để tạo dữ liệu tổng hợp phù hợp với mục tiêu của chúng tôi. tổng hợp là một trình tạo bệnh nhân tổng hợp mã nguồn mở mô hình hóa lịch sử y tế của các bệnh nhân tổng hợp. Để tạo tập dữ liệu của bạn, hãy hoàn thành các bước sau:

Thực hiện theo các hướng dẫn theo bắt đầu nhanh tài liệu để tạo một Xưởng sản xuất Amazon SageMaker miền và khởi chạy Studio.
Đây là bước tiên quyết. Đây là tùy chọn nếu Studio đã được thiết lập trong tài khoản của bạn.
Sau khi Studio được khởi chạy, trên Launcher tab, chọn Thiết bị đầu cuối hệ thống.
Thao tác này khởi chạy một phiên đầu cuối cung cấp cho bạn giao diện dòng lệnh để làm việc.

Để cài đặt Synthea và tạo tập dữ liệu ở định dạng CSV, hãy chạy các lệnh sau trong phiên đầu cuối đã khởi chạy:

$ sudo yum install -y java-1.8.0-openjdk-devel
$ export JAVA_HOME=/usr/lib/jvm/jre-1.8.0-openjdk.x86_64
$ export PATH=$JAVA_HOME/bin:$PATH
$ git clone https://github.com/synthetichealth/synthea
$ git checkout v3.0.0
$ cd synthea
$ ./run_synthea --exporter.csv.export=true -p 10000

Chúng tôi cung cấp một tham số để tạo tập dữ liệu với quy mô dân số là 10,000. Lưu ý rằng tham số kích thước biểu thị số lượng thành viên còn sống của quần thể. Ngoài ra, Synthea cũng tạo ra dữ liệu cho các thành viên đã chết của quần thể có thể thêm một vài điểm dữ liệu bổ sung trên kích thước mẫu được chỉ định.

Chờ cho đến khi quá trình tạo dữ liệu hoàn tất. Bước này thường mất khoảng một giờ hoặc ít hơn. Synthea tạo ra nhiều bộ dữ liệu, bao gồm patients, medications, allergies, conditions, và nhiều hơn nữa. Đối với bài đăng này, chúng tôi sử dụng ba trong số các tập dữ liệu kết quả:

bệnh nhân.csv - Tập dữ liệu này có dung lượng khoảng 3.2 MB và chứa khoảng 11,000 hàng dữ liệu bệnh nhân (25 cột bao gồm ID bệnh nhân, ngày sinh, giới tính, địa chỉ, v.v.)
điều kiện.csv - Tập dữ liệu này có dung lượng khoảng 47 MB và chứa khoảng 370,000 hàng dữ liệu tình trạng y tế (sáu cột bao gồm ID bệnh nhân, ngày bắt đầu tình trạng, mã tình trạng, v.v.)
quan sát.csv - Tập dữ liệu này có dung lượng khoảng 830 MB và chứa khoảng 5 triệu hàng dữ liệu quan sát (tám cột bao gồm ID bệnh nhân, ngày quan sát, mã quan sát, giá trị, v.v.)

Có một mối quan hệ một-nhiều giữa patients và conditions bộ dữ liệu. Cũng có một mối quan hệ một-nhiều giữa patients và observations bộ dữ liệu. Để có từ điển dữ liệu chi tiết, hãy tham khảo Từ điển dữ liệu tệp CSV.

Để tải tập dữ liệu đã tạo lên nhóm nguồn trong Amazon S3, hãy chạy các lệnh sau trong phiên đầu cuối:
```
$ cd ./output/csv
$ aws s3 sync . s3://<source bucket name>/
```

Khởi chạy Data Wrangler

Chọn Tài nguyên của SageMaker trong trang điều hướng trong Studio và trên Dự án menu, chọn Trình sắp xếp dữ liệu để tạo luồng dữ liệu Data Wrangler. Để biết các bước chi tiết về cách khởi chạy Data Wrangler từ trong Studio, hãy tham khảo Bắt đầu với Data Wrangler.

Nhập dữ liệu

Để nhập dữ liệu của bạn, hãy hoàn thành các bước sau:

Chọn Amazon S3 và xác định vị trí tệp bệnh nhân.csv trong nhóm S3.
Trong tạp chí Chi tiết ngăn, chọn K đầu tiên cho Lấy mẫu.
đăng ký hạng mục thi 1100 cho Cỡ mẫu.
Trong ngăn xem trước, Data Wrangler kéo 100 hàng đầu tiên từ tập dữ liệu và liệt kê chúng dưới dạng bản xem trước.
Chọn Nhập khẩu.
Data Wrangler chọn 1,100 bệnh nhân đầu tiên từ tổng số bệnh nhân (11,000 hàng) được tạo bởi Synthea và nhập dữ liệu. Phương pháp lấy mẫu cho phép Data Wrangler chỉ xử lý dữ liệu mẫu. Nó cho phép chúng tôi phát triển luồng dữ liệu của mình với một tập dữ liệu nhỏ hơn, giúp xử lý nhanh hơn và vòng phản hồi ngắn hơn. Sau khi chúng tôi tạo luồng dữ liệu, chúng tôi có thể gửi công thức đã phát triển tới Xử lý SageMaker công việc mở rộng quy mô xử lý theo chiều ngang cho tập dữ liệu đầy đủ hoặc lớn hơn theo kiểu phân tán.
Lặp lại quá trình này cho conditions và observations bộ dữ liệu.
1. Đối với conditions tập dữ liệu, nhập 37000 cho Cỡ mẫu, bằng 1/10 trong tổng số 370,000 hàng được tạo bởi Synthea.
2. Đối với observations tập dữ liệu, nhập 500000 cho Cỡ mẫu, là 1/10 trong tổng số quan sát 5 triệu hàng do Synthea tạo ra.

Bạn sẽ thấy ba tập dữ liệu như được hiển thị trong ảnh chụp màn hình sau.

Chuyển đổi dữ liệu

Chuyển đổi dữ liệu là quá trình thay đổi cấu trúc, giá trị hoặc định dạng của một hoặc nhiều cột trong tập dữ liệu. Quá trình này thường được phát triển bởi một kỹ sư dữ liệu và có thể là thách thức đối với những người có kỹ năng kỹ thuật dữ liệu nhỏ hơn để giải mã logic được đề xuất cho việc chuyển đổi. Chuyển đổi dữ liệu là một phần của quy trình kỹ thuật tính năng rộng lớn hơn và trình tự các bước chính xác là một tiêu chí quan trọng khác cần ghi nhớ khi nghĩ ra các công thức như vậy.

Data Wrangler được thiết kế để trở thành một công cụ mã thấp để giảm rào cản xâm nhập nhằm chuẩn bị dữ liệu hiệu quả. Nó đi kèm với hơn 300 phép biến đổi dữ liệu được cấu hình sẵn để bạn lựa chọn mà không cần viết một dòng mã nào. Trong các phần tiếp theo, chúng ta sẽ thấy cách chuyển đổi các tập dữ liệu đã nhập trong Data Wrangler.

Thả cột trong disease.csv

Đầu tiên, chúng tôi bỏ một số cột từ patients tập dữ liệu. Việc loại bỏ các cột dư thừa sẽ xóa thông tin không liên quan khỏi tập dữ liệu và giúp chúng tôi giảm lượng tài nguyên máy tính cần thiết để xử lý tập dữ liệu và đào tạo mô hình. Trong phần này, chúng tôi bỏ các cột như SSN hoặc số hộ chiếu dựa trên cảm giác thông thường rằng các cột này không có giá trị dự đoán. Nói cách khác, chúng không giúp mô hình của chúng tôi dự đoán suy tim. Nghiên cứu của chúng tôi cũng không quan tâm đến các cột khác như nơi sinh hoặc chi phí chăm sóc sức khỏe ảnh hưởng đến bệnh suy tim của bệnh nhân, vì vậy chúng tôi cũng loại bỏ chúng. Các cột dự phòng cũng có thể được xác định bằng cách chạy các phân tích tích hợp sẵn như rò rỉ mục tiêu, tương quan tính năng, đa cộng tuyến, v.v., được tích hợp trong Data Wrangler. Để biết thêm chi tiết về các loại phân tích được hỗ trợ, hãy tham khảo Phân tích và Hình dung. Ngoài ra, bạn có thể sử dụng Báo cáo chất lượng dữ liệu và thông tin chi tiết để thực hiện các phân tích tự động trên bộ dữ liệu để đi đến danh sách các cột dư thừa cần loại bỏ.

Chọn dấu cộng bên cạnh Loại dữ liệu cho tập dữ liệu bệnh nhân.csv và chọn Thêm biến đổi.
Chọn Thêm bước Và chọn Quản lý các cột.
Trong Chuyển đổichọn Thả cột.
Trong Các cột để thả, hãy chọn các cột sau:
1. SSN
2. DRIVERS
3. PASSPORT
4. PREFIX
5. FIRST
6. LAST
7. SUFFIX
8. MAIDEN
9. RACE
10. ETHNICITY
11. BIRTHPLACE
12. ADDRESS
13. CITY
14. STATE
15. COUNTY
16. ZIP
17. LAT
18. LON
19. HEALTHCARE_EXPENSES
20. HEALTHCARE_COVERAGE
Chọn Xem trước để xem lại tập dữ liệu đã chuyển đổi, sau đó chọn Thêm.

Bạn sẽ thấy bước Thả cột trong danh sách các phép biến đổi của bạn.

Lông ngày / giờ trong bệnh nhân.csv

Bây giờ chúng tôi sử dụng chức năng ngày / giờ Featurize để tạo tính năng mới Year từ BIRTHDATE cột trong patients tập dữ liệu. Chúng tôi sử dụng tính năng mới trong bước tiếp theo để tính tuổi của bệnh nhân tại thời điểm quan sát diễn ra.

Trong tạp chí Biến đổi ngăn của bạn Thả cột trang cho patients tập dữ liệu, chọn Thêm bước.
Chọn Ngày / giờ lông vũ biến đổi.
Chọn Trích xuất các cột.
Trong Các cột đầu vào, thêm cột BIRTHDATE.
Chọn Năm và bỏ chọn tháng, ngày, giờ, Phút, Thứ hai.
Chọn Xem trước, sau đó chọn Thêm.

Thêm các biến đổi trong quan sát.csv

Data Wrangler hỗ trợ các biến đổi tùy chỉnh bằng cách sử dụng Python (các hàm do người dùng xác định), PySpark, Pandas hoặc PySpark (SQL). Bạn có thể chọn loại biến đổi của mình dựa trên mức độ quen thuộc của bạn với từng tùy chọn và sở thích. Đối với ba tùy chọn sau, Data Wrangler hiển thị biến df để bạn truy cập khung dữ liệu và áp dụng các phép biến đổi trên đó. Để có lời giải thích chi tiết và ví dụ, hãy tham khảo Biến đổi tùy chỉnh. Trong phần này, chúng tôi thêm ba biến đổi tùy chỉnh để observations tập dữ liệu.

Thêm một biến đổi vào quan sát.csv và thả DESCRIPTION cột.
Chọn Xem trước, sau đó chọn Thêm.
Trong tạp chí Biến đổi ngăn, chọn Thêm bước Và chọn Biến đổi tùy chỉnh.
Trên menu thả xuống, hãy chọn Python (Gấu trúc).

Nhập mã sau:

df = df[df["CODE"].isin(['8867-4','8480-6','8462-4','39156-5','777-3'])]

Đây là các mã LONIC tương ứng với các quan sát sau mà chúng tôi muốn sử dụng làm các tính năng để dự đoán suy tim:

heart rate: 8867-4
systolic blood pressure: 8480-6
diastolic blood pressure: 8462-4
body mass index (BMI): 39156-5
platelets [#/volume] in Blood: 777-3

Chọn Xem trước, sau đó chọn Thêm.
Thêm một biến đổi để giải nén Year và Quarter từ DATE cột.
Chọn Xem trước, sau đó chọn Thêm.
Chọn Thêm bước Và chọn Biến đổi tùy chỉnh.
Trên menu thả xuống, hãy chọn Trăn (PySpark).

Năm loại quan sát có thể không phải lúc nào cũng được ghi vào cùng một ngày. Ví dụ, một bệnh nhân có thể đến gặp bác sĩ gia đình của họ vào ngày 21 tháng 2 và được đo và ghi lại huyết áp tâm thu, huyết áp tâm trương, nhịp tim và chỉ số khối cơ thể. Tuy nhiên, một bài kiểm tra trong phòng thí nghiệm bao gồm tiểu cầu có thể được thực hiện sau đó vào ngày XNUMX tháng XNUMX. Do đó, không phải lúc nào cũng có thể kết hợp các khung dữ liệu trước ngày quan sát. Ở đây, chúng tôi kết hợp các khung dữ liệu ở mức độ chi tiết thô ở cơ sở hàng quý.

Nhập mã sau:

from pyspark.sql.functions import col

systolic_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed("value", "systolic")
                   .filter((col("code") == "8480-6"))
  )

diastolic_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'diastolic')
                   .filter((col("code") == "8462-4"))
    )

hr_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'hr')
                   .filter((col("code") == "8867-4"))
    )

bmi_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'bmi')
                   .filter((col("code") == "39156-5"))
    )

platelets_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'platelets')
                   .filter((col("code") == "777-3"))
    )

df = (
    systolic_df.join(diastolic_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(hr_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(bmi_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(platelets_df, ["patient", "DATE_year", "DATE_quarter"])
)

Chọn Xem trước, sau đó chọn Thêm.
Chọn Thêm bước, sau đó chọn Quản lý hàng.
Trong Chuyển đổi, chọn Bỏ các bản sao.
Chọn Xem trước, sau đó chọn Thêm.
Chọn Thêm bước Và chọn Biến đổi tùy chỉnh.
Trên menu thả xuống, hãy chọn Python (Gấu trúc).

Nhập mã sau để lấy giá trị trung bình của các điểm dữ liệu có cùng giá trị thời gian:

import pandas as pd
df.loc[:, df.columns != 'patient']=df.loc[:, df.columns != 'patient'].apply(pd.to_numeric)
df = df.groupby(['patient','DATE_year','DATE_quarter']).mean().round(0).reset_index()

Chọn Xem trước, sau đó chọn Thêm.

Tham gia bệnh nhân.csv và quan sát.csv

Trong bước này, chúng tôi giới thiệu cách thực hiện hiệu quả và dễ dàng các phép nối phức tạp trên tập dữ liệu mà không cần viết bất kỳ mã nào thông qua giao diện người dùng mạnh mẽ của Data Wrangler. Để tìm hiểu thêm về các loại liên kết được hỗ trợ, hãy tham khảo Chuyển đổi dữ liệu.

Bên phải của Chuyển đổi: bệnh nhân.csv, chọn dấu cộng bên cạnh Các bước Và chọn Tham gia.
Bạn có thể thấy tệp bệnh nhân.csv đã được chuyển đổi được liệt kê bên dưới Bộ dữ liệu ở khung bên trái.
Bên phải của Chuyển đổi: quan sát.csv, nhấp vào Các bước để bắt đầu hoạt động tham gia.
Tệp Obser.csv đã chuyển đổi hiện được liệt kê trong Bộ dữ liệu ở khung bên trái.
Chọn Thiết lập.
Trong Loại tham gia, chọn Bên trong.
Trong Còn lại, chọn Id.
Trong Đúng, chọn bệnh nhân.
Chọn Xem trước, sau đó chọn Thêm.

Thêm một biến đổi tùy chỉnh vào các tập dữ liệu đã kết hợp

Trong bước này, chúng tôi tính tuổi của bệnh nhân tại thời điểm quan sát. Chúng tôi cũng loại bỏ các cột không còn cần thiết.

Chọn dấu cộng bên cạnh Tham gia đầu tiên Và chọn Thêm biến đổi.

Thêm một biến đổi tùy chỉnh trong Pandas:

df['age'] = df['DATE_year'] - df['BIRTHDATE_year']
df = df.drop(columns=['BIRTHDATE','DEATHDATE','BIRTHDATE_year','patient'])

Chọn Xem trước, sau đó chọn Thêm.

Thêm các chuyển đổi tùy chỉnh vào condition.csv

Chọn dấu cộng bên cạnh Chuyển đổi: điều kiện.csv Và chọn Thêm biến đổi.

Thêm một biến đổi tùy chỉnh trong Pandas:

df = df[df["CODE"].isin(['84114007', '88805009', '59621000', '44054006', '53741008', '449868002', '49436004'])]
df = df.drop(columns=['DESCRIPTION','ENCOUNTER','STOP'])

Lưu ý: Như chúng tôi đã trình bày trước đó, bạn có thể thả các cột bằng cách sử dụng mã tùy chỉnh hoặc sử dụng các phép biến đổi tích hợp được cung cấp bởi Data Wrangler. Các phép biến đổi tùy chỉnh trong Data Wrangler cung cấp sự linh hoạt để mang lại logic chuyển đổi của riêng bạn dưới dạng các đoạn mã trong các khuôn khổ được hỗ trợ. Những đoạn mã này sau đó có thể được tìm kiếm và áp dụng nếu cần.

Các mã trong biến đổi trước là mã SNOMED-CT tương ứng với các điều kiện sau. Các heart failure or chronic congestive heart failure điều kiện trở thành nhãn. Chúng tôi sử dụng các điều kiện còn lại làm tính năng để dự đoán suy tim. Chúng tôi cũng bỏ một vài cột không còn cần thiết nữa.

Heart failure: 84114007
Chronic congestive heart failure: 88805009
Hypertension: 59621000
Diabetes: 44054006
Coronary Heart Disease: 53741008
Smokes tobacco daily: 449868002
Atrial Fibrillation: 49436004

Tiếp theo, hãy thêm một biến đổi tùy chỉnh trong PySpark:

from pyspark.sql.functions import col, when

heartfailure_df = (
    df.select("patient", "start")
                      .withColumnRenamed("start", "heartfailure")
                   .filter((col("code") == "84114007") | (col("code") == "88805009"))
  )

hypertension_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "hypertension")
                   .filter((col("code") == "59621000"))
  )

diabetes_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "diabetes")
                   .filter((col("code") == "44054006"))
  )

coronary_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "coronary")
                   .filter((col("code") == "53741008"))
  )

smoke_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "smoke")
                   .filter((col("code") == "449868002"))
  )

atrial_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "atrial")
                   .filter((col("code") == "49436004"))
  )

df = (
    heartfailure_df.join(hypertension_df, ["patient"], "leftouter").withColumn("has_hypertension", when(col("hypertension") < col("heartfailure"), 1).otherwise(0))
    .join(diabetes_df, ["patient"], "leftouter").withColumn("has_diabetes", when(col("diabetes") < col("heartfailure"), 1).otherwise(0))
    .join(coronary_df, ["patient"], "leftouter").withColumn("has_coronary", when(col("coronary") < col("heartfailure"), 1).otherwise(0))
    .join(smoke_df, ["patient"], "leftouter").withColumn("has_smoke", when(col("smoke") < col("heartfailure"), 1).otherwise(0))
    .join(atrial_df, ["patient"], "leftouter").withColumn("has_atrial", when(col("atrial") < col("heartfailure"), 1).otherwise(0))
)

Chúng tôi thực hiện kết nối bên ngoài bên trái để giữ tất cả các mục nhập trong khung dữ liệu suy tim. Một cột mới has_xxx được tính cho từng tình trạng khác với suy tim dựa trên ngày bắt đầu của tình trạng đó. Chúng tôi chỉ quan tâm đến các tình trạng y tế đã được ghi nhận trước khi bị suy tim và sử dụng chúng làm các tính năng để dự đoán suy tim.

Thêm tích hợp sẵn Quản lý các cột biến đổi để loại bỏ các cột thừa không còn cần thiết:
1. hypertension
2. diabetes
3. coronary
4. smoke
5. atrial
Trích xuất Year và Quarter từ heartfailure cột.
Điều này phù hợp với mức độ chi tiết mà chúng tôi đã sử dụng trước đó trong việc chuyển đổi observations tập dữ liệu.
Chúng ta sẽ có tổng cộng 6 bước cho điều kiện.csv.

Tham gia điều kiện.csv với tập dữ liệu đã tham gia

Bây giờ chúng tôi thực hiện một phép nối mới để nối tập dữ liệu điều kiện với patients và observations tập dữ liệu.

Chọn Chuyển đổi: Tham gia lần đầu.
Chọn dấu cộng và chọn Tham gia.
Chọn Các bước bên cạnh Chuyển đổi: điều kiện.csv.
Chọn Thiết lập.
Trong Loại tham gia, chọn Bên trái bên ngoài.
Trong Còn lại, chọn Id.
Trong Đúng, chọn bệnh nhân.
Chọn Xem trước, sau đó chọn Thêm.

Thêm chuyển đổi vào tập dữ liệu đã kết hợp

Bây giờ chúng ta đã kết hợp tất cả ba tập dữ liệu, hãy áp dụng một số phép biến đổi bổ sung.

Thêm biến đổi tùy chỉnh sau trong PySpark để has_heartfailure trở thành cột nhãn của chúng tôi:

from pyspark.sql.functions import col, when
df = (
    df.withColumn("has_heartfailure", when(col("heartfailure").isNotNull(), 1).otherwise(0))
)

Thêm chuyển đổi tùy chỉnh sau trong PySpark:
```
from pyspark.sql.functions import col

df = (
    df.filter(
      (col("has_heartfailure") == 0) | 
      ((col("has_heartfailure") == 1) & ((col("date_year") <= col("heartfailure_year")) | ((col("date_year") == col("heartfailure_year")) & (col("date_quarter") <= col("heartfailure_quarter")))))
    )
)
```
Chúng tôi chỉ quan tâm đến các quan sát được ghi lại trước khi tình trạng suy tim được chẩn đoán và sử dụng chúng làm các tính năng để dự đoán suy tim. Các quan sát được thực hiện sau khi chẩn đoán suy tim có thể bị ảnh hưởng bởi loại thuốc bệnh nhân dùng, vì vậy chúng tôi muốn loại trừ những quan sát đó.
Bỏ các cột thừa không còn cần thiết:
1. Id
2. DATE_year
3. DATE_quarter
4. patient
5. heartfailure
6. heartfailure_year
7. heartfailure_quarter
trên nghiên cứu tab, cho Loại phân tíchchọn Bảng tóm tắt.
Quét nhanh qua bản tóm tắt cho thấy rằng MARITAL cột bị thiếu dữ liệu.
Chọn Ngày tab và thêm một bước.
Chọn Xử lý thiếu.
Trong Chuyển đổi, chọn Điền vào chỗ thiếu.
Trong Các cột đầu vào, chọn hôn nhân.
Trong Điền giá trị, đi vào S.
Chiến lược của chúng tôi ở đây là giả định bệnh nhân là độc thân nếu tình trạng hôn nhân không có giá trị. Bạn có thể có một chiến lược khác.
Chọn Xem trước, sau đó chọn Thêm.
Điền giá trị còn thiếu là 0 cho has_hypertension, has_diabetes, has_coronary, has_smoke, has_atrial.

Marital và Gender là các biến phân loại. Data Wrangler có một chức năng tích hợp để mã hóa các biến phân loại.

Thêm một bước và chọn Mã hóa phân loại.
Trong Chuyển đổi, chọn Mã hóa một nóng.
Trong Các cột đầu vào, chọn hôn nhân.
Trong Kiểu đầu ra, chọn Cột.
Kiểu đầu ra này tạo ra các giá trị được mã hóa trong các cột riêng biệt.
Chọn Xem trước, sau đó chọn Thêm.
Lặp lại các bước này cho Giới Tính cột.

Mã hóa một lần chia cột Hôn nhân thành Marital_M (đã kết hôn) và Marital_S (đơn) và chia cột Giới tính thành Gender_M (nam) và Gender_F (giống cái). Tại vì Marital_M và Marital_S loại trừ lẫn nhau (như là Gender_M và Gender_F), chúng ta có thể bỏ một cột để tránh các tính năng thừa.

Rơi Marital_S và Gender_F.

Các tính năng số như tâm thu, nhịp tim và tuổi có các tiêu chuẩn đơn vị khác nhau. Đối với mô hình dựa trên hồi quy tuyến tính, trước tiên chúng ta cần chuẩn hóa các đặc điểm số này. Nếu không, một số đối tượng địa lý có giá trị tuyệt đối cao hơn có thể có lợi thế không chính đáng so với các đối tượng địa lý khác có giá trị tuyệt đối thấp hơn và dẫn đến hiệu suất mô hình kém. Data Wrangler có bộ điều chỉnh tỷ lệ biến đổi Min-max tích hợp để chuẩn hóa dữ liệu. Đối với mô hình phân loại dựa trên cây quyết định, không cần chuẩn hóa. Nghiên cứu của chúng tôi là một vấn đề phân loại nên chúng tôi không cần áp dụng chuẩn hóa. Các lớp không cân bằng là một vấn đề phổ biến trong phân loại. Mất cân bằng xảy ra khi tập dữ liệu đào tạo chứa phân phối lớp bị sai lệch nghiêm trọng. Ví dụ: khi tập dữ liệu của chúng tôi chứa nhiều bệnh nhân không suy tim hơn bệnh nhân suy tim một cách không tương xứng, điều đó có thể khiến mô hình thiên về dự đoán không suy tim và hoạt động kém. Data Wrangler có một chức năng tích hợp để giải quyết vấn đề.

Thêm biến đổi tùy chỉnh trong Pandas để chuyển đổi kiểu dữ liệu của cột từ kiểu "đối tượng" thành kiểu số:
```
import pandas as pd
df=df.apply(pd.to_numeric)
```
Chọn nghiên cứu tab.
Trong Loại phân tíchchọn Histogram.
Trong trục X, chọn has_heartfailure.
Chọn Xem trước.

Rõ ràng là chúng ta có một lớp không cân bằng (nhiều điểm dữ liệu được dán nhãn là không suy tim hơn điểm dữ liệu được dán nhãn là suy tim).
Quay trở lại Ngày chuyển hướng. Lựa chọn Thêm bước Và chọn Số dư dữ liệu.
Trong Cột mục tiêu, chọn has_heartfailure.
Trong Tỷ lệ mong muốn, đi vào 1.
Trong Chuyển đổi, chọn NHỎ.

SMOTE là viết tắt của Kỹ thuật lấy mẫu quá mức thiểu số tổng hợp. Đó là một kỹ thuật để tạo các phiên bản thiểu số mới và thêm vào tập dữ liệu để đạt được sự cân bằng trong lớp. Để biết thông tin chi tiết, hãy tham khảo SMOTE: Kỹ thuật lấy mẫu quá mức cho người thiểu số tổng hợp.
Chọn Xem trước, sau đó chọn Thêm.
Lặp lại phân tích biểu đồ trong bước 20-23. Kết quả là một lớp học cân bằng.

Hình ảnh hóa rò rỉ mục tiêu và tương quan tính năng

Tiếp theo, chúng tôi sẽ thực hiện một số phân tích trực quan bằng cách sử dụng bộ công cụ phong phú của Data Wrangler về các loại phân tích nâng cao được hỗ trợ bởi ML. Đầu tiên, chúng tôi xem xét sự rò rỉ mục tiêu. Rò rỉ mục tiêu xảy ra khi dữ liệu trong tập dữ liệu đào tạo có tương quan chặt chẽ với nhãn mục tiêu, nhưng không có sẵn trong dữ liệu thế giới thực tại thời điểm suy luận.

trên Tab phân tích, Cho Loại phân tíchchọn Rò rỉ mục tiêu.
Trong Loại vấn đề, chọn phân loại.
Trong Mục tiêu, chọn has_heartfailure.
Chọn Xem trước.

Dựa trên phân tích, hr là một sự rò rỉ mục tiêu. Chúng tôi sẽ bỏ nó trong một bước tiếp theo. age được gắn cờ là rò rỉ mục tiêu. Thật hợp lý khi nói rằng tuổi của bệnh nhân sẽ có sẵn trong thời gian suy luận, vì vậy chúng tôi giữ tuổi như một đặc điểm. Systolic và diastolic cũng được gắn cờ là mục tiêu có khả năng bị rò rỉ. Chúng tôi mong đợi có hai phép đo trong thời gian suy luận, vì vậy chúng tôi giữ chúng dưới dạng các tính năng.
Chọn Thêm để thêm các phân tích.

Sau đó, chúng tôi xem xét mối tương quan về tính năng. Chúng tôi muốn chọn các tính năng tương quan với mục tiêu nhưng không tương quan với nhau.

trên Tab phân tích, Cho Loại phân tíchchọn Tương quan tính năng.
Trong Loại tương quanchọn tuyến tính.
Chọn Xem trước.

Điểm hệ số cho thấy mối tương quan chặt chẽ giữa các cặp sau:

systolic và diastolic
bmi và age
has_hypertension và has_heartfailure (nhãn)

Đối với các đối tượng có tương quan chặt chẽ, ma trận rất khó đảo ngược về mặt tính toán, điều này có thể dẫn đến các ước tính không ổn định về mặt số học. Để giảm thiểu mối tương quan, chúng ta có thể chỉ cần loại bỏ một từ khỏi cặp. Chúng tôi thả diastolic và bmi và gìn giữ systolic và age trong một bước tiếp theo.

Thả cột tâm trương và bmi

Thêm các bước chuyển đổi bổ sung để bỏ hr, diastolic và bmi bằng cách sử dụng biến đổi tích hợp sẵn.

Tạo Báo cáo Thông tin chi tiết và Chất lượng Dữ liệu

AWS gần đây công bố tính năng Báo cáo thông tin chi tiết và chất lượng dữ liệu mới trong Data Wrangler. Báo cáo này tự động xác minh chất lượng dữ liệu và phát hiện những bất thường trong dữ liệu của bạn. Các nhà khoa học dữ liệu và kỹ sư dữ liệu có thể sử dụng công cụ này để áp dụng hiệu quả và nhanh chóng kiến thức miền để xử lý bộ dữ liệu cho đào tạo mô hình ML. Bước này là tùy chọn. Để tạo báo cáo này trên tập dữ liệu của chúng tôi, hãy hoàn thành các bước sau:

trên nghiên cứu tab, cho Loại phân tích, chọn Báo cáo chất lượng dữ liệu và thông tin chi tiết.
Trong Cột mục tiêu, chọn has_heartfailure.
Trong Loại vấn đề, lựa chọn phân loại.
Chọn Tạo.

Trong một vài phút, nó tạo ra một báo cáo với tóm tắt, hình ảnh và đề xuất.

Tạo phân tích mô hình nhanh

Chúng tôi đã hoàn thành việc chuẩn bị dữ liệu, làm sạch và kỹ thuật tính năng của mình. Data Wrangler có một chức năng tích hợp cung cấp ước tính sơ bộ về chất lượng dự đoán được mong đợi và sức mạnh dự đoán của các tính năng trong tập dữ liệu của chúng tôi.

trên nghiên cứu tab, cho Loại phân tíchchọn Mô hình nhanh.
Trong nhãn, chọn has_heartfailure.
Chọn Xem trước.

Theo phân tích Mô hình nhanh của chúng tôi, chúng tôi có thể thấy tính năng has_hypertension có điểm quan trọng của tính năng cao nhất trong số tất cả các tính năng.

Xuất dữ liệu và đào tạo mô hình

Bây giờ, hãy xuất các tính năng sẵn sàng cho ML đã được chuyển đổi sang nhóm S3 đích và mở rộng quy mô toàn bộ đường ống kỹ thuật tính năng mà chúng tôi đã tạo cho đến nay bằng cách sử dụng các mẫu vào toàn bộ tập dữ liệu theo kiểu phân tán.

Chọn dấu cộng bên cạnh hộp cuối cùng trong luồng dữ liệu và chọn Thêm điểm đến.
Chọn Amazon S3.
Nhập Tên tập dữ liệu. Đối với Vị trí Amazon S3, chọn nhóm S3, sau đó chọn Thêm điểm đến.
Chọn Tạo việc làm để khởi chạy công việc xử lý PySpark phân tán để thực hiện chuyển đổi và xuất dữ liệu tới nhóm S3 đích.

Tùy thuộc vào kích thước của tập dữ liệu, tùy chọn này cho phép chúng tôi dễ dàng định cấu hình cụm và chia tỷ lệ theo chiều ngang theo kiểu không mã. Chúng tôi không phải lo lắng về việc phân vùng tập dữ liệu hoặc quản lý cụm và nội bộ Spark. Tất cả những điều này sẽ được Data Wrangler đảm nhận tự động cho chúng tôi.
Trên ngăn bên trái, hãy chọn Tiếp theo, 2. Định cấu hình công việc.
Sau đó chọn chạy.

Ngoài ra, chúng tôi cũng có thể xuất đầu ra đã chuyển đổi sang S3 thông qua Máy tính xách tay Jupyter. Với cách tiếp cận này, Data Wrangler tự động tạo sổ ghi chép Jupyter với tất cả mã cần thiết để bắt đầu công việc xử lý để áp dụng các bước của luồng dữ liệu (được tạo bằng cách sử dụng mẫu) trên tập dữ liệu đầy đủ lớn hơn và sử dụng tập dữ liệu đã được chuyển đổi làm các tính năng để khởi động- bỏ một công việc đào tạo sau đó. Mã sổ ghi chép có thể được chạy dễ dàng khi có hoặc không thực hiện thay đổi. Bây giờ chúng ta hãy xem qua các bước về cách thực hiện việc này thông qua Giao diện người dùng của Data Wrangler.

Chọn dấu cộng bên cạnh bước cuối cùng trong luồng dữ liệu và chọn Xuất khẩu sang.
Chọn Amazon S3 (thông qua Jupyter Notebook).
Nó tự động mở một tab mới với sổ ghi chép Jupyter.
Trong sổ ghi chép Jupyter, xác định vị trí ô trong (Tùy chọn) Các bước tiếp theo phần và thay đổi run_optional_steps từ False đến True.
Các bước tùy chọn đã bật trong sổ tay thực hiện như sau:
- Đào tạo người mẫu bằng XGBoost
Quay lại đầu sổ tay và trên chạy menu, chọn Chạy tất cả các ô.

Nếu bạn sử dụng sổ ghi chép được tạo như hiện tại, nó sẽ khởi chạy công việc xử lý SageMaker mở rộng quy mô xử lý trên hai phiên bản m5.4xlarge để xử lý tập dữ liệu đầy đủ trên nhóm S3. Bạn có thể điều chỉnh số lượng phiên bản và loại phiên bản dựa trên kích thước tập dữ liệu và thời gian bạn cần để hoàn thành công việc.

Chờ cho đến khi công việc đào tạo từ ô cuối cùng hoàn tất. Nó tạo ra một mô hình trong nhóm S3 mặc định của SageMaker.

Mô hình được đào tạo đã sẵn sàng để triển khai cho phép suy luận thời gian thực hoặc chuyển đổi hàng loạt. Lưu ý rằng chúng tôi đã sử dụng dữ liệu tổng hợp để chứng minh các chức năng trong Data Wrangler và sử dụng dữ liệu đã xử lý cho mô hình đào tạo. Do dữ liệu chúng tôi sử dụng là tổng hợp, nên kết quả suy luận từ mô hình được đào tạo không dùng để chẩn đoán tình trạng y tế trong thế giới thực hoặc thay thế phán đoán từ các bác sĩ.

Bạn cũng có thể xuất trực tiếp tập dữ liệu đã chuyển đổi của mình sang Amazon S3 bằng cách chọn Xuất khẩu trên đầu trang xem trước biến đổi. Tùy chọn xuất trực tiếp chỉ xuất mẫu đã chuyển đổi nếu đã bật lấy mẫu trong quá trình nhập. Tùy chọn này phù hợp nhất nếu bạn đang xử lý các bộ dữ liệu nhỏ hơn. Dữ liệu đã chuyển đổi cũng có thể được nhập trực tiếp vào cửa hàng tính năng. Để biết thêm thông tin, hãy tham khảo Cửa hàng tính năng Amazon SageMaker. Luồng dữ liệu cũng có thể được xuất dưới dạng một đường ống SageMaker có thể được sắp xếp và lên lịch theo yêu cầu của bạn. Để biết thêm thông tin, hãy xem Đường ống Amazon SageMaker.

Kết luận

Trong bài đăng này, chúng tôi đã chỉ ra cách sử dụng Data Wrangler để xử lý dữ liệu chăm sóc sức khỏe và thực hiện kỹ thuật tính năng có thể mở rộng theo kiểu mã thấp, điều khiển bằng công cụ. Chúng tôi đã học cách áp dụng các phép biến đổi tích hợp sẵn và phân tích một cách khéo léo bất cứ khi nào cần thiết, kết hợp nó với các phép biến đổi tùy chỉnh để thêm tính linh hoạt hơn nữa cho quy trình chuẩn bị dữ liệu của chúng tôi. Chúng tôi cũng đã xem xét các tùy chọn khác nhau để mở rộng công thức luồng dữ liệu thông qua các công việc xử lý phân tán. Chúng tôi cũng đã tìm hiểu cách dữ liệu được biến đổi có thể được sử dụng dễ dàng để đào tạo một mô hình dự đoán suy tim.

Có nhiều tính năng khác trong Data Wrangler mà chúng tôi chưa đề cập trong bài đăng này. Khám phá những gì có thể xảy ra trong Chuẩn bị dữ liệu ML với Amazon SageMaker Data Wrangler và tìm hiểu cách tận dụng Data Wrangler cho dự án máy học hoặc khoa học dữ liệu tiếp theo của bạn.

Về các tác giả

mặt trời rừng là Kiến trúc sư Giải pháp Cao cấp của nhóm AWS Public Sector tại Toronto, Canada. Ông đã làm việc trong lĩnh vực chăm sóc sức khỏe và tài chính trong hai thập kỷ qua. Ngoài công việc, anh ấy thích cắm trại cùng gia đình.

Tính năng kỹ thuật ở quy mô lớn dành cho chăm sóc sức khỏe và khoa học đời sống với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái. Arunprasath Shankar là Kiến trúc sư chuyên về giải pháp trí tuệ nhân tạo và máy học (AI / ML) của AWS, giúp khách hàng toàn cầu mở rộng quy mô các giải pháp AI của họ một cách hiệu quả và hiệu quả trên đám mây. Khi rảnh rỗi, Arun thích xem phim khoa học viễn tưởng và nghe nhạc cổ điển.