Khám phá các tùy chọn tóm tắt cho hoạt động chăm sóc sức khỏe với Amazon SageMaker

Được xuất bản lại bởi Plato

Người theo dõi: 0

Trong bối cảnh chăm sóc sức khỏe đang phát triển nhanh chóng ngày nay, các bác sĩ phải đối mặt với một lượng lớn dữ liệu lâm sàng từ nhiều nguồn khác nhau, chẳng hạn như ghi chú của người chăm sóc, hồ sơ sức khỏe điện tử và báo cáo hình ảnh. Lượng thông tin phong phú này, mặc dù cần thiết cho việc chăm sóc bệnh nhân, nhưng cũng có thể khiến các chuyên gia y tế quá tải và tốn thời gian để sàng lọc và phân tích. Tóm tắt và trích xuất hiệu quả những hiểu biết sâu sắc từ dữ liệu này là rất quan trọng để chăm sóc bệnh nhân tốt hơn và ra quyết định. Thông tin bệnh nhân được tóm tắt có thể hữu ích cho một số quy trình tiếp theo như tổng hợp dữ liệu, mã hóa bệnh nhân hiệu quả hoặc nhóm bệnh nhân có chẩn đoán tương tự để xem xét.

Các mô hình trí tuệ nhân tạo (AI) và máy học (ML) đã cho thấy nhiều hứa hẹn trong việc giải quyết những thách thức này. Các mô hình có thể được đào tạo để phân tích và giải thích khối lượng lớn dữ liệu văn bản, cô đọng thông tin thành các bản tóm tắt ngắn gọn một cách hiệu quả. Bằng cách tự động hóa quy trình tóm tắt, các bác sĩ có thể nhanh chóng truy cập vào thông tin liên quan, cho phép họ tập trung vào việc chăm sóc bệnh nhân và đưa ra quyết định sáng suốt hơn. Xem sau trường hợp nghiên cứu để tìm hiểu thêm về trường hợp sử dụng trong thế giới thực.

Amazon SageMaker, một dịch vụ ML được quản lý hoàn toàn, cung cấp một nền tảng lý tưởng để lưu trữ và triển khai các phương pháp và mô hình tóm tắt dựa trên AI/ML khác nhau. Trong bài đăng này, chúng tôi khám phá các tùy chọn khác nhau để triển khai các kỹ thuật tóm tắt trên SageMaker, bao gồm cả việc sử dụng Khởi động Amazon SageMaker các mô hình nền tảng, tinh chỉnh các mô hình được đào tạo trước từ Hugging Face và xây dựng các mô hình tóm tắt tùy chỉnh. Chúng tôi cũng thảo luận về ưu và nhược điểm của từng phương pháp, cho phép các chuyên gia chăm sóc sức khỏe chọn giải pháp phù hợp nhất để tạo ra các bản tóm tắt ngắn gọn và chính xác về dữ liệu lâm sàng phức tạp.

Hai thuật ngữ quan trọng cần biết trước khi chúng ta bắt đầu: được đào tạo trước và tinh chỉnh. Mô hình nền tảng hoặc được đào tạo trước là mô hình đã được xây dựng và đào tạo trên một kho dữ liệu lớn, thường dành cho kiến thức ngôn ngữ chung. Tinh chỉnh là quá trình mà một mô hình được đào tạo trước được cung cấp một tập dữ liệu khác dành riêng cho miền để nâng cao hiệu suất của mô hình đó đối với một tác vụ cụ thể. Trong môi trường chăm sóc sức khỏe, điều này có nghĩa là cung cấp cho mô hình một số dữ liệu bao gồm các cụm từ và thuật ngữ liên quan cụ thể đến việc chăm sóc bệnh nhân.

Xây dựng các mô hình tóm tắt tùy chỉnh trên SageMaker

Mặc dù là cách tiếp cận nỗ lực cao nhất, nhưng một số tổ chức có thể thích xây dựng các mô hình tóm tắt tùy chỉnh trên SageMaker từ đầu. Cách tiếp cận này đòi hỏi kiến thức chuyên sâu hơn về các mô hình AI/ML và có thể liên quan đến việc tạo kiến trúc mô hình từ đầu hoặc điều chỉnh các mô hình hiện có cho phù hợp với các nhu cầu cụ thể. Việc xây dựng các mô hình tùy chỉnh có thể mang lại sự linh hoạt và kiểm soát tốt hơn đối với quá trình tóm tắt, nhưng cũng đòi hỏi nhiều thời gian và nguồn lực hơn so với các phương pháp bắt đầu từ các mô hình được đào tạo trước. Điều cần thiết là phải cân nhắc cẩn thận các lợi ích và hạn chế của tùy chọn này trước khi tiếp tục, bởi vì tùy chọn này có thể không phù hợp với mọi trường hợp sử dụng.

Các mô hình nền tảng SageMaker JumpStart

Một tùy chọn tuyệt vời để triển khai tóm tắt trên SageMaker là sử dụng các mô hình nền tảng JumpStart. Các mô hình này do các tổ chức nghiên cứu AI hàng đầu phát triển, cung cấp một loạt các mô hình ngôn ngữ được đào tạo trước được tối ưu hóa cho các tác vụ khác nhau, bao gồm cả tóm tắt văn bản. SageMaker JumpStart cung cấp hai loại mô hình nền tảng: mô hình độc quyền và mô hình nguồn mở. SageMaker JumpStart cũng cung cấp tính đủ điều kiện của HIPAA, làm cho nó hữu ích cho khối lượng công việc chăm sóc sức khỏe. Cuối cùng, việc đảm bảo tuân thủ là tùy thuộc vào khách hàng, vì vậy hãy đảm bảo thực hiện các bước thích hợp. Nhìn thấy Kiến trúc để tuân thủ và bảo mật HIPAA trên Amazon Web Services để biết thêm chi tiết.

Mô hình nền tảng độc quyền

Các mô hình độc quyền, chẳng hạn như mô hình kỷ Jura từ AI21 và mô hình Cohere Generate từ Cohere, có thể được khám phá thông qua SageMaker JumpStart trên Bảng điều khiển quản lý AWS và hiện đang được xem trước. Việc sử dụng các mô hình độc quyền để tóm tắt là lý tưởng khi bạn không cần tinh chỉnh mô hình của mình trên dữ liệu tùy chỉnh. Điều này cung cấp một giải pháp dễ sử dụng, vượt trội, có thể đáp ứng các yêu cầu tóm tắt của bạn với cấu hình tối thiểu. Bằng cách sử dụng các khả năng của các mô hình được đào tạo trước này, bạn có thể tiết kiệm thời gian và tài nguyên mà lẽ ra sẽ được dành cho việc đào tạo và tinh chỉnh một mô hình tùy chỉnh. Hơn nữa, các mô hình độc quyền thường đi kèm với API và SDK thân thiện với người dùng, hợp lý hóa quy trình tích hợp với các hệ thống và ứng dụng hiện có của bạn. Nếu nhu cầu tóm tắt của bạn có thể được đáp ứng bằng các mô hình độc quyền được đào tạo trước mà không yêu cầu tùy chỉnh hoặc tinh chỉnh cụ thể, thì chúng sẽ cung cấp giải pháp thuận tiện, tiết kiệm chi phí và hiệu quả cho các tác vụ tóm tắt văn bản của bạn. Bởi vì các mô hình này không được đào tạo riêng cho các trường hợp sử dụng trong chăm sóc sức khỏe, nên không thể đảm bảo chất lượng cho ngôn ngữ y tế ngay lập tức nếu không tinh chỉnh.

Jurassic-2 Grande Instruct là một mô hình ngôn ngữ lớn (LLM) của AI21 Labs, được tối ưu hóa cho các hướng dẫn bằng ngôn ngữ tự nhiên và có thể áp dụng cho các tác vụ ngôn ngữ khác nhau. Nó cung cấp API và SDK Python dễ sử dụng, cân bằng giữa chất lượng và khả năng chi trả. Các ứng dụng phổ biến bao gồm tạo bản sao tiếp thị, cung cấp năng lượng cho chatbot và tóm tắt văn bản.

Trên bảng điều khiển SageMaker, điều hướng đến SageMaker JumpStart, tìm mô hình AI21 Jurassic-2 Grande Instruct và chọn Dùng thử mô hình.

Khám phá các tùy chọn tóm tắt cho Chăm sóc sức khỏe với Amazon SageMaker | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Nếu muốn triển khai mô hình tới điểm cuối SageMaker mà bạn quản lý, bạn có thể làm theo các bước trong mẫu này máy tính xách tay, hướng dẫn bạn cách triển khai Jurassic-2 Large bằng SageMaker.

Các mô hình nền tảng mã nguồn mở

Các mô hình nguồn mở bao gồm các mô hình FLAN T5, Bloom và GPT-2 có thể được khám phá thông qua SageMaker JumpStart trong Xưởng sản xuất Amazon SageMaker Giao diện người dùng, Khởi động SageMaker trên bảng điều khiển SageMaker và API Khởi động SageMaker. Các mô hình này có thể được tinh chỉnh và triển khai tới các điểm cuối trong tài khoản AWS của bạn, giúp bạn có toàn quyền sở hữu trọng số mô hình và mã tập lệnh.

Flan-T5 XL là một mẫu mạnh mẽ và linh hoạt được thiết kế cho nhiều tác vụ ngôn ngữ. Bằng cách tinh chỉnh mô hình với dữ liệu dành riêng cho miền của bạn, bạn có thể tối ưu hóa hiệu suất của mô hình cho trường hợp sử dụng cụ thể của mình, chẳng hạn như tóm tắt văn bản hoặc bất kỳ tác vụ NLP nào khác. Để biết chi tiết về cách tinh chỉnh Flan-T5 XL bằng giao diện người dùng SageMaker Studio, hãy tham khảo Hướng dẫn tinh chỉnh FLAN T5 XL với Amazon SageMaker Jumpstart.

Tinh chỉnh các mô hình được đào tạo trước với Hugging Face trên SageMaker

Một trong những tùy chọn phổ biến nhất để triển khai tóm tắt trên SageMaker là tinh chỉnh các mô hình được đào tạo trước bằng cách sử dụng Ôm mặt Máy biến áp thư viện. Hugging Face cung cấp một loạt các mô hình máy biến áp được đào tạo trước được thiết kế đặc biệt cho các tác vụ xử lý ngôn ngữ tự nhiên (NLP) khác nhau, bao gồm cả tóm tắt văn bản. Với thư viện Hugging Face Transformers, bạn có thể dễ dàng tinh chỉnh các mô hình được đào tạo trước này trên dữ liệu dành riêng cho miền của mình bằng SageMaker. Cách tiếp cận này có một số ưu điểm, chẳng hạn như thời gian đào tạo nhanh hơn, hiệu suất tốt hơn trên các miền cụ thể cũng như triển khai và đóng gói mô hình dễ dàng hơn bằng cách sử dụng các công cụ và dịch vụ SageMaker tích hợp sẵn. Nếu bạn không thể tìm thấy một mô hình phù hợp trong SageMaker JumpStart, bạn có thể chọn bất kỳ mô hình nào do Hugging Face cung cấp và tinh chỉnh nó bằng SageMaker.

Để bắt đầu làm việc với một mô hình nhằm tìm hiểu về các khả năng của ML, tất cả những gì bạn cần làm là mở SageMaker Studio, tìm một mô hình được đào tạo trước mà bạn muốn sử dụng trong Trung tâm mô hình khuôn mặt ômvà chọn SageMaker làm phương pháp triển khai của bạn. Ôm Mặt sẽ cung cấp cho bạn mã để sao chép, dán và chạy trong sổ ghi chép của bạn. Nó là dễ dàng như vậy! Không yêu cầu kinh nghiệm kỹ thuật ML.

Khám phá các tùy chọn tóm tắt cho Chăm sóc sức khỏe với Amazon SageMaker | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Thư viện Máy biến áp ôm mặt cho phép người xây dựng vận hành trên các mô hình được đào tạo trước và thực hiện các tác vụ nâng cao như tinh chỉnh, mà chúng ta sẽ khám phá trong các phần sau.

Nguồn cung cấp

Trước khi bắt đầu, chúng ta cần cung cấp một cuốn sổ ghi chép. Để biết hướng dẫn, hãy tham khảo Bước 1 và 2 trong Xây dựng và đào tạo mô hình học máy cục bộ. Đối với ví dụ này, chúng tôi đã sử dụng các cài đặt được hiển thị trong ảnh chụp màn hình sau.

Khám phá các tùy chọn tóm tắt cho Chăm sóc sức khỏe với Amazon SageMaker | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Chúng ta cũng cần tạo một Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) để lưu trữ dữ liệu đào tạo và các thành phần tạo tác đào tạo. Để biết hướng dẫn, hãy tham khảo Tạo một thùng.

Chuẩn bị tập dữ liệu

Để tinh chỉnh mô hình của chúng tôi để có kiến thức miền tốt hơn, chúng tôi cần lấy dữ liệu phù hợp cho nhiệm vụ. Khi đào tạo cho một trường hợp sử dụng doanh nghiệp, bạn sẽ cần phải thực hiện một số nhiệm vụ kỹ thuật dữ liệu để chuẩn bị dữ liệu của riêng bạn sẵn sàng cho đào tạo. Những nhiệm vụ nằm ngoài phạm vi của bài đăng này. Đối với ví dụ này, chúng tôi đã tạo một số dữ liệu tổng hợp để mô phỏng các ghi chú điều dưỡng và lưu trữ dữ liệu đó trong Amazon S3. Lưu trữ dữ liệu của chúng tôi trong Amazon S3 cho phép chúng tôi kiến trúc khối lượng công việc của chúng tôi để tuân thủ HIPAA. Chúng tôi bắt đầu bằng cách lấy các ghi chú đó và tải chúng trên phiên bản sổ ghi chép của chúng tôi đang chạy:

from datasets import load_dataset
dataset = load_dataset("csv", data_files={
    "train": "s3://" + bucket_name + train_data_path,
    "validation": "s3://" + bucket_name + test_data_path
})

Các ghi chú bao gồm một cột chứa mục nhập đầy đủ, ghi chú và một cột chứa phiên bản rút gọn minh họa cho kết quả mong muốn của chúng tôi, tóm tắt. Mục đích của việc sử dụng bộ dữ liệu này là để cải thiện vốn từ vựng về sinh học và y tế của mô hình của chúng tôi để nó phù hợp hơn với việc tóm tắt trong bối cảnh chăm sóc sức khỏe, được gọi là tinh chỉnh tên miềnvà chỉ cho mô hình của chúng ta cách cấu trúc đầu ra tóm tắt của nó. Trong một số trường hợp tóm tắt, chúng tôi có thể muốn tạo một bản tóm tắt từ một bài báo hoặc một bản tóm tắt một dòng của bài đánh giá, nhưng trong trường hợp này, chúng tôi đang cố gắng để mô hình của mình đưa ra một phiên bản rút gọn của các triệu chứng và hành động đã thực hiện cho một bệnh nhân cho đến nay.

Tải mô hình

Mô hình mà chúng tôi sử dụng làm nền tảng của mình là một phiên bản Pegasus của Google, được cung cấp trong Hugging Face Hub, được gọi là pegasus-xsum. Nó đã được đào tạo trước để tóm tắt, vì vậy quy trình tinh chỉnh của chúng tôi có thể tập trung vào việc mở rộng kiến thức miền của nó. Sửa đổi nhiệm vụ mà mô hình của chúng tôi chạy là một kiểu tinh chỉnh khác không được đề cập trong bài đăng này. Thư viện Transformer cung cấp cho chúng ta một lớp để tải định nghĩa mô hình từ model_checkpoint: google/pegasus-xsum. Điều này sẽ tải mô hình từ trung tâm và khởi tạo nó trong sổ ghi chép của chúng tôi để chúng tôi có thể sử dụng nó sau này. Bởi vì pegasus-xsum là một mô hình theo trình tự, chúng tôi muốn sử dụng loại Seq2Seq của Mô hình ô tô lớp học:

from transformers import AutoModelForSeq2SeqLM
model = AutoModelForSeq2SeqLM.from_pretrained(model_checkpoint)

Bây giờ chúng ta đã có mô hình của mình, đã đến lúc chú ý đến các thành phần khác sẽ cho phép chúng ta chạy vòng lặp đào tạo của mình.

Tạo mã thông báo

Thành phần đầu tiên trong số này là tokenizer. Mã thông báo là quá trình mà các từ trong dữ liệu đầu vào được chuyển đổi thành các biểu diễn số mà mô hình của chúng ta có thể hiểu được. Một lần nữa, thư viện Transformer cung cấp một lớp để chúng tôi tải định nghĩa mã thông báo từ cùng một điểm kiểm tra mà chúng tôi đã sử dụng để khởi tạo mô hình:

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

Với đối tượng mã thông báo này, chúng ta có thể tạo một chức năng tiền xử lý và ánh xạ nó vào tập dữ liệu của mình để cung cấp cho chúng ta các mã thông báo sẵn sàng được đưa vào mô hình. Cuối cùng, chúng tôi định dạng đầu ra được mã hóa và xóa các cột chứa văn bản gốc của chúng tôi vì mô hình sẽ không thể diễn giải chúng. Bây giờ, chúng tôi còn lại một đầu vào được mã hóa đã sẵn sàng để đưa vào mô hình. Xem đoạn mã sau:

tokenized_datasets = dataset.map(preprocess_function, batched=True) tokenized_datasets.set_format("torch") tokenized_datasets = tokenized_datasets.remove_columns( dataset["train"].column_names
)

Tạo trình đối chiếu và tối ưu hóa dữ liệu

Với dữ liệu của chúng tôi được mã hóa và mô hình của chúng tôi được khởi tạo, chúng tôi gần như đã sẵn sàng để chạy một vòng đào tạo. Các thành phần tiếp theo chúng tôi muốn tạo là bộ đối chiếu dữ liệu và trình tối ưu hóa. Trình đối chiếu dữ liệu là một lớp khác do Hugging Face cung cấp thông qua thư viện Transformers mà chúng tôi sử dụng để tạo các lô dữ liệu được mã hóa cho mục đích đào tạo. Chúng ta có thể dễ dàng xây dựng điều này bằng cách sử dụng mã thông báo và các đối tượng mô hình mà chúng ta đã có chỉ bằng cách tìm loại lớp tương ứng mà chúng ta đã sử dụng trước đây cho mô hình của mình (Seq2Seq) cho lớp đối chiếu. Chức năng của trình tối ưu hóa là duy trì trạng thái đào tạo và cập nhật các tham số dựa trên tổn thất đào tạo của chúng tôi khi chúng tôi làm việc qua vòng lặp. Để tạo trình tối ưu hóa, chúng ta có thể nhập tối ưu gói từ mô-đun ngọn đuốc, nơi có sẵn một số thuật toán tối ưu hóa. Một số cái phổ biến mà bạn có thể đã gặp trước đây là Stochastic Gradient Descent và Adam, cái sau của cái được áp dụng trong ví dụ của chúng tôi. Hàm tạo của Adam nhận các tham số mô hình và tốc độ học được tham số hóa cho quá trình đào tạo nhất định. Xem đoạn mã sau:

from transformers import DataCollatorForSeq2Seq
from torch.optim import Adam data_collator = DataCollatorForSeq2Seq(tokenizer, model=model)
optimizer = Adam(model.parameters(), lr=learning_rate)

Xây dựng bộ tăng tốc và bộ lập lịch

Các bước cuối cùng trước khi chúng ta có thể bắt đầu đào tạo là xây dựng máy gia tốc và bộ lập lịch tỷ lệ học tập. Máy gia tốc đến từ một thư viện khác (chúng tôi chủ yếu sử dụng Transformers) do Hugging Face sản xuất, được đặt tên một cách khéo léo là Gia tốc và sẽ loại bỏ logic cần thiết để quản lý thiết bị trong quá trình đào tạo (ví dụ: sử dụng nhiều GPU). Đối với thành phần cuối cùng, chúng tôi truy cập lại thư viện Transformers luôn hữu ích để triển khai bộ lập lịch tốc độ học tập của mình. Bằng cách chỉ định loại trình lập lịch biểu, tổng số bước đào tạo trong vòng lặp của chúng tôi và trình tối ưu hóa đã tạo trước đó, get_scheduler hàm trả về một đối tượng cho phép chúng ta điều chỉnh tốc độ học ban đầu trong suốt quá trình đào tạo:

from accelerate import Accelerator
from transformers import get_scheduler accelerator = Accelerator()
model, optimizer = accelerator.prepare( model, optimizer
) lr_scheduler = get_scheduler( "linear", optimizer=optimizer, num_warmup_steps=0, num_training_steps=num_training_steps,
)

Định cấu hình công việc đào tạo

Bây giờ chúng tôi đã sẵn sàng cho việc đào tạo! Hãy thiết lập một công việc đào tạo, bắt đầu bằng cách khởi tạo đào tạo_args sử dụng thư viện Transformers và chọn giá trị tham số. Chúng tôi có thể chuyển những thứ này, cùng với các thành phần và tập dữ liệu đã chuẩn bị khác của chúng tôi, trực tiếp đến huấn luyện viên và bắt đầu đào tạo, như được hiển thị trong đoạn mã sau. Tùy thuộc vào kích thước tập dữ liệu của bạn và các tham số đã chọn, quá trình này có thể mất một lượng thời gian đáng kể.

from transformers import Seq2SeqTrainer
from transformers import Seq2SeqTrainingArguments training_args = Seq2SeqTrainingArguments( output_dir="output/", save_total_limit=1, num_train_epochs=num_train_epochs, per_device_train_batch_size=batch_size, per_device_eval_batch_size=batch_size, evaluation_strategy="epoch", logging_dir="output/", load_best_model_at_end=True, disable_tqdm=True, logging_first_step=True, logging_steps=1, save_strategy="epoch", predict_with_generate=True
) trainer = Seq2SeqTrainer( model=model, tokenizer=tokenizer, args=training_args, train_dataset=tokenized_datasets["train"], eval_dataset=tokenized_datasets["validation"], data_collator=data_collator, optimizers=(optimizer, lr_scheduler)
) trainer.train()

Để vận hành mã này, chúng ta có thể đóng gói nó dưới dạng tệp điểm vào và gọi nó thông qua một Công việc đào tạo SageMaker. Điều này cho phép chúng tôi tách logic mà chúng tôi vừa tạo ra khỏi lệnh gọi đào tạo và cho phép SageMaker chạy đào tạo trên một phiên bản riêng biệt.

Đóng gói mô hình để suy luận

Sau khi đào tạo đã được chạy, đối tượng mô hình đã sẵn sàng để được sử dụng để suy luận. Như một phương pháp hay nhất, hãy lưu công việc của chúng ta để sử dụng trong tương lai. Chúng tôi cần tạo các tạo phẩm mô hình của mình, nén chúng lại với nhau và tải tarball của chúng tôi lên Amazon S3 để lưu trữ. Để chuẩn bị mô hình của chúng tôi để nén, chúng tôi cần mở gói mô hình hiện đã được tinh chỉnh, sau đó lưu các tệp cấu hình nhị phân và tệp cấu hình được liên kết của mô hình. Chúng tôi cũng cần lưu mã thông báo của mình vào cùng thư mục mà chúng tôi đã lưu các tạo phẩm mô hình của mình để nó có sẵn khi chúng tôi sử dụng mô hình để suy luận. Của chúng tôi model_dir thư mục bây giờ sẽ trông giống như đoạn mã sau:

config.json pytorch_model.bin	tokenizer_config.json
generation_config.json	special_tokens_map.json tokenizer.json

Tất cả những gì còn lại là chạy lệnh tar để nén thư mục của chúng ta và tải tệp tar.gz lên Amazon S3:

unwrapped_model = accelerator.unwrap_model(trainer.model) unwrapped_model.save_pretrained('model_dir', save_function=accelerator.save) tokenizer.save_pretrained('model_dir') !cd model_dir/ && tar -czvf model.tar.gz *
!mv model_dir/model.tar.gz ./ with open("model.tar.gz", "rb") as f: s3.upload_fileobj(f, bucket_name, artifact_path + "model/model.tar.gz")

Mô hình mới được tinh chỉnh của chúng tôi hiện đã sẵn sàng và sẵn sàng được sử dụng để suy luận.

thực hiện suy luận

Để sử dụng tạo phẩm mô hình này để suy luận, hãy mở một tệp mới và sử dụng đoạn mã sau, sửa đổi model_data tham số để phù hợp với vị trí lưu phần mềm của bạn trong Amazon S3. Các HuggingFaceModel hàm tạo sẽ xây dựng lại mô hình của chúng tôi từ điểm kiểm tra mà chúng tôi đã lưu vào model.tar.gz, sau đó chúng ta có thể triển khai để suy luận bằng phương thức triển khai. Việc triển khai điểm cuối sẽ mất vài phút.

from sagemaker.huggingface import HuggingFaceModel
from sagemaker import get_execution_role role = get_execution_role() huggingface_model = HuggingFaceModel( model_data=”s3://{bucket_name}/{artifact_path}/model/model.tar.gz”, role=role, transformers_version=”4.26”, pytorch_version=”1.13”, py_version=”py39”
) predictor = huggingface_model.deploy( initial_instance_count=1, instance_type=”ml.m5.xlarge”
)

Sau khi điểm cuối được triển khai, chúng tôi có thể sử dụng công cụ dự đoán mà chúng tôi đã tạo để kiểm tra điểm cuối. Vượt qua predict phương pháp tải trọng dữ liệu và chạy ô và bạn sẽ nhận được phản hồi từ mô hình tinh chỉnh của mình:

data = { "inputs": "Text to summarize”
}
predictor.predict(data)

Kết quả

Để thấy được lợi ích của việc tinh chỉnh một mô hình, hãy làm một bài kiểm tra nhanh. Bảng sau đây bao gồm một lời nhắc và kết quả của việc chuyển lời nhắc đó đến mô hình trước và sau khi tinh chỉnh.

nhanh chóng	Đáp ứng mà không cần tinh chỉnh	Đáp ứng với Tinh chỉnh
Tổng hợp các triệu chứng mà người bệnh đang gặp phải. Bệnh nhân nam 45 tuổi than phiền đau ngực dưới xương ức lan ra cánh tay trái. Cơn đau khởi phát đột ngột khi anh ta đang làm việc ngoài vườn, kèm theo khó thở nhẹ và vã mồ hôi. Khi đến bệnh nhân có nhịp tim 120, nhịp thở 24, huyết áp 170/95. Điện tâm đồ 12 chuyển đạo được thực hiện khi đến khoa cấp cứu và tiêm XNUMX viên nitroglycerin ngậm dưới lưỡi mà không giảm đau ngực. Điện tâm đồ cho thấy ST chênh lên ở các chuyển đạo phía trước chứng tỏ nhồi máu cơ tim thành trước cấp tính. Chúng tôi đã liên hệ với phòng thí nghiệm thông tim và chuẩn bị cho việc thông tim bởi bác sĩ tim mạch.	Chúng tôi trình bày một trường hợp nhồi máu cơ tim cấp tính.	Đau ngực, MI thành trước, PCI.

Như bạn có thể thấy, mô hình tinh chỉnh của chúng tôi sử dụng thuật ngữ sức khỏe theo cách khác và chúng tôi có thể thay đổi cấu trúc của phản hồi để phù hợp với mục đích của mình. Lưu ý rằng kết quả phụ thuộc vào tập dữ liệu của bạn và các lựa chọn thiết kế được thực hiện trong quá trình đào tạo. Phiên bản mô hình của bạn có thể mang lại kết quả rất khác.

Làm sạch

Khi bạn hoàn thành sổ ghi chép SageMaker của mình, hãy nhớ tắt sổ ghi chép đó để tránh chi phí từ các tài nguyên chạy trong thời gian dài. Lưu ý rằng việc tắt phiên bản sẽ khiến bạn mất mọi dữ liệu được lưu trữ trong bộ nhớ tạm thời của phiên bản, vì vậy bạn nên lưu tất cả công việc của mình vào bộ lưu trữ lâu dài trước khi dọn dẹp. Bạn cũng sẽ cần phải đi đến Điểm cuối trên bảng điều khiển SageMaker và xóa mọi điểm cuối được triển khai để suy luận. Để xóa tất cả các thành phần lạ, bạn cũng cần truy cập bảng điều khiển Amazon S3 để xóa các tệp đã tải lên bộ chứa của mình.

Kết luận

Trong bài đăng này, chúng tôi đã khám phá các tùy chọn khác nhau để triển khai các kỹ thuật tóm tắt văn bản trên SageMaker nhằm giúp các chuyên gia chăm sóc sức khỏe xử lý và trích xuất thông tin chuyên sâu một cách hiệu quả từ lượng lớn dữ liệu lâm sàng. Chúng tôi đã thảo luận về việc sử dụng các mô hình nền tảng Khởi động SageMaker, tinh chỉnh các mô hình được đào tạo trước từ Hugging Face và xây dựng các mô hình tóm tắt tùy chỉnh. Mỗi phương pháp đều có những ưu điểm và nhược điểm riêng, phục vụ cho các nhu cầu và yêu cầu khác nhau.

Việc xây dựng các mô hình tóm tắt tùy chỉnh trên SageMaker mang lại nhiều tính linh hoạt và khả năng kiểm soát nhưng đòi hỏi nhiều thời gian và nguồn lực hơn so với việc sử dụng các mô hình được đào tạo trước. Các mô hình nền tảng Khởi động SageMaker cung cấp giải pháp dễ sử dụng và tiết kiệm chi phí cho các tổ chức không yêu cầu tùy chỉnh hoặc tinh chỉnh cụ thể, cũng như một số tùy chọn để tinh chỉnh đơn giản hóa. Việc tinh chỉnh các mô hình được đào tạo trước từ Hugging Face mang lại thời gian đào tạo nhanh hơn, hiệu suất theo miền cụ thể tốt hơn và tích hợp liền mạch với các công cụ và dịch vụ của SageMaker trên nhiều danh mục mô hình, nhưng nó đòi hỏi một số nỗ lực triển khai. Tại thời điểm viết bài này, Amazon đã công bố một tùy chọn khác, nền tảng Amazon, sẽ cung cấp khả năng tóm tắt trong một môi trường được quản lý nhiều hơn.

Bằng cách hiểu những ưu và nhược điểm của từng phương pháp, các tổ chức và chuyên gia chăm sóc sức khỏe có thể đưa ra quyết định sáng suốt về giải pháp phù hợp nhất để tạo ra các bản tóm tắt ngắn gọn và chính xác về dữ liệu lâm sàng phức tạp. Cuối cùng, việc sử dụng các mô hình tóm tắt dựa trên AI/ML trên SageMaker có thể cải thiện đáng kể việc chăm sóc bệnh nhân và ra quyết định bằng cách cho phép các chuyên gia y tế truy cập nhanh thông tin liên quan và tập trung vào việc cung cấp dịch vụ chăm sóc có chất lượng.

Thông tin

Để biết toàn bộ tập lệnh được thảo luận trong bài đăng này và một số dữ liệu mẫu, hãy tham khảo Repo GitHub. Để biết thêm thông tin về cách chạy khối lượng công việc ML trên AWS, hãy xem các tài nguyên sau:

Giới thiệu về tác giả

Cody Collins là Kiến trúc sư giải pháp có trụ sở tại New York tại Amazon Web Services. Anh ấy làm việc với các khách hàng của ISV để xây dựng các giải pháp hàng đầu trong ngành trên đám mây. Ông đã thực hiện thành công các dự án phức tạp cho các ngành công nghiệp đa dạng, tối ưu hóa hiệu quả và khả năng mở rộng. Trong thời gian rảnh rỗi, anh ấy thích đọc sách, đi du lịch và luyện tập jiu jitsu.

Ameer Hakme là Kiến trúc sư giải pháp AWS cư trú tại Pennsylvania. Trọng tâm nghề nghiệp của anh ấy là cộng tác với các nhà cung cấp phần mềm độc lập trên khắp vùng Đông Bắc, hướng dẫn họ thiết kế và xây dựng các nền tảng hiện đại, có thể mở rộng trên Đám mây AWS.

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Trung tâmESG. Ô tô / Xe điện, Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
BlockOffsets. Hiện đại hóa quyền sở hữu bù đắp môi trường. Truy cập Tại đây.
nguồn: https://aws.amazon.com/blogs/machine-learning/exploring-summarization-options-for-healthcare-with-amazon-sagemaker/

Dấu thời gian: Tháng Tám 1, 2023

Dấu thời gian: Tháng Mười Một 22, 2022

Chạy tạo văn bản với các mô hình GPT và Bloom trên Amazon SageMaker JumpStart

Cụm nguồn:

Học máy AWS

Nút nguồn: 1746181

Dấu thời gian: Tháng Mười Một 7, 2022

Thông báo trích xuất bảng nâng cao với Amazon Textract | Dịch vụ web của Amazon

Cụm nguồn:

Học máy AWS

Nút nguồn: 1846482

Dấu thời gian: Tháng Sáu 7, 2023

Cách Sleepme sử dụng Amazon SageMaker để kiểm soát nhiệt độ tự động nhằm tối đa hóa chất lượng giấc ngủ trong thời gian thực

Cụm nguồn:

Học máy AWS

Nút nguồn: 1834364

Dấu thời gian: 10 Tháng Năm, 2023

Khám phá các tùy chọn tóm tắt cho Chăm sóc sức khỏe với Amazon SageMaker | Dịch vụ web của Amazon

Được xuất bản lại bởi Plato

Xây dựng các mô hình tóm tắt tùy chỉnh trên SageMaker

Các mô hình nền tảng SageMaker JumpStart

Mô hình nền tảng độc quyền

Các mô hình nền tảng mã nguồn mở

Tinh chỉnh các mô hình được đào tạo trước với Hugging Face trên SageMaker

Nguồn cung cấp

Chuẩn bị tập dữ liệu

Tải mô hình

Tạo mã thông báo

Tạo trình đối chiếu và tối ưu hóa dữ liệu

Xây dựng bộ tăng tốc và bộ lập lịch

Định cấu hình công việc đào tạo

Đóng gói mô hình để suy luận

thực hiện suy luận

Kết quả

Làm sạch

Kết luận

Thông tin

Giới thiệu về tác giả

Thêm từ Học máy AWS

Dự đoán tình trạng sống sót của bệnh ung thư phổi bằng cách sử dụng dữ liệu đa phương thức trên Amazon SageMaker JumpStart

Phát hiện gian lận trong các doanh nghiệp định hướng di động bằng cách sử dụng trí thông minh trên thiết bị GrabDefence và Trình phát hiện gian lận của Amazon

Cải thiện độ ổn định và tính linh hoạt của đường ống ML tại Amazon Đổi mới bao bì với Đường ống Amazon SageMaker

Sử dụng machine learning mà không cần viết một dòng mã nào với Amazon SageMaker Canvas | Dịch vụ web của Amazon

Tăng tốc quy trình công việc đa ngôn ngữ với giải pháp dịch thuật có thể tùy chỉnh được tích hợp với Amazon Translate

Chạy tạo văn bản với các mô hình GPT và Bloom trên Amazon SageMaker JumpStart

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản