使用 Amazon SageMaker 探索医疗保健汇总选项

由柏拉图重新发布

关注： 0

在当今快速发展的医疗保健领域，医生面临着来自各种来源的大量临床数据，例如护理人员记录、电子健康记录和影像报告。这些丰富的信息虽然对于患者护理至关重要，但对于医疗专业人员来说，筛选和分析也可能会非常繁重且耗时。有效地总结并从这些数据中提取见解对于更好的患者护理和决策至关重要。汇总的患者信息对于许多下游流程非常有用，例如数据聚合、有效地对患者进行编码或对具有类似诊断的患者进行分组以供审查。

人工智能 (AI) 和机器学习 (ML) 模型在应对这些挑战方面展现出了巨大的前景。可以训练模型来分析和解释大量文本数据，有效地将信息压缩为简洁的摘要。通过自动化汇总过程，医生可以快速获取相关信息，使他们能够专注于患者护理并做出更明智的决策。请参阅以下内容案例研究了解有关实际用例的更多信息。

亚马逊SageMaker是一项完全托管的 ML 服务，为托管和实施各种基于 AI/ML 的摘要模型和方法提供了理想的平台。在这篇文章中，我们探讨了在 SageMaker 上实施汇总技术的不同选项，包括使用亚马逊SageMaker JumpStart 基础模型、微调 Hugging Face 中的预训练模型以及构建自定义摘要模型。我们还讨论了每种方法的优缺点，使医疗保健专业人员能够选择最合适的解决方案来生成复杂临床数据的简洁而准确的摘要。

在开始之前需要了解两个重要术语： 预训练 和微调。预训练或基础模型是在大型数据集上构建和训练的模型，通常用于一般语言知识。微调是为预训练模型提供另一个更特定于领域的数据集以增强其在特定任务上的性能的过程。在医疗保健环境中，这意味着为模型提供一些数据，包括专门与患者护理相关的短语和术语。

在 SageMaker 上构建自定义汇总模型

尽管这是最费力的方法，但一些组织可能更喜欢在 SageMaker 上从头开始构建自定义摘要模型。这种方法需要对 AI/ML 模型有更深入的了解，并且可能涉及从头开始创建模型架构或调整现有模型以满足特定需求。构建自定义模型可以提供更大的灵活性和对汇总过程的控制，但与从预训练模型开始的方法相比，也需要更多的时间和资源。在继续之前，必须仔细权衡此选项的优点和缺点，因为它可能并不适合所有用例。

SageMaker JumpStart 基础模型

在 SageMaker 上实施汇总的一个不错的选择是使用 JumpStart 基础模型。这些模型由领先的人工智能研究组织开发，提供了一系列针对各种任务（包括文本摘要）进行优化的预训练语言模型。 SageMaker JumpStart 提供两种类型的基础模型：专有模型和开源模型。 SageMaker JumpStart 还提供 HIPAA 资格，使其对于医疗保健工作负载非常有用。确保合规性最终取决于客户，因此请务必采取适当的步骤。看 Amazon Web Services 上的 HIPAA 安全性和合规性架构以获得更多细节。

专有基础模型

可以通过 SageMaker JumpStart 在 AWS管理控制台目前正在预览中。当您不需要根据自定义数据微调模型时，使用专有模型进行汇总是理想的选择。这提供了一种易于使用、开箱即用的解决方案，可以通过最少的配置满足您的汇总要求。通过使用这些预训练模型的功能，您可以节省用于训练和微调自定义模型的时间和资源。此外，专有模型通常附带用户友好的 API 和 SDK，从而简化与现有系统和应用程序的集成流程。如果您的摘要需求可以通过预先训练的专有模型来满足，而不需要特定的定制或微调，那么它们为您的文本摘要任务提供了方便、经济高效且高效的解决方案。由于这些模型没有专门针对医疗保健用例进行训练，因此如果不进行微调，就无法保证开箱即用的医学语言的质量。

Jurassic-2 Grande Instruct 是 AI21 Labs 的大型语言模型 (LLM)，针对自然语言指令进行了优化，适用于各种语言任务。它提供易于使用的 API 和 Python SDK，平衡质量和经济性。流行的用途包括生成营销文案、为聊天机器人提供支持和文本摘要。

在 SageMaker 控制台上，导航到 SageMaker JumpStart，找到 AI21 Jurassic-2 Grande Instruct 模型，然后选择 试用模型.

使用 Amazon SageMaker 探索医疗保健的汇总选项 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

如果您想将模型部署到您管理的 SageMaker 终端节点，您可以按照此示例中的步骤操作笔记本，其中向您展示了如何使用 SageMaker 部署 Jurassic-2 Large。

开源基础模型

开源模型包括 FLAN T5、Bloom 和 GPT-2 模型，可以通过 SageMaker JumpStart 在亚马逊SageMaker Studio UI、SageMaker 控制台上的 SageMaker JumpStart 以及 SageMaker JumpStart API。这些模型可以进行微调并部署到您的 AWS 账户下的终端节点，让您完全拥有模型权重和脚本代码。

Flan-T5 XL 是一款功能强大且多功能的模型，专为各种语言任务而设计。通过使用特定领域的数据微调模型，您可以针对特定用例（例如文本摘要或任何其他 NLP 任务）优化其性能。有关如何使用 SageMaker Studio UI 微调 Flan-T5 XL 的详细信息，请参阅使用 Amazon SageMaker Jumpstart 对 FLAN T5 XL 进行指令微调.

在 SageMaker 上使用 Hugging Face 微调预训练模型

在 SageMaker 上实现摘要的最流行的选项之一是使用 Hugging Face 微调预训练模型变压器图书馆。 Hugging Face 提供了广泛的预训练 Transformer 模型，专为各种自然语言处理 (NLP) 任务（包括文本摘要）而设计。借助 Hugging Face Transformers 库，您可以使用 SageMaker 根据特定领域的数据轻松微调这些预训练模型。这种方法具有多种优势，例如更快的训练时间、在特定领域的更好性能以及使用内置 SageMaker 工具和服务更轻松地打包和部署模型。如果您无法在 SageMaker JumpStart 中找到合适的模型，您可以选择 Hugging Face 提供的任何模型并使用 SageMaker 对其进行微调。

要开始使用模型来了解 ML 的功能，您所需要做的就是打开 SageMaker Studio，找到您想要在其中使用的预训练模型拥抱脸模型中心，然后选择 SageMaker 作为您的部署方法。 Hugging Face 将为您提供在笔记本中复制、粘贴和运行的代码。就这么简单！无需机器学习工程经验。

使用 Amazon SageMaker 探索医疗保健的汇总选项 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

Hugging Face Transformers 库使构建者能够对预先训练的模型进行操作并执行微调等高级任务，我们将在以下部分中对此进行探讨。

预配资源

在开始之前，我们需要配置一个笔记本。有关说明，请参阅中的步骤 1 和 2 在本地构建和训练机器学习模型。对于本示例，我们使用了以下屏幕截图中显示的设置。

使用 Amazon SageMaker 探索医疗保健的汇总选项 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

我们还需要创建一个亚马逊简单存储服务 (Amazon S3) 存储桶，用于存储训练数据和训练工件。有关说明，请参阅创建一个桶.

准备数据集

为了微调我们的模型以获得更好的领域知识，我们需要获取适合该任务的数据。在针对企业用例进行培训时，您需要完成许多数据工程任务来准备自己的数据，为培训做好准备。这些任务超出了本文的范围。对于此示例，我们生成了一些合成数据来模拟护理笔记并将其存储在 Amazon S3 中。将数据存储在 Amazon S3 中使我们能够设计我们的工作负载以实现 HIPAA 合规性。我们首先获取这些笔记并将它们加载到运行笔记本的实例上：

from datasets import load_dataset
dataset = load_dataset("csv", data_files={
    "train": "s3://" + bucket_name + train_data_path,
    "validation": "s3://" + bucket_name + test_data_path
})

注释由包含完整条目、注释的列和包含简短版本（举例说明我们所需的输出应该是什么）的列组成，即摘要。使用此数据集的目的是改进我们模型的生物和医学词汇，使其更适合在医疗保健环境中进行总结，称为 域微调，并展示我们的模型如何构建其汇总输出。在某些摘要情况下，我们可能希望从一篇文章或一篇评论的单行摘要中创建摘要，但在这种情况下，我们试图让我们的模型输出症状和所采取行动的缩写版本到目前为止，对于一名患者来说。

加载模型

我们用作基础的模型是 Google Pegasus 的一个版本，可在 Hugging Face Hub 中使用，称为飞马-xsum。它已经针对摘要进行了预训练，因此我们的微调过程可以专注于扩展其领域知识。修改我们的模型运行的任务是本文中未介绍的另一种类型的微调。 Transformer 库为我们提供了一个类来从我们的模型加载模型定义 model_checkpoint: google/pegasus-xsum。这将从集线器加载模型并在我们的笔记本中实例化它，以便我们稍后可以使用它。因为 pegasus-xsum 是一个序列到序列模型，我们想要使用 Seq2Seq 类型汽车模型类：

from transformers import AutoModelForSeq2SeqLM
model = AutoModelForSeq2SeqLM.from_pretrained(model_checkpoint)

现在我们有了模型，是时候将注意力放在其他组件上，使我们能够运行训练循环。

创建一个分词器

这些组件中的第一个是分词器。 符号化 是将输入数据中的单词转换为我们的模型可以理解的数字表示的过程。同样，Transformer 库为我们提供了一个类，用于从我们用于实例化模型的同一检查点加载分词器定义：

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

使用此标记生成器对象，我们可以创建一个预处理函数并将其映射到我们的数据集，以便为我们提供准备好输入模型的标记。最后，我们格式化标记化的输出并删除包含原始文本的列，因为模型将无法解释它们。现在我们留下了一个标记化的输入，可以将其输入到模型中。请看下面的代码：

tokenized_datasets = dataset.map(preprocess_function, batched=True) tokenized_datasets.set_format("torch") tokenized_datasets = tokenized_datasets.remove_columns( dataset["train"].column_names
)

创建数据整理器和优化器

随着数据标记化和模型实例化，我们几乎准备好运行训练循环了。我们要创建的下一个组件是数据整理器和优化器。数据整理器是 Hugging Face 通过 Transformers 库提供的另一个类，我们用它来创建批量的标记化数据以进行训练。我们可以使用已有的分词器和模型对象轻松构建它，只需找到我们之前用于模型 (Seq2Seq) 的排序器类的相应类类型。优化器的功能是在循环过程中维持训练状态并根据训练损失更新参数。要创建优化器，我们可以导入乐观的来自 torch 模块的软件包，其中提供了许多优化算法。您以前可能遇到过的一些常见问题是随机梯度下降和 Adam ，后者应用于我们的示例中。 Adam 的构造函数接受给定训练运行的模型参数和参数化学习率。请看下面的代码：

from transformers import DataCollatorForSeq2Seq
from torch.optim import Adam data_collator = DataCollatorForSeq2Seq(tokenizer, model=model)
optimizer = Adam(model.parameters(), lr=learning_rate)

构建加速器和调度器

我们开始训练之前的最后一步是构建加速器和学习率调度器。该加速器来自 Hugging Face 生成的另一个库（我们主要使用 Transformers），恰当地命名为 Accelerate，并将抽象出训练期间管理设备所需的逻辑（例如使用多个 GPU）。对于最后一个组件，我们重新访问一直有用的 Transformers 库来实现我们的学习率调度程序。通过指定调度程序类型、循环中的训练步骤总数以及之前创建的优化器， get_scheduler 函数返回一个对象，使我们能够在整个训练过程中调整初始学习率：

from accelerate import Accelerator
from transformers import get_scheduler accelerator = Accelerator()
model, optimizer = accelerator.prepare( model, optimizer
) lr_scheduler = get_scheduler( "linear", optimizer=optimizer, num_warmup_steps=0, num_training_steps=num_training_steps,
)

配置训练作业

现在我们已经做好了训练准备！让我们设置一个训练作业，首先实例化训练参数使用 Transformers 库并选择参数值。我们可以将这些以及我们其他准备好的组件和数据集直接传递给教练并开始训练，如下代码所示。根据数据集的大小和所选参数，这可能需要大量时间。

from transformers import Seq2SeqTrainer
from transformers import Seq2SeqTrainingArguments training_args = Seq2SeqTrainingArguments( output_dir="output/", save_total_limit=1, num_train_epochs=num_train_epochs, per_device_train_batch_size=batch_size, per_device_eval_batch_size=batch_size, evaluation_strategy="epoch", logging_dir="output/", load_best_model_at_end=True, disable_tqdm=True, logging_first_step=True, logging_steps=1, save_strategy="epoch", predict_with_generate=True
) trainer = Seq2SeqTrainer( model=model, tokenizer=tokenizer, args=training_args, train_dataset=tokenized_datasets["train"], eval_dataset=tokenized_datasets["validation"], data_collator=data_collator, optimizers=(optimizer, lr_scheduler)
) trainer.train()

要操作此代码，我们可以将其打包为入口点文件并通过 SageMaker 训练作业。这使我们能够将刚刚构建的逻辑与训练调用分开，并允许 SageMaker 在单独的实例上运行训练。

打包模型进行推理

运行训练后，模型对象就可以用于推理了。作为最佳实践，让我们保存我们的工作以供将来使用。我们需要创建模型工件，将它们压缩在一起，并将 tarball 上传到 Amazon S3 进行存储。为了准备模型进行压缩，我们需要解开现在经过微调的模型，然后保存模型二进制文件和关联的配置文件。我们还需要将标记生成器保存到保存模型工件的同一目录中，以便在我们使用模型进行推理时可用。我们的 model_dir 文件夹现在应该类似于以下代码：

config.json pytorch_model.bin	tokenizer_config.json
generation_config.json	special_tokens_map.json tokenizer.json

剩下的就是运行 tar 命令来压缩我们的目录并将 tar.gz 文件上传到 Amazon S3：

unwrapped_model = accelerator.unwrap_model(trainer.model) unwrapped_model.save_pretrained('model_dir', save_function=accelerator.save) tokenizer.save_pretrained('model_dir') !cd model_dir/ && tar -czvf model.tar.gz *
!mv model_dir/model.tar.gz ./ with open("model.tar.gz", "rb") as f: s3.upload_fileobj(f, bucket_name, artifact_path + "model/model.tar.gz")

我们新近微调的模型现已准备就绪，可用于推理。

执行推理

要使用此模型工件进行推理，请打开一个新文件并使用以下代码，修改 model_data 参数以适合您在 Amazon S3 中的工件保存位置。这 HuggingFaceModel 构造函数将从我们保存的检查点重建我们的模型 model.tar.gz，然后我们可以使用部署方法部署它以进行推理。部署端点需要几分钟时间。

from sagemaker.huggingface import HuggingFaceModel
from sagemaker import get_execution_role role = get_execution_role() huggingface_model = HuggingFaceModel( model_data=”s3://{bucket_name}/{artifact_path}/model/model.tar.gz”, role=role, transformers_version=”4.26”, pytorch_version=”1.13”, py_version=”py39”
) predictor = huggingface_model.deploy( initial_instance_count=1, instance_type=”ml.m5.xlarge”
)

部署端点后，我们可以使用我们创建的预测器来测试它。通过 predict 方法数据有效负载并运行单元，您将从微调模型中获得响应：

data = { "inputs": "Text to summarize”
}
predictor.predict(data)

成果

为了了解微调模型的好处，让我们做一个快速测试。下表包含提示以及微调之前和之后将该提示传递给模型的结果。

提示	无需微调的响应	微调响应
总结患者所经历的症状。患者是一名 45 岁男性，主诉胸骨后疼痛放射至左臂。当他在院子里干活时，疼痛突然发作，并伴有轻微的呼吸急促和出汗。到达时患者心率为 120，呼吸频率为 24，血压为 170/95。到达急诊科后进行了 12 导联心电图检查，并舌下含服 XNUMX 片硝酸甘油，但胸痛未缓解。心电图显示前导联 ST 段抬高，提示急性前壁心肌梗死。我们已联系心导管实验室并由心脏病专家准备心导管检查。	我们介绍一个急性心肌梗塞的病例。	胸痛、前壁心肌梗死、PCI。

正如您所看到的，我们的微调模型以不同的方式使用健康术语，并且我们已经能够改变响应的结构以适应我们的目的。请注意，结果取决于您的数据集和训练期间所做的设计选择。您的模型版本可能会提供截然不同的结果。

清理

当您使用完 SageMaker Notebook 后，请务必将其关闭，以避免长时间运行的资源产生成本。请注意，关闭实例将导致您丢失存储在实例临时内存中的所有数据，因此您应该在清理之前将所有工作保存到持久存储中。您还需要前往端点 SageMaker 控制台上的页面并删除为推理而部署的任何端点。要删除所有项目，您还需要转到 Amazon S3 控制台删除上传到存储桶的文件。

结论

在这篇文章中，我们探索了在 SageMaker 上实施文本摘要技术的各种选项，以帮助医疗保健专业人员有效地处理大量临床数据并从中提取见解。我们讨论了使用 SageMaker Jumpstart 基础模型、微调 Hugging Face 中的预训练模型以及构建自定义摘要模型。每种方法都有其自身的优点和缺点，以满足不同的需求和要求。

在 SageMaker 上构建自定义汇总模型可以提供很大的灵活性和控制力，但比使用预先训练的模型需要更多的时间和资源。 SageMaker Jumpstart 基础模型为不需要特定自定义或微调的组织提供易于使用且经济高效的解决方案，以及一些用于简化微调的选项。对 Hugging Face 中的预训练模型进行微调可提供更快的训练时间、更好的特定领域性能，以及与广泛模型目录中的 SageMaker 工具和服务的无缝集成，但需要一些实施工作。在撰写本文时，亚马逊宣布了另一个选择，亚马逊基岩，这将在更加受管理的环境中提供汇总功能。

通过了解每种方法的优缺点，医疗保健专业人员和组织可以就最合适的解决方案做出明智的决策，以生成复杂临床数据的简洁而准确的摘要。最终，在 SageMaker 上使用基于 AI/ML 的摘要模型可以使医疗专业人员快速访问相关信息并专注于提供优质护理，从而显着增强患者护理和决策能力。