利用生成式 AI 进行利用率管理

Last reviewed 2024-08-19 UTC

本文档介绍了一个参考架构,适用于希望使用 Google Cloud自动处理预授权 (PA) 请求并改进使用情况审核 (UR) 流程的健康保险公司。本指南面向这些组织中的软件开发者和计划管理员。这种架构有助于帮助健康保险计划提供商通过自动数据注入和从临床表单中提取数据洞见,从而减少行政开销、提高效率并改善决策制定。还可以使用 AI 模型生成问题和建议。

下图介绍了一种架构和方法,可用于自动执行数据注入工作流并优化利用率管理 (UM) 审核流程。此方法使用 Google Cloud中的数据和 AI 服务。

数据提取和 UM 审核流程概览。

上述架构包含两个数据流,分别由以下子系统支持:

  • Claims Data Activator (CDA),用于从表单和文档等非结构化来源提取数据,并以结构化、机器可读的格式将其提取到数据库中。CDA 实现了数据流,以注入 PA 申请表单。
  • 使用情况审核服务 (UR 服务),该服务会整合 PA 申请数据、政策文档和其他护理指南,以生成建议。UR 服务使用生成式 AI 实现了审核 PA 请求的数据流。

以下部分介绍了这些数据流。

CDA 数据流

下图显示了使用 CDA 注入 PA 申请表单的数据流程。

PA 支持请求管理员的数据流。

如上图所示,PA 支持请求管理器会与系统组件交互,以注入、验证和处理 PA 请求。PA 支持请求经理是指业务运营团队中负责接收 PA 请求的人员。事件流程如下:

  1. 精神病护理 (PA) 案例经理会从医疗服务提供方接收精神病护理申请表单 (pa_forms),并将其上传到 pa_forms_bkt Cloud Storage 存储桶。
  2. ingestion_service 服务会监听 pa_forms_bkt 存储桶中的更改。ingestion_service 服务会从 pa_forms_bkt 存储桶中提取 pa_forms 表单。该服务会识别预配置的 Document AI 处理器(称为 form_processors)。这些处理器用于处理 pa_forms 表单。ingestion_service 服务使用 form_processors 处理器从表单中提取信息。从表单中提取的数据采用 JSON 格式。
  3. ingestion_service 服务会将提取的信息(包括字段级信心得分)写入一个名为 pa_form_collection 的 Firestore 数据库集合。
  4. hitl_app 应用会从 pa_form_collection 数据库中提取带有置信度得分的信息 (JSON)。该应用根据 form_processors 机器学习 (ML) 模型在输出中提供的字段级置信度得分计算文档级置信度得分。
  5. hitl_app 应用会向 PA 支持请求管理员显示提取的信息以及字段级和文档级信心得分,以便他们在提取的值不准确时查看和更正信息。PA 支持请求经理可以更新不正确的值,并将文档保存在 pa_form_collection 数据库中。

UR 服务数据流

下图显示了 UR 服务的数据流。

UR 专家数据流。

如上图所示,UR 专家与系统组件互动,对 PA 请求进行临床审核。UR 专家通常是受雇于医疗保险公司的护士或在特定临床领域拥有经验的医生。本部分介绍的工作流不涵盖 PA 请求的支持请求管理和转派工作流。

事件流程如下:

  1. ur_app 应用会向 UR 专家显示 PA 请求列表及其审核状态。状态显示为 in_queuein_progresscompleted
  2. 该列表是通过从 pa_form_collection 数据库提取 pa_form information 数据创建的。UR 专家可以通过点击 ur_app 应用中显示的列表中的某个项目来打开请求。
  3. ur_app 应用将 pa_form information 数据提交给 prompt_model 模型。它使用 Vertex AI Gemini API 生成类似以下的提示:

    Review a PA request for {medication|device|medical service} for our member, {Patient Name}, who is {age} old, {gender} with {medical condition}. The patient is on {current medication|treatment list}, has {symptoms}, and has been diagnosed with {diagnosis}.
    

  4. ur_app 应用会向 UR 专家显示生成的提示,以供审核和反馈。UR 专家可以在界面中更新提示,并将其发送到应用。

  5. ur_app 应用将提示发送给 ur_model 模型,并请求生成推荐。模型会生成响应并返回给应用。应用会向 UR 专家显示建议的结果。

  6. UR 专家可以使用 ur_search_app 应用搜索 clinical documentscare guidelinesplan policy documentsclinical documentscare guidelinesplan policy documents 已预先编入索引,并且可供 ur_search_app 应用访问。

组件

该架构包含以下组件:

  • Cloud Storage 存储分区。UM 应用服务需要在您的 Google Cloud 项目中创建以下 Cloud Storage 存储分区:

    • pa_forms_bkt:用于注入需要审批的 PA 表单的存储桶。
    • training_forms:用于存储历史 PA 表单的存储桶,以便训练 DocAI 表单处理器。
    • eval_forms:用于存放 PA 表单的存储桶,用于评估 DocAI 表单处理器的准确性。
    • tuning_dataset:用于存储调整大型语言模型 (LLM) 所需数据的存储桶。
    • eval_dataset:用于存储评估 LLM 所需数据的存储桶。
    • clinical_docs:用于存储提供方作为 PA 表单附件提交的临床文档,或在之后提交的支持 PA 支持请求的临床文档的存储桶。这些文档会由 Vertex AI Agent Builder 服务中的搜索应用编入索引。
    • um_policies:用于存放医疗必要性和护理指南、健康保险计划政策文档和保险范围指南的存储桶。这些文档会由 Vertex AI Agent Builder 服务中的搜索应用编制索引。
  • form_processors:这些处理器经过训练,可从 pa_forms 表单中提取信息。

  • pa_form_collection:一个 Firestore 数据存储区,用于将提取的信息作为 JSON 文档存储在 NoSQL 数据库集合中。

  • ingestion_service:一个微服务,用于从存储桶中读取文档,将其传递给 DocAI 端点进行解析,并将提取的数据存储在 Firestore 数据库集合中。

  • hitl_app:用于提取和显示从 pa_forms 中提取的数据值的微服务(Web 应用)。它还会将表单处理程序(机器学习模型)报告给 PA 支持请求管理员的可信度得分,以便他们查看、更正和保存数据存储区中的信息。

  • ur_app:一种微服务(Web 应用),UR 专家可以使用它通过生成式 AI 审核 PA 请求。它使用名为 prompt_model 的模型生成提示。该微服务会将从 pa_forms 表单中提取的数据传递给 prompt_model 模型,以生成提示。然后,它会将生成的提示传递给 ur_model 模型,以获取支持请求的建议。

  • Vertex AI 经过医学调优的 LLM:Vertex AI 具有各种生成式 AI 基础模型,可进行调优以降低费用和延迟时间。此架构中使用的模型如下:

    • prompt_model:LLM 上的适配器,经过调优,可根据从 pa_forms 中提取的数据生成提示。
    • ur_model:LLM 上的适配器,经过调优,可根据输入提示生成草稿建议。
  • ur_search_app:使用 Vertex AI Agent Builder 构建的搜索应用,用于从临床文档、UM 政策和保险范围指南中查找与 UR 专家相关的个性化信息。

使用的产品

此参考架构使用以下 Google Cloud 产品:

  • Vertex AI:一个机器学习平台,用于训练和部署机器学习模型和 AI 应用以及自定义 LLM,以在依托 AI 技术的应用中使用。
  • Vertex AI Agent Builder:一个平台,可让开发者创建和部署企业级 AI 赋能的客服智能体和应用。
  • Document AI:一个文档处理平台,可从文档中获取非结构化数据并将其转换为结构化数据。
  • Firestore:NoSQL 文档数据库,能够自动扩缩、具备出色的性能,并且易于进行应用开发。
  • Cloud Run:一个无服务器计算平台,可让您直接在 Google 可伸缩的基础设施之上运行容器。
  • Cloud Storage:适用于各种数据类型的费用低廉且不受限制的对象存储。数据可从 Google Cloud内部和外部访问,并且跨位置进行复制以实现冗余。
  • Cloud Logging:具有存储、搜索、分析和提醒功能的实时日志管理系统。
  • Cloud Monitoring:可帮助您了解您的应用和基础设施的性能、可用性和健康状况的服务。

使用场景

UM 是主要在美国由健康保险公司使用的流程,但类似的流程(经过一些修改)在全球的医疗保险市场中也被广泛使用。优质管理 (UM) 的目标是帮助确保患者在合适的环境中、在最佳时间以尽可能低的费用获得适当的护理。UM 还有助于确保医疗护理有效、高效且符合循证护理标准。PA 是一种 UM 工具,患者必须先获得保险公司的批准,才能接受医疗护理。

许多公司采用的 UM 流程会阻碍提供和接收及时的护理。这不仅成本高昂、费时费力,而且需要过多行政管理工作。而且,这种方法复杂、耗时且需要人工操作。此流程对健康保险计划有效管理护理质量以及改善提供方和会员体验的能力有重大影响。不过,如果这些公司修改其 UM 流程,则有助于确保患者获得高质量且具有成本效益的治疗。通过优化 UR 流程,健康保险计划可以加快处理 PA 请求,从而降低成本和拒批率,进而改善患者和提供商体验。这种方法有助于减轻医疗服务提供方的行政负担。

当健康保险计划收到 PA 请求时,PA 案例管理人员会在案例管理系统中创建案例,以跟踪、管理和处理请求。我们通过传真和邮件收到了大量此类要求,其中附有临床文件。不过,医疗保险公司无法轻松获取这些表单和文档中的信息,以进行数据分析和业务智能分析。目前,将这些文件中的信息手动输入到支持请求管理系统的过程效率低且耗时,并且可能会导致错误。

通过自动化数据注入流程,健康保险计划可以降低成本、减少数据输入错误,并减轻员工的行政负担。从临床表单和文档中提取有价值的信息,可让健康保险公司加快 UR 流程。

设计考虑事项

本部分提供的指导可帮助您使用此参考架构开发一个或多个架构,以满足您对安全性、可靠性、运营效率、费用和性能的特定要求。

安全性、隐私权和合规性

本部分介绍在使用此参考架构帮助您在Google Cloud 中设计和构建架构时应考虑的因素,以便您满足安全性、隐私性和合规性要求。

在美国,根据《健康保险流通与责任法案》(修订版,简称 HIPAA,包括依据《卫生信息技术促进经济和临床健康 [HITECH] 法案》修订的内容),您必须遵守 HIPAA 的安全规则隐私规则违规通知规则Google Cloud 支持 HIPAA 合规性,但最终,您有责任评估自身 HIPAA 合规性。遵守 HIPAA 是您和 Google 的共同责任。如果贵组织需要遵从《健康保险流通与责任法案》(HIPAA),并且您希望使用任何与受保护健康信息 (PHI) 相关的产品,则必须查看并接受 Google 的《业务伙伴协议》(BAA)。 Google Cloud需要遵守 BAA 的 Google 产品符合 HIPAA 的要求,且具有我们的 ISO/IEC 27001、27017 和 27018 认证SOC 2 报告

Vertex AI Model Garden 中托管的 LLM 并非全部都支持《健康保险流通与责任法案》(HIPAA)。评估并使用支持 HIPAA 的 LLM。

如需评估 Google 产品如何满足您的 HIPAA 法规遵从需求,您可以参阅合规性资源中心中的第三方审核报告。

我们建议客户在选择 AI 用例时考虑以下事项,并在设计时将这些注意事项纳入考量:

Google 的产品遵循 Responsible AI 原则

如需了解专门针对 AI 和机器学习工作负载的安全原则和建议,请参阅架构框架中的 AI 和机器学习视角:安全

可靠性

本部分介绍在构建和运营可靠的基础设施以实现 PA 请求自动处理时应考虑的设计因素。

Document AI form_processors 是一项区域级服务。数据跨一个区域内的多个可用区同步存储。流量在可用区之间自动进行负载均衡。如果发生可用区服务中断,数据不会丢失1。如果发生区域服务中断,该服务将无法使用,直到 Google 解决服务中断问题。

您可以使用 pa_forms_bkttraining_formseval_formstuning_dataseteval_datasetclinical_docsum_policies 存储分区,在以下三种位置之一中创建 Cloud Storage 存储分区:单区域、双区域或多区域。存储在区域级存储分区中的数据会跨一个区域内的多个可用区同步复制。为了获得更高的可用性,您可以使用双区域或多区域存储分区,其中数据会跨区域异步复制。

Firestore 中,从 pa_form_collection 数据库中提取的信息可以存储在多个数据中心,有助于确保全球可伸缩性和可靠性。

Cloud Run 服务 ingestion_servicehitl_appur_app 是区域性服务。数据跨一个区域内的多个可用区同步存储。流量在可用区之间自动进行负载均衡。如果可用区服务中断,Cloud Run 作业将继续运行,并且数据不会丢失。如果区域服务中断,Cloud Run 作业将停止运行,直到 Google 解决服务中断问题。个别 Cloud Run 作业或任务可能会失败。如需处理此类失败,您可以使用任务重试和检查点。如需了解详情,请参阅作业重试和检查点最佳实践Cloud Run 常规开发技巧介绍了使用 Cloud Run 的一些最佳实践。

Vertex AI 是一个全面且易于使用的机器学习平台,可为机器学习生命周期(从数据准备到模型部署和监控)提供统一的环境。

如需了解专门针对 AI 和机器学习工作负载的可靠性原则和建议,请参阅架构框架中的 AI 和机器学习视角:可靠性

费用优化

本部分提供指导,以优化创建和运行架构的费用,以自动处理 PA 请求并改进 UR 流程。谨慎管理资源用量并选择适当的服务层级,对总体费用有很大影响。

Cloud Storage 存储类别:根据数据访问频率使用不同的存储类别(Standard、Nearline、Coldline 或 Archive)。对于访问频率较低的数据,Nearline、Coldline 和 Archive 更具成本效益。

Cloud Storage 生命周期政策:实现生命周期政策,以根据对象的保留时长和访问模式,自动将对象转换为费用较低的存储类别或将其删除。

Document AI 的价格取决于部署的处理器数量,以及 Document AI 处理器处理的页面数量。请考虑以下事项:

  • 处理器优化:分析工作负载模式,以确定要部署的 Document AI 处理器的最佳数量。避免过度预配资源。
  • 页面量管理:预处理文档以移除不必要的页面或优化分辨率有助于降低处理费用。

Firestore 的价格基于与文档、索引条目、数据库使用的存储空间和网络带宽量相关的活动。请考虑以下事项:

  • 数据建模:设计数据模型以尽可能减少索引条目数量,并优化查询模式以提高效率。
  • 网络带宽:监控和优化网络使用情况,以免超额付费。考虑缓存经常访问的数据。

Cloud Run 费用根据按需 CPU 使用率、内存和请求数量计算得出。仔细考虑资源分配。根据工作负载特性分配 CPU 和内存资源。使用自动扩缩功能根据需求动态调整资源。

Vertex AI LLM 的费用通常根据文本或媒体的输入和输出而定。输入和输出令牌数直接影响 LLM 费用。优化提示和回答生成,提高效率。

Vertex AI Agent Builder 搜索引擎费用取决于您使用的功能。为帮助您管理费用,您可以从以下三个选项中进行选择:

  • Search 标准版,提供非结构化搜索功能。
  • Search 企业版,提供非结构化搜索和网站搜索功能。
  • 搜索 LLM 插件,提供摘要和多轮搜索功能。

您还可以考虑以下其他注意事项,以帮助优化费用:

  • 监控和提醒:设置 Cloud Monitoring 和结算提醒,以跟踪费用并在用量超出阈值时收到通知。
  • 费用报告:定期查看 Google Cloud 控制台中的费用报告,以发现趋势并优化资源使用情况。
  • 考虑购买承诺使用折扣:如果您的工作负载可预测,不妨考虑承诺在指定期限内使用这些资源,以便享受折扣价格。

仔细考虑这些因素并实施建议的策略有助于您在 Google Cloud上有效管理和优化运行 PA 和 UR 自动化架构的费用。

如需了解专门针对 AI 和机器学习工作负载的费用优化原则和建议,请参阅架构框架中的 AI 和机器学习视角:费用优化

部署

此架构的参考实现代码采用开源许可。此代码实现的架构是一个原型,可能不包含您在正式版部署中所需的所有功能和强化措施。如需实现和扩展此参考架构,以更贴近您的要求,建议您与 Google Cloud Consulting 团队联系。

此参考架构的起始代码可在以下 Git 代码库中找到:

您可以选择以下两种方式之一来为此参考架构实现支持和服务:

后续步骤

贡献者

作者:Dharmesh Patel | 医疗保健行业解决方案架构师

其他贡献者:


  1. 如需详细了解特定区域的注意事项,请参阅地理位置和区域。