此页面由 Cloud Translation API 翻译。

利用生成式 AI 进行利用率管理

Last reviewed 2024-08-19 UTC

本文档介绍了一种参考架构，适用于希望通过使用 Google Cloud来自动化事先授权 (PA) 请求处理并改进其利用率审核 (UR) 流程的健康保险公司。本指南适用于这些组织中的软件开发者和项目管理员。借助这种架构，健康保险计划提供商可以通过自动化数据提取和从临床表单中提取数据洞见，从而减少行政开销、提高效率并改善决策。还可让他们使用 AI 模型生成提示和建议。

架构

下图描述了一种架构和方法，用于自动化数据提取工作流程并优化利用率管理 (UM) 审核流程。此方法使用了 Google Cloud中的数据和 AI 服务。

数据提取和 UM 审核流程概览。

上述架构包含两种数据流，这些数据流由以下子系统支持：

索赔数据激活器 (CDA)，用于从表单和文档等非结构化来源提取数据，并以结构化、机器可读的格式将其提取到数据库中。CDA 实现了数据流，以提取 PA 请求表单。
利用率审核服务 (UR 服务)，该服务会整合 PA 请求数据、政策文档和其他护理指南，以生成建议。UR 服务使用生成式 AI 来实现数据流，以审核 PA 请求。

以下部分介绍了这些数据流。

CDA 数据流

下图显示了使用 CDA 提取 PA 申请表单的数据流。

PA 个案经理的数据流。

如上图所示，PA 支持请求管理器与系统组件互动，以提取、验证和处理 PA 请求。PA 请求管理员是指业务运营团队中负责接收 PA 请求的人员。事件流如下所示：

居家护理服务案例经理从医疗服务提供方接收居家护理服务申请表单 (pa_forms)，并将其上传到 pa_forms_bkt Cloud Storage 存储桶。
ingestion_service 服务会监听 pa_forms_bkt 存储桶的更改。ingestion_service 服务从 pa_forms_bkt 存储桶中提取 pa_forms 表单。该服务会识别预配置的 Document AI 处理器（称为 form_processors）。这些处理器用于处理 pa_forms 表单。ingestion_service 服务使用 form_processors 处理器从表单中提取信息。从表单中提取的数据采用 JSON 格式。
ingestion_service 服务会将提取的信息（带有字段级别的置信度得分）写入 Firestore 数据库集合（称为 pa_form_collection）。
hitl_app 应用会从 pa_form_collection 数据库中提取包含置信度得分的信息 (JSON)。应用会根据 form_processors 机器学习 (ML) 模型在输出中提供的字段级置信度得分来计算文档级置信度得分。
hitl_app 应用会向 PA 支持请求经理显示提取的信息，并附上字段和文档级别的置信度得分，以便他们在提取的值不准确时查看并更正信息。PA 支持经理可以更新不正确的值，并将文档保存在 pa_form_collection 数据库中。

UR 服务数据流

下图显示了 UR 服务的数据流。

UR 专家数据流。

如上图所示，UR 专家与系统组件进行交互，对 PA 申请进行临床审查。UR 专家通常是具有特定临床领域经验的护士或医生，由医疗保险公司雇用。本部分所述的工作流不涉及 PA 请求的支持请求管理和路由工作流。

事件流如下所示：

ur_app 应用会向 UR 专家显示 PA 请求列表及其审核状态。状态显示为 in_queue、in_progress 或 completed。
该列表是通过从 pa_form_collection 数据库中提取 pa_form information 数据而创建的。UR 专家通过点击 ur_app 应用中显示的列表中的某个项来打开请求。

ur_app 应用会将 pa_form information 数据提交给 prompt_model 模型。它使用 Vertex AI Gemini API 生成类似于以下内容的提示：

Review a PA request for {medication|device|medical service} for our member, {Patient Name}, who is {age} old, {gender} with {medical condition}. The patient is on {current medication|treatment list}, has {symptoms}, and has been diagnosed with {diagnosis}.

ur_app 应用会向 UR 专家显示生成的提示，以供其审核和提供反馈。UR 专家可以更新界面中的提示，并将其发送到应用。
ur_app 应用会将提示发送到 ur_model 模型，并发出生成推荐内容的请求。模型会生成响应并返回给应用。应用会向 UR 专家显示建议的结果。
UR 专家可以使用 ur_search_app 应用搜索 clinical documents、care guidelines 和 plan policy documents。clinical documents、care guidelines 和 plan policy documents 是预先编入索引的，并且可以供 ur_search_app 应用访问。

组件

该架构包含以下组件：

Cloud Storage 存储桶。UM 应用服务需要在您的项目中使用以下 Cloud Storage 存储桶： Google Cloud
- pa_forms_bkt：用于提取需要审批的 PA 表单的存储桶。
- training_forms：用于存储历史 PA 表单以训练 DocAI 表单处理器的存储桶。
- eval_forms：用于存储 PA 表单以评估 DocAI 表单处理器准确性的存储桶。
- tuning_dataset：存储用于调整大型语言模型 (LLM) 所需数据的存储桶。
- eval_dataset：存储评估 LLM 所需数据的存储桶。
- clinical_docs：存储提供方作为 PA 表单附件或之后提交的临床文件以支持 PA 案件的存储桶。这些文档会在 Vertex AI Agent Builder 服务中由搜索应用进行索引编制。
- um_policies：存储医疗必要性和护理指南、健康保险方案政策文档和保险范围指南的存储桶。Vertex AI Agent Builder 服务中的搜索应用会为这些文档编制索引。
form_processors：这些处理器经过训练，可从 pa_forms 表单中提取信息。
pa_form_collection：Firestore 数据存储区，用于将提取的信息以 JSON 文档的形式存储在 NoSQL 数据库集合中。
ingestion_service：从存储桶中读取文档的微服务，将文档传递给 DocAI 端点进行解析，并将提取的数据存储在 Firestore 数据库集合中。
hitl_app：一种微服务（Web 应用），用于提取和显示从 pa_forms 提取的数据值。它还会将表单处理器（机器学习模型）向 PA 个案经理报告的置信度得分进行呈现，以便他们可以查看、更正并将信息保存在数据存储区中。
ur_app：UR 专家可以使用此微服务（Web 应用）来使用 Generative AI 审核 PA 请求。它使用名为 prompt_model 的模型生成提示。微服务会将从 pa_forms 表单提取的数据传递给 prompt_model 模型，以生成提示。然后，它会将生成的提示传递给 ur_model 模型，以获取针对某个用例的建议。
Vertex AI 经过医学调优的 LLM：Vertex AI 具有各种生成式 AI 基础模型，可进行调优以降低成本和延迟时间。此架构中使用的模型如下：
- prompt_model：经过调优的 LLM 适配器，用于根据从 pa_forms 提取的数据生成提示。
- ur_model：经过调优的 LLM 适配器，用于根据输入提示生成建议草稿。
ur_search_app：使用 Vertex AI Agent Builder 构建的搜索应用，用于从临床文档、UM 政策和保险范围指南中为 UR 专家查找个性化且相关的信息。

使用的产品

此参考架构使用以下 Google Cloud 产品：

Vertex AI：一个机器学习平台，用于训练和部署机器学习模型和 AI 应用以及自定义 LLM，以在依托 AI 技术的应用中使用。
Vertex AI Agent Builder：一个平台，可让开发者创建和部署企业级 AI 智能体和应用。
Document AI：一个文档处理平台，可从文档中获取非结构化数据并将其转换为结构化数据。
Firestore：一个 NoSQL 文档数据库，能够自动扩缩、具备出色的性能，并且易于进行应用开发。
Cloud Run：一个无服务器计算平台，可让您直接在 Google 可伸缩的基础设施之上运行容器。
Cloud Storage：适用于各种数据类型的费用低廉且不受限制的对象存储。数据可从 Google Cloud内部和外部访问，并且跨位置进行复制以实现冗余。
Cloud Logging：具有存储、搜索、分析和提醒功能的实时日志管理系统。
Cloud Monitoring：可帮助您了解您的应用和基础设施的性能、可用性和健康状况的服务。

使用场景

UM 是一种流程，主要在美国的健康保险公司中使用，但类似的流程（经过一些修改）在全球的医疗保险市场中也得到了应用。护理管理的目标是帮助确保患者在合适的环境中、在最佳时间以尽可能低的费用获得适当的护理。UM 还有助于确保医疗服务有效、高效，并符合循证护理标准。PA 是一种 UM 工具，需要在患者接受医疗护理之前获得保险公司的批准。

许多公司使用的 UM 流程是提供和接受及时护理的障碍。成本高昂、费时费力，而且管理过于繁琐。这种方法复杂、需要手动操作且效率低下。此流程会显著影响健康保险方案有效管理医疗服务质量以及改善提供方和会员体验的能力。不过，如果这些公司修改其 UM 流程，则有助于确保患者接受高质量、经济实惠的治疗。通过优化 UR 流程，健康保险计划可以通过快速处理 PA 请求来降低成本和拒付率，进而改善患者和提供方的体验。这种方法有助于减轻医疗服务提供方的行政负担。

当健康保险计划收到 PA 请求时，PA 案例经理会在案例管理系统中创建案例，以跟踪、管理和处理请求。我们收到的大量此类要求是通过传真和信件接收的，并附有临床文件。不过，医疗保险公司无法轻松获取这些表单和文件中的数据，以进行数据分析和商业智能分析。目前，将这些文件中的信息手动输入到案件管理系统的流程效率低下、耗时长，并且可能会导致错误。

通过自动化数据提取流程，健康保险计划可以降低成本、减少数据输入错误，并减轻员工的行政负担。从临床表单和文档中提取有价值的信息，可让健康保险公司加快 UR 流程。

设计考虑事项

本部分提供的指导可帮助您使用此参考架构开发一个或多个架构，以满足您在安全性、可靠性、运营效率、费用和性能方面的具体要求。

安全性、隐私权和合规性

本部分介绍使用此参考架构在Google Cloud 中设计和构建架构时应考虑的因素，以帮助您满足安全性、隐私权和合规性要求。

在美国，《健康保险流通与责任法案》（简称 HIPAA，包括依据《卫生信息技术促进经济和临床健康 [HITECH] 法案》修订的内容）要求遵守 HIPAA 的安全规则、隐私权规则和违规通知规则。Google Cloud 提供 HIPAA 合规性支持，但最终，您有责任评估自己的 HIPAA 合规性。遵守 HIPAA 是客户与 Google 的共同责任。如果贵组织需要遵从 HIPAA，而且您希望将任何 Google Cloud产品用于受保护健康信息 (PHI)，那么您必须查看并接受 Google 的《业务伙伴协议》(BAA)。需要遵守 BAA 的 Google 产品符合 HIPAA 的要求，且具有我们的 ISO/IEC 27001、27017 和 27018 证书以及 SOC 2 报告。

并非所有托管在 Vertex AI Model Garden 中的 LLM 都支持 HIPAA。评估和使用支持 HIPAA 的 LLM。

如需评估 Google 产品如何满足您的 HIPAA 法规遵从需求，您可以参考法规遵从资源中心中的第三方审核报告。

我们建议客户在选择 AI 用例时考虑以下因素，并在设计时考虑这些因素：

数据隐私： Google Cloud Vertex AI 平台和 Document AI 不会利用客户数据、数据用量、内容或文档来改进或训练基础模型。您可以在 Google Cloud上使用受保护的租户中的数据和文档调优基础模型。
Firestore 服务器客户端库使用 Identity and Access Management (IAM) 来管理对数据库的访问。如需了解 Firebase 的安全和隐私信息，请参阅 Firebase 中的隐私权和安全性。
为了帮助您存储敏感数据，ingestion_service、hitl_app 和 ur_app 服务映像可以使用客户管理的加密密钥 (CMEK) 进行加密，也可以与Secret Manager 集成。
Vertex AI 实施了 Google Cloud 安全控制措施，可帮助保护您的模型和训练数据。Vertex AI 中的生成式 AI 功能不支持某些安全控制措施。如需了解详情，请参阅针对 Vertex AI 的安全控制措施和针对生成式 AI 的安全控制措施。
我们建议您使用 IAM 来实现云资源的最小权限和职责分离原则。此控制措施可在项目、文件夹或数据集级别限制访问权限。
Cloud Storage 会自动以加密状态存储数据。如需详细了解用于加密数据的其他方法，请参阅数据加密选项。

Google 的产品遵循 Responsible AI 原则。

如需了解 AI 和机器学习工作负载专属的安全原则和建议，请参阅架构框架中的 AI 和机器学习视角：安全性。

可靠性

本部分介绍在构建和运营可靠的基础架构以自动化 PA 请求处理时应考虑的设计因素。

Document AI form_processors 是一种区域级服务。数据跨一个区域内的多个可用区同步存储。流量在可用区之间自动进行负载均衡。如果发生可用区服务中断，数据不会丢失¹。如果发生区域服务中断，在 Google 解决服务中断问题之前，该服务将无法使用。

您可以使用 pa_forms_bkt、training_forms、eval_forms、tuning_dataset、eval_dataset、clinical_docs 或 um_policies 存储桶，在以下三种位置之一创建 Cloud Storage 存储桶：单区域、双区域或多区域。存储在区域级存储桶中的数据会跨一个区域内的多个可用区同步复制。为了获得更高的可用性，您可以使用双区域或多区域存储桶，其中数据会跨区域异步复制。

在 Firestore 中，从 pa_form_collection 数据库提取的信息可以分布在多个数据中心，以帮助确保全球可扩展性和可靠性。

Cloud Run 服务 ingestion_service、hitl_app 和 ur_app 是区域性服务。数据跨一个区域内的多个可用区同步存储。流量在可用区之间自动进行负载均衡。如果可用区服务中断，Cloud Run 作业将继续运行，并且数据不会丢失。如果区域服务中断，Cloud Run 作业将停止运行，直到 Google 解决服务中断问题。个别 Cloud Run 作业或任务可能会失败。如需处理此类失败，您可以使用任务重试和检查点。如需了解详情，请参阅作业重试和检查点最佳做法。 Cloud Run 常规开发技巧介绍了使用 Cloud Run 的一些最佳实践。

Vertex AI 是一个全面且易于使用的机器学习平台，可为机器学习生命周期提供统一的环境，从数据准备到模型部署和监控。

如需了解 AI 和机器学习工作负载专属的可靠性原则和建议，请参阅架构框架中的AI 和机器学习视角：可靠性。

费用优化

本部分提供有关优化创建和运行架构的费用的指导，以便自动执行 PA 请求处理并改进 UR 流程。谨慎管理资源用量并选择合适的服务层级，可以显著降低总体成本。

Cloud Storage 存储类别：根据数据访问频率使用不同的存储类别（Standard、Nearline、Coldline 或 Archive）。对于访问频率较低的数据，Nearline、Coldline 和 Archive 更具成本效益。

Cloud Storage 生命周期政策：实施生命周期政策，以便根据存储时间和访问模式自动将对象转换为费用较低的存储类别或将其删除。

Document AI 的价格取决于部署的处理器数量以及 Document AI 处理器处理的页面数量。请考虑以下事项：

处理器优化：分析工作负载模式，确定要部署的 Document AI 处理器的最佳数量。避免过度预配资源。
页面数量管理：预处理文档以移除不必要的页面或优化分辨率有助于降低处理费用。

Firestore 的价格取决于与文档、索引条目、数据库使用的存储空间以及网络带宽量相关的活动。请考虑以下事项：

数据建模：设计数据模型，以尽可能减少索引条目数量并优化查询模式，从而提高效率。
网络带宽：监控和优化网络使用情况，以避免超额收费。考虑缓存经常访问的数据。

Cloud Run 费用是根据按需 CPU 用量、内存和请求数计算得出的。仔细考虑资源分配。根据工作负载特征分配 CPU 和内存资源。使用自动扩缩功能根据需求动态调整资源。

Vertex AI LLM 的费用通常根据文本或媒体的输入和输出来计算。输入和输出 token 数会直接影响 LLM 成本。优化提示和响应生成，提高效率。

Vertex AI Agent Builder 搜索引擎费用取决于您使用的功能。为了帮助您管理费用，您可以从以下三个选项中进行选择：

Search 标准版，提供非结构化搜索功能。
Search 企业版，提供非结构化搜索和网站搜索功能。
搜索 LLM 插件，可提供摘要和多轮搜索功能。

您还可以考虑以下额外注意事项，以帮助优化费用：

监控和提醒：设置 Cloud Monitoring 和结算提醒，以跟踪费用并在用量超出阈值时收到通知。
费用报告：定期查看 Google Cloud 控制台中的费用报告，以确定趋势并优化资源使用情况。
考虑使用承诺使用折扣：如果您的工作负载是可预测的，不妨考虑承诺在指定时间内使用这些资源，以享受折扣价。

仔细考虑这些因素并实施建议的策略有助于您有效地管理和优化在 Google Cloud上运行 PA 和 UR 自动化架构的费用。

如需了解针对 AI 和机器学习工作负载的费用优化原则和建议，请参阅架构框架中的从 AI 和机器学习的角度：费用优化。

部署

此架构的参考实现代码可通过开源许可获得。此代码实现的架构是一个原型，可能不包含您在生产环境中部署所需的所有功能和强化功能。如需实现和扩展此参考架构以更贴近您的要求，我们建议您与 Google Cloud 咨询服务联系。

此参考架构的起始代码可在以下 Git 代码库中找到：

CDA Git 代码库：此代码库包含用于基础架构配置和应用代码部署的 Terraform 部署脚本。
UR 服务 Git 代码库：此代码库包含 UR 服务的代码示例。

您可以从以下两个选项中选择一个，为此参考架构实现支持和服务：

使用 Google Cloud 咨询服务。
聘请已使用此架构中所述的产品和解决方案组件构建了封装产品的合作伙伴。

后续步骤

了解如何使用 Vertex AI 和 Vector Search 为支持 RAG 的生成式 AI 应用构建基础架构。
了解如何为使用 Vertex AI 且支持 RAG 的生成式 AI 应用构建基础架构。
使用 GKE 且支持 RAG 的生成式 AI 应用的基础设施
查看Google Cloud 用于标准答案关联生成式 AI 响应的选项。
了解如何针对 Cloud Run 优化 Python 应用。
如需简要了解针对 Google Cloud中的 AI 和机器学习工作负载的架构原则和建议，请参阅架构框架中的AI 和机器学习视角。
如需查看更多参考架构、图表和最佳做法，请浏览云架构中心。

贡献者

作者：Dharmesh Patel | 行业解决方案架构师，医疗

其他贡献者：

Ben Swenka | 关键企业架构师
Emily Qiao | AI/机器学习客户工程师
Luis Urena | 开发者关系工程师
Praney Mittal | 产品经理
Lakshmanan Sethu | 技术支持客户经理

如需详细了解特定区域的注意事项，请参阅地理位置和区域。 ↩