Usar a IA generativa no gerenciamento de utilização

Last reviewed 2024-08-19 UTC

Este documento descreve uma arquitetura de referência para seguradoras de saúde que querem automatizar o processamento de solicitações de autorização prévia (PA, na sigla em inglês) e melhorar os processos de análise de utilização (UR, na sigla em inglês) usando o Google Cloud. Ele é destinado a desenvolvedores de software e administradores de programas nessas organizações. Essa arquitetura ajuda os provedores de planos de saúde a reduzir a sobrecarga administrativa, aumentar a eficiência e melhorar a tomada de decisões automatizando a ingestão de dados e a extração de insights de formulários clínicos. Ele também permite que eles usem modelos de IA para geração de comandos e recomendações.

Arquitetura

O diagrama a seguir descreve uma arquitetura e uma abordagem para automatizar o fluxo de trabalho de ingestão de dados e otimizar o processo de análise de gerenciamento de utilização (UM, na sigla em inglês). Essa abordagem usa dados e serviços de IA no Google Cloud.

Visão geral de alto nível do processo de transferência de dados e análise da UM.

A arquitetura anterior contém dois fluxos de dados, que são compatíveis com os seguintes subsistemas:

  • Ativador de dados de reivindicações (CDA), que extrai dados de fontes não estruturadas, como formulários e documentos, e os insere em um banco de dados em um formato estruturado e legível por máquina. A CDA implementa o fluxo de dados para receber formulários de solicitação de PA.
  • Serviço de análise de utilização (UR, na sigla em inglês), que integra dados de solicitações de PA, documentos de políticas e outras diretrizes de atendimento para gerar recomendações. O serviço de UR implementa o fluxo de dados para analisar solicitações de PA usando a IA generativa.

As seções a seguir descrevem esses fluxos de dados.

Fluxo de dados da CDA

O diagrama a seguir mostra o fluxo de dados para usar a CDA e processar formulários de solicitação de PA.

Fluxo de dados dos gerentes de casos de PA.

Conforme mostrado no diagrama anterior, o gerenciador de casos de PA interage com os componentes do sistema para receber, validar e processar as solicitações de PA. Os gerentes de caso de PA são as pessoas da equipe de operações de negócios responsáveis pela entrada das solicitações de PA. O fluxo de eventos é o seguinte:

  1. Os gerentes de caso de PA recebem os formulários de solicitação de PA (pa_forms) do provedor de cuidados de saúde e os enviam para o bucket do Cloud Storage pa_forms_bkt.
  2. O serviço ingestion_service detecta mudanças no bucket pa_forms_bkt. O serviço ingestion_service coleta formulários pa_forms do bucket pa_forms_bkt. O serviço identifica os processadores da Document AI pré-configurados, chamados de form_processors. Esses processadores são definidos para processar os formulários pa_forms. O serviço ingestion_service extrai informações dos formulários usando os processadores form_processors. Os dados extraídos dos formulários estão no formato JSON.
  3. O serviço ingestion_service grava as informações extraídas com pontuações de confiança no nível do campo na coleção do banco de dados do Firestore, chamada pa_form_collection.
  4. O aplicativo hitl_app busca as informações (JSON) com pontuações de confiança do banco de dados pa_form_collection. O aplicativo calcula a pontuação de confiança no nível do documento com base nas pontuações de confiança no nível do campo disponibilizadas na saída pelos modelos de machine learning (ML) form_processors.
  5. O aplicativo hitl_app mostra as informações extraídas com os níveis de confiança do campo e do documento para os gerentes de caso de PA, que podem analisar e corrigir as informações se os valores extraídos estiverem incorretos. Os gerentes de casos de PA podem atualizar os valores incorretos e salvar o documento no banco de dados pa_form_collection.

Fluxo de dados do serviço de UR

O diagrama a seguir mostra o fluxo de dados do serviço de UR.

Fluxo de dados do especialista em UR.

Como mostrado no diagrama anterior, os especialistas em UR interagem com os componentes do sistema para realizar uma análise clínica das solicitações de PA. Os especialistas em UR normalmente são enfermeiros ou médicos com experiência em uma área clínica específica que são empregados por seguradoras de saúde. O fluxo de trabalho de roteamento e gerenciamento de casos para solicitações de PA está fora do escopo do fluxo de trabalho descrito nesta seção.

O fluxo de eventos é o seguinte:

  1. O aplicativo ur_app mostra uma lista de solicitações de PA e o status de revisão para os especialistas em UR. O status aparece como in_queue, in_progress ou completed.
  2. A lista é criada buscando os dados pa_form information do banco de dados pa_form_collection. O especialista em UR abre uma solicitação clicando em um item da lista exibida no aplicativo ur_app.
  3. O aplicativo ur_app envia os dados pa_form information para o modelo prompt_model. Ele usa a API Gemini da Vertex AI para gerar um comando semelhante ao seguinte:

    Review a PA request for {medication|device|medical service} for our member, {Patient Name}, who is {age} old, {gender} with {medical condition}. The patient is on {current medication|treatment list}, has {symptoms}, and has been diagnosed with {diagnosis}.
    

  4. O aplicativo ur_app mostra a solicitação gerada aos especialistas de UR para revisão e feedback. Os especialistas em UR podem atualizar a solicitação na UI e enviar para o aplicativo.

  5. O aplicativo ur_app envia o comando para o modelo ur_model com uma solicitação para gerar uma recomendação. O modelo gera uma resposta e retorna ao aplicativo. O aplicativo mostra o resultado recomendado para os especialistas em UR.

  6. Os especialistas em UR podem usar o aplicativo ur_search_app para pesquisar clinical documents, care guidelines e plan policy documents. Os clinical documents, care guidelines e plan policy documents são pré-indexados e acessíveis ao aplicativo ur_search_app.

Componentes

A arquitetura contém os seguintes componentes:

  • Buckets do Cloud Storage. Os serviços de aplicativos UM exigem os seguintes buckets do Cloud Storage no projeto do Google Cloud :

    • pa_forms_bkt: um bucket para transferir os formulários de PA que precisam de aprovação.
    • training_forms: um bucket para armazenar formulários históricos de PA para treinar os processadores de formulários da DocAI.
    • eval_forms: um bucket para armazenar formulários de PA para avaliar a precisão dos processadores de formulários da DocAI.
    • tuning_dataset: um bucket para armazenar os dados necessários para ajustar o modelo de linguagem grande (LLM).
    • eval_dataset: um bucket para armazenar os dados necessários para a avaliação do LLM.
    • clinical_docs: um bucket para armazenar os documentos clínicos que os provedores enviam como anexos aos formulários de PA ou depois para apoiar o caso de PA. Esses documentos são indexados pelo aplicativo de pesquisa no serviço do Vertex AI Agent Builder.
    • um_policies: um bucket para armazenar diretrizes de necessidade médica e cuidados, documentos de política do plano de saúde e diretrizes de cobertura. Esses documentos são indexados pelo aplicativo de pesquisa no serviço Vertex AI Agent Builder.
  • form_processors: esses processadores são treinados para extrair informações dos formulários pa_forms.

  • pa_form_collection: um repositório do Firestore para armazenar as informações extraídas como documentos JSON na coleção de banco de dados NoSQL.

  • ingestion_service: um microsserviço que lê os documentos do bucket, os transmite aos endpoints da Document AI para análise e armazena os dados extraídos na coleção de banco de dados do Firestore.

  • hitl_app: um microsserviço (aplicativo da Web) que busca e exibe valores de dados extraídos do pa_forms. Ele também renderiza a pontuação de confiança informada pelos processadores de formulários (modelos de ML) para o gerenciador de casos de PA, que pode revisar, corrigir e salvar as informações no repositório de dados.

  • ur_app: um microsserviço (aplicativo da Web) que os especialistas em UR podem usar para analisar as solicitações de PA usando a IA generativa. Ele usa o modelo chamado prompt_model para gerar uma instrução. O microsserviço transmite os dados extraídos dos formulários pa_forms para o modelo prompt_model para gerar uma solicitação. Em seguida, ele transmite a solicitação gerada para o modelo ur_model para receber a recomendação de um caso.

  • LLMs ajustados medicamente da Vertex AI: a Vertex AI tem vários modelos de base de IA generativa que podem ser ajustados para reduzir custos e latência. Os modelos usados nesta arquitetura são os seguintes:

    • prompt_model: um adaptador no LLM ajustado para gerar comandos com base nos dados extraídos do pa_forms.
    • ur_model: um adaptador no LLM ajustado para gerar uma recomendação de rascunho com base no comando de entrada.
  • ur_search_app: um aplicativo de pesquisa criado com o Vertex AI Agent Builder para encontrar informações personalizadas e relevantes para especialistas em UR em documentos clínicos, políticas de UM e diretrizes de cobertura.

Produtos usados

Esta arquitetura de referência usa os seguintes produtos do Google Cloud :

  • Vertex AI: uma plataforma de ML que permite treinar e implantar modelos de ML e aplicativos de IA, além de personalizar LLMs para uso em aplicativos com tecnologia de IA.
  • Vertex AI Agent Builder: uma plataforma que permite aos desenvolvedores criar e implantar agentes e aplicativos com tecnologia de IA de nível empresarial.
  • Document AI: uma plataforma de processamento de documentos que transforma dados não estruturados de documentos em dados estruturados.
  • Firestore: um banco de dados de documentos NoSQL criado para oferecer escalonamento automático, alto desempenho e facilidade no desenvolvimento de aplicativos.
  • Cloud Run: uma plataforma de computação sem servidor que permite executar contêineres diretamente na infraestrutura escalonável do Google.
  • Cloud Storage: um armazenamento de objetos de baixo custo e sem limite para diversos tipos de dados. Os dados podem ser acessados de dentro e fora do Google Cloude são replicados entre locais para redundância.
  • Cloud Logging: um sistema de gerenciamento de registros em tempo real com armazenamento, pesquisa, análise e alertas.
  • Cloud Monitoring: um serviço que fornece visibilidade do desempenho, da disponibilidade e da integridade dos aplicativos e da infraestrutura.

Caso de uso

A UM é um processo usado por seguradoras de saúde principalmente nos Estados Unidos, mas processos semelhantes (com algumas modificações) são usados globalmente no mercado de seguros de saúde. O objetivo da UM é ajudar a garantir que os pacientes recebam o cuidado adequado no ambiente correto, no momento ideal e pelo menor custo possível. A UM também ajuda a garantir que o atendimento médico seja eficaz, eficiente e em conformidade com os padrões de atendimento baseados em evidências. A PA é uma ferramenta de UM que exige a aprovação da seguradora antes que um paciente receba cuidados médicos.

O processo de UM que muitas empresas usam é uma barreira para fornecer e receber cuidados oportunos. É caro, demorado e muito administrativo. Ela também é complexa, manual e lenta. Esse processo afeta significativamente a capacidade do plano de saúde de gerenciar de maneira eficaz a qualidade do atendimento e melhorar a experiência do provedor e do membro. No entanto, se essas empresas modificassem o processo de UM, elas poderiam ajudar a garantir que os pacientes recebessem um tratamento de alta qualidade e com bom custo-benefício. Ao otimizar o processo de UR, os planos de saúde podem reduzir custos e recusas com o processamento rápido de solicitações de PA, o que, por sua vez, pode melhorar a experiência do paciente e do provedor. Essa abordagem ajuda a reduzir a carga administrativa dos profissionais de saúde.

Quando os planos de saúde recebem solicitações de PA, os gerentes de caso de PA criam casos no sistema de gerenciamento de casos para rastrear, gerenciar e processar as solicitações. Uma quantidade significativa dessas solicitações é recebida por fax e correio, com documentos clínicos anexados. No entanto, as informações nesses formulários e documentos não são facilmente acessíveis para empresas de seguro de saúde para análise de dados e inteligência de negócios. O processo atual de entrada manual de informações desses documentos nos sistemas de gerenciamento de casos é ineficiente e demorado e pode levar a erros.

Ao automatizar o processo de ingestão de dados, os planos de saúde podem reduzir custos, erros de entrada de dados e a carga administrativa da equipe. Extrair informações valiosas dos formulários e documentos clínicos permite que as empresas de seguro de saúde acelerem o processo de revisão.

Considerações sobre o design

Esta seção fornece orientações para ajudar você a usar essa arquitetura de referência para desenvolver uma ou mais arquiteturas que atendam aos seus requisitos específicos de segurança, confiabilidade, eficiência operacional, custo e desempenho.

segurança, privacidade e conformidade

Esta seção descreve os fatores que você precisa considerar ao usar essa arquitetura de referência para projetar e criar uma arquitetura no Google Cloud que atenda aos seus requisitos de segurança, privacidade e conformidade.

Nos Estados Unidos, a Lei de Portabilidade e Responsabilidade de Seguros de Saúde (conhecida como HIPAA, na sigla em inglês) exige conformidade com a Regra de segurança, a Regra de privacidade e a Regra de notificação de violação da HIPAA. O Google Cloud são compatíveis com a HIPAA, mas você é responsável por avaliar sua própria conformidade com a HIPAA. A conformidade com a HIPAA é uma responsabilidade compartilhada entre você e o Google. Se a sua organização estiver sujeita à HIPAA e você quiser usar qualquer produto do Google Cloud em conexão com informações protegidas de saúde (PHI), você precisa revisar e aceitar o Contrato de associação comercial (BAA) do Google. Os produtos do Google cobertos pelo BAA atendem aos requisitos da HIPAA e estão alinhados às nossas certificações ISO/IEC 27001, 27017 e 27018 e ao relatório SOC 2.

Nem todos os LLMs hospedados no Model Garden da Vertex AI são compatíveis com a HIPAA. Avalie e use os LLMs que oferecem suporte à HIPAA.

Para avaliar como os produtos do Google podem atender às suas necessidades de conformidade com a HIPAA, consulte os relatórios de auditoria de terceiros na Central de recursos de compliance.

Recomendamos que os clientes considerem o seguinte ao selecionar casos de uso de IA e projetar com essas considerações em mente:

Os produtos do Google seguem os princípios da IA responsável.

Para princípios e recomendações de segurança específicos para cargas de trabalho de IA e ML, consulte Perspectiva de IA e ML: segurança no Framework de arquitetura.

Confiabilidade

Esta seção descreve os fatores de design que você precisa considerar para criar e operar uma infraestrutura confiável e automatizar o processamento de solicitações de PA.

A Document AI form_processors é um serviço regional. Os dados são armazenados de forma síncrona em várias zonas dentro de uma região. O tráfego é balanceado automaticamente entre as zonas. Se ocorrer uma interrupção do serviço na zona, os dados não serão perdidos1. Se ocorrer uma interrupção do serviço na região, o serviço ficará indisponível até que o Google resolva essa interrupção.

É possível criar buckets do Cloud Storage em um destes três locais: regional, birregional ou multirregional, usando buckets pa_forms_bkt, training_forms, eval_forms, tuning_dataset, eval_dataset, clinical_docs ou um_policies. Os dados armazenados em buckets regionais são replicados de forma síncrona em várias zonas dentro de uma região. Para maior disponibilidade, use buckets birregionais ou multirregionais, em que os dados são replicados de forma assíncrona entre regiões.

No Firestore, as informações extraídas do banco de dados pa_form_collection podem ficar em vários data centers para ajudar a garantir a confiabilidade e a capacidade de escalonamento global.

Os serviços do Cloud Run, ingestion_service, hitl_app e ur_app, são serviços regionais. Os dados são armazenados de forma síncrona em várias zonas dentro de uma região. O tráfego tem a carga balanceada automaticamente entre as zonas. Se ocorrer uma interrupção do serviço na zona, os jobs do Cloud Run continuam em execução e os dados não são perdidos. Se ocorrer uma interrupção do serviço na região, os jobs do Cloud Run vão parar de ser executados até que o Google resolva essa interrupção. Jobs ou tarefas individuais do Cloud Run podem falhar. Para lidar com essas falhas, use novas tentativas de tarefa e checkpoints. Para mais informações, consulte Práticas recomendadas de novas tentativas de jobs e checkpoints. Dicas gerais de desenvolvimento do Cloud Run descreve algumas práticas recomendadas para usar o Cloud Run.

A Vertex AI é uma plataforma de machine learning abrangente e fácil de usar que oferece um ambiente unificado para o ciclo de vida do machine learning, desde a preparação de dados até a implantação e o monitoramento do modelo.

Para princípios e recomendações de confiabilidade específicos para cargas de trabalho de IA e ML, consulte Perspectiva de IA e ML: confiabilidade no Framework de arquitetura.

Otimização de custos

Esta seção fornece orientações para otimizar o custo de criação e execução de uma arquitetura para automatizar o processamento de solicitações de PA e melhorar os processos de UR. Gerenciar com cuidado o uso de recursos e selecionar os níveis de serviço adequados pode afetar significativamente o custo geral.

Classes de armazenamento do Cloud Storage: use as diferentes classes de armazenamento (padrão, Nearline, Coldline ou Archive) com base na frequência de acesso aos dados. Nearline, Coldline e Archive são mais econômicos para dados acessados com menos frequência.

Políticas de ciclo de vida do Cloud Storage: implemente políticas de ciclo de vida para fazer a transição automática de objetos para classes de armazenamento de custo mais baixo ou excluí-los com base na idade e nos padrões de acesso.

O preço da Document AI é baseado no número de processadores implantados e no número de páginas processadas pelos processadores da Document AI. Considere o seguinte:

  • Otimização do processador: analise os padrões de carga de trabalho para determinar o número ideal de processadores da Document AI a serem implantados. Evite sobrecarregar recursos.
  • Gerenciamento de volume de páginas: pré-processa documentos para remover páginas desnecessárias ou otimizar a resolução, o que pode ajudar a reduzir os custos de processamento.

O Firestore é cobrado com base na atividade relacionada a documentos, entradas de índice, armazenamento usado pelo banco de dados e na quantidade de largura de banda de rede. Considere o seguinte:

  • Modelagem de dados: projete seu modelo de dados para minimizar o número de entradas de índice e otimizar os padrões de consulta para eficiência.
  • Largura de banda da rede: monitore e otimize o uso da rede para evitar cobranças em excesso. Considere armazenar em cache os dados acessados com frequência.

As cobranças do Cloud Run são calculadas com base no uso da CPU sob demanda, na memória e no número de solicitações. Pense cuidadosamente na alocação de recursos. Aloque recursos de CPU e memória com base nas características da carga de trabalho. Use o escalonamento automático para ajustar os recursos de forma dinâmica com base na demanda.

Vertex AI Os LLMs geralmente são cobrados com base na entrada e na saída do texto ou da mídia. As contagens de tokens de entrada e saída afetam diretamente os custos do LLM. Otimize a geração de comandos e respostas para aumentar a eficiência.

As cobranças do mecanismo de pesquisa do Vertex AI Agent Builder dependem dos recursos que você usa. Para ajudar a gerenciar seus custos, escolha uma destas três opções:

  • Edição padrão da Pesquisa, que oferece recursos de pesquisa não estruturada.
  • Edição Enterprise do Search, que oferece recursos de pesquisa não estruturada e de pesquisa em sites.
  • Complemento de LLM de pesquisa, que oferece recursos de resumo e pesquisa com várias interações.

Você também pode considerar as seguintes considerações para ajudar a otimizar os custos:

  • Monitoramento e alertas: configure alertas de faturamento e do Cloud Monitoring para acompanhar os custos e receber notificações quando o uso exceder os limites.
  • Relatórios de custo: analise regularmente os relatórios de custo no console doGoogle Cloud para identificar tendências e otimizar o uso de recursos.
  • Considere descontos por uso contínuo: se você tiver cargas de trabalho previsíveis, comprometa-se a usar esses recursos por um período especificado para receber preços com desconto.

Considerar esses fatores com cuidado e implementar as estratégias recomendadas pode ajudar você a gerenciar e otimizar de forma eficaz o custo de execução da arquitetura de automação de PA e UR no Google Cloud.

Para princípios e recomendações de otimização de custos específicos para cargas de trabalho de IA e ML, consulte Perspectiva de IA e ML: otimização de custos no Framework de arquitetura.

Implantação

O código de implementação de referência para essa arquitetura está disponível sob licença de código aberto. A arquitetura implementada por esse código é um protótipo e pode não incluir todos os recursos e proteções necessários para uma implantação de produção. Para implementar e expandir essa arquitetura de referência e atender melhor aos seus requisitos, recomendamos que você entre em contato com a Google Cloud Consulting.

O código inicial dessa arquitetura de referência está disponível nos seguintes repositórios do Git:

Você pode escolher uma das duas opções a seguir para implementar suporte e serviços para esta arquitetura de referência:

A seguir

Colaboradores

Autor: Dharmesh Patel | Arquiteto de soluções do setor de saúde

Outros colaboradores:


  1. Para mais informações sobre considerações específicas de cada região, consulte Geografia e regiões.