Esta página se ha traducido con Cloud Translation API.

Usar la IA generativa para gestionar la utilización

Last reviewed 2024-08-19 UTC

En este documento se describe una arquitectura de referencia para las aseguradoras médicas que quieran automatizar el procesamiento de solicitudes de autorización previa y mejorar sus procesos de revisión de la utilización mediante Google Cloud. Está dirigido a desarrolladores de software y administradores de programas de estas organizaciones. Esta arquitectura ayuda a los proveedores de planes sanitarios a reducir los gastos administrativos, aumentar la eficiencia y mejorar la toma de decisiones automatizando la ingesta de datos y la extracción de información valiosa de los formularios clínicos. También les permite usar modelos de IA para generar peticiones y recomendaciones.

Arquitectura

En el siguiente diagrama se describe una arquitectura y un enfoque para automatizar el flujo de trabajo de ingestión de datos y optimizar el proceso de revisión de la gestión de la utilización (UM). Este enfoque usa datos y servicios de IA en Google Cloud.

Descripción general del proceso de ingestión de datos y revisión de la gestión de usuarios.

La arquitectura anterior contiene dos flujos de datos, que son compatibles con los siguientes subsistemas:

Activador de datos de reclamaciones (CDA): extrae datos de fuentes no estructuradas, como formularios y documentos, y los ingiere en una base de datos en un formato estructurado legible por máquina. CDA implementa el flujo de datos para ingerir formularios de solicitud de PA.
Servicio de revisión de la utilización (servicio de RU): integra datos de solicitudes de autorización previa, documentos de políticas y otras directrices de atención para generar recomendaciones. El servicio de UR implementa el flujo de datos para revisar las solicitudes de PA mediante la IA generativa.

En las siguientes secciones se describen estos flujos de datos.

Flujo de datos de CDA

En el siguiente diagrama se muestra el flujo de datos para usar CDA con el fin de ingerir formularios de solicitud de acceso a datos personales.

Flujo de datos de los gestores de casos de PA.

Como se muestra en el diagrama anterior, el gestor de casos de PA interactúa con los componentes del sistema para ingerir, validar y procesar las solicitudes de PA. Los gestores de casos de Asistencia de Proveedores son los miembros del equipo de operaciones empresariales responsables de recibir las solicitudes de Asistencia de Proveedores. El flujo de eventos es el siguiente:

Los gestores de casos de AP reciben los formularios de solicitud de AP (pa_forms) del proveedor de asistencia sanitaria y los suben al segmento de pa_forms_bktCloud Storage.
El servicio ingestion_service monitoriza el bucket pa_forms_bkt para detectar cambios. El servicio ingestion_service recoge pa_formsformularios del segmento pa_forms_bkt. El servicio identifica los procesadores de Document AI preconfigurados, que se denominan form_processors. Estos procesadores se definen para procesar los formularios pa_forms. El ingestion_service servicio extrae información de los formularios mediante los form_processors procesadores. Los datos extraídos de los formularios están en formato JSON.
El servicio ingestion_service escribe la información extraída con puntuaciones de confianza a nivel de campo en la colección de la base de datos de Firestore, llamada pa_form_collection.
La aplicación hitl_app obtiene la información (JSON) con puntuaciones de confianza de la base de datos pa_form_collection. La aplicación calcula la puntuación de confianza a nivel de documento a partir de las puntuaciones de confianza a nivel de campo que los modelos de form_processorsaprendizaje automático (ML) proporcionan en el resultado.
La aplicación hitl_app muestra la información extraída con las puntuaciones de confianza a nivel de campo y de documento a los gestores de casos de PA para que puedan revisar y corregir la información si los valores extraídos son inexactos. Los gestores de casos de asistencia pública pueden actualizar los valores incorrectos y guardar el documento en la base de datos pa_form_collection.

Flujo de datos del servicio de UR

En el siguiente diagrama se muestra el flujo de datos del servicio de UR.

Flujo de datos de especialista en UR.

Como se muestra en el diagrama anterior, los especialistas en UR interactúan con los componentes del sistema para llevar a cabo una revisión clínica de las solicitudes de autorización previa. Los especialistas en UR suelen ser enfermeros o médicos con experiencia en un área clínica específica que trabajan para compañías de seguros médicos. La gestión de casos y el flujo de trabajo de enrutamiento de las solicitudes de asistencia no se incluyen en el flujo de trabajo que se describe en esta sección.

El flujo de eventos es el siguiente:

La aplicación ur_app muestra una lista de solicitudes de PA y su estado de revisión a los especialistas de UR. El estado se muestra como in_queue, in_progress o completed.
La lista se crea obteniendo los datos de pa_form information de la base de datos pa_form_collection. El especialista en UR abre una solicitud haciendo clic en un elemento de la lista que se muestra en la aplicación ur_app.

La aplicación ur_app envía los datos pa_form information al modelo prompt_model. Usa la API de Gemini de Vertex AI para generar una petición similar a la siguiente:

Review a PA request for {medication|device|medical service} for our member, {Patient Name}, who is {age} old, {gender} with {medical condition}. The patient is on {current medication|treatment list}, has {symptoms}, and has been diagnosed with {diagnosis}.

La aplicación ur_app muestra la petición generada a los especialistas de UR para que la revisen y envíen sus comentarios. Los especialistas en respuestas predefinidas pueden actualizar la petición en la interfaz de usuario y enviarla a la aplicación.
La aplicación ur_app envía la petición al modelo ur_model con una solicitud para generar una recomendación. El modelo genera una respuesta y vuelve a la aplicación. La aplicación muestra el resultado recomendado a los especialistas de UR.
Los especialistas de UR pueden usar la aplicación ur_search_app para buscar clinical documents, care guidelines y plan policy documents. clinical documents, care guidelines y plan policy documents están preindexados y la aplicación ur_search_app puede acceder a ellos.

Componentes

La arquitectura contiene los siguientes componentes:

Segmentos de Cloud Storage. Los servicios de aplicaciones de UM requieren los siguientes segmentos de Cloud Storage en tu proyecto Google Cloud :
- pa_forms_bkt: un contenedor para ingerir los formularios de PA que necesitan aprobación.
- training_forms: un segmento para almacenar los formularios de PA históricos para entrenar los procesadores de formularios de DocAI.
- eval_forms: un contenedor para almacenar formularios de PA y evaluar la precisión de los procesadores de formularios de Documentos.
- tuning_dataset: un contenedor para almacenar los datos necesarios para ajustar el modelo de lenguaje extenso (LLM).
- eval_dataset: un segmento para almacenar los datos necesarios para evaluar el LLM.
- clinical_docs: Un contenedor para almacenar los documentos clínicos que los proveedores envían como archivos adjuntos a los formularios de autorización previa o posteriormente para respaldar el caso de autorización previa. La aplicación de búsqueda del servicio Vertex AI Search indexa estos documentos.
- um_policies: un segmento para almacenar directrices sobre necesidad médica y atención, documentos de políticas de planes de salud y directrices de cobertura. La aplicación de búsqueda indexa estos documentos en el servicio Vertex AI Search.
form_processors: estos procesadores se entrenan para extraer información de los formularios pa_forms.
pa_form_collection: un almacén de datos de Firestore para almacenar la información extraída como documentos JSON en la colección de la base de datos NoSQL.
ingestion_service: Un microservicio que lee los documentos del contenedor, los envía a los endpoints de DocAI para analizarlos y almacena los datos extraídos en una colección de la base de datos de Firestore.
hitl_app: un microservicio (aplicación web) que obtiene y muestra valores de datos extraídos del pa_forms. También muestra la puntuación de confianza que indican los procesadores de formularios (modelos de aprendizaje automático) al gestor de casos de Asistencia de Google para que pueda revisar, corregir y guardar la información en el almacén de datos.
ur_app: un microservicio (aplicación web) que los especialistas de UR pueden usar para revisar las solicitudes de PA mediante la IA generativa. Usa el modelo llamado prompt_model para generar una petición. El microservicio transfiere los datos extraídos de los formularios pa_forms al modelo prompt_model para generar una petición. A continuación, pasa la petición generada al modelo ur_model para obtener la recomendación de un caso.
Modelos LLMs ajustados para medicina de Vertex AI: Vertex AI tiene una variedad de modelos básicos de IA generativa que se pueden ajustar para reducir los costes y la latencia. Los modelos que se usan en esta arquitectura son los siguientes:
- prompt_model: un adaptador del LLM ajustado para generar peticiones basadas en los datos extraídos de pa_forms.
- ur_model: un adaptador del LLM ajustado para generar un borrador de recomendación basado en la petición de entrada.
ur_search_app: una aplicación de búsqueda creada con Vertex AI Search para encontrar información personalizada y relevante para los especialistas en UR a partir de documentos clínicos, políticas de gestión de la utilización y directrices de cobertura.

Productos usados

Esta arquitectura de referencia usa los siguientes Google Cloud productos:

Vertex AI: una plataforma de aprendizaje automático que te permite entrenar y desplegar modelos de aprendizaje automático y aplicaciones de IA, así como personalizar LLMs para usarlos con aplicaciones basadas en IA.
Vertex AI Search: una plataforma que permite a los desarrolladores crear y desplegar agentes y aplicaciones basados en IA de nivel empresarial.
Document AI: una plataforma de procesamiento de documentos que toma datos no estructurados de documentos y los transforma en datos estructurados.
Firestore: una base de datos de documentos NoSQL creada para el escalado automático, el alto rendimiento y la facilidad de desarrollo de aplicaciones.
Cloud Run: una plataforma de computación sin servidor que te permite ejecutar contenedores directamente en la infraestructura escalable de Google.
Cloud Storage: un almacén de objetos ilimitado y a un coste bajo para diversos tipos de datos. Se puede acceder a los datos desde dentro y fuera de Google Cloud, y se replican en varias ubicaciones para ofrecer redundancia.
Cloud Logging: un sistema de gestión de registros en tiempo real con funciones de almacenamiento, búsqueda, análisis y alertas.
Cloud Monitoring: un servicio que ofrece visibilidad sobre el rendimiento, la disponibilidad y el estado de tus aplicaciones e infraestructura.

Caso práctico

La gestión de la utilización es un proceso que utilizan las compañías de seguros médicos principalmente en Estados Unidos, pero se emplean procesos similares (con algunas modificaciones) en todo el mundo en el mercado de seguros médicos. El objetivo de la gestión de la utilización es ayudar a asegurar que los pacientes reciban la atención adecuada en el entorno correcto, en el momento óptimo y al menor coste posible. La gestión de la utilización también ayuda a garantizar que la atención médica sea eficaz, eficiente y esté en consonancia con los estándares de atención basados en pruebas. La autorización previa es una herramienta de gestión de la utilización que requiere la aprobación de la compañía de seguros antes de que un paciente reciba atención médica.

El proceso de gestión de reclamaciones que utilizan muchas empresas dificulta la prestación y la recepción de atención oportuna. Es costoso, requiere mucho tiempo y es demasiado administrativo. Además, es complejo, manual y lento. Este proceso influye significativamente en la capacidad de la cobertura médica para gestionar de forma eficaz la calidad de la atención y mejorar la experiencia de los proveedores y los miembros. Sin embargo, si estas empresas modificaran su proceso de gestión de la utilización, podrían ayudar a garantizar que los pacientes reciban un tratamiento de alta calidad y rentable. Al optimizar su proceso de UR, los planes sanitarios pueden reducir los costes y las denegaciones mediante el procesamiento acelerado de las solicitudes de autorización previa, lo que a su vez puede mejorar la experiencia de los pacientes y los proveedores. Este enfoque ayuda a reducir la carga administrativa de los proveedores de atención sanitaria.

Cuando las aseguradoras reciben solicitudes de autorización previa, los gestores de casos de autorización previa crean casos en el sistema de gestión de casos para hacer un seguimiento, gestionar y procesar las solicitudes. Una cantidad significativa de estas solicitudes se reciben por fax y correo postal, con documentos clínicos adjuntos. Sin embargo, las aseguradoras no pueden acceder fácilmente a la información de estos formularios y documentos para realizar análisis de datos y obtener información empresarial. El proceso actual de introducir manualmente la información de estos documentos en los sistemas de gestión de casos es ineficiente y requiere mucho tiempo, además de que puede provocar errores.

Al automatizar el proceso de ingestión de datos, los planes sanitarios pueden reducir los costes, los errores de introducción de datos y la carga administrativa del personal. Extraer información valiosa de los formularios y documentos clínicos permite a las compañías de seguros médicos agilizar el proceso de UR.

Factores del diseño

En esta sección se ofrecen directrices para ayudarte a usar esta arquitectura de referencia y desarrollar una o varias arquitecturas que te permitan cumplir tus requisitos específicos de seguridad, fiabilidad, eficiencia operativa, coste y rendimiento.

Seguridad, privacidad y cumplimiento

En esta sección se describen los factores que debes tener en cuenta al usar esta arquitectura de referencia para diseñar y crear una arquitectura que te ayude a cumplir tus requisitos de seguridad, privacidad y cumplimiento.Google Cloud

En Estados Unidos, la ley de transferencia y responsabilidad de los seguros médicos (Health Insurance Portability and Accountability Act, HIPAA), incluidas las adendas pertinentes, como las de la ley de tecnología de información médica para la salud clínica y económica (Health Information Technology for Economic and Clinical Health, HITECH), exige el cumplimiento de las normas de seguridad, privacidad y aviso de quiebras de seguridad de la HIPAA. Google Cloud facilita el cumplimiento de la HIPAA, pero, en última instancia, eres responsable de evaluar tu propio cumplimiento de la HIPAA. El cumplimiento de la HIPAA es una responsabilidad compartida entre usted y Google. Si tu organización está sujeta a la HIPAA y quieres usar algún producto de Google Clouden relación con información médica protegida, debes revisar y aceptar el contrato de colaboración empresarial de Google. Los productos de Google incluidos en el contrato de colaboración empresarial cumplen los requisitos que establece la HIPAA y se atienen a lo dispuesto en las certificaciones ISO/IEC 27001, 27017 y 27018, así como a lo que estipula el informe SOC 2.

No todos los LLMs alojados en Vertex AI Model Garden cumplen la HIPAA. Evalúa y usa los LLMs que admiten la HIPAA.

Para evaluar cómo pueden satisfacer los productos de Google sus necesidades en cuanto al cumplimiento de la HIPAA, puede consultar los informes de auditorías de terceros en el Centro de recursos para el cumplimiento.

Recomendamos a los clientes que tengan en cuenta lo siguiente al seleccionar casos prácticos de IA y que diseñen sus productos teniendo en cuenta estos aspectos:

Privacidad de los datos: la plataforma Vertex AI y Document AI no utilizan los datos de los clientes, el uso de los datos, el contenido ni los documentos para mejorar o entrenar los modelos fundacionales. Google Cloud Puedes ajustar los modelos fundacionales con tus datos y documentos en tu tenant seguro en Google Cloud.
Las bibliotecas de cliente de servidor de Firestore usan Gestión de Identidades y Accesos (IAM) para gestionar el acceso a tu base de datos. Para obtener información sobre la seguridad y la privacidad de Firebase, consulta Privacidad y seguridad en Firebase.
Para ayudarte a almacenar datos sensibles,ingestion_service, hitl_app y ur_app las imágenes de servicio se pueden encriptar con claves de encriptado gestionadas por el cliente (CMEKs) o integrar con Secret Manager.
Vertex AI implementa Google Cloud controles de seguridad Google Cloud para proteger tus modelos y datos de entrenamiento. Algunos controles de seguridad no son compatibles con las funciones de IA generativa de Vertex AI. Para obtener más información, consulta Controles de seguridad de Vertex AI y Controles de seguridad de la IA generativa.
Te recomendamos que uses IAM para implementar los principios de mínimo acceso y separación de funciones con los recursos en la nube. Este control puede limitar el acceso a nivel de proyecto, carpeta o conjunto de datos.
Cloud Storage almacena automáticamente los datos en un estado cifrado. Para obtener más información sobre otros métodos para cifrar datos, consulta Opciones de cifrado de datos.

Los productos de Google siguen los principios de IA responsable.

Para consultar principios y recomendaciones de seguridad específicos de las cargas de trabajo de IA y aprendizaje automático, consulta la sección Perspectiva de IA y aprendizaje automático: seguridad del framework Well-Architected.

Fiabilidad

En esta sección se describen los factores de diseño que debes tener en cuenta para crear y operar una infraestructura fiable que automatice el procesamiento de solicitudes de acceso privado.

Document AI form_processors es un servicio regional. Los datos se almacenan de forma síncrona en varias zonas de una región. El tráfico se balancea de carga automáticamente entre las zonas. Si se produce una interrupción del servicio en una zona, los datos no se pierden¹. Si se produce una interrupción en una región, el servicio no estará disponible hasta que Google resuelva el problema.

Puede crear segmentos de Cloud Storage en una de las tres ubicaciones: regional, birregional o multirregional. Para ello, puede usar los segmentos pa_forms_bkt, training_forms, eval_forms, tuning_dataset, eval_dataset, clinical_docs o um_policies. Los datos almacenados en segmentos regionales se replican de forma síncrona en varias zonas de una región. Para disfrutar de una mayor disponibilidad, puedes usar segmentos birregionales o multirregionales, en los que los datos se replican de forma asíncrona en varias regiones.

En Firestore, la información extraída de la base de datos pa_form_collection puede estar en varios centros de datos para garantizar la escalabilidad y la fiabilidad a nivel mundial.

Los servicios de Cloud Run ingestion_service,hitl_app y ur_app son servicios regionales. Los datos se almacenan de forma síncrona en varias zonas de una región. El tráfico se balancea de carga automáticamente entre las zonas. Si se produce una interrupción en una zona, los trabajos de Cloud Run seguirán ejecutándose y no se perderán datos. Si se produce una interrupción en una región, los trabajos de Cloud Run dejan de ejecutarse hasta que Google resuelva la interrupción. Es posible que fallen tareas o trabajos de Cloud Run concretos. Para gestionar estos errores, puedes usar reintentos de tareas y puntos de control. Para obtener más información, consulta las prácticas recomendadas para los reintentos y los puntos de control de los trabajos. En Consejos generales de desarrollo de Cloud Run se describen algunas prácticas recomendadas para usar Cloud Run.

Vertex AI es una plataforma de aprendizaje automático completa y fácil de usar que proporciona un entorno unificado para el ciclo de vida del aprendizaje automático, desde la preparación de los datos hasta el despliegue y la monitorización de los modelos.

Para consultar los principios y las recomendaciones de fiabilidad específicos de las cargas de trabajo de IA y aprendizaje automático, consulta el artículo Perspectiva de la fiabilidad de la IA y el aprendizaje automático del framework Well-Architected.

Optimización de costes

En esta sección se ofrecen directrices para optimizar el coste de crear y ejecutar una arquitectura que automatice el procesamiento de solicitudes de PA y mejore los procesos de UR. Gestionar cuidadosamente el uso de los recursos y seleccionar los niveles de servicio adecuados puede influir significativamente en el coste total.

Clases de almacenamiento de Cloud Storage: utiliza las diferentes clases de almacenamiento (Standard, Nearline, Coldline o Archive) en función de la frecuencia de acceso a los datos. Nearline, Coldline y Archive son más rentables para los datos a los que se accede con menos frecuencia.

Políticas de ciclo de vida de Cloud Storage: implementa políticas de ciclo de vida para cambiar automáticamente los objetos a clases de almacenamiento de menor coste o eliminarlos en función de la antigüedad y los patrones de acceso.

El precio de Document AI se basa en el número de procesadores implementados y en el número de páginas procesadas por los procesadores de Document AI. Ten en cuenta lo siguiente:

Optimización del procesador: analiza los patrones de carga de trabajo para determinar el número óptimo de procesadores de Document AI que se deben implementar. Evita aprovisionar recursos en exceso.
Gestión del volumen de páginas: preprocesar los documentos para eliminar páginas innecesarias u optimizar la resolución puede ayudar a reducir los costes de procesamiento.

Los precios de Firestore se basan en la actividad relacionada con los documentos, las entradas de índice, el almacenamiento que usa la base de datos y la cantidad de ancho de banda de la red. Ten en cuenta lo siguiente:

Modelado de datos: diseña tu modelo de datos para minimizar el número de entradas de índice y optimizar los patrones de consulta para mejorar la eficiencia.
Ancho de banda de la red: monitoriza y optimiza el uso de la red para evitar cargos excesivos. Considera la posibilidad de almacenar en caché los datos a los que se accede con frecuencia.

Los cargos de Cloud Run se calculan en función del uso de CPU bajo demanda, la memoria y el número de solicitudes. Piensa detenidamente en la asignación de recursos. Asigna recursos de CPU y memoria en función de las características de la carga de trabajo. Usa el autoescalado para ajustar los recursos de forma dinámica según la demanda.

Vertex AI Los LLMs suelen cobrarse en función de la entrada y la salida del texto o del contenido multimedia. El número de tokens de entrada y salida afecta directamente a los costes de los LLMs. Optimiza las peticiones y la generación de respuestas para aumentar la eficiencia.

Los cargos del motor de búsqueda Vertex AI Search dependen de las funciones que utilices. Para ayudarte a gestionar los costes, puedes elegir entre las tres opciones siguientes:

Search Standard Edition, que ofrece funciones de búsqueda no estructurada.
Search Enterprise Edition, que ofrece funciones de búsqueda no estructurada y de búsqueda en sitios web.
Complemento de LLM de búsqueda, que ofrece funciones de resumen y de búsqueda en varias fases.

También puedes tener en cuenta los siguientes aspectos para optimizar los costes:

Monitorización y alertas: configura Cloud Monitoring y alertas de facturación para monitorizar los costes y recibir notificaciones cuando el uso supere los umbrales.
Informes de costes: revisa periódicamente los informes de costes en la consolaGoogle Cloud para identificar tendencias y optimizar el uso de los recursos.
Plantéate usar descuentos por compromiso de uso: si tienes cargas de trabajo predecibles, considera la posibilidad de comprometerte a usar esos recursos durante un periodo específico para obtener precios con descuento.

Si tienes en cuenta estos factores y aplicas las estrategias recomendadas, podrás gestionar y optimizar de forma eficaz el coste de ejecutar tu arquitectura de automatización de respuestas predefinidas y respuestas automáticas en Google Cloud.

Para consultar los principios y las recomendaciones de optimización de costes específicos de las cargas de trabajo de IA y aprendizaje automático, consulta el artículo Perspectiva de IA y aprendizaje automático: optimización de costes del framework Well-Architected.

Implementación

El código de implementación de referencia de esta arquitectura está disponible bajo una licencia de software libre. La arquitectura que implementa este código es un prototipo y puede que no incluya todas las funciones y la protección que necesitas para una implementación de producción. Para implementar y ampliar esta arquitectura de referencia de forma que se ajuste mejor a tus requisitos, te recomendamos que te pongas en contacto con Google Cloud Consulting.

El código de inicio de esta arquitectura de referencia está disponible en los siguientes repositorios de Git:

Repositorio de Git de CDA: este repositorio contiene secuencias de comandos de implementación de Terraform para el aprovisionamiento de infraestructura y la implementación de código de aplicación.
Repositorio de Git del servicio UR: este repositorio contiene ejemplos de código del servicio UR.

Puedes elegir una de las dos opciones siguientes para implementar la asistencia y los servicios de esta arquitectura de referencia:

Contacta con Google Cloud Consulting.
Colabora con un partner que haya creado una oferta empaquetada usando los productos y los componentes de la solución que se describen en esta arquitectura.

Siguientes pasos

Infraestructura de RAG para IA generativa con Vertex AI y Vector Search
Infraestructura de RAG para IA generativa con Vertex AI y AlloyDB para PostgreSQL
Infraestructura de RAG para IA generativa con GKE y Cloud SQL
Infraestructura de RAG para IA generativa con Google Agentspace y Vertex AI
Infraestructura de GraphRAG para IA generativa con Vertex AI y Spanner Graph
Google Cloud opciones para fundamentar las respuestas de la IA generativa
Optimizar aplicaciones de Python para Cloud Run
Para obtener una descripción general de los principios y las recomendaciones de arquitectura específicos de las cargas de trabajo de IA y aprendizaje automático en Google Cloud, consulta la sección Perspectiva de IA y aprendizaje automático del framework Well-Architected.
Para ver más arquitecturas de referencia, diagramas y prácticas recomendadas, consulta el centro de arquitectura de Cloud.

Colaboradores

Autor: Dharmesh Patel | Arquitecto de soluciones del sector sanitario

Otros colaboradores:

Ben Swenka | Arquitecto empresarial clave
Emily Qiao | Ingeniera de clientes de IA y aprendizaje automático
Luis Ureña | Ingeniero de Relaciones con Desarrolladores
Praney Mittal | Responsable de Producto de Grupo
Lakshmanan Sethu | Administrador técnico de cuentas

Para obtener más información sobre las consideraciones específicas de cada región, consulta el artículo sobre geografía y regiones. ↩