Usa la IA generativa para administrar el uso

Last reviewed 2024-08-19 UTC

En este documento, se describe una arquitectura de referencia para las empresas de seguros médicos que desean automatizar el procesamiento de solicitudes de autorización previa (PA) y mejorar sus procesos de revisión de utilización (UR) con Google Cloud. Está dirigido a desarrolladores de software y administradores de programas en estas organizaciones. Esta arquitectura ayuda a los proveedores de planes de salud a reducir la sobrecarga administrativa, aumentar la eficiencia y mejorar la toma de decisiones mediante la automatización de la transferencia de datos y la extracción de estadísticas de los formularios clínicos. También les permite usar modelos de IA para la generación de instrucciones y las recomendaciones.

Arquitectura

En el siguiente diagrama, se describe una arquitectura y un enfoque para automatizar el flujo de trabajo de transferencia de datos y optimizar el proceso de revisión de la administración de uso (UM). Este enfoque usa servicios de IA y datos en Google Cloud.

Descripción general de alto nivel del proceso de transferencia de datos y revisión de UM.

La arquitectura anterior contiene dos flujos de datos, que son compatibles con los siguientes subsistemas:

Activador de datos de reclamaciones (CDA), que extrae datos de fuentes no estructuradas, como formularios y documentos, y los transfiere a una base de datos en un procesable. La CDA implementa el flujo de datos para transferir los formularios de solicitud de PA.
Servicio de revisión de la utilización (servicio de UR), que integra datos de solicitudes de PA, documentos de políticas y otros lineamientos de atención para generar recomendaciones. El servicio de UR implementa el flujo de datos para revisar las solicitudes de PA con IA generativa.

En las siguientes secciones, se describen estos flujos de datos.

Flujo de datos de CDA

En el siguiente diagrama, se muestra el flujo de datos para usar CDA para transferir formularios de solicitud de PA.

Flujo de datos de los administradores de casos de PA.

Como se muestra en el diagrama anterior, el administrador de casos de PA interactúa con los componentes del sistema para transferir, validar y procesar las solicitudes de PA. Los administradores de casos de PA son las personas del equipo de operaciones comerciales que se encargan de recibir las solicitudes de PA. El flujo de eventos es el siguiente:

Los administradores de casos de PA reciben los formularios de solicitud de PA (pa_forms) del proveedor de atención médica y los suben al bucket de Cloud Storage pa_forms_bkt.
El servicio ingestion_service escucha los cambios en el bucket pa_forms_bkt. El servicio ingestion_service recoge formularios pa_forms del bucket pa_forms_bkt. El servicio identifica los procesadores de Document AI preconfigurados, que se llaman form_processors. Estos procesadores se definen para procesar los formularios pa_forms. El servicio ingestion_service extrae información de los formularios con los procesadores form_processors. Los datos extraídos de los formularios están en formato JSON.
El servicio ingestion_service escribe la información extraída con puntuaciones de confianza a nivel del campo en la colección de la base de datos de Firestore, que se denomina pa_form_collection.
La aplicación hitl_app recupera la información (JSON) con puntuaciones de confianza de la base de datos pa_form_collection. La aplicación calcula la puntuación de confianza a nivel del documento a partir de las puntuaciones de confianza a nivel del campo que los modelos de aprendizaje automático (AA) de form_processors ponen a disposición en el resultado.
La aplicación hitl_app muestra la información extraída con el campo y las puntuaciones de confianza a nivel de documento a los administradores de casos de PA para que puedan revisar y corregir la información si los valores extraídos no son precisos. Los administradores de casos de PA pueden actualizar los valores incorrectos y guardar el documento en la base de datos pa_form_collection.

Flujo de datos del servicio de UR

En el siguiente diagrama, se muestra el flujo de datos para el servicio de UR.

Flujo de datos de especialistas en UR.

Como se muestra en el diagrama anterior, los especialistas en UR interactúan con los componentes del sistema para realizar una revisión clínica de las solicitudes de PA. Por lo general, los especialistas en UR son enfermeros o médicos con experiencia en un área clínica específica que trabajan para empresas de seguros médicos. El flujo de trabajo de administración de casos y enrutamiento para las solicitudes de PA queda fuera del alcance del flujo de trabajo que se describe en esta sección.

El flujo de eventos es el siguiente:

La aplicación ur_app muestra una lista de solicitudes de PA y su estado de revisión a los especialistas de la UR. El estado se muestra como in_queue, in_progress o completed.
La lista se crea mediante la recuperación de los datos de pa_form information de la base de datos pa_form_collection. Para abrir una solicitud, el especialista de UR hace clic en un elemento de la lista que se muestra en la aplicación ur_app.

La aplicación ur_app envía los datos de pa_form information al modelo prompt_model. Usa la API de Gemini de Vertex AI para generar un mensaje similar al siguiente:

Review a PA request for {medication|device|medical service} for our member, {Patient Name}, who is {age} old, {gender} with {medical condition}. The patient is on {current medication|treatment list}, has {symptoms}, and has been diagnosed with {diagnosis}.

La aplicación ur_app muestra el mensaje generado a los especialistas de UR para su revisión y comentarios. Los especialistas en UR pueden actualizar el mensaje en la IU y enviarlo a la aplicación.
La aplicación ur_app envía la instrucción al modelo ur_model con una solicitud para generar una recomendación. El modelo genera una respuesta y la muestra a la aplicación. La aplicación muestra el resultado recomendado a los especialistas de UR.
Los especialistas en UR pueden usar la aplicación ur_search_app para buscar clinical documents, care guidelines y plan policy documents. clinical documents, care guidelines y plan policy documents están indexados previamente y la aplicación ur_search_app puede acceder a ellos.

Componentes

La arquitectura contiene los siguientes componentes:

Buckets de Cloud Storage Los servicios de aplicaciones de UM requieren los siguientes buckets de Cloud Storage en tu proyecto de Google Cloud:
- pa_forms_bkt: Un bucket para transferir los formularios de PA que necesitan aprobación.
- training_forms: Un bucket que contiene formularios de PA históricos para entrenar los procesadores de formularios de DocAI.
- eval_forms: Un bucket para contener formularios de PA para evaluar la exactitud de los procesadores de formularios de DocAI.
- tuning_dataset: Un bucket para contener los datos necesarios para ajustar el modelo de lenguaje grande (LLM).
- eval_dataset: Un bucket para contener los datos necesarios para la evaluación del LLM.
- clinical_docs: Un bucket para contener los documentos clínicos que los proveedores envían como adjuntos a los formularios de PA o después para admitir el caso de PA. La aplicación de búsqueda indexa estos documentos en el servicio de Vertex AI Agent Builder.
- um_policies: Un bucket para contener lineamientos de atención y necesidades médicas, documentos de políticas del plan de salud y lineamientos de cobertura. La aplicación de búsqueda indexa estos documentos en el servicio de Vertex AI Agent Builder.
form_processors: Estos procesadores están entrenados para extraer información de los formularios pa_forms.
pa_form_collection: Un almacén de datos de Firestore para almacenar la información extraída como documentos JSON en la colección de bases de datos NoSQL.
ingestion_service: Un microservicio que lee los documentos del bucket, los pasa a los extremos de DocAI para el análisis y almacena los datos extraídos en la colección de la base de datos de Firestore.
hitl_app: Un microservicio (aplicación web) que recupera y muestra los valores de datos extraídos de pa_forms. También renderiza la puntuación de confianza que informan los procesadores de formularios (modelos de AA) al administrador de casos de PA para que pueda revisar, corregir y guardar la información en el almacén de datos.
ur_app: Un microservicio (aplicación web) que los especialistas en UR pueden usar para revisar las solicitudes de PA mediante la IA generativa. Usa el modelo llamado prompt_model para generar una instrucción. El microservicio pasa los datos extraídos de los formularios pa_forms al modelo prompt_model para generar un mensaje. Luego, pasa la instrucción generada al modelo ur_model para obtener la recomendación de un caso.
LLM de Vertex AI ajustados médicamente: Vertex AI tiene una variedad de modelos de base de IA generativa que se pueden ajustar para reducir el costo y la latencia. Los modelos que se usan en esta arquitectura son los siguientes:
- prompt_model: Un adaptador en el LLM ajustado para generar instrucciones basadas en los datos extraídos de pa_forms.
- ur_model: Un adaptador en el LLM ajustado para generar un borrador de recomendación basado en el mensaje de entrada.
ur_search_app: Una aplicación de búsqueda compilada con Vertex AI Agent Builder para encontrar información personalizada y relevante para los especialistas en UR a partir de documentos clínicos, políticas de UM y lineamientos de cobertura.

Productos usados

En esta arquitectura de referencia, se usan los siguientes productos de Google Cloud:

Vertex AI: Es una plataforma de AA que te permite entrenar y, también, implementar modelos de AA y aplicaciones de IA, y personalizar LLM para usarlos en aplicaciones impulsadas por IA.
Vertex AI Agent Builder: Una plataforma que permite a los desarrolladores crear e implementar agentes y aplicaciones potenciados por IA de nivel empresarial.
Document AI: Una plataforma de procesamiento de documentos que toma datos no estructurados de documentos y los transforma en datos estructurados.
Firestore: Una base de datos de documentos NoSQL creada para proporcionar ajuste de escala automático, alto rendimiento y facilidad para el desarrollo de aplicaciones.
Cloud Run es una plataforma de procesamiento administrada que te permite ejecutar contenedores directamente sobre la infraestructura escalable de Google.
Cloud Storage: Un depósito de objetos de bajo costo y sin límites para varios tipos de datos. Se puede acceder a los datos desde y hacia Google Cloud, y estos se replican en las ubicaciones para aumentar la redundancia.
Cloud Logging: Un sistema de administración de registros en tiempo real con almacenamiento, búsqueda, análisis y alertas.
Cloud Monitoring: Un servicio que proporciona visibilidad del rendimiento, la disponibilidad y el estado de la infraestructura y las aplicaciones.

Caso de uso

La UM es un proceso que usan las empresas de seguros médicos sobre todo en Estados Unidos, pero se usan procesos similares (con algunas modificaciones) a nivel mundial en el mercado de seguros de atención médica. El objetivo de la UM es ayudar a garantizar que los pacientes reciban la atención adecuada en el entorno correcto, en el momento óptimo y al costo más bajo posible. La UM también ayuda a garantizar que la atención médica sea eficaz, eficiente y alineada con los estándares de atención basados en la evidencia. PA es una herramienta UM que requiere la aprobación de la compañía de seguros antes de que un paciente reciba atención médica.

El proceso de UM que usan muchas empresas es un obstáculo para brindar y recibir atención oportuna. Es costoso, lleva mucho tiempo y es demasiado administrativo. También es complejo, manual y lento. Este proceso afecta de manera significativa la capacidad del plan de salud para administrar de manera eficaz la calidad de la atención y mejorar la experiencia del proveedor y de los miembros. Sin embargo, si estas empresas modificaran su proceso de UM, podrían ayudar a garantizar que los pacientes reciban un tratamiento de alta calidad y rentable. Cuando se optimiza su proceso de UR, los planes de salud pueden reducir los costos y las denegaciones a través del procesamiento acelerado de las solicitudes de PA, lo que, a su vez, puede mejorar la experiencia de los pacientes y los proveedores. Este enfoque ayuda a reducir la carga administrativa de los proveedores de atención médica.

Cuando los planes de salud reciben solicitudes de PA, los administradores de casos de PA crean casos en el sistema de administración de casos para hacer un seguimiento, administrar y procesar las solicitudes. Una cantidad significativa de estas solicitudes se recibe por fax y correo postal, con documentos clínicos adjuntos. Sin embargo, las empresas de seguros médicos no pueden acceder fácilmente a la información de estos formularios y documentos para realizar análisis de datos y de inteligencia empresarial. El proceso actual de ingresar manualmente la información de estos documentos en los sistemas de administración de casos es ineficiente, lleva tiempo y puede generar errores.

A través de la automatización del proceso de transferencia de datos, los planes de estado pueden reducir los costos, los errores de entrada de datos y la carga administrativa del personal. Extraer información valiosa de los formularios y documentos clínicos permite a las empresas de seguros médicos acelerar el proceso de UR.

Consideraciones del diseño

En esta sección, se proporciona orientación para ayudarte a usar esta arquitectura de referencia para desarrollar una o más arquitecturas que te ayudan a cumplir con tus requisitos específicos de seguridad, confiabilidad, eficiencia operativa, costo y rendimiento.

Security, privacy, and compliance

En esta sección, se describen los factores que debes tener en cuenta cuando usas esta arquitectura de referencia para diseñar y compilar una arquitectura en Google Cloud que te ayude a cumplir con los requisitos de seguridad, privacidad y cumplimiento.

En Estados Unidos, la Ley de Responsabilidad y Portabilidad de Seguros Médicos (conocida como HIPAA, con sus enmiendas, incluida en la Ley de Tecnología de la Información de Salud Clínica y Económica [HITECH]) exige el cumplimiento de la Regla de seguridad, la Regla de privacidad y la Regla de notificación de incumplimiento de la ley de HIPAA. Google Cloud admite el cumplimiento de la HIPAA, pero, en última instancia, eres responsable de evaluar tu propio cumplimiento de la HIPAA. El cumplimiento de la HIPAA es una responsabilidad compartida entre Google y tú. Si tu organización está sujeta a la HIPAA y deseas usar cualquier producto de Google Cloud en relación con la Información de salud protegida (PHI), debes revisar y aceptar el Acuerdo entre Socios Comerciales (BAA) de Google. Los productos de Google cubiertos por el BAA cumplen con los requisitos de la HIPAA y con las certificaciones ISO/IEC 27001, 27017 y 27018, y el informe SOC 2.

No todos los LLMs alojados en Model Garden de Vertex AI son compatibles con la HIPAA. Evalúa y usa los LLMs que admiten la HIPAA.

Para evaluar cómo los productos de Google pueden satisfacer tus necesidades de cumplimiento de la HIPAA, puedes consultar los informes de auditoría de terceros en el Centro de recursos de cumplimiento.

Recomendamos que los clientes tengan en cuenta lo siguiente cuando seleccionen casos de uso de IA y que diseñen teniendo en cuenta estas consideraciones:

Privacidad de los datos: La plataforma Vertex AI de Google Cloud y Document AI no usan datos del cliente, uso de datos, contenido ni documentos para mejorar o entrenar los modelos de base. Puedes ajustar los modelos de base con tus datos y documentos dentro de tu usuario seguro en Google Cloud.
Las bibliotecas cliente del servidor de Firestore usan Identity and Access Management (IAM) para administrar el acceso a tu base de datos. Para obtener más información sobre la información de seguridad y privacidad de Firebase, consulta Privacidad y seguridad en Firebase.
Para ayudarte a almacenar datos sensibles, las imágenes de los servicios ingestion_service, hitl_app y ur_app se pueden encriptar con claves de encriptación administradas por el cliente (CMEK) o integrarse con Secret Manager.
Vertex AI implementa controles de seguridad de Google Cloud para ayudar a proteger los modelos y los datos de entrenamiento. Algunos controles de seguridad no son compatibles con las funciones potenciadas por AI generativa en Vertex AI. Si deseas obtener más información, consulta Controles de seguridad para Vertex AI y Controles de seguridad para Generative AI.
Te recomendamos que uses IAM para implementar los principios de privilegio mínimo y separación de tareas con recursos de la nube. Este control puede limitar el acceso a nivel de proyecto, carpeta o conjunto de datos.
Cloud Storage almacena los datos automáticamente en un estado encriptado. Para obtener más información sobre métodos adicionales para encriptar datos, consulta Opciones de encriptación de datos.

Los productos de Google siguen los principios de IA responsable.

Confiabilidad

En esta sección, se describen los factores de diseño que debes tener en cuenta para compilar y operar una infraestructura confiable para automatizar el procesamiento de solicitudes de PA.

Document AI form_processors es un servicio regional. Los datos se almacenan de forma síncrona en varias zonas dentro de una región. Las cargas del tráfico se balancean automáticamente entre las zonas. Si se produce una interrupción zonal, los datos no se pierden. Si se produce una interrupción regional, el servicio no estará disponible hasta que Google la resuelva.

Puedes crear buckets de Cloud Storage en una de las tres ubicaciones: regional, birregional o multirregión, con los buckets pa_forms_bkt, training_forms, eval_forms, tuning_dataset, eval_dataset, clinical_docs o um_policies. Los datos almacenados en buckets regionales se replican de forma síncrona en varias zonas dentro de una región. Para obtener una mayor disponibilidad, puedes usar buckets birregionales o multirregionales, en los que los datos se replican de manera asíncrona en todas las regiones.

En Firestore, la información extraída de la base de datos pa_form_collection se puede ubicar en varios centros de datos para ayudar a garantizar la escalabilidad y la confiabilidad globales.

Los servicios de Cloud Run, ingestion_service, hitl_app y ur_app, son servicios regionales. Los datos se almacenan de forma síncrona en varias zonas dentro de una región. Las cargas del tráfico se balancean automáticamente entre las zonas. Si se produce una interrupción zonal, los trabajos de Cloud Run continuarán ejecutándose y los datos no se pierden. Si se produce una interrupción regional, los trabajos de Cloud Run dejan de ejecutarse hasta que Google resuelva la interrupción. Los trabajos o las tareas individuales de Cloud Run pueden fallar. Para manejar estas fallas, puedes usar reintentos de tareas y puntos de control. Para obtener más información, consulta Prácticas recomendadas para los reintentos de trabajos y puntos de control. En la guía de confiabilidad de Cloud Run, se describen algunas prácticas recomendadas para usar Cloud Run.

Vertex AI es una plataforma de aprendizaje automático integral y fácil de usar que proporciona un entorno unificado para el ciclo de vida del aprendizaje automático, desde la preparación de datos hasta la implementación y supervisión de modelos.

Optimización de costos

En esta sección, se proporciona orientación para optimizar el costo de crear y ejecutar una arquitectura que automatice el procesamiento de solicitudes de PA y mejore tus procesos de UR. Administrar con cuidado el uso de los recursos y seleccionar los niveles de servicio adecuados puede tener un impacto significativo en el costo general.

Clases de almacenamiento de Cloud Storage: Usa las diferentes clases de almacenamiento (Standard, Nearline, Coldline o Archive) según la frecuencia de acceso a los datos. Nearline, Coldline y Archive son más rentables para los datos a los que se accede con menos frecuencia.

Políticas de ciclo de vida de Cloud Storage: Implementa políticas de ciclo de vida para realizar la transición automática de los objetos a clases de almacenamiento más económicas o bórralas según la antigüedad y los patrones de acceso.

El precio de Document AI se basa en la cantidad de procesadores implementados y en la cantidad de páginas que procesan los procesadores de Document AI. Ten en cuenta lo siguiente:

Optimización del procesador: Analiza los patrones de carga de trabajo para determinar la cantidad óptima de procesadores de Document AI que se deben implementar. Evita el aprovisionamiento excesivo de recursos.
Administración del volumen de páginas: Procesa previamente los documentos para quitar las páginas innecesarias o para optimizar la resolución puede ayudar a reducir los costos de procesamiento.

Firestore se cobra según la actividad relacionada con los documentos, las entradas de índice, el almacenamiento que usa la base de datos y la cantidad de ancho de banda de red. Ten en cuenta lo siguiente:

Modelado de datos: Diseña tu modelo de datos para minimizar la cantidad de entradas de índice y optimizar los patrones de consulta a fin de lograr una mayor eficiencia.
Ancho de banda de red: supervisa y optimiza el uso de la red para evitar cargos excesivos. Considera almacenar en caché los datos a los que se accede con frecuencia.

Los cargos de Cloud Run se calculan en función del uso de CPU, la memoria y la cantidad de solicitudes a pedido. Piensa detenidamente en la asignación de recursos. Asignar recursos de CPU y memoria según las características de la carga de trabajo Usa el ajuste de escala automático para ajustar los recursos de forma dinámica según la demanda.

Vertex AI Por lo general, los LLM se cobran en función de la entrada y salida del texto o los medios. Los recuentos de tokens de entrada y salida afectan directamente los costos de los LLM. Optimiza las instrucciones y la generación de respuestas para lograr una mayor eficiencia.

Los cargos del motor de búsqueda de Vertex AI Agent Builder dependen de las funciones que uses. Para administrar tus costos, puedes elegir entre las siguientes tres opciones:

Search Standard Edition, que ofrece capacidades de búsqueda no estructurada.
Search Enterprise Edition, que ofrece capacidades de búsqueda no estructurada y de búsqueda en el sitio web.
Complemento de LLM de búsqueda, que ofrece funciones de resumen y búsqueda de varios turnos.

También puedes considerar las siguientes consideraciones adicionales para ayudar a optimizar los costos:

Supervisión y alertas: Configura Cloud Monitoring y alertas de facturación para hacer un seguimiento de los costos y recibir notificaciones cuando el uso supere los umbrales.
Informes de costos: Revisa los informes de costos con regularidad en la consola de Google Cloud para identificar tendencias y optimizar el uso de recursos.
Considera los descuentos por compromiso de uso: Si tienes cargas de trabajo predecibles, considera comprometerte a usar esos recursos durante un período especificado para obtener precios con descuento.

Si consideras cuidadosamente estos factores y, luego, implementas las estrategias recomendadas, podrás administrar y optimizar de manera eficaz el costo de ejecutar tu arquitectura de automatización de PA y UR en Google Cloud.

Implementación

El código de implementación de referencia para esta arquitectura está disponible con licencia de código abierto. La arquitectura que implementa este código es un prototipo y puede no incluir todas las funciones y el endurecimiento que necesitas para una implementación de producción. Para implementar y expandir esta arquitectura de referencia y cumplir mejor con tus requisitos, te recomendamos que te comuniques con Google Cloud Consulting.

El código de partida para esta arquitectura de referencia está disponible en los siguientes repositorios de Git:

Repositorio de git de CDA: Este repositorio contiene secuencias de comandos de implementación de Terraform para el aprovisionamiento de infraestructura y la implementación de código de la aplicación.
Repositorio de Git del servicio de UR: Este repositorio contiene muestras de código para el servicio de UR.

Puedes elegir una de las siguientes dos opciones para implementar la asistencia y los servicios de esta arquitectura de referencia:

Participa con la Asesoría de Google Cloud.
Interactúa con un socio que compiló una oferta empaquetada mediante los productos y componentes de la solución que se describen en esta arquitectura.

¿Qué sigue?

Aprende a compilar infraestructura para una aplicación de IA generativa compatible con RAG mediante Vertex AI.
Infraestructura para una aplicación de IA generativa compatible con RAG mediante GKE
Revisa las opciones de Google Cloud para fundamentar las respuestas de IA generativa.
Obtén más información para optimizar las aplicaciones de Python para Cloud Run.
Para obtener más información sobre las arquitecturas de referencia, los diagramas y las prácticas recomendadas, explora Cloud Architecture Center.

Colaboradores

Autor: Dharmesh Patel | Arquitecto de soluciones del sector, Atención médica

Otros colaboradores:

Ben Swenka | Arquitecto empresarial clave
Emily Qiao | Especialista en productos de herramientas de redes
Luis Urena | Ingeniero de relaciones con desarrolladores
Praney Mittal | Gerente de grupo de productos
Lakshmanan Sethu | Administrador técnico de cuentas