Questo documento descrive un'architettura di riferimento per le compagnie di assicurazione sanitaria che vogliono automatizzare l'elaborazione delle richieste di autorizzazione preventiva e migliorare le loro procedure di revisione dell'utilizzo utilizzando Google Cloud. È rivolto agli sviluppatori software e agli amministratori di programmi di queste organizzazioni. Questa architettura consente ai fornitori di piani sanitari di ridurre i costi amministrativi, aumentare l'efficienza e migliorare il processo decisionale automatizzando l'importazione dei dati e l'estrazione di informazioni dalle schede cliniche. Inoltre, consente di usare modelli di AI per la generazione di prompt e suggerimenti.
Architettura
Il seguente diagramma descrive un'architettura e un approccio per automatizzare il flusso di lavoro di importazione dei dati e ottimizzare la procedura di revisione della gestione dell'utilizzo (UM). Questo approccio utilizza dati e servizi di AI in Google Cloud.
L'architettura precedente contiene due flussi di dati, supportati dai seguenti sottosistemi:
- Claims Data Activator (CDA), che estrae i dati da non strutturate, come moduli e documenti, e le importa in un in un formato strutturato e leggibile dalle macchine. Il CDA implementa il flusso per importare i moduli di richiesta AP.
- Servizio di revisione dell'utilizzo (servizio UR), che integra i dati delle richieste PA, i documenti relativi alle norme e altri linee guida sull'assistenza per generare consigli. Il servizio UR implementa il flusso di dati per esaminare le richieste di accesso ai dati personali utilizzando l'IA generativa.
Le seguenti sezioni descrivono questi flussi di dati.
Flusso di dati CDA
Il seguente diagramma mostra il flusso di dati per l'utilizzo di CDA per importare i moduli di richiesta di assistenza ai pazienti.
Come mostrato nel diagramma precedente, il case manager PA interagisce con componenti di sistema per importare, convalidare ed elaborare le richieste PA. I gestori delle richieste di accesso ai dati sono le persone del team di operazioni aziendali responsabili dell'accettazione delle richieste di accesso ai dati. Il flusso di eventi è il seguente:
- I responsabili delle richieste dell'AP ricevono i moduli di richiesta dell'AP
(
pa_forms
) dal fornitore di servizi sanitari e li carica nellapa_forms_bkt
bucket Cloud Storage. - Il servizio
ingestion_service
monitora il bucketpa_forms_bkt
per rilevare eventuali modifiche. Il servizioingestion_service
recupera ipa_forms
moduli dal bucketpa_forms_bkt
. Il servizio identifica i processori Document AI preconfigurati, chiamatiform_processors
. Questi sono definiti processori per elaborare i modulipa_forms
. Ilingestion_service
servizio estrae le informazioni dai moduli utilizzando iform_processors
processori. I dati estratti dai moduli sono in formato JSON. - Il servizio
ingestion_service
scrive le informazioni estratte con i punteggi di affidabilità a livello di campo nella raccolta di database Firestore, denominatopa_form_collection
. - L'applicazione
hitl_app
recupera le informazioni (JSON) con i relativi punteggi di attendibilità dal databasepa_form_collection
. L'applicazione calcola il punteggio di confidenza a livello di documento dai punteggi di confidenza a livello di campo resi disponibili nell'output dai modelli di machine learning (ML)form_processors
. - L'applicazione
hitl_app
mostra le informazioni estratte con i punteggi di confidenza a livello di campo e di documento ai gestori dei casi PA in modo che possano esaminare e correggere le informazioni se i valori estratti non sono accurati. I responsabili delle richieste di PA possono aggiornare i valori errati e salvare il documento il databasepa_form_collection
.
Flusso di dati del servizio UR
Il seguente diagramma mostra il flusso di dati per il servizio UR.
Come illustrato nel diagramma precedente, gli specialisti UR interagiscono con il sistema per eseguire una revisione clinica delle richieste AP. Gli esperti UR sono generalmente infermieri o medici con esperienza in un'area clinica specifica dipendenti di compagnie di assicurazione sanitaria. Gestione delle richieste e routing per le richieste PA non rientra nell'ambito del flusso di lavoro descritto in questa sezione.
Il flusso degli eventi è il seguente:
- L'applicazione
ur_app
mostra agli esperti UR un elenco delle richieste di accesso ai dati personali e il relativo stato di revisione. Lo stato viene visualizzato comein_queue
,in_progress
ocompleted
. - L'elenco viene creato recuperando i dati
pa_form information
dal databasepa_form_collection
. Lo specialista UR apre una richiesta facendo clic su un elemento dell'elenco visualizzato nell'applicazioneur_app
. L'applicazione
ur_app
invia i datipa_form information
al modelloprompt_model
. Utilizza l'API Gemini di Vertex AI per generare un prompt simile al seguente:Review a PA request for {medication|device|medical service} for our member, {Patient Name}, who is {age} old, {gender} with {medical condition}. The patient is on {current medication|treatment list}, has {symptoms}, and has been diagnosed with {diagnosis}.
L'applicazione
ur_app
mostra il prompt generato agli esperti UR per la revisione e il feedback. Gli esperti UR possono aggiornare la richiesta nell'interfaccia utente e la invii all'applicazione.L'applicazione
ur_app
invia il prompt al modellour_model
con una richiesta di generazione di un consiglio. Il modello genera una risposta e torna all'applicazione. L'applicazione visualizza il risultato consigliato agli esperti UR.Gli esperti UR possono utilizzare l'applicazione
ur_search_app
per cercareclinical documents
,care guidelines
eplan policy documents
.clinical documents
,care guidelines
eplan policy documents
sono pre-indicizzati e accessibili all'applicazioneur_search_app
.
Componenti
L'architettura contiene i seguenti componenti:
Bucket Cloud Storage. I servizi per le applicazioni UM richiedono i seguenti bucket Cloud Storage nel tuo progetto Google Cloud:
pa_forms_bkt
: un bucket per importare i moduli PA che richiedono l'approvazione.training_forms
: un bucket per contenere i moduli PA storici per la formazione dei processori dei moduli DocAI.eval_forms
: un bucket per contenere i moduli PA per valutare la precisione dei processori dei moduli DocAI.tuning_dataset
: un bucket per contenere i dati necessari per l'ottimizzazione del modello linguistico di grandi dimensioni (LLM).eval_dataset
: un bucket per il quale conservare i dati richiesti per la valutazione dell'LLM.clinical_docs
: un bucket per contenere i documenti clinici che che i fornitori inviino come allegati ai moduli PA o in seguito per la richiesta dell'AP. Questi documenti vengono indicizzati dall'applicazione di ricerca nel servizio Vertex AI Agent Builder.um_policies
: un contenitore per sostenere le necessità e le cure mediche linee guida, documenti sulle norme dei piani sanitari e linee guida sulla copertura. Questi documenti vengono indicizzati dall'applicazione di ricerca nel servizio Vertex AI Agent Builder.
form_processors
: questi processori sono addestrati per estrarre informazioni dai modulipa_forms
.pa_form_collection
: un datastore Firestore per archiviare le informazioni estratte come documenti JSON nella raccolta del database NoSQL.ingestion_service
: un microservizio che legge i documenti dal bucket, li passa agli endpoint DocAI per l'analisi e memorizza i dati estratti nella raccolta del database Firestore.hitl_app
: un microservizio (applicazione web) che recupera e mostra i valori dei dati estratti dapa_forms
. Esegue anche il rendering dell'affidabilità riportato dai processori di moduli (modelli ML) al gestore dei casi PA in modo che che possono esaminare, correggere e salvare le informazioni nel datastore.ur_app
: un microservizio (applicazione web) che gli esperti UR possono utilizzare per esaminare le richieste di assistenza pubblica utilizzando l'IA generativa. Utilizza il modello denominatoprompt_model
per generare un prompt. Il microservizio passa i dati estratti dai modulipa_forms
al modelloprompt_model
per generare un prompt. Quindi passa il prompt generato aur_model
. per ottenere il suggerimento per una richiesta.LLM Vertex AI ottimizzati dal punto di vista medico: Vertex AI dispone di una varietà di modelli di base dell'AI generativa che possono essere ottimizzato per ridurre costi e latenza. I modelli utilizzati in questo architettura sono i seguenti:
prompt_model
: un'opzione dell'LLM ottimizzata per generare prompt basati sui dati estratti dapa_forms
.ur_model
: un adattatore sull'LLM ottimizzato per generare una bozza consigliato in base al prompt di input.
ur_search_app
: un'applicazione di ricerca creata con Vertex AI Agent Builder di trovare informazioni personalizzate e pertinenti per gli specialisti UR dal documenti clinici, criteri di messaggistica immediata e linee guida sulla copertura.
Prodotti utilizzati
Questa architettura di riferimento utilizza i seguenti prodotti Google Cloud:
- Vertex AI: una piattaforma di ML che consente di addestrare ed eseguire il deployment di modelli ML applicazioni di IA e AI, nonché personalizzare gli LLM per l'utilizzo nelle applicazioni basate sull'AI.
- Vertex AI Agent Builder: una piattaforma che consente agli sviluppatori di creare ed eseguire il deployment di agenti e applicazioni basati sull'IA di livello enterprise.
- Document AI: una piattaforma di elaborazione di documenti che sfrutta dati non strutturati da documenti e li trasformano in dati strutturati.
- Firestore: un database di documenti NoSQL creato per offrire scalabilità automatica, prestazioni elevate e la facilità di sviluppo delle applicazioni.
- Cloud Run: una piattaforma di serverless computing che ti consente di eseguire i container direttamente sull'infrastruttura scalabile di Google.
- Cloud Storage: un archivio di oggetti economico e senza limiti per diversi tipi di dati. I dati sono accessibili dall'interno e dall'esterno di Google Cloud replicati in più località per la ridondanza.
- Cloud Logging: un sistema di gestione dei log in tempo reale con archiviazione, ricerca, analisi e avvisi.
- Cloud Monitoring: un servizio che offre visibilità su prestazioni, disponibilità e integrità delle tue applicazioni e dell'infrastruttura.
Caso d'uso
L'UM è un processo utilizzato dalle compagnie di assicurazione sanitaria principalmente negli Stati Uniti, ma procedimenti simili (con alcune modifiche) vengono utilizzati a livello globale nel mercato dell'assicurazione sanitaria. L'obiettivo dell'UM è aiutare a garantire che i pazienti ricevano la la cura adeguata nell'impostazione corretta, nel momento ottimale e nel minor tempo i costi possibili. La messaggistica immediata aiuta anche a garantire che l'assistenza medica sia efficace, efficiente e in linea con gli standard di cura basati su prove concrete. La PA è uno strumento di UM che richiede l'approvazione della compagnia assicurativa prima che un paziente riceva cure mediche.
La procedura UM utilizzata da molte aziende rappresenta un ostacolo alla fornitura e alla ricezione di assistenza tempestiva. È un'operazione costosa, lunga ed eccessivamente amministrativa. Inoltre, è complessa, manuale e lenta. Questo processo influisce notevolmente sulla capacità del piano sanitario di gestire efficacemente la qualità dell'assistenza e di migliorare l'esperienza del fornitore e dei membri. Tuttavia, se queste aziende modificassero il loro processo di gestione della messaggistica immediata, possono contribuire a garantire ai pazienti un trattamento di alta qualità a costi contenuti. Ottimizzando il loro processo di UR, i piani sanitari possono ridurre costi e rifiuti mediante l'elaborazione rapida delle richieste PA, che a sua volta possono migliorare l'esperienza di pazienti e operatori. Questo approccio contribuisce a ridurre il carico amministrativo per i fornitori di servizi sanitari.
Quando i piani sanitari ricevono richieste per l'AP, i responsabili delle PA creano casi il sistema di gestione delle richieste di assistenza per monitorare, gestire ed elaborare le richieste. Un gran numero di queste richieste viene ricevuto via fax e posta, con i documenti clinici allegati. Tuttavia, le informazioni contenute in questi moduli e documenti non sono facilmente accessibili alle compagnie di assicurazione sanitaria per l'analisi dei dati e l'intelligence aziendale. L'attuale procedura di inserimento manuale delle informazioni di questi documenti nei sistemi di gestione delle richieste è inefficiente e richiede molto tempo e può portare a errori.
Automatizzando il processo di importazione dati, i piani sanitari possono ridurre i costi, errori di inserimento e oneri amministrativi per il personale. L'estrazione di informazioni utili dai moduli e dai documenti clinici consente alle compagnie di assicurazione sanitaria di velocizzare la procedura di UR.
Note sul layout
Questa sezione fornisce indicazioni per aiutarti a utilizzare questa architettura di riferimento per: sviluppare una o più architetture che ti aiutino a soddisfare i tuoi requisiti specifici in termini di sicurezza, affidabilità, efficienza operativa, costi e prestazioni.
Sicurezza, privacy e conformità
Questa sezione descrive i fattori da tenere presenti quando utilizzi questa architettura di riferimento per progettare e creare un'architettura in Google Cloud che ti aiuti a soddisfare i requisiti di sicurezza, privacy e conformità.
Negli Stati Uniti, l'Health Insurance Portability and Accountability Act (noto come HIPAA e successive modifiche, anche da parte dell'Health Information Technology for Economic e Clinical Health — HITECH — Act) richiede la conformità alle Security Regola, Regola sulla privacy, e Breach Notification Regola. Google Cloud supporta la conformità HIPAA, ma, in ultima analisi, spetta a te valutare la tua conformità alla normativa HIPAA. La conformità alla normativa HIPAA è una responsabilità condivisa fra te e Google. Se la tua organizzazione è soggetta al Regolamento HIPAA e vuoi utilizzare qualsiasi prodotto Google Cloud in connessione con dati sanitari protetti (PHI), devi esaminare e accettare il Contratto di società in affari (BAA) di Google. I prodotti Google coperti dal BAA soddisfano i requisiti previsti dalla normativa HIPAA e sono conformi alle nostre certificazioni ISO/IEC 27001, 27017 e 27018 e al report SOC 2.
Non tutti gli LLM ospitati in Vertex AI Model Garden supportano la normativa HIPAA. Valutare e utilizzare gli LLM che supportano la normativa HIPAA.
Per valutare in che modo i prodotti Google possono soddisfare le tue esigenze di conformità HIPAA, puoi fare riferimento ai report di controllo di terze parti nel Centro risorse per la conformità.
Consigliamo ai clienti di tenere in considerazione quanto segue quando selezionano i casi d'uso dell'IA: e la progettazione tenendo a mente queste considerazioni:
- Privacy dei dati: la piattaforma Vertex AI di Google Cloud e Document AI non utilizzano i dati dei clienti, l'utilizzo dei dati, i contenuti o i documenti per migliorare o addestrare i modelli di base. Puoi ottimizzare i modelli di base con i tuoi dati e documenti all'interno del tuo tenant protetto su Google Cloud.
- Le librerie client del server Firestore utilizzano Identity and Access Management (IAM) per gestire l'accesso al tuo database. Per informazioni sulla sicurezza e sulla privacy di Firebase, consulta Privacy e sicurezza in Firebase.
- Per aiutarti ad archiviare i dati sensibili,
ingestion_service
,hitl_app
eur_app
le immagini dei servizi possono essere criptate chiavi di crittografia gestite dal cliente (CMEK) o integrati con Secret Manager: - Vertex AI implementa i controlli di sicurezza di Google Cloud per proteggere i modelli e i dati di addestramento. Alcuni controlli di sicurezza supportate dalle funzionalità di IA generativa in Vertex AI. Per ulteriori informazioni, consulta Controlli di sicurezza per Vertex AI e Controlli di sicurezza per l'IA generativa.
- Ti consigliamo di utilizzare IAM per implementare i principi il privilegio minimo e la separazione dei compiti con le risorse cloud. Questo controllo può limitare l'accesso a livello di progetto, cartella o set di dati.
- Cloud Storage archivia automaticamente i dati in stato criptato. A ulteriori informazioni su metodi aggiuntivi per criptare i dati, consulta Opzioni di crittografia dei dati.
I prodotti di Google seguono i principi dell'IA responsabile.
Affidabilità
Questa sezione descrive i fattori di progettazione che devi prendere in considerazione per creare e gestire un'infrastruttura affidabile per automatizzare l'elaborazione delle richieste di accesso protetto.
Document AI form_processors
è un servizio regionale. I dati sono
archiviati in modo sincrono tra più zone all'interno di una regione. Il traffico viene bilanciato automaticamente tra le zone. In caso di interruzione di una zona, i dati
non si perda. In caso di interruzione di una regione, il servizio non sarà disponibile fino a quando Google
che risolve l'interruzione.
Puoi creare bucket Cloud Storage in uno dei tre seguenti
locations:
una singola regione o una o più regioni utilizzando pa_forms_bkt
, training_forms
,
eval_forms
, tuning_dataset
, eval_dataset
, clinical_docs
o um_policies
bucket. I dati archiviati nei bucket regionali vengono replicati in modo sincrono in più zone all'interno di una regione. Per una maggiore disponibilità, puoi utilizzare due o più regioni
dei bucket, dove i dati vengono replicati in modo asincrono tra le regioni.
In Firestore
le informazioni estratte dal database pa_form_collection
possono trovarsi
più data center per contribuire a garantire scalabilità e affidabilità a livello globale.
I servizi Cloud Run ingestion_service
, hitl_app
e ur_app
sono servizi regionali. I dati vengono archiviati in modo sincrono tra più zone all'interno
una regione. Il traffico viene bilanciato automaticamente tra le zone. Se si verifica un'interruzione del servizio in una zona, i job Cloud Run continuano a essere eseguiti e i dati non vengono persi. Se una regione
un'interruzione del servizio, l'esecuzione dei job Cloud Run viene interrotta finché Google
o un'interruzione del servizio. I singoli job o le singole attività Cloud Run potrebbero non riuscire. Per gestire tali
errori, puoi usare i nuovi tentativi di attività e i checkpoint. Per ulteriori informazioni, vedi
Best practice per i nuovi tentativi di job e i checkpoint. La guida all'affidabilità di Cloud Run descrive alcune best practice per l'utilizzo di Cloud Run.
Vertex AI è una piattaforma di machine learning completa e facile da usare che fornisce un ambiente unificato per il ciclo di vita del machine learning, dalla preparazione dei dati al deployment e al monitoraggio dei modelli.
Ottimizzazione dei costi
Questa sezione fornisce indicazioni per ottimizzare il costo della creazione e dell'esecuzione di un per automatizzare l'elaborazione delle richieste PA e migliorare nei tuoi processi UR. La gestione attenta dell'utilizzo delle risorse e la selezione di livelli di servizio appropriati possono influire notevolmente sul costo complessivo.
Classi di archiviazione di Cloud Storage: Usa le diverse classi di archiviazione (Standard, Nearline, Coldline o Archive) in base alla frequenza di accesso ai dati. Nearline, Coldline e Archive sono più convenienti a cui si accede con meno frequenza e i dati di Google Cloud.
Criteri del ciclo di vita di Cloud Storage: implementa i criteri del ciclo di vita per eseguire automaticamente la transizione degli oggetti a classi di archiviazione a costi inferiori o eliminarli in base all'età e ai modelli di accesso.
Document AI viene calcolato in base al numero di processori impiegati e al numero di pagine elaborate dai processori Document AI. Considera quanto segue:
- Ottimizzazione del processore: analizza i pattern di carico di lavoro per determinare il numero ottimale di processori Document AI da implementare. Evita l'overprovisioning delle risorse.
- Gestione del volume delle pagine: pre-elabora i documenti per rimuovere i non necessari pagine o ottimizzare la risoluzione possono aiutare a ridurre i costi di elaborazione.
Firestore ha un prezzo basato sulle attività relative a documenti, voci di indice, spazio di archiviazione usi del database e la quantità di larghezza di banda della rete. Considera quanto segue:
- Modellazione dei dati: progetta il tuo modello dei dati per ridurre al minimo il numero di indicizzare e ottimizzare i pattern di query per una maggiore efficienza.
- Larghezza di banda della rete: monitora e ottimizza l'utilizzo della rete per evitare un uso eccessivo addebiti. Valuta la possibilità di memorizzare nella cache i dati a cui si accede di frequente.
Gli addebiti di Cloud Run vengono calcolati in base all'utilizzo on demand della CPU, alla memoria e al numero di richieste. Valuta attentamente l'allocazione delle risorse. Alloca risorse di CPU e memoria in base alle caratteristiche del carico di lavoro. Utilizza la scalabilità automatica per regolare le risorse in modo dinamico in base alla domanda.
Vertex AI Gli LLM sono in genere addebitati in base all'input e l'output del testo o dei contenuti multimediali. I conteggi di token di input e output influiscono direttamente sui costi degli LLM. Ottimizza i prompt e la generazione di risposte per migliorare l'efficienza.
Ricerca di Vertex AI Agent Builder le cariche del motore dipendono dalle funzioni utilizzate. Per aiutarti a gestire i costi, puoi scegliere fra le tre opzioni seguenti:
- Search Standard Edition, che offre funzionalità di ricerca non strutturate.
- Search Enterprise Edition, che offre funzionalità di ricerca non strutturata e di ricerca su siti web.
- Componente aggiuntivo LLM per la ricerca, che offre funzionalità di riassunto e ricerca in più passaggi.
Puoi anche prendere in considerazione le seguenti considerazioni aggiuntive per ottimizzare i costi:
- Monitoraggio e avvisi: configura Cloud Monitoring e gli avvisi relativi alla fatturazione per monitorare i costi e ricevere notifiche quando l'utilizzo supera le soglie.
- Report sui costi: esamina regolarmente i report sui costi nel Console Google Cloud per identificare le tendenze e ottimizzare l'utilizzo delle risorse.
- Valuta gli sconti per impegno di utilizzo: se hai carichi di lavoro prevedibili, valuta la possibilità di impegnarti a utilizzare queste risorse per un periodo specifico a prezzi scontati.
Prendere in considerazione attentamente questi fattori e implementare le strategie consigliate può aiutarti a gestire e ottimizzare in modo efficace il costo di esecuzione dell'architettura di automazione PA e UR su Google Cloud.
Deployment
Il codice di implementazione di riferimento per questa architettura è disponibile in licenze open source. L'architettura implementata da questo codice è un prototipo e potrebbe non includere tutte le funzionalità e l'hardening di cui hai bisogno per un deployment di produzione. Per implementare ed espandere questa architettura di riferimento per soddisfare al meglio le tue esigenze, ti consigliamo di contattare consulenze Google Cloud.
Il codice di avvio per questa architettura di riferimento è disponibile in Repository Git:
- Repository Git CDA: Questo repository contiene script di deployment Terraform per il provisioning dell'infrastruttura e il deployment del codice dell'applicazione.
- Repository Git del servizio UR: Questo repository contiene esempi di codice per il servizio UR.
Puoi scegliere una delle due opzioni seguenti per implementare l'assistenza e per questa architettura di riferimento:
- Rivolgiti a Google Cloud Consulting.
- Rivolgiti a un partner che ha creato un'offerta pacchettizzata utilizzando i prodotti e i componenti della soluzione descritti in questa architettura.
Passaggi successivi
- Scopri come creare l'infrastruttura per un'applicazione di IA generativa compatibile con RAG utilizzando Vertex AI.
- Infrastruttura per un'applicazione di AI generativa compatibile con RAG che utilizza GKE
- Esamina il Opzioni Google Cloud per basare le risposte dell'AI generativa.
- Scopri come ottimizzare le applicazioni Python per Cloud Run.
- Per altre architetture di riferimento, diagrammi e best practice, visita il Centro architetture di Google Cloud.
Collaboratori
Autore: Dharmesh Patel | Industry Solutions Architect, Healthcare
Altri collaboratori:
- Ben Swenka | Enterprise Architect principale
- Emily Qiao | Customer Engineer AI/ML
- Luis Urena | Developer Relations Engineer
- Praney Mittal | Group Product Manager
- Lakshmanan Sethu | Technical Account Manager