In diesem Dokument wird eine Referenzarchitektur für Krankenversicherungen beschrieben, die die Bearbeitung von Anträgen auf vorherige Genehmigung (Prior Authorization, PA) automatisieren und ihre Prozesse zur Leistungsprüfung (Utilization Review, UR) mithilfe von Google Cloudverbessern möchten. Sie richtet sich an Softwareentwickler und Programmadministratoren in diesen Organisationen. Diese Architektur hilft Anbietern von Krankenversicherungen, den Verwaltungsaufwand zu reduzieren, die Effizienz zu steigern und die Entscheidungsfindung zu verbessern, indem die Datenaufnahme und die Gewinnung von Erkenntnissen aus klinischen Formularen automatisiert werden. Außerdem können sie KI-Modelle für die Prompt-Generierung und Empfehlungen verwenden.
Architektur
Das folgende Diagramm zeigt eine Architektur und einen Ansatz zur Automatisierung des Datenaufnahme-Workflows und zur Optimierung des Überprüfungsprozesses für die Ressourcenverwaltung. Bei diesem Ansatz werden Daten und KI-Dienste in Google Cloudverwendet.
Die obige Architektur enthält zwei Datenflüsse, die von den folgenden Teilsystemen unterstützt werden:
- Claims Data Activator (CDA): Hiermit werden Daten aus unstrukturierten Quellen wie Formularen und Dokumenten extrahiert und in einer Datenbank in einem strukturierten, maschinenlesbaren Format aufgenommen. CDA implementiert den Datenfluss für die Aufnahme von Anträgen auf Zugang zu Akten.
- Utilization Review Service (UR-Dienst), der Daten zu PA-Anfragen, Richtliniendokumente und andere Richtlinien für die Gesundheitsversorgung integriert, um Empfehlungen zu generieren. Der UR-Dienst implementiert den Datenfluss zur Überprüfung von Anträgen auf Entfernung von Inhalten mithilfe generativer KI.
In den folgenden Abschnitten werden diese Datenflüsse beschrieben.
CDA-Datenfluss
Das folgende Diagramm zeigt den Datenfluss bei der Verwendung von CDA zum Aufnehmen von Formularen für Anträge auf Zugang zu Akten.
Wie im vorherigen Diagramm dargestellt, interagiert der PA-Fallmanager mit den Systemkomponenten, um die PA-Anfragen aufzunehmen, zu validieren und zu verarbeiten. Die PA-Fallmanager sind die Personen aus dem Business Operations-Team, die für die Bearbeitung der PA-Anfragen verantwortlich sind. Der Ablauf der Ereignisse sieht so aus:
- Die Fallmanager für die PA erhalten die PA-Anfrageformulare (
pa_forms
) vom Gesundheitsdienstleister und laden sie in den Cloud Storage-Bucketpa_forms_bkt
hoch. - Der
ingestion_service
-Dienst überwacht denpa_forms_bkt
-Bucket auf Änderungen. Deringestion_service
-Dienst ruftpa_forms
-Formulare aus dempa_forms_bkt
-Bucket ab. Der Dienst identifiziert die vorkonfigurierten KI-Prozessoren für Dokumente, dieform_processors
genannt werden. Diese Prozessoren sind für die Verarbeitung derpa_forms
-Formulare definiert. Deringestion_service
-Dienst extrahiert Informationen aus den Formularen mithilfe derform_processors
-Prozessoren. Die aus den Formularen extrahierten Daten sind im JSON-Format. - Der
ingestion_service
-Dienst schreibt die extrahierten Informationen mit Konfidenzwerten auf Feldebene in die Firestore-Datenbanksammlungpa_form_collection
. - Die
hitl_app
-Anwendung ruft die Informationen (JSON) mit den Konfidenzwerten aus derpa_form_collection
-Datenbank ab. Die Anwendung berechnet den Konfidenzwert auf Dokumentebene aus den Konfidenzwerten auf Feldebene, die in der Ausgabe durch dieform_processors
-Modelle für maschinelles Lernen (ML) verfügbar gemacht werden. - In der
hitl_app
-Anwendung werden den Fallmanagern der PA die extrahierten Informationen mit den Konfidenzwerten auf Feld- und Dokumentebene angezeigt, damit sie die Informationen prüfen und korrigieren können, falls die extrahierten Werte ungenau sind. Fallmanager für die Patientenversorgung können die falschen Werte aktualisieren und das Dokument in derpa_form_collection
-Datenbank speichern.
UR-Dienstfluss von Daten
Das folgende Diagramm zeigt den Datenfluss für den UR-Dienst.
Wie im vorherigen Diagramm dargestellt, interagieren die UR-Spezialisten mit den Systemkomponenten, um eine klinische Überprüfung der PA-Anfragen durchzuführen. Die UR-Spezialisten sind in der Regel Krankenpfleger oder Ärzte mit Erfahrung in einem bestimmten klinischen Bereich, die bei Krankenversicherungen angestellt sind. Der Workflow für die Fallverwaltung und Weiterleitung von Anfragen zu Preisvergleichsportalen fällt nicht in den Geltungsbereich des in diesem Abschnitt beschriebenen Workflows.
Der Ablauf der Ereignisse sieht so aus:
- Die
ur_app
-Anwendung zeigt den UR-Spezialisten eine Liste der PA-Anfragen und ihren Überprüfungsstatus an. Der Status wird alsin_queue
,in_progress
odercompleted
angezeigt. - Die Liste wird erstellt, indem die
pa_form information
-Daten aus derpa_form_collection
-Datenbank abgerufen werden. Der UR-Spezialist öffnet eine Anfrage, indem er auf einen Artikel in der Liste klickt, die in derur_app
-Anwendung angezeigt wird. Die
ur_app
-Anwendung sendet diepa_form information
-Daten an dasprompt_model
-Modell. Dabei wird die Vertex AI Gemini API verwendet, um einen Prompt zu generieren, der in etwa so aussieht:Review a PA request for {medication|device|medical service} for our member, {Patient Name}, who is {age} old, {gender} with {medical condition}. The patient is on {current medication|treatment list}, has {symptoms}, and has been diagnosed with {diagnosis}.
Die
ur_app
-Anwendung zeigt den generierten Prompt den UR-Spezialisten zur Überprüfung und zum Feedback an. UR-Spezialisten können den Prompt in der Benutzeroberfläche aktualisieren und an die Anwendung senden.Die
ur_app
-Anwendung sendet den Prompt mit der Anfrage, eine Empfehlung zu generieren, an dasur_model
-Modell. Das Modell generiert eine Antwort und kehrt zur Anwendung zurück. Die Anwendung zeigt den empfohlenen Ausgang den UR-Spezialisten an.Die UR-Spezialisten können mit der
ur_search_app
-Anwendung nachclinical documents
,care guidelines
undplan policy documents
suchen.clinical documents
,care guidelines
undplan policy documents
sind vorab indexiert und für dieur_search_app
-Anwendung zugänglich.
Komponenten
Die Architektur umfasst die folgenden Komponenten:
Cloud Storage-Buckets Für UM-Anwendungsdienste sind die folgenden Cloud Storage-Buckets in Ihrem Google Cloud Projekt erforderlich:
pa_forms_bkt
: Ein Bucket zum Aufnehmen der PA-Formulare, die genehmigt werden müssen.training_forms
: Ein Bucket für bisherige PA-Formulare zum Trainieren der DocAI-Formularprozessoren.eval_forms
: Ein Bucket für PA-Formulare zur Bewertung der Genauigkeit der DocAI-Formularprozessoren.tuning_dataset
: Ein Bucket für die Daten, die zum Optimieren des Large Language Model (LLM) erforderlich sind.eval_dataset
: Ein Bucket für die Daten, die für die Bewertung des LLM erforderlich sind.clinical_docs
: Ein Bucket für die klinischen Dokumente, die die Leistungserbringer als Anhang zu den PA-Formularen einreichen oder später zur Unterstützung des PA-Falls einreichen. Diese Dokumente werden von der Suchanwendung im Vertex AI Agent Builder-Dienst indexiert.um_policies
: Ein Bucket für Richtlinien zur medizinischen Notwendigkeit und Versorgung, Dokumente zu den Richtlinien des Krankenversicherungsprogramms und Abdeckungsrichtlinien. Diese Dokumente werden von der Suchanwendung im Vertex AI Agent Builder-Dienst indexiert.
form_processors
: Diese Verarbeitungsprogramme sind darauf trainiert, Informationen aus denpa_forms
-Formularen zu extrahieren.pa_form_collection
: Ein Firestore-Datenspeicher, in dem die extrahierten Informationen als JSON-Dokumente in der NoSQL-Datenbanksammlung gespeichert werden.ingestion_service
: Ein Mikrodienst, der die Dokumente aus dem Bucket liest, sie zum Parsen an die DocAI-Endpunkte weitergibt und die extrahierten Daten in der Firestore-Datenbanksammlung speichert.hitl_app
: Ein Mikrodienst (Webanwendung), der Datenwerte abholt und anzeigt, die aus derpa_forms
extrahiert wurden. Außerdem wird der vom Formularprozessor (ML-Modell) an den Fallmanager der Kundenserviceabteilung gesendete Wert für die Wahrscheinlichkeit gerendert, damit dieser die Informationen prüfen, korrigieren und im Datenspeicher speichern kann.ur_app
: Ein Mikrodienst (Webanwendung), mit dem UR-Spezialisten PA-Anfragen mithilfe von generativer KI überprüfen können. Dabei wird das Modellprompt_model
verwendet, um einen Prompt zu generieren. Der Mikrodienst gibt die aus denpa_forms
-Formularen extrahierten Daten an dasprompt_model
-Modell weiter, um einen Prompt zu generieren. Anschließend wird der generierte Prompt an dasur_model
-Modell übergeben, um eine Empfehlung für einen Fall zu erhalten.Medizinisch abgestimmte LLMs von Vertex AI: Vertex AI bietet eine Vielzahl von generativen KI-Foundation Models, die angepasst werden können, um Kosten und Latenz zu senken. In dieser Architektur werden die folgenden Modelle verwendet:
prompt_model
: Ein Adapter im LLM, der so abgestimmt ist, dass Prompts basierend auf den aus dempa_forms
extrahierten Daten generiert werden.ur_model
: Ein Adapter im LLM, der so abgestimmt ist, dass er anhand des Eingabeprompts einen Empfehlungsentwurf generiert.
ur_search_app
: Eine Suchanwendung, die mit Vertex AI Agent Builder erstellt wurde, um personalisierte und relevante Informationen für UR-Spezialisten aus klinischen Dokumenten, UM-Richtlinien und Abdeckungsrichtlinien zu finden.
Verwendete Produkte
In dieser Referenzarchitektur werden die folgenden Google Cloud Produkte verwendet:
- Vertex AI: Eine ML-Plattform, mit der Sie ML-Modelle und KI-Anwendungen trainieren und bereitstellen und LLMs für die Verwendung in KI-basierten Anwendungen anpassen können.
- Vertex AI Agent Builder: Eine Plattform, mit der Entwickler KI-basierte Agenten und Anwendungen für Unternehmen erstellen und bereitstellen können.
- Document AI: Eine Plattform zur Dokumentverarbeitung, die unstrukturierte Daten aus Dokumenten in strukturierte Daten transformiert.
- Firestore: Eine NoSQL-Dokumentdatenbank, die auf Autoscaling, hohe Leistung und einfache Anwendungsentwicklung ausgelegt ist.
- Cloud Run ist eine serverlose Computing-Plattform, mit der Sie Container direkt auf der skalierbaren Infrastruktur von Google ausführen können.
- Cloud Storage: Ein kostengünstiger, unbegrenzter Objektspeicher für verschiedene Datentypen. Auf Daten kann von innerhalb und außerhalb von Google Cloudzugegriffen werden. Sie werden zu Redundanzzwecken über Standorte hinweg repliziert.
- Cloud Logging: Ein Echtzeit-Log-Verwaltungssystem mit Speicher, Suche, Analyse und Benachrichtigungen.
- Cloud Monitoring: Ein Dienst, der Einblicke in die Leistung, Verfügbarkeit und Integrität Ihrer Anwendungen und Infrastruktur bietet.
Anwendungsfall
UM ist ein Prozess, der hauptsächlich von Krankenkassen in den USA verwendet wird. Ähnliche Prozesse (mit einigen Modifikationen) werden jedoch weltweit auf dem Markt für Krankenversicherungen eingesetzt. Das Ziel der UM besteht darin, dafür zu sorgen, dass Patienten die richtige Versorgung in der richtigen Umgebung, zum optimalen Zeitpunkt und zu den niedrigsten Kosten erhalten. UM trägt auch dazu bei, dass die medizinische Versorgung effektiv, effizient und im Einklang mit evidenzbasierten Standards der Versorgung ist. PA ist ein UM-Tool, für das die Genehmigung der Versicherung erforderlich ist, bevor ein Patient ärztliche Versorgung erhält.
Das UM-Verfahren, das viele Unternehmen nutzen, ist ein Hindernis für die zeitnahe Bereitstellung und Inanspruchnahme von Pflege. Es ist teuer, zeitaufwendig und erfordert viel Verwaltungsaufwand. Außerdem ist sie komplex, manuell und langsam. Dieser Prozess wirkt sich erheblich auf die Fähigkeit des Krankenversicherungsträgers aus, die Qualität der Versorgung effektiv zu verwalten und die Nutzerfreundlichkeit für Anbieter und Mitglieder zu verbessern. Wenn diese Unternehmen jedoch ihren UM-Prozess ändern würden, könnten sie dazu beitragen, dass Patienten eine qualitativ hochwertige und kostengünstige Behandlung erhalten. Durch die Optimierung des UR-Prozesses können Krankenkassen Kosten und Ablehnungen durch eine beschleunigte Bearbeitung von PA-Anträgen senken, was wiederum die Zufriedenheit von Patienten und Leistungserbringern verbessern kann. Dieser Ansatz trägt dazu bei, den Verwaltungsaufwand für Gesundheitsdienstleister zu reduzieren.
Wenn Krankenversicherungen Anfragen für die Vorabautorisierung erhalten, erstellen die Fallmanager für die Vorabautorisierung Fälle im Fallmanagementsystem, um die Anfragen zu verfolgen, zu verwalten und zu verarbeiten. Ein Großteil dieser Anträge wird per Fax und Post mit angehängten klinischen Dokumenten eingereicht. Die Informationen in diesen Formularen und Dokumenten sind für Krankenkassen jedoch nicht leicht zugänglich, um sie für Datenanalysen und Business Intelligence zu nutzen. Das aktuelle Verfahren, Informationen aus diesen Dokumenten manuell in die Fallverwaltungssysteme einzugeben, ist ineffizient und zeitaufwendig und kann zu Fehlern führen.
Durch die Automatisierung des Datenaufnahmeprozesses können Krankenkassen Kosten, Dateneingabefehler und den Verwaltungsaufwand für das Personal reduzieren. Durch das Extrahieren wertvoller Informationen aus den klinischen Formularen und Dokumenten können Krankenversicherungen den Prozess der Kostenübernahme beschleunigen.
Designaspekte
Dieser Abschnitt enthält eine Anleitung zur Verwendung dieser Referenzarchitektur, um eine oder mehrere Architekturen zu entwickeln, die Ihnen helfen, Ihre spezifischen Anforderungen an Sicherheit, Zuverlässigkeit, operative Effizienz, Kosten und Leistung zu erfüllen.
Sicherheit, Datenschutz und Compliance
In diesem Abschnitt werden die Faktoren beschrieben, die Sie bei der Verwendung dieser Referenzarchitektur berücksichtigen sollten, um eine Architektur inGoogle Cloud zu entwerfen und zu erstellen, die Ihnen hilft, Ihre Sicherheits-, Datenschutz- und Compliance-Anforderungen zu erfüllen.
In den USA verlangt das US-Gesetz zur Übertragbarkeit von Krankenversicherungen und Verantwortlichkeit von Versicherern (Health Insurance Portability and Accountability Act, HIPAA, in der jeweils gültigen Fassung, inklusive Änderungen durch das HITECH-Gesetz, Health Information Technology for Economic and Clinical Health Act) die Einhaltung der Sicherheitsregeln (Security Rule), der Datenschutzregeln (Privacy Rule) und der Regeln zur Benachrichtigung bei Sicherheitsverletzungen (Breach Notification Rule). Google Cloud unterstützt die HIPAA-Compliance, letztendlich sind Sie jedoch selbst dafür verantwortlich, Ihre HIPAA-Compliance zu bewerten. Die Einhaltung von HIPAA ist eine gemeinsame Verantwortung von Ihnen und Google. Wenn Ihre Organisation HIPAA unterliegt und Sie Google Cloud-Produkte in Verbindung mit geschützten Gesundheitsdaten (Protected Health Information, PHI) verwenden möchten, müssen Sie die Geschäftspartner-Vereinbarung (Business Associate Agreement, BAA) von Google lesen und akzeptieren. Die der BAA unterliegenden Google-Produkte erfüllen die HIPAA-Anforderungen und entsprechen unseren Zertifizierungen nach ISO/IEC 27001, 27017 und 27018 sowie unserem SOC 2-Bericht.
Nicht alle im Vertex AI Model Garden gehosteten LLMs unterstützen HIPAA. LLMs bewerten und verwenden, die HIPAA unterstützen
Anhand der Berichte zu externen Audits im Compliance-Ressourcencenter können Sie einschätzen, inwieweit die Produkte von Google Ihren Anforderungen in Bezug auf die HIPAA-Compliance gerecht werden.
Wir empfehlen Kunden, bei der Auswahl von KI-Anwendungsfällen Folgendes zu berücksichtigen und ihr Design entsprechend zu gestalten:
- Datenschutz: Die Google Cloud Vertex AI-Plattform und Document AI verwenden keine Kundendaten, Datennutzung, Inhalte oder Dokumente, um die Grundlagenmodelle zu verbessern oder zu trainieren. Sie können die Grundlagenmodelle mit Ihren Daten und Dokumenten in Ihrem gesicherten Tenant auf Google Cloudoptimieren.
- Bei Firestore-Server-Clientbibliotheken wird die Identitäts- und Zugriffsverwaltung (IAM) verwendet, um den Zugriff auf Ihre Datenbank zu verwalten. Informationen zur Sicherheit und zum Datenschutz bei Firebase finden Sie unter Datenschutz und Sicherheit in Firebase.
- Zum Speichern vertraulicher Daten können
ingestion_service
-,hitl_app
- undur_app
-Dienstbilder mit vom Kunden verwalteten Verschlüsselungsschlüsseln (CMEK) verschlüsselt oder in Secret Manager eingebunden werden. - Vertex AI implementiert Google Cloud Sicherheitskontrollen, um Ihre Modelle und Trainingsdaten zu schützen. Einige Sicherheitskontrollen werden von den Features der generativen KI in Vertex AI nicht unterstützt. Weitere Informationen finden Sie unter Sicherheitskontrollen für Vertex AI und Sicherheitskontrollen für generative KI.
- Wir empfehlen, IAM zu verwenden, um die Prinzipien der geringsten Berechtigung und der Trennung von Aufgaben für Cloud-Ressourcen zu implementieren. Mit dieser Einstellung kann der Zugriff auf Projekt-, Ordner- oder Datasetebene eingeschränkt werden.
- Cloud Storage speichert Daten automatisch in einem verschlüsselten Zustand. Weitere Informationen zu zusätzlichen Methoden zur Verschlüsselung von Daten finden Sie unter Datenverschlüsselungsoptionen.
Die Produkte von Google entsprechen den Grundsätzen für verantwortungsbewusste KI.
Sicherheitsgrundsätze und Empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Architektur-Framework unter KI und ML: Sicherheit.
Zuverlässigkeit
In diesem Abschnitt werden Designfaktoren beschrieben, die Sie beim Erstellen und Betrieb einer zuverlässigen Infrastruktur zur Automatisierung der Bearbeitung von Anträgen auf Datenleihe berücksichtigen sollten.
Document AI form_processors
ist ein regionaler Dienst. Die Daten werden synchron über mehrere Zonen innerhalb einer Region hinweg gespeichert. Der Traffic wird automatisch auf die Zonen verteilt. Bei einem Zonenausfall gehen keine Daten verloren.1 Wenn ein regionaler Ausfall auftritt, ist der Dienst erst verfügbar, wenn Google den Ausfall behoben hat.
Sie können Cloud Storage-Buckets an einem von drei Speicherorten erstellen: regional, biregional oder multiregional. Verwenden Sie dazu pa_forms_bkt
-, training_forms
-, eval_forms
-, tuning_dataset
-, eval_dataset
-, clinical_docs
- oder um_policies
-Buckets. In regionalen Buckets gespeicherte Daten werden synchron über mehrere Zonen innerhalb einer Region repliziert. Für eine höhere Verfügbarkeit können Sie Buckets mit zwei oder mehr Regionen verwenden, bei denen Daten asynchron über Regionen hinweg repliziert werden.
In Firestore können die aus der pa_form_collection
-Datenbank extrahierten Informationen in mehreren Rechenzentren gespeichert werden, um globale Skalierbarkeit und Zuverlässigkeit zu gewährleisten.
Die Cloud Run-Dienste ingestion_service
, hitl_app
und ur_app
sind regionale Dienste. Die Daten werden synchron über mehrere Zonen innerhalb einer Region hinweg gespeichert. Der Traffic wird automatisch auf die Zonen verteilt. Wenn ein Zonenausfall auftritt, werden Cloud Run-Jobs weiterhin ausgeführt und es gehen keine Daten verloren. Wenn ein regionaler Ausfall auftritt, werden die Cloud Run-Jobs so lange ausgeführt, bis Google den Ausfall behoben hat. Einzelne Cloud Run-Jobs oder -Aufgaben können fehlschlagen. Zur Behebung solcher Fehler können Sie Aufgabenwiederholungen und Prüfpunkte verwenden. Weitere Informationen finden Sie unter Best Practices für Wiederholungsversuche und Prüfpunkte.
In den allgemeinen Entwicklungstipps für Cloud Run werden einige Best Practices für die Verwendung von Cloud Run beschrieben.
Vertex AI ist eine umfassende und nutzerfreundliche Plattform für maschinelles Lernen, die eine einheitliche Umgebung für den gesamten Lebenszyklus des maschinellen Lernens bietet – von der Datenvorbereitung bis zur Modellbereitstellung und -überwachung.
Zuverlässigkeitsprinzipien und -empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Architektur-Framework unter KI und ML: Zuverlässigkeit.
Kostenoptimierung
In diesem Abschnitt finden Sie eine Anleitung zum Optimieren der Kosten für das Erstellen und Ausführen einer Architektur, um die Bearbeitung von Anfragen für Produktbewertungen zu automatisieren und Ihre Prozesse für die Nutzerrezensionen zu verbessern. Eine sorgfältige Verwaltung der Ressourcennutzung und die Auswahl geeigneter Dienstebenen können sich erheblich auf die Gesamtkosten auswirken.
Cloud Storage-Speicherklassen: Verwenden Sie die verschiedenen Speicherklassen (Standard, Nearline, Coldline oder Archiv) je nach Häufigkeit des Datenzugriffs. Nearline, Coldline und Archive sind für Daten, auf die seltener zugegriffen wird, kostengünstiger.
Cloud Storage-Lebenszyklusrichtlinien: Mit Lebenszyklusrichtlinien können Sie Objekte automatisch in kostengünstigere Speicherklassen umstellen oder sie basierend auf Alter und Zugriffsmustern löschen.
Die Preise für Document AI richten sich nach der Anzahl der bereitgestellten Prozessoren und der Anzahl der Seiten, die von den Document AI-Prozessoren verarbeitet werden. Beachten Sie dabei Folgendes:
- Prozessoroptimierung: Anhand von Arbeitslastmustern wird die optimale Anzahl der bereitzustellenden Document AI-Prozessoren ermittelt. Vermeiden Sie eine Überprovisionierung von Ressourcen.
- Verwaltung des Seitenvolumens: Durch die Vorverarbeitung von Dokumenten, um unnötige Seiten zu entfernen oder die Auflösung zu optimieren, können die Verarbeitungskosten gesenkt werden.
Die Preise für Firestore richten sich nach den Aktivitäten im Zusammenhang mit Dokumenten, Indexeinträgen, dem von der Datenbank verwendeten Speicherplatz und der Netzwerkbandbreite. Beachten Sie dabei Folgendes:
- Datenmodellierung: Entwerfen Sie Ihr Datenmodell so, dass die Anzahl der Indexeinträge minimiert und Abfragemuster effizient optimiert werden.
- Netzwerkbandbreite: Überwachen und optimieren Sie die Netzwerknutzung, um unnötige Kosten zu vermeiden. Sie sollten Daten, auf die häufig zugegriffen wird, im Cache speichern.
Die Kosten für Cloud Run werden basierend auf der On-Demand-CPU-Nutzung, dem Arbeitsspeicher und der Anzahl der Anfragen berechnet. Überlegen Sie sich gut, wie Sie die Ressourcen verteilen. CPU- und Arbeitsspeicherressourcen basierend auf den Arbeitslastmerkmalen zuweisen. Mit Autoscaling können Sie Ressourcen dynamisch an die Nachfrage anpassen.
Vertex AI: LLMs werden in der Regel basierend auf der Eingabe und Ausgabe des Texts oder der Medien berechnet. Die Anzahl der Eingabe- und Ausgabetokens wirkt sich direkt auf die LLM-Kosten aus. Optimieren Sie Prompts und die Antwortgenerierung für mehr Effizienz.
Die Kosten für die Vertex AI Agent Builder-Suchmaschine hängen von den verwendeten Funktionen ab. Sie haben drei Möglichkeiten, Ihre Kosten zu verwalten:
- Search Standard Edition, die unstrukturierte Suchfunktionen bietet.
- Search Enterprise Edition, die unstrukturierte Such- und Websitesuchfunktionen bietet.
- LLM-Add-on für die Suche, das Zusammenfassungen und Suchvorgänge in mehreren Schritten ermöglicht.
Beachten Sie außerdem Folgendes, um die Kosten zu optimieren:
- Überwachung und Benachrichtigungen: Richten Sie Cloud Monitoring- und Abrechnungsbenachrichtigungen ein, um die Kosten im Blick zu behalten und Benachrichtigungen zu erhalten, wenn die Nutzung die Grenzwerte überschreitet.
- Kostenberichte: Prüfen Sie regelmäßig die Kostenberichte in der Google Cloud Console, um Trends zu erkennen und die Ressourcennutzung zu optimieren.
- Rabatte für zugesicherte Nutzung in Betracht ziehen: Wenn Sie vorhersehbare Arbeitslasten haben, können Sie sich verpflichten, diese Ressourcen für einen bestimmten Zeitraum zu nutzen, um ermäßigte Preise zu erhalten.
Wenn Sie diese Faktoren sorgfältig berücksichtigen und die empfohlenen Strategien implementieren, können Sie die Kosten für die Ausführung Ihrer PA- und UR-Automatisierungsarchitektur auf Google Cloudeffektiv verwalten und optimieren.
Kostenoptimierungsgrundsätze und -empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Architektur-Framework unter KI und ML: Kostenoptimierung.
Bereitstellung
Der Code der Referenzimplementierung für diese Architektur ist unter einer Open-Source-Lizenz verfügbar. Die Architektur, die dieser Code implementiert, ist ein Prototyp und enthält möglicherweise nicht alle Funktionen und Sicherheitsmaßnahmen, die Sie für eine Produktionsbereitstellung benötigen. Wenn Sie diese Referenzarchitektur implementieren und erweitern möchten, um Ihre Anforderungen besser zu erfüllen, empfehlen wir Ihnen, sich an Google Cloud Consulting zu wenden.
Der Startercode für diese Referenzarchitektur ist in den folgenden Git-Repositories verfügbar:
- CDA-Git-Repository: Dieses Repository enthält Terraform-Bereitstellungsscripts für die Bereitstellung von Infrastruktur und die Bereitstellung von Anwendungscode.
- Git-Repository für den UR-Dienst: Dieses Repository enthält Codebeispiele für den UR-Dienst.
Sie haben zwei Möglichkeiten, Support und Dienste für diese Referenzarchitektur zu implementieren:
- Google Cloud Consulting hinzuziehen
- Wenden Sie sich an einen Partner, der ein Paketangebot erstellt hat, indem er die in dieser Architektur beschriebenen Produkte und Lösungskomponenten verwendet.
Nächste Schritte
- Infrastruktur für eine RAG-fähige generative KI-Anwendung mit Vertex AI und Vector Search erstellen
- Infrastruktur für eine RAG-fähige generative KI-Anwendung mit Vertex AI und AlloyDB for PostgreSQL erstellen
- Infrastruktur für eine RAG-fähige generative KI-Anwendung mit GKE
- Sehen Sie sich die Google Cloud Optionen zur Fundierung von Antworten der generativen KI an.
- Weitere Informationen zum Optimieren von Python-Anwendungen für Cloud Run
- Eine Übersicht über architektonische Prinzipien und Empfehlungen, die speziell für KI- und ML-Arbeitslasten in Google Cloudgelten, finden Sie im Architektur-Framework unter KI und ML.
- Weitere Referenzarchitekturen, Diagramme und Best Practices finden Sie im Cloud-Architekturcenter.
Beitragende
Autor: Dharmesh Patel | Industry Solutions Architect, Healthcare
Weitere Beitragende:
- Ben Swenka | Key Enterprise Architect
- Emily Qiao | KI/ML-Kundenservicemitarbeiter
- Luis Urena | Developer Relations Engineer
- Praney Mittal | Group Product Manager
- Lakshmanan Sethu | Technical Account Manager
-
Weitere Informationen zu regionsspezifischen Aspekten finden Sie unter Geografie und Regionen. ↩