Generative KI für die Auslastungsverwaltung

Last reviewed 2024-08-19 UTC

In diesem Dokument wird eine Referenzarchitektur für Krankenversicherungen beschrieben, die die Bearbeitung von Anträgen auf vorherige Genehmigung (Prior Authorization, PA) automatisieren und ihre Prozesse zur Leistungsprüfung (Utilization Review, UR) mithilfe von Google Cloudverbessern möchten. Sie richtet sich an Softwareentwickler und Programmadministratoren in diesen Organisationen. Diese Architektur hilft Anbietern von Krankenversicherungen, den Verwaltungsaufwand zu reduzieren, die Effizienz zu steigern und die Entscheidungsfindung zu verbessern, indem die Datenaufnahme und die Gewinnung von Erkenntnissen aus klinischen Formularen automatisiert werden. Außerdem können sie KI-Modelle für die Prompt-Generierung und Empfehlungen verwenden.

Das folgende Diagramm zeigt eine Architektur und einen Ansatz zur Automatisierung des Datenaufnahme-Workflows und zur Optimierung des Überprüfungsprozesses für die Ressourcenverwaltung. Bei diesem Ansatz werden Daten und KI-Dienste in Google Cloudverwendet.

Allgemeine Übersicht über die Datenaufnahme und den UM-Überprüfungsprozess

Die obige Architektur enthält zwei Datenflüsse, die von den folgenden Teilsystemen unterstützt werden:

  • Claims Data Activator (CDA): Hiermit werden Daten aus unstrukturierten Quellen wie Formularen und Dokumenten extrahiert und in einer Datenbank in einem strukturierten, maschinenlesbaren Format aufgenommen. CDA implementiert den Datenfluss für die Aufnahme von Anträgen auf Zugang zu Akten.
  • Utilization Review Service (UR-Dienst), der Daten zu PA-Anfragen, Richtliniendokumente und andere Richtlinien für die Gesundheitsversorgung integriert, um Empfehlungen zu generieren. Der UR-Dienst implementiert den Datenfluss zur Überprüfung von Anträgen auf Entfernung von Inhalten mithilfe generativer KI.

In den folgenden Abschnitten werden diese Datenflüsse beschrieben.

CDA-Datenfluss

Das folgende Diagramm zeigt den Datenfluss bei der Verwendung von CDA zum Aufnehmen von Formularen für Anträge auf Zugang zu Akten.

Datenfluss für PA-Fallmanager

Wie im vorherigen Diagramm dargestellt, interagiert der PA-Fallmanager mit den Systemkomponenten, um die PA-Anfragen aufzunehmen, zu validieren und zu verarbeiten. Die PA-Fallmanager sind die Personen aus dem Business Operations-Team, die für die Bearbeitung der PA-Anfragen verantwortlich sind. Der Ablauf der Ereignisse sieht so aus:

  1. Die Fallmanager für die PA erhalten die PA-Anfrageformulare (pa_forms) vom Gesundheitsdienstleister und laden sie in den Cloud Storage-Bucket pa_forms_bkt hoch.
  2. Der ingestion_service-Dienst überwacht den pa_forms_bkt-Bucket auf Änderungen. Der ingestion_service-Dienst ruft pa_forms-Formulare aus dem pa_forms_bkt-Bucket ab. Der Dienst identifiziert die vorkonfigurierten KI-Prozessoren für Dokumente, die form_processors genannt werden. Diese Prozessoren sind für die Verarbeitung der pa_forms-Formulare definiert. Der ingestion_service-Dienst extrahiert Informationen aus den Formularen mithilfe der form_processors-Prozessoren. Die aus den Formularen extrahierten Daten sind im JSON-Format.
  3. Der ingestion_service-Dienst schreibt die extrahierten Informationen mit Konfidenzwerten auf Feldebene in die Firestore-Datenbanksammlung pa_form_collection.
  4. Die hitl_app-Anwendung ruft die Informationen (JSON) mit den Konfidenzwerten aus der pa_form_collection-Datenbank ab. Die Anwendung berechnet den Konfidenzwert auf Dokumentebene aus den Konfidenzwerten auf Feldebene, die in der Ausgabe durch die form_processors-Modelle für maschinelles Lernen (ML) verfügbar gemacht werden.
  5. In der hitl_app-Anwendung werden den Fallmanagern der PA die extrahierten Informationen mit den Konfidenzwerten auf Feld- und Dokumentebene angezeigt, damit sie die Informationen prüfen und korrigieren können, falls die extrahierten Werte ungenau sind. Fallmanager für die Patientenversorgung können die falschen Werte aktualisieren und das Dokument in der pa_form_collection-Datenbank speichern.

UR-Dienstfluss von Daten

Das folgende Diagramm zeigt den Datenfluss für den UR-Dienst.

UR-Spezialist für den Datenfluss

Wie im vorherigen Diagramm dargestellt, interagieren die UR-Spezialisten mit den Systemkomponenten, um eine klinische Überprüfung der PA-Anfragen durchzuführen. Die UR-Spezialisten sind in der Regel Krankenpfleger oder Ärzte mit Erfahrung in einem bestimmten klinischen Bereich, die bei Krankenversicherungen angestellt sind. Der Workflow für die Fallverwaltung und Weiterleitung von Anfragen zu Preisvergleichsportalen fällt nicht in den Geltungsbereich des in diesem Abschnitt beschriebenen Workflows.

Der Ablauf der Ereignisse sieht so aus:

  1. Die ur_app-Anwendung zeigt den UR-Spezialisten eine Liste der PA-Anfragen und ihren Überprüfungsstatus an. Der Status wird als in_queue, in_progress oder completed angezeigt.
  2. Die Liste wird erstellt, indem die pa_form information-Daten aus der pa_form_collection-Datenbank abgerufen werden. Der UR-Spezialist öffnet eine Anfrage, indem er auf einen Artikel in der Liste klickt, die in der ur_app-Anwendung angezeigt wird.
  3. Die ur_app-Anwendung sendet die pa_form information-Daten an das prompt_model-Modell. Dabei wird die Vertex AI Gemini API verwendet, um einen Prompt zu generieren, der in etwa so aussieht:

    Review a PA request for {medication|device|medical service} for our member, {Patient Name}, who is {age} old, {gender} with {medical condition}. The patient is on {current medication|treatment list}, has {symptoms}, and has been diagnosed with {diagnosis}.
    

  4. Die ur_app-Anwendung zeigt den generierten Prompt den UR-Spezialisten zur Überprüfung und zum Feedback an. UR-Spezialisten können den Prompt in der Benutzeroberfläche aktualisieren und an die Anwendung senden.

  5. Die ur_app-Anwendung sendet den Prompt mit der Anfrage, eine Empfehlung zu generieren, an das ur_model-Modell. Das Modell generiert eine Antwort und kehrt zur Anwendung zurück. Die Anwendung zeigt den empfohlenen Ausgang den UR-Spezialisten an.

  6. Die UR-Spezialisten können mit der ur_search_app-Anwendung nach clinical documents, care guidelines und plan policy documents suchen. clinical documents, care guidelines und plan policy documents sind vorab indexiert und für die ur_search_app-Anwendung zugänglich.

Komponenten

Die Architektur umfasst die folgenden Komponenten:

  • Cloud Storage-Buckets Für UM-Anwendungsdienste sind die folgenden Cloud Storage-Buckets in Ihrem Google Cloud Projekt erforderlich:

    • pa_forms_bkt: Ein Bucket zum Aufnehmen der PA-Formulare, die genehmigt werden müssen.
    • training_forms: Ein Bucket für bisherige PA-Formulare zum Trainieren der DocAI-Formularprozessoren.
    • eval_forms: Ein Bucket für PA-Formulare zur Bewertung der Genauigkeit der DocAI-Formularprozessoren.
    • tuning_dataset: Ein Bucket für die Daten, die zum Optimieren des Large Language Model (LLM) erforderlich sind.
    • eval_dataset: Ein Bucket für die Daten, die für die Bewertung des LLM erforderlich sind.
    • clinical_docs: Ein Bucket für die klinischen Dokumente, die die Leistungserbringer als Anhang zu den PA-Formularen einreichen oder später zur Unterstützung des PA-Falls einreichen. Diese Dokumente werden von der Suchanwendung im Vertex AI Agent Builder-Dienst indexiert.
    • um_policies: Ein Bucket für Richtlinien zur medizinischen Notwendigkeit und Versorgung, Dokumente zu den Richtlinien des Krankenversicherungsprogramms und Abdeckungsrichtlinien. Diese Dokumente werden von der Suchanwendung im Vertex AI Agent Builder-Dienst indexiert.
  • form_processors: Diese Verarbeitungsprogramme sind darauf trainiert, Informationen aus den pa_forms-Formularen zu extrahieren.

  • pa_form_collection: Ein Firestore-Datenspeicher, in dem die extrahierten Informationen als JSON-Dokumente in der NoSQL-Datenbanksammlung gespeichert werden.

  • ingestion_service: Ein Mikrodienst, der die Dokumente aus dem Bucket liest, sie zum Parsen an die DocAI-Endpunkte weitergibt und die extrahierten Daten in der Firestore-Datenbanksammlung speichert.

  • hitl_app: Ein Mikrodienst (Webanwendung), der Datenwerte abholt und anzeigt, die aus der pa_forms extrahiert wurden. Außerdem wird der vom Formularprozessor (ML-Modell) an den Fallmanager der Kundenserviceabteilung gesendete Wert für die Wahrscheinlichkeit gerendert, damit dieser die Informationen prüfen, korrigieren und im Datenspeicher speichern kann.

  • ur_app: Ein Mikrodienst (Webanwendung), mit dem UR-Spezialisten PA-Anfragen mithilfe von generativer KI überprüfen können. Dabei wird das Modell prompt_model verwendet, um einen Prompt zu generieren. Der Mikrodienst gibt die aus den pa_forms-Formularen extrahierten Daten an das prompt_model-Modell weiter, um einen Prompt zu generieren. Anschließend wird der generierte Prompt an das ur_model-Modell übergeben, um eine Empfehlung für einen Fall zu erhalten.

  • Medizinisch abgestimmte LLMs von Vertex AI: Vertex AI bietet eine Vielzahl von generativen KI-Foundation Models, die angepasst werden können, um Kosten und Latenz zu senken. In dieser Architektur werden die folgenden Modelle verwendet:

    • prompt_model: Ein Adapter im LLM, der so abgestimmt ist, dass Prompts basierend auf den aus dem pa_forms extrahierten Daten generiert werden.
    • ur_model: Ein Adapter im LLM, der so abgestimmt ist, dass er anhand des Eingabeprompts einen Empfehlungsentwurf generiert.
  • ur_search_app: Eine Suchanwendung, die mit Vertex AI Agent Builder erstellt wurde, um personalisierte und relevante Informationen für UR-Spezialisten aus klinischen Dokumenten, UM-Richtlinien und Abdeckungsrichtlinien zu finden.

Verwendete Produkte

In dieser Referenzarchitektur werden die folgenden Google Cloud Produkte verwendet:

  • Vertex AI: Eine ML-Plattform, mit der Sie ML-Modelle und KI-Anwendungen trainieren und bereitstellen und LLMs für die Verwendung in KI-basierten Anwendungen anpassen können.
  • Vertex AI Agent Builder: Eine Plattform, mit der Entwickler KI-basierte Agenten und Anwendungen für Unternehmen erstellen und bereitstellen können.
  • Document AI: Eine Plattform zur Dokumentverarbeitung, die unstrukturierte Daten aus Dokumenten in strukturierte Daten transformiert.
  • Firestore: Eine NoSQL-Dokumentdatenbank, die auf Autoscaling, hohe Leistung und einfache Anwendungsentwicklung ausgelegt ist.
  • Cloud Run ist eine serverlose Computing-Plattform, mit der Sie Container direkt auf der skalierbaren Infrastruktur von Google ausführen können.
  • Cloud Storage: Ein kostengünstiger, unbegrenzter Objektspeicher für verschiedene Datentypen. Auf Daten kann von innerhalb und außerhalb von Google Cloudzugegriffen werden. Sie werden zu Redundanzzwecken über Standorte hinweg repliziert.
  • Cloud Logging: Ein Echtzeit-Log-Verwaltungssystem mit Speicher, Suche, Analyse und Benachrichtigungen.
  • Cloud Monitoring: Ein Dienst, der Einblicke in die Leistung, Verfügbarkeit und Integrität Ihrer Anwendungen und Infrastruktur bietet.

Anwendungsfall

UM ist ein Prozess, der hauptsächlich von Krankenkassen in den USA verwendet wird. Ähnliche Prozesse (mit einigen Modifikationen) werden jedoch weltweit auf dem Markt für Krankenversicherungen eingesetzt. Das Ziel der UM besteht darin, dafür zu sorgen, dass Patienten die richtige Versorgung in der richtigen Umgebung, zum optimalen Zeitpunkt und zu den niedrigsten Kosten erhalten. UM trägt auch dazu bei, dass die medizinische Versorgung effektiv, effizient und im Einklang mit evidenzbasierten Standards der Versorgung ist. PA ist ein UM-Tool, für das die Genehmigung der Versicherung erforderlich ist, bevor ein Patient ärztliche Versorgung erhält.

Das UM-Verfahren, das viele Unternehmen nutzen, ist ein Hindernis für die zeitnahe Bereitstellung und Inanspruchnahme von Pflege. Es ist teuer, zeitaufwendig und erfordert viel Verwaltungsaufwand. Außerdem ist sie komplex, manuell und langsam. Dieser Prozess wirkt sich erheblich auf die Fähigkeit des Krankenversicherungsträgers aus, die Qualität der Versorgung effektiv zu verwalten und die Nutzerfreundlichkeit für Anbieter und Mitglieder zu verbessern. Wenn diese Unternehmen jedoch ihren UM-Prozess ändern würden, könnten sie dazu beitragen, dass Patienten eine qualitativ hochwertige und kostengünstige Behandlung erhalten. Durch die Optimierung des UR-Prozesses können Krankenkassen Kosten und Ablehnungen durch eine beschleunigte Bearbeitung von PA-Anträgen senken, was wiederum die Zufriedenheit von Patienten und Leistungserbringern verbessern kann. Dieser Ansatz trägt dazu bei, den Verwaltungsaufwand für Gesundheitsdienstleister zu reduzieren.

Wenn Krankenversicherungen Anfragen für die Vorabautorisierung erhalten, erstellen die Fallmanager für die Vorabautorisierung Fälle im Fallmanagementsystem, um die Anfragen zu verfolgen, zu verwalten und zu verarbeiten. Ein Großteil dieser Anträge wird per Fax und Post mit angehängten klinischen Dokumenten eingereicht. Die Informationen in diesen Formularen und Dokumenten sind für Krankenkassen jedoch nicht leicht zugänglich, um sie für Datenanalysen und Business Intelligence zu nutzen. Das aktuelle Verfahren, Informationen aus diesen Dokumenten manuell in die Fallverwaltungssysteme einzugeben, ist ineffizient und zeitaufwendig und kann zu Fehlern führen.

Durch die Automatisierung des Datenaufnahmeprozesses können Krankenkassen Kosten, Dateneingabefehler und den Verwaltungsaufwand für das Personal reduzieren. Durch das Extrahieren wertvoller Informationen aus den klinischen Formularen und Dokumenten können Krankenversicherungen den Prozess der Kostenübernahme beschleunigen.

Designaspekte

Dieser Abschnitt enthält eine Anleitung zur Verwendung dieser Referenzarchitektur, um eine oder mehrere Architekturen zu entwickeln, die Ihnen helfen, Ihre spezifischen Anforderungen an Sicherheit, Zuverlässigkeit, operative Effizienz, Kosten und Leistung zu erfüllen.

Sicherheit, Datenschutz und Compliance

In diesem Abschnitt werden die Faktoren beschrieben, die Sie bei der Verwendung dieser Referenzarchitektur berücksichtigen sollten, um eine Architektur inGoogle Cloud zu entwerfen und zu erstellen, die Ihnen hilft, Ihre Sicherheits-, Datenschutz- und Compliance-Anforderungen zu erfüllen.

In den USA verlangt das US-Gesetz zur Übertragbarkeit von Krankenversicherungen und Verantwortlichkeit von Versicherern (Health Insurance Portability and Accountability Act, HIPAA, in der jeweils gültigen Fassung, inklusive Änderungen durch das HITECH-Gesetz, Health Information Technology for Economic and Clinical Health Act) die Einhaltung der Sicherheitsregeln (Security Rule), der Datenschutzregeln (Privacy Rule) und der Regeln zur Benachrichtigung bei Sicherheitsverletzungen (Breach Notification Rule). Google Cloud unterstützt die HIPAA-Compliance, letztendlich sind Sie jedoch selbst dafür verantwortlich, Ihre HIPAA-Compliance zu bewerten. Die Einhaltung von HIPAA ist eine gemeinsame Verantwortung von Ihnen und Google. Wenn Ihre Organisation HIPAA unterliegt und Sie Google Cloud-Produkte in Verbindung mit geschützten Gesundheitsdaten (Protected Health Information, PHI) verwenden möchten, müssen Sie die Geschäftspartner-Vereinbarung (Business Associate Agreement, BAA) von Google lesen und akzeptieren. Die der BAA unterliegenden Google-Produkte erfüllen die HIPAA-Anforderungen und entsprechen unseren Zertifizierungen nach ISO/IEC 27001, 27017 und 27018 sowie unserem SOC 2-Bericht.

Nicht alle im Vertex AI Model Garden gehosteten LLMs unterstützen HIPAA. LLMs bewerten und verwenden, die HIPAA unterstützen

Anhand der Berichte zu externen Audits im Compliance-Ressourcencenter können Sie einschätzen, inwieweit die Produkte von Google Ihren Anforderungen in Bezug auf die HIPAA-Compliance gerecht werden.

Wir empfehlen Kunden, bei der Auswahl von KI-Anwendungsfällen Folgendes zu berücksichtigen und ihr Design entsprechend zu gestalten:

  • Datenschutz: Die Google Cloud Vertex AI-Plattform und Document AI verwenden keine Kundendaten, Datennutzung, Inhalte oder Dokumente, um die Grundlagenmodelle zu verbessern oder zu trainieren. Sie können die Grundlagenmodelle mit Ihren Daten und Dokumenten in Ihrem gesicherten Tenant auf Google Cloudoptimieren.
  • Bei Firestore-Server-Clientbibliotheken wird die Identitäts- und Zugriffsverwaltung (IAM) verwendet, um den Zugriff auf Ihre Datenbank zu verwalten. Informationen zur Sicherheit und zum Datenschutz bei Firebase finden Sie unter Datenschutz und Sicherheit in Firebase.
  • Zum Speichern vertraulicher Daten können ingestion_service-, hitl_app- und ur_app-Dienstbilder mit vom Kunden verwalteten Verschlüsselungsschlüsseln (CMEK) verschlüsselt oder in Secret Manager eingebunden werden.
  • Vertex AI implementiert Google Cloud Sicherheitskontrollen, um Ihre Modelle und Trainingsdaten zu schützen. Einige Sicherheitskontrollen werden von den Features der generativen KI in Vertex AI nicht unterstützt. Weitere Informationen finden Sie unter Sicherheitskontrollen für Vertex AI und Sicherheitskontrollen für generative KI.
  • Wir empfehlen, IAM zu verwenden, um die Prinzipien der geringsten Berechtigung und der Trennung von Aufgaben für Cloud-Ressourcen zu implementieren. Mit dieser Einstellung kann der Zugriff auf Projekt-, Ordner- oder Datasetebene eingeschränkt werden.
  • Cloud Storage speichert Daten automatisch in einem verschlüsselten Zustand. Weitere Informationen zu zusätzlichen Methoden zur Verschlüsselung von Daten finden Sie unter Datenverschlüsselungsoptionen.

Die Produkte von Google entsprechen den Grundsätzen für verantwortungsbewusste KI.

Sicherheitsgrundsätze und Empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Architektur-Framework unter KI und ML: Sicherheit.

Zuverlässigkeit

In diesem Abschnitt werden Designfaktoren beschrieben, die Sie beim Erstellen und Betrieb einer zuverlässigen Infrastruktur zur Automatisierung der Bearbeitung von Anträgen auf Datenleihe berücksichtigen sollten.

Document AI form_processors ist ein regionaler Dienst. Die Daten werden synchron über mehrere Zonen innerhalb einer Region hinweg gespeichert. Der Traffic wird automatisch auf die Zonen verteilt. Bei einem Zonenausfall gehen keine Daten verloren.1 Wenn ein regionaler Ausfall auftritt, ist der Dienst erst verfügbar, wenn Google den Ausfall behoben hat.

Sie können Cloud Storage-Buckets an einem von drei Speicherorten erstellen: regional, biregional oder multiregional. Verwenden Sie dazu pa_forms_bkt-, training_forms-, eval_forms-, tuning_dataset-, eval_dataset-, clinical_docs- oder um_policies-Buckets. In regionalen Buckets gespeicherte Daten werden synchron über mehrere Zonen innerhalb einer Region repliziert. Für eine höhere Verfügbarkeit können Sie Buckets mit zwei oder mehr Regionen verwenden, bei denen Daten asynchron über Regionen hinweg repliziert werden.

In Firestore können die aus der pa_form_collection-Datenbank extrahierten Informationen in mehreren Rechenzentren gespeichert werden, um globale Skalierbarkeit und Zuverlässigkeit zu gewährleisten.

Die Cloud Run-Dienste ingestion_service, hitl_app und ur_app sind regionale Dienste. Die Daten werden synchron über mehrere Zonen innerhalb einer Region hinweg gespeichert. Der Traffic wird automatisch auf die Zonen verteilt. Wenn ein Zonenausfall auftritt, werden Cloud Run-Jobs weiterhin ausgeführt und es gehen keine Daten verloren. Wenn ein regionaler Ausfall auftritt, werden die Cloud Run-Jobs so lange ausgeführt, bis Google den Ausfall behoben hat. Einzelne Cloud Run-Jobs oder -Aufgaben können fehlschlagen. Zur Behebung solcher Fehler können Sie Aufgabenwiederholungen und Prüfpunkte verwenden. Weitere Informationen finden Sie unter Best Practices für Wiederholungsversuche und Prüfpunkte. In den allgemeinen Entwicklungstipps für Cloud Run werden einige Best Practices für die Verwendung von Cloud Run beschrieben.

Vertex AI ist eine umfassende und nutzerfreundliche Plattform für maschinelles Lernen, die eine einheitliche Umgebung für den gesamten Lebenszyklus des maschinellen Lernens bietet – von der Datenvorbereitung bis zur Modellbereitstellung und -überwachung.

Zuverlässigkeitsprinzipien und -empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Architektur-Framework unter KI und ML: Zuverlässigkeit.

Kostenoptimierung

In diesem Abschnitt finden Sie eine Anleitung zum Optimieren der Kosten für das Erstellen und Ausführen einer Architektur, um die Bearbeitung von Anfragen für Produktbewertungen zu automatisieren und Ihre Prozesse für die Nutzerrezensionen zu verbessern. Eine sorgfältige Verwaltung der Ressourcennutzung und die Auswahl geeigneter Dienstebenen können sich erheblich auf die Gesamtkosten auswirken.

Cloud Storage-Speicherklassen: Verwenden Sie die verschiedenen Speicherklassen (Standard, Nearline, Coldline oder Archiv) je nach Häufigkeit des Datenzugriffs. Nearline, Coldline und Archive sind für Daten, auf die seltener zugegriffen wird, kostengünstiger.

Cloud Storage-Lebenszyklusrichtlinien: Mit Lebenszyklusrichtlinien können Sie Objekte automatisch in kostengünstigere Speicherklassen umstellen oder sie basierend auf Alter und Zugriffsmustern löschen.

Die Preise für Document AI richten sich nach der Anzahl der bereitgestellten Prozessoren und der Anzahl der Seiten, die von den Document AI-Prozessoren verarbeitet werden. Beachten Sie dabei Folgendes:

  • Prozessoroptimierung: Anhand von Arbeitslastmustern wird die optimale Anzahl der bereitzustellenden Document AI-Prozessoren ermittelt. Vermeiden Sie eine Überprovisionierung von Ressourcen.
  • Verwaltung des Seitenvolumens: Durch die Vorverarbeitung von Dokumenten, um unnötige Seiten zu entfernen oder die Auflösung zu optimieren, können die Verarbeitungskosten gesenkt werden.

Die Preise für Firestore richten sich nach den Aktivitäten im Zusammenhang mit Dokumenten, Indexeinträgen, dem von der Datenbank verwendeten Speicherplatz und der Netzwerkbandbreite. Beachten Sie dabei Folgendes:

  • Datenmodellierung: Entwerfen Sie Ihr Datenmodell so, dass die Anzahl der Indexeinträge minimiert und Abfragemuster effizient optimiert werden.
  • Netzwerkbandbreite: Überwachen und optimieren Sie die Netzwerknutzung, um unnötige Kosten zu vermeiden. Sie sollten Daten, auf die häufig zugegriffen wird, im Cache speichern.

Die Kosten für Cloud Run werden basierend auf der On-Demand-CPU-Nutzung, dem Arbeitsspeicher und der Anzahl der Anfragen berechnet. Überlegen Sie sich gut, wie Sie die Ressourcen verteilen. CPU- und Arbeitsspeicherressourcen basierend auf den Arbeitslastmerkmalen zuweisen. Mit Autoscaling können Sie Ressourcen dynamisch an die Nachfrage anpassen.

Vertex AI: LLMs werden in der Regel basierend auf der Eingabe und Ausgabe des Texts oder der Medien berechnet. Die Anzahl der Eingabe- und Ausgabetokens wirkt sich direkt auf die LLM-Kosten aus. Optimieren Sie Prompts und die Antwortgenerierung für mehr Effizienz.

Die Kosten für die Vertex AI Agent Builder-Suchmaschine hängen von den verwendeten Funktionen ab. Sie haben drei Möglichkeiten, Ihre Kosten zu verwalten:

  • Search Standard Edition, die unstrukturierte Suchfunktionen bietet.
  • Search Enterprise Edition, die unstrukturierte Such- und Websitesuchfunktionen bietet.
  • LLM-Add-on für die Suche, das Zusammenfassungen und Suchvorgänge in mehreren Schritten ermöglicht.

Beachten Sie außerdem Folgendes, um die Kosten zu optimieren:

  • Überwachung und Benachrichtigungen: Richten Sie Cloud Monitoring- und Abrechnungsbenachrichtigungen ein, um die Kosten im Blick zu behalten und Benachrichtigungen zu erhalten, wenn die Nutzung die Grenzwerte überschreitet.
  • Kostenberichte: Prüfen Sie regelmäßig die Kostenberichte in der Google Cloud Console, um Trends zu erkennen und die Ressourcennutzung zu optimieren.
  • Rabatte für zugesicherte Nutzung in Betracht ziehen: Wenn Sie vorhersehbare Arbeitslasten haben, können Sie sich verpflichten, diese Ressourcen für einen bestimmten Zeitraum zu nutzen, um ermäßigte Preise zu erhalten.

Wenn Sie diese Faktoren sorgfältig berücksichtigen und die empfohlenen Strategien implementieren, können Sie die Kosten für die Ausführung Ihrer PA- und UR-Automatisierungsarchitektur auf Google Cloudeffektiv verwalten und optimieren.

Kostenoptimierungsgrundsätze und -empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Architektur-Framework unter KI und ML: Kostenoptimierung.

Bereitstellung

Der Code der Referenzimplementierung für diese Architektur ist unter einer Open-Source-Lizenz verfügbar. Die Architektur, die dieser Code implementiert, ist ein Prototyp und enthält möglicherweise nicht alle Funktionen und Sicherheitsmaßnahmen, die Sie für eine Produktionsbereitstellung benötigen. Wenn Sie diese Referenzarchitektur implementieren und erweitern möchten, um Ihre Anforderungen besser zu erfüllen, empfehlen wir Ihnen, sich an Google Cloud Consulting zu wenden.

Der Startercode für diese Referenzarchitektur ist in den folgenden Git-Repositories verfügbar:

  • CDA-Git-Repository: Dieses Repository enthält Terraform-Bereitstellungsscripts für die Bereitstellung von Infrastruktur und die Bereitstellung von Anwendungscode.
  • Git-Repository für den UR-Dienst: Dieses Repository enthält Codebeispiele für den UR-Dienst.

Sie haben zwei Möglichkeiten, Support und Dienste für diese Referenzarchitektur zu implementieren:

Nächste Schritte

Beitragende

Autor: Dharmesh Patel | Industry Solutions Architect, Healthcare

Weitere Beitragende:


  1. Weitere Informationen zu regionsspezifischen Aspekten finden Sie unter Geografie und Regionen.