Generative KI für die Auslastungsverwaltung

Last reviewed 2024-08-19 UTC

In diesem Dokument wird eine Referenzarchitektur für Krankenversicherungen beschrieben, die die Verarbeitung von Anträgen auf Vorabgenehmigung automatisieren und ihre Prozesse zur Überprüfung der Nutzung mithilfe von Google Cloudverbessern möchten. Es richtet sich an Softwareentwickler und Programmadministratoren in diesen Organisationen. Diese Architektur hilft Krankenversicherern, den Verwaltungsaufwand zu reduzieren, die Effizienz zu steigern und die Entscheidungsfindung zu verbessern, indem die Datenerfassung und die Extraktion von Informationen aus klinischen Formularen automatisiert werden. Außerdem können sie KI-Modelle für die Prompterstellung und Empfehlungen verwenden.

Architektur

Das folgende Diagramm beschreibt eine Architektur und einen Ansatz zur Automatisierung des Workflows für die Datenaufnahme und zur Optimierung des Prozesses zur Überprüfung der Nutzungsverwaltung (Utilization Management, UM). Bei diesem Ansatz werden Daten- und KI-Dienste in Google Cloudverwendet.

Allgemeine Übersicht über den Prozess der Datenaufnahme und der Überprüfung der Nutzungsbedingungen.

Die obige Architektur enthält zwei Datenflüsse, die von den folgenden Subsystemen unterstützt werden:

  • Claims Data Activator (CDA): Mit dieser Funktion werden Daten aus unstrukturierten Quellen wie Formularen und Dokumenten extrahiert und in einer Datenbank in einem strukturierten, maschinenlesbaren Format erfasst. CDA implementiert den Datenfluss zum Erfassen von Antragsformularen für die Einwilligung der Eltern.
  • Utilization Review Service (UR-Dienst), der Daten zu Anträgen auf Vorabgenehmigung, Richtliniendokumente und andere Pflegeleitlinien integriert, um Empfehlungen zu generieren. Der UR-Dienst implementiert den Datenfluss zur Überprüfung von PA-Anfragen mithilfe von generativer KI.

In den folgenden Abschnitten werden diese Datenflüsse beschrieben.

CDA-Datenfluss

Das folgende Diagramm zeigt den Datenfluss bei der Verwendung von CDA zum Erfassen von Antragsformularen für die Elternaufsicht.

Datenfluss von PA-Kundenservicemitarbeitern.

Wie im vorherigen Diagramm dargestellt, interagiert der PA-Fallmanager mit den Systemkomponenten, um die PA-Anfragen aufzunehmen, zu validieren und zu verarbeiten. Die PA-Fallmanager sind die Personen aus dem Team für Geschäftsabläufe, die für die Bearbeitung der PA-Anfragen zuständig sind. Der Ereignisfluss sieht so aus:

  1. Die PA-Fallmanager erhalten die PA-Antragsformulare (pa_forms) vom Gesundheitsdienstleister und laden sie in den pa_forms_bkt Cloud Storage-Bucket hoch.
  2. Der ingestion_service-Dienst überwacht den pa_forms_bkt-Bucket auf Änderungen. Der Dienst ingestion_service ruft pa_forms-Formulare aus dem Bucket pa_forms_bkt ab. Der Dienst identifiziert die vorkonfigurierten Document AI-Prozessoren, die form_processors heißen. Diese Prozessoren sind für die Verarbeitung der pa_forms-Formulare vorgesehen. Der Dienst ingestion_service extrahiert Informationen aus den Formularen mithilfe der Prozessoren form_processors. Die aus den Formularen extrahierten Daten sind im JSON-Format.
  3. Der ingestion_service-Dienst schreibt die extrahierten Informationen mit Konfidenzwerten auf Feldebene in die Firestore-Datenbanksammlung pa_form_collection.
  4. Die hitl_app-Anwendung ruft die Informationen (JSON) mit Konfidenzwerten aus der pa_form_collection-Datenbank ab. Die Anwendung berechnet den Konfidenzwert auf Dokumentebene aus den Konfidenzwerten auf Feldebene, die in der Ausgabe der form_processors-ML-Modelle (maschinelles Lernen) verfügbar sind.
  5. In der hitl_app-Anwendung werden die extrahierten Informationen mit den Vertrauenswürdigkeitswerten auf Feld- und Dokumentebene für die PA-Fallbearbeiter angezeigt, damit sie die Informationen überprüfen und korrigieren können, wenn die extrahierten Werte ungenau sind. PA-Kundenservicemitarbeiter können die falschen Werte aktualisieren und das Dokument in der pa_form_collection-Datenbank speichern.

Datenfluss des UR-Dienstes

Das folgende Diagramm zeigt den Datenfluss für den UR-Dienst.

Datenfluss für UR-Spezialisten.

Wie im vorherigen Diagramm dargestellt, interagieren die UR-Spezialisten mit den Systemkomponenten, um eine klinische Überprüfung der Anträge auf Vorabgenehmigung durchzuführen. Die Spezialisten für die Überprüfung der Nutzung sind in der Regel Pflegekräfte oder Ärzte mit Erfahrung in einem bestimmten klinischen Bereich, die bei Krankenversicherungen angestellt sind. Der Workflow für die Fallbearbeitung und das Routing von PA-Anfragen fällt nicht in den Workflow, der in diesem Abschnitt beschrieben wird.

Der Ereignisfluss sieht so aus:

  1. In der ur_app-Anwendung wird den UR-Spezialisten eine Liste der Anfragen zur Programmvereinbarung und deren Prüfstatus angezeigt. Der Status wird als in_queue, in_progress oder completed angezeigt.
  2. Die Liste wird erstellt, indem die pa_form information-Daten aus der pa_form_collection-Datenbank abgerufen werden. Der UR-Spezialist öffnet eine Anfrage, indem er in der ur_app-Anwendung auf ein Element in der Liste klickt.
  3. Die ur_app-Anwendung sendet die pa_form information-Daten an das prompt_model-Modell. Dabei wird die Vertex AI Gemini API verwendet, um einen Prompt zu generieren, der in etwa so aussieht:

    Review a PA request for {medication|device|medical service} for our member, {Patient Name}, who is {age} old, {gender} with {medical condition}. The patient is on {current medication|treatment list}, has {symptoms}, and has been diagnosed with {diagnosis}.
    

  4. In der Anwendung ur_app wird der generierte Prompt den UR-Experten zur Überprüfung und für Feedback angezeigt. Spezialisten für die Nutzeranfrage können den Prompt in der Benutzeroberfläche aktualisieren und an die Anwendung senden.

  5. Die ur_app-Anwendung sendet den Prompt an das ur_model-Modell und fordert es auf, eine Empfehlung zu generieren. Das Modell generiert eine Antwort und kehrt zur Anwendung zurück. Die Anwendung zeigt den UR-Spezialisten das empfohlene Ergebnis an.

  6. Die UR-Experten können mit der ur_search_app-Anwendung nach clinical documents, care guidelines und plan policy documents suchen. Die clinical documents, care guidelines und plan policy documents sind vorindexiert und für die ur_search_app-Anwendung zugänglich.

Komponenten

Die Architektur umfasst die folgenden Komponenten:

  • Cloud Storage-Buckets Für UM-Anwendungsdienste sind die folgenden Cloud Storage-Buckets in Ihrem Google Cloud -Projekt erforderlich:

    • pa_forms_bkt: Ein Bucket zum Aufnehmen der PA-Formulare, die genehmigt werden müssen.
    • training_forms: Ein Bucket, in dem historische PA-Formulare zum Trainieren der DocAI-Formularprozessoren gespeichert werden.
    • eval_forms: Ein Bucket, in dem PA-Formulare zum Bewerten der Genauigkeit der DocAI-Formularprozessoren gespeichert werden.
    • tuning_dataset: Ein Bucket für die Daten, die zum Optimieren des Large Language Model (LLM) erforderlich sind.
    • eval_dataset: Ein Bucket, der die für die Bewertung des LLM erforderlichen Daten enthält.
    • clinical_docs: Ein Bucket für die klinischen Dokumente, die die Leistungserbringer als Anhänge zu den PA-Formularen oder später zur Unterstützung des PA-Falls einreichen. Diese Dokumente werden von der Suchanwendung im AI Applications-Dienst indexiert.
    • um_policies: Ein Bucket für Richtlinien zur medizinischen Notwendigkeit und Versorgung, Richtliniendokumente für Krankenversicherungen und Richtlinien zur Deckung. Diese Dokumente werden von der Suchanwendung im AI Applications-Dienst indexiert.
  • form_processors: Diese Prozessoren sind darauf trainiert, Informationen aus den pa_forms-Formularen zu extrahieren.

  • pa_form_collection: Ein Firestore-Datenspeicher zum Speichern der extrahierten Informationen als JSON-Dokumente in der NoSQL-Datenbanksammlung.

  • ingestion_service: Ein Mikrodienst, der die Dokumente aus dem Bucket liest, sie zum Parsen an die DocAI-Endpunkte übergibt und die extrahierten Daten in der Firestore-Datenbanksammlung speichert.

  • hitl_app: Ein Mikrodienst (Webanwendung), der Datenwerte abruft und anzeigt, die aus dem pa_forms extrahiert wurden. Außerdem wird der vom Formularprozessor (ML-Modell) gemeldete Konfidenzwert für den PA-Fallmanager gerendert, damit er die Informationen im Datenspeicher prüfen, korrigieren und speichern kann.

  • ur_app: Ein Mikrodienst (Webanwendung), mit dem UR-Spezialisten die PA-Anfragen mit generativer KI prüfen können. Dazu wird das Modell prompt_model verwendet, um einen Prompt zu generieren. Der Mikrodienst übergibt die aus den pa_forms-Formularen extrahierten Daten an das prompt_model-Modell, um einen Prompt zu generieren. Anschließend wird der generierte Prompt an das ur_model-Modell übergeben, um die Empfehlung für einen Fall zu erhalten.

  • Auf Medizin abgestimmte LLMs für Vertex AI: Vertex AI bietet eine Vielzahl von generativen KI-Foundation Models, die abgestimmt werden können, um Kosten und Latenz zu reduzieren. Die in dieser Architektur verwendeten Modelle sind:

    • prompt_model: Ein Adapter für das LLM, der darauf abgestimmt ist, Prompts basierend auf den aus dem pa_forms extrahierten Daten zu generieren.
    • ur_model: Ein Adapter für das LLM, der so abgestimmt ist, dass er auf Grundlage des Eingabe-Prompts einen Empfehlungsentwurf generiert.
  • ur_search_app: Eine Suchanwendung, die mit AI Applications erstellt wurde, um personalisierte und relevante Informationen für UR-Spezialisten aus klinischen Dokumenten, UM-Richtlinien und Deckungsrichtlinien zu finden.

Verwendete Produkte

In dieser Referenzarchitektur werden die folgenden Google Cloud Produkte verwendet:

  • Vertex AI: Eine ML-Plattform, mit der Sie ML-Modelle und KI-Anwendungen trainieren und bereitstellen und LLMs für die Verwendung in KI-basierten Anwendungen anpassen können.
  • AI Applications: Eine Plattform, mit der Entwickler KI-basierte Agents und Anwendungen für Unternehmen erstellen und bereitstellen können.
  • Document AI: Eine Plattform zur Dokumentverarbeitung, die unstrukturierte Daten aus Dokumenten in strukturierte Daten transformiert.
  • Firestore: Eine NoSQL-Dokumentdatenbank, die auf Autoscaling, hohe Leistung und einfache Anwendungsentwicklung ausgelegt ist.
  • Cloud Run ist eine serverlose Computing-Plattform, mit der Sie Container direkt auf der skalierbaren Infrastruktur von Google ausführen können.
  • Cloud Storage: Ein kostengünstiger, unbegrenzter Objektspeicher für verschiedene Datentypen. Auf Daten kann von innerhalb und außerhalb von Google Cloudzugegriffen werden. Sie werden zu Redundanzzwecken über Standorte hinweg repliziert.
  • Cloud Logging: Ein Echtzeit-Log-Verwaltungssystem mit Speicher, Suche, Analyse und Benachrichtigungen.
  • Cloud Monitoring: Ein Dienst, der Einblicke in die Leistung, Verfügbarkeit und Integrität Ihrer Anwendungen und Infrastruktur bietet.

Anwendungsfall

UM ist ein Prozess, der hauptsächlich von Krankenversicherungen in den USA verwendet wird. Ähnliche Prozesse (mit einigen Änderungen) werden jedoch weltweit auf dem Krankenversicherungsmarkt eingesetzt. Ziel der UM ist es, dafür zu sorgen, dass Patienten die angemessene Versorgung im richtigen Umfeld, zum optimalen Zeitpunkt und zu den niedrigstmöglichen Kosten erhalten. UM trägt auch dazu bei, dass die medizinische Versorgung effektiv, effizient und in Übereinstimmung mit evidenzbasierten Versorgungsstandards erfolgt. Die Vorabgenehmigung ist ein Tool für die Nutzung von Leistungen, das die Genehmigung durch die Versicherungsgesellschaft erfordert, bevor ein Patient medizinisch versorgt wird.

Das Verfahren zur Genehmigung von medizinischen Leistungen, das viele Unternehmen verwenden, ist ein Hindernis für die rechtzeitige Versorgung. Es ist kostspielig, zeitaufwendig und mit zu viel Verwaltungsaufwand verbunden. Außerdem ist es komplex, manuell und langsam. Dieser Prozess hat einen erheblichen Einfluss auf die Fähigkeit des Krankenversicherers, die Qualität der Versorgung effektiv zu verwalten und die Erfahrung von Leistungserbringern und Mitgliedern zu verbessern. Wenn diese Unternehmen jedoch ihren Prozess zur medizinischen Vorabgenehmigung ändern würden, könnten sie dazu beitragen, dass Patienten eine hochwertige, kostengünstige Behandlung erhalten. Durch die Optimierung des Prozesses zur Nutzung von Ressourcen können Krankenversicherungen Kosten und Ablehnungen senken, indem sie Anträge auf Vorabgenehmigung schneller bearbeiten. Dies wiederum kann die Erfahrung von Patienten und Leistungserbringern verbessern. Dieser Ansatz trägt dazu bei, den Verwaltungsaufwand für Gesundheitsdienstleister zu verringern.

Wenn Krankenversicherungen Anfragen für Vorabgenehmigungen erhalten, erstellen die zuständigen Mitarbeiter Fälle im Fallbearbeitungssystem, um die Anfragen zu verfolgen, zu verwalten und zu bearbeiten. Ein Großteil dieser Anfragen wird per Fax und Post mit angehängten klinischen Dokumenten eingereicht. Die Informationen in diesen Formularen und Dokumenten sind für Krankenkassen jedoch nicht leicht zugänglich, um Datenanalysen und Business Intelligence durchzuführen. Der aktuelle Prozess der manuellen Eingabe von Informationen aus diesen Dokumenten in die Fallbearbeitungssysteme ist ineffizient und zeitaufwendig und kann zu Fehlern führen.

Durch die Automatisierung der Datenerfassung können Krankenversicherungen Kosten, Dateneingabefehler und den Verwaltungsaufwand für die Mitarbeiter reduzieren. Durch das Extrahieren wertvoller Informationen aus den klinischen Formularen und Dokumenten können Krankenversicherungen den Prozess der Nutzungsprüfung beschleunigen.

Designaspekte

Dieser Abschnitt enthält eine Anleitung zur Verwendung dieser Referenzarchitektur, um eine oder mehrere Architekturen zu entwickeln, die Ihren spezifischen Anforderungen an Sicherheit, Zuverlässigkeit, operative Effizienz, Kosten und Leistung entsprechen.

Sicherheit, Datenschutz und Compliance

In diesem Abschnitt werden die Faktoren beschrieben, die Sie bei der Verwendung dieser Referenzarchitektur berücksichtigen sollten, um eine Architektur inGoogle Cloud zu entwerfen und zu erstellen, die Ihre Sicherheits-, Datenschutz- und Compliance-Anforderungen erfüllt.

In den USA fordert das US-Gesetz zur Übertragbarkeit von Krankenversicherungen und Verantwortlichkeit von Versicherern (Health Insurance Portability and Accountability Act, HIPAA, in der jeweils gültigen Fassung, inklusive Änderungen durch das HITECH-Gesetz, Health Information Technology for Economic and Clinical Health Act) die Einhaltung der Sicherheitsregeln (Security Rule), der Datenschutzregeln (Privacy Rule) und der Regeln zur Benachrichtigung bei Sicherheitsverletzungen (Breach Notification Rule). Google Cloud unterstützt die HIPAA-Compliance, letztendlich müssen Sie jedoch Ihre HIPAA-Compliance selbstständig beurteilen. Die Einhaltung von HIPAA ist eine gemeinsame Verantwortung von Ihnen und Google. Wenn Ihre Organisation HIPAA unterliegt und Sie Google Cloud-Produkte in Verbindung mit geschützten Gesundheitsdaten (Protected Health Information, PHI) verwenden möchten, müssen Sie die Geschäftspartner-Vereinbarung (Business Associate Agreement, BAA) von Google lesen und akzeptieren. Die der BAA unterliegenden Google-Produkte erfüllen die HIPAA-Anforderungen sowie die ISO/IEC 27001-, 27017- und 27018-Zertifizierungen und entsprechen dem SOC 2-Bericht.

Nicht alle im Vertex AI Model Garden gehosteten LLMs unterstützen HIPAA. HIPAA-konforme LLMs bewerten und verwenden

Anhand der unabhängigen Prüfberichte im Compliance Resource Center können Sie einschätzen, inwieweit die Produkte von Google Ihren Anforderungen in Bezug auf die HIPAA-Compliance gerecht werden.

Wir empfehlen Kunden, bei der Auswahl von KI-Anwendungsfällen Folgendes zu berücksichtigen und das Design entsprechend zu gestalten:

  • Datenschutz: Die Google Cloud Vertex AI-Plattform und Document AI verwenden keine Kundendaten, Datennutzung, Inhalte oder Dokumente, um die Basismodelle zu verbessern oder zu trainieren. Sie können die Foundation Models mit Ihren Daten und Dokumenten in Ihrem sicheren Mandanten auf Google Cloudabstimmen.
  • Firestore-Server-Clientbibliotheken verwenden Identity and Access Management (IAM), um den Zugriff auf Ihre Datenbank zu verwalten. Informationen zu Sicherheit und Datenschutz in Firebase finden Sie unter Datenschutz und Sicherheit in Firebase.
  • Um Ihnen das Speichern vertraulicher Daten zu erleichtern, können ingestion_service-, hitl_app- und ur_app-Dienstbilder mit vom Kunden verwalteten Verschlüsselungsschlüsseln (CMEKs) verschlüsselt oder in Secret Manager eingebunden werden.
  • Vertex AI implementiert Google Cloud Sicherheitskontrollen, um Ihre Modelle und Trainingsdaten zu schützen. Einige Sicherheitskontrollen werden von den Features der generativen KI in Vertex AI nicht unterstützt. Weitere Informationen finden Sie unter Sicherheitskontrollen für Vertex AI und Sicherheitskontrollen für generative KI.
  • Wir empfehlen, IAM zu verwenden, um die Grundsätze der geringsten Berechtigung und der Aufgabentrennung bei Cloud-Ressourcen zu implementieren. Mit dieser Steuerung kann der Zugriff auf Projekt-, Ordner- oder Dataset-Ebene eingeschränkt werden.
  • Cloud Storage speichert Daten automatisch in einem verschlüsselten Zustand. Weitere Informationen zu zusätzlichen Methoden zum Verschlüsseln von Daten finden Sie unter Datenverschlüsselungsoptionen.

Die Produkte von Google folgen den Grundsätzen für verantwortungsbewusste KI.

Sicherheitsgrundsätze und ‑empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Sicherheit.

Zuverlässigkeit

In diesem Abschnitt werden Designfaktoren beschrieben, die Sie beim Erstellen und Betreiben einer zuverlässigen Infrastruktur zur Automatisierung der Verarbeitung von PA-Anfragen berücksichtigen sollten.

Document AI form_processors ist ein regionaler Dienst. Die Daten werden synchron über mehrere Zonen innerhalb einer Region hinweg gespeichert. Der Traffic wird automatisch auf die Zonen verteilt. Wenn ein zonaler Ausfall auftritt, gehen keine Daten verloren.1 Wenn ein regionaler Ausfall auftritt, ist der Dienst erst verfügbar, wenn Google den Ausfall behoben hat.

Sie können Cloud Storage-Buckets an einem von drei Standorten erstellen: regional, biregional oder multiregional. Verwenden Sie dazu pa_forms_bkt-, training_forms-, eval_forms-, tuning_dataset-, eval_dataset-, clinical_docs- oder um_policies-Buckets. In regionalen Buckets gespeicherte Daten werden synchron über mehrere Zonen innerhalb einer Region repliziert. Für eine höhere Verfügbarkeit können Sie Buckets mit zwei oder mehr Regionen verwenden, bei denen Daten asynchron über Regionen hinweg repliziert werden.

In Firestore können die aus der pa_form_collection-Datenbank extrahierten Informationen in mehreren Rechenzentren gespeichert werden, um globale Skalierbarkeit und Zuverlässigkeit zu gewährleisten.

Die Cloud Run-Dienste ingestion_service, hitl_app und ur_app sind regionale Dienste. Die Daten werden synchron über mehrere Zonen innerhalb einer Region hinweg gespeichert. Der Traffic wird automatisch auf die Zonen verteilt. Wenn ein Zonenausfall auftritt, werden Cloud Run-Jobs weiterhin ausgeführt und es gehen keine Daten verloren. Wenn ein regionaler Ausfall auftritt, werden die Cloud Run-Jobs so lange ausgeführt, bis Google den Ausfall behoben hat. Einzelne Cloud Run-Jobs oder -Aufgaben können fehlschlagen. Zur Behebung solcher Fehler können Sie Aufgabenwiederholungen und Prüfpunktausführung verwenden. Weitere Informationen finden Sie unter Best Practices für Wiederholungsversuche und Prüfpunkte. Unter Allgemeine Entwicklungstipps für Cloud Run finden Sie einige Best Practices für die Verwendung von Cloud Run.

Vertex AI ist eine umfassende und benutzerfreundliche Plattform für maschinelles Lernen, die eine einheitliche Umgebung für den gesamten Lebenszyklus des maschinellen Lernens bietet – von der Datenvorbereitung bis zur Bereitstellung und Überwachung von Modellen.

Zuverlässigkeitsprinzipien und ‑empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Zuverlässigkeit.

Kostenoptimierung

In diesem Abschnitt finden Sie eine Anleitung zum Optimieren der Kosten für das Erstellen und Ausführen einer Architektur zur Automatisierung der Verarbeitung von Anfragen zur Elternaufsicht und zur Verbesserung Ihrer Prozesse zur Nutzeranfrage. Wenn Sie die Ressourcennutzung sorgfältig verwalten und geeignete Dienststufen auswählen, können Sie die Gesamtkosten erheblich senken.

Cloud Storage-Speicherklassen: Verwenden Sie die verschiedenen Speicherklassen (Standard, Nearline, Coldline oder Archive) basierend auf der Häufigkeit des Datenzugriffs. Nearline, Coldline und Archive sind kostengünstiger für Daten, auf die seltener zugegriffen wird.

Cloud Storage-Lebenszyklusrichtlinien: Implementieren Sie Lebenszyklusrichtlinien, um Objekte basierend auf Alter und Zugriffsmustern automatisch in kostengünstigere Speicherklassen zu verschieben oder zu löschen.

Die Preise für Document AI richten sich nach der Anzahl der bereitgestellten Prozessoren und der Anzahl der Seiten, die von den Document AI-Prozessoren verarbeitet werden. Berücksichtige Folgendes:

  • Prozessoroptimierung: Arbeitslastmuster analysieren, um die optimale Anzahl der bereitzustellenden Document AI-Prozessoren zu ermitteln. Vermeiden Sie eine Überbereitstellung von Ressourcen.
  • Seitenvolumenverwaltung: Durch die Vorverarbeitung von Dokumenten zum Entfernen unnötiger Seiten oder zum Optimieren der Auflösung können die Verarbeitungskosten gesenkt werden.

Die Preise für Firestore richten sich nach Aktivitäten im Zusammenhang mit Dokumenten, Indexeinträgen, dem von der Datenbank verwendeten Speicher und der Menge der Netzwerkbandbreite. Berücksichtige Folgendes:

  • Datenmodellierung: Entwerfen Sie Ihr Datenmodell so, dass die Anzahl der Indexeinträge minimiert und die Abfragemuster für Effizienz optimiert werden.
  • Netzwerkbandbreite: Überwachen und optimieren Sie die Netzwerknutzung, um zusätzliche Gebühren zu vermeiden. Erwägen Sie, Daten, auf die häufig zugegriffen wird, im Cache zu speichern.

Die Kosten für Cloud Run werden basierend auf der On-Demand-CPU-Nutzung, dem Arbeitsspeicher und der Anzahl der Anfragen berechnet. Überlegen Sie sich genau, wie Sie Ressourcen zuweisen. CPU- und Arbeitsspeicherressourcen basierend auf den Merkmalen der Arbeitslast zuweisen. Mit Autoscaling können Sie Ressourcen dynamisch an die Nachfrage anpassen.

Vertex AI LLMs werden in der Regel basierend auf der Eingabe und Ausgabe von Text oder Medien berechnet. Die Anzahl der Eingabe- und Ausgabetokens wirkt sich direkt auf die Kosten für LLMs aus. Prompts und die Generierung von Antworten für Effizienz optimieren

Die Gebühren für die AI Applications-Suchmaschine hängen von den Funktionen ab, die Sie verwenden. Zur Kostenkontrolle haben Sie drei Optionen:

  • Search Standard Edition, die unstrukturierte Suchfunktionen bietet.
  • Search Enterprise Edition, die Funktionen für die unstrukturierte Suche und die Websitesuche bietet.
  • Das LLM-Add-on für die Suche bietet Funktionen für die Zusammenfassung und die Suche in mehreren Schritten.

Außerdem können Sie die folgenden zusätzlichen Überlegungen berücksichtigen, um die Kosten zu optimieren:

  • Monitoring und Benachrichtigungen: Richten Sie Cloud Monitoring- und Abrechnungsbenachrichtigungen ein, um Kosten zu verfolgen und Benachrichtigungen zu erhalten, wenn die Nutzung die Grenzwerte überschreitet.
  • Kostenberichte: Sehen Sie sich regelmäßig Kostenberichte in derGoogle Cloud -Konsole an, um Trends zu erkennen und die Ressourcennutzung zu optimieren.
  • Rabatte für zugesicherte Nutzung in Betracht ziehen: Wenn Sie vorhersehbare Arbeitslasten haben, sollten Sie in Erwägung ziehen, sich für einen bestimmten Zeitraum zur Nutzung dieser Ressourcen zu verpflichten, um von Rabatten zu profitieren.

Wenn Sie diese Faktoren sorgfältig berücksichtigen und die empfohlenen Strategien implementieren, können Sie die Kosten für den Betrieb Ihrer Architektur für die Automatisierung von PA und UR auf Google Cloudeffektiv verwalten und optimieren.

Kostenoptimierungsgrundsätze und ‑empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Kostenoptimierung.

Bereitstellung

Der Code der Referenzimplementierung für diese Architektur ist unter Open-Source-Lizenzierung verfügbar. Die Architektur, die in diesem Code implementiert wird, ist ein Prototyp und enthält möglicherweise nicht alle Funktionen und Sicherheitsmaßnahmen, die Sie für eine Produktionsbereitstellung benötigen. Wenn Sie diese Referenzarchitektur implementieren und erweitern möchten, um sie besser an Ihre Anforderungen anzupassen, empfehlen wir Ihnen, sich an Google Cloud Consulting zu wenden.

Der Startercode für diese Referenzarchitektur ist in den folgenden Git-Repositories verfügbar:

  • CDA-Git-Repository: Dieses Repository enthält Terraform-Bereitstellungsskripts für die Infrastrukturbereitstellung und die Bereitstellung von Anwendungscode.
  • Git-Repository für den UR-Dienst: Dieses Repository enthält Codebeispiele für den UR-Dienst.

Sie haben zwei Möglichkeiten, Support und Dienste für diese Referenzarchitektur zu implementieren:

Nächste Schritte

Beitragende

Autor: Dharmesh Patel | Industry Solutions Architect, Healthcare

Weitere Beitragende:


  1. Weitere Informationen zu regionsspezifischen Aspekten finden Sie unter Geografie und Regionen.