Modelle für generative KI und maschinelles Lernen in einem Unternehmen erstellen und bereitstellen

Last reviewed 2024-03-28 UTC

Modelle für generative KI und maschinelles Lernen (ML) werden in den Geschäftsaktivitäten und Geschäftsprozessen von Unternehmen immer häufiger verwendet. Unternehmen benötigen daher immer mehr Anleitungen bei der Modellentwicklung, um Konsistenz, Wiederholbarkeit, Sicherheit und Schutz zu gewährleisten. Zur Unterstützung großer Unternehmen beim Erstellen und Bereitstellen von Modellen für generative KI und ML haben wir den Blueprint für generative KI und maschinelles Lernen für Unternehmen erstellt. Dieser Blueprint bietet einen umfassenden Leitfaden für den gesamten Lebenszyklus der KI-Entwicklung, von der explorativen Datenanalyse und Experimentierung über das Modelltraining, die Bereitstellung und Überwachung.

Der Blueprint für generative KI und ML für Unternehmen bietet viele Vorteile, darunter:

  • Präskriptive Anleitung: Klare Anleitung zum Erstellen, Konfigurieren und Bereitstellen einer Entwicklungsumgebung für generative KI und ML auf der Grundlage von Vertex AI. Mit Vertex AI können Sie eigene Modelle entwickeln.
  • Erhöhte Effizienz: Umfassende Automatisierung zur Reduzierung des Aufwands bei der Bereitstellung von Infrastruktur und der Entwicklung von Modellen für generative KI und ML. Mit Automatisierung können Sie sich auf wertschöpfende Aufgaben wie Modelldesign und Tests konzentrieren.
  • Erweiterte Governance und Nachvollziehbarkeit: Reproduzierbarkeit, Nachverfolgbarkeit und kontrollierte Bereitstellung von Modellen sind in das Design dieses Blueprints eingebunden. Mit diesem Vorteil können Sie den Lebenszyklus Ihres Modells für generative KI und ML besser verwalten und Modelle mit klaren Audit-Trails konsistent neu trainieren und bewerten.
  • Sicherheit: Der Blueprint ist so konzipiert, dass er den Anforderungen des NIST-Frameworks (National Institute of Standards and Technology) und des CRI-Frameworks (Cyber Risk Institute) entspricht:

Der Blueprint für generative KI und ML für Unternehmen enthält Folgendes:

  • Ein GitHub-Repository, das eine Reihe von Terraform-Konfigurationen, ein Jupyter-Notebook, eine Vertex AI Pipelines-Definition, einen gerichteten azyklischen Graphen (Directed Acyclic Graph, DAG) für Cloud Composer und Zusatzskripts enthält. Die Komponenten im Repository erfüllen folgende Aufgaben:
    • Mit der Terraform-Konfiguration wird eine Vertex AI-Plattform für die Modellentwicklung eingerichtet, die mehrere Entwicklungsteams unterstützen kann.
    • Mit dem Jupyter-Notebook können Sie ein Modell interaktiv entwickeln.
    • Die Vertex AI Pipelines-Definition übersetzt das Jupyter-Notebook in ein reproduzierbares Muster, das für Produktionsumgebungen verwendet werden kann.
    • Der Cloud Composer-DAG bietet eine alternative Methode zu Vertex AI Pipelines.
    • Die zusätzlichen Scripts unterstützen das Bereitstellen des Terraform-Codes und der Pipelines.
  • Einer Anleitung zu den Architektur-, Design-, Sicherheitskontrollen und Betriebsprozessen, die Sie mit diesem Blueprint implementieren (dieses Dokument).

Der Blueprint für generative KI und ML für Unternehmen ist so konzipiert, dass er mit dem Blueprint zu Unternehmensgrundlagen kompatibel ist. Der Blueprint zu den Unternehmensgrundlagen bietet eine Reihe von Diensten auf Basisebene, auf die dieser Blueprint basiert, z. B. VPC-Netzwerke. Sie können den Blueprint für generative KI und ML für Unternehmen bereitstellen, ohne den Unternehmensgrundlagen-Blueprint bereitzustellen, wenn Ihre Google Cloud-Umgebung die erforderlichen Funktionen zur Unterstützung des Blueprints für generative KI und ML für Unternehmen bietet.

Dieses Dokument richtet sich an Cloud-Architekten, Data Scientists und Data Engineers, die mit dem Blueprint neue Modelle für generative KI und ML in Google Cloud erstellen und bereitstellen können. In diesem Dokument wird davon ausgegangen, dass Sie mit der Modellentwicklung für generative KI und ML und der Vertex AI-ML-Plattform vertraut sind.

Einen Überblick über die Prinzipien und Empfehlungen, die speziell für KI- und ML-Arbeitslasten in Google Cloud gelten, finden Sie im Architektur-Framework unter KI und ML.

Übersicht über Blueprint für generative KI und ML für Unternehmen

Der Blueprint für generative KI und ML für Unternehmen verwendet einen mehrstufigen Ansatz, um die Funktionen bereitzustellen, die das Training von Modellen für generative KI und ML ermöglichen. Der Blueprint soll über einen MLOps-Workflow bereitgestellt und gesteuert werden. Das folgende Diagramm zeigt, wie die mit diesem Blueprint bereitgestellte MLOps-Ebene sich auf andere Ebenen in Ihrer Umgebung bezieht.

Die Blueprint-Ebenen.

Dieses Diagramm enthält Folgendes:

  • Die Google Cloud-Infrastruktur bietet Ihnen Sicherheitsfunktionen wie:Verschlüsselung inaktiver Daten undVerschlüsselung während der Übertragung sowie Grundbausteine wie Computing und Speicher.
  • Die Unternehmensgrundlage bietet Ihnen eine Reihe von Ressourcen wie Identitäts-, Netzwerk-, Logging-, Monitoring- und Bereitstellungssysteme, mit denen Sie Google Cloud für Ihre KI-Arbeitslasten nutzen können.
  • Die Datenschicht ist eine optionale Ebene im Entwicklungspaket, die Ihnen verschiedene Funktionen wie Datenaufnahme, Datenspeicherung, Datenzugriffssteuerung und Data Governance, Datenmonitoring und Datenfreigabe bietet.
  • Mit der Ebene für generative KI und ML (dieser Blueprint) können Sie Modelle erstellen und bereitstellen. Sie können diese Ebene für die explorative Datenanalyse und Experimente, das Modelltraining, die Modellbereitstellung und die Überwachung verwenden.
  • Mit CI/CD haben Sie die Möglichkeit, die Bereitstellung, Konfiguration, Verwaltung und Bereitstellung von Infrastruktur, Workflows und Softwarekomponenten zu automatisieren. Mit diesen Komponenten sorgen Sie für konsistente, zuverlässige und überprüfbare Bereitstellungen und können manuelle Fehler minimieren und den gesamten Entwicklungszyklus beschleunigen.

Der Blueprint enthält ein Beispiel für eine ML-Modellentwicklung, um zu zeigen, wie die Umgebung der generativen KI und ML verwendet wird. In der Beispielentwicklung eines Modells erfahren Sie, wie Sie ein Modell erstellen, Betriebspipelines erstellen, das Modell trainieren, das Modell testen und das Modell bereitstellen.

Architektur

Mit dem Blueprint für generative KI und ML für Unternehmen können Sie direkt mit Daten arbeiten. Sie können Modelle in einer interaktiven Entwicklungsumgebung erstellen und die Modelle in eine Betriebsumgebung (Produktion oder Nicht-Produktion) hochstufen.

In der interaktiven Umgebung entwickeln Sie ML-Modelle mit Vertex AI Workbench, einem von Google verwalteten Jupyter-Notebook-Dienst. Sie erstellen Funktionen zur Datenextraktion, Datentransformation und Modelloptimierung in der interaktiven Umgebung und stellen sie in der Betriebsumgebung bereit.

In der Betriebsumgebung (nicht Produktionsumgebung) verwenden Sie Pipelines, um Modelle auf wiederholbare und steuerbare Weise zu erstellen und zu testen. Wenn Sie mit der Leistung des Modells zufrieden sind, können Sie es in der Betriebsumgebung (Produktionsumgebung) bereitstellen. Das folgende Diagramm zeigt die verschiedenen Komponenten der interaktiven und der Produktionsumgebung.

Die Blueprint-Architektur.

Dieses Diagramm enthält Folgendes:

  1. Bereitstellungssysteme: Dienste wie Service Catalog und Cloud Build stellen Google Cloud-Ressourcen in der interaktiven Umgebung bereit. Cloud Build stellt außerdem Google Cloud-Ressourcen und Workflows zum Erstellen von Modellen in der Betriebsumgebung bereit.
  2. Datenquellen: Dienste wie BigQuery, Cloud Storage, Spanner und AlloyDB for PostgreSQL hosten Ihre Daten. Der Blueprint enthält Beispieldaten in BigQuery und Cloud Storage.
  3. Interaktive Umgebung: Eine Umgebung, in der Sie direkt mit Daten interagieren, Modelle testen und Pipelines für die Verwendung in der Betriebsumgebung erstellen können.
  4. Betriebsumgebung: Eine Umgebung, in der Sie Ihre Modelle wiederholbar erstellen und testen und dann in der Produktion bereitstellen können.
  5. Modelldienste:Die folgenden Dienste unterstützen verschiedene MLOps-Aktivitäten:
  6. Artefaktspeicher: Diese Dienste speichern den Code und die Container für Ihre Modellentwicklung und -pipelines. Dazu gehören:
    • In Artifact Registry werden Container gespeichert, die von Pipelines in der Betriebsumgebung verwendet werden, um die verschiedenen Phasen der Modellentwicklung zu steuern.
    • Im Git-Repository wird der Codebasis der verschiedenen Komponenten gespeichert, die bei der Modellentwicklung verwendet werden.

Plattformidentitäten

Wenn Sie den Blueprint bereitstellen, erstellen Sie vier Arten von Nutzergruppen: eine MLOps-Entwicklergruppe, eine DevOps-Entwicklergruppe, eine Data-Scentist-Gruppe und eine Data-Entwickler-Gruppe. Die Gruppen haben folgende Aufgaben:

  • Die Gruppe der MLOps-Entwickler entwickelt die Terraform-Vorlagen, die vom Service Catalog verwendet werden. Dieses Team stellt Vorlagen für viele Modelle bereit.
  • Die Gruppe der DevOps-Entwickler genehmigt die Terraform-Vorlagen, die die MLOps-Entwicklergruppe erstellt.
  • Die Data-Science-Gruppe entwickelt Modelle, Pipelines und die Container, die von den Pipelines verwendet werden. Normalerweise ist ein einzelnes Team für die Erstellung eines einzelnen Modells zuständig.
  • Die Gruppe Data Engineer genehmigt die Verwendung der Artefakte, die die Data-Science-Gruppe erstellt.

Organisationsstruktur

Dieser Blueprint verwendet die Organisationsstruktur des Blueprints für Unternehmensgrundlagen als Grundlage für die Bereitstellung von KI- und ML-Arbeitslasten. Das folgende Diagramm zeigt die Projekte, die der Foundation hinzugefügt werden, um KI- und ML-Arbeitslasten zu ermöglichen.

Die Blueprint-Organisationsstruktur.

In der folgenden Tabelle werden die Projekte beschrieben, die vom Blueprint für generative KI und ML verwendet werden.

Ordner Projekt Beschreibung

common

prj-c-infra-pipeline

Enthält die Bereitstellungspipeline, mit der die Komponenten für generative KI und ML des Blueprints erstellt werden. Weitere Informationen finden Sie im Blueprint für Unternehmensgrundlagen unter Infrastrukturpipeline.

prj-c-service-catalog

Enthält die Infrastruktur, die vom Service Catalog zum Bereitstellen von Ressourcen in der interaktiven Umgebung verwendet wird.

development

prj-d-machine-learning

Enthält die Komponenten zum Entwickeln eines KI- und ML-Anwendungsfalls im interaktiven Modus.

non-production

prj-n-machine-learning

Enthält die Komponenten zum Testen und Bewerten eines KI- und ML-Anwendungsfalls, der für die Produktion bereitgestellt werden kann.

production

prj-p-machine-learning

Enthält die Komponenten zum Bereitstellen eines KI- und ML-Anwendungsfalls in der Produktion.

Netzwerk

Der Blueprint verwendet das freigegebene VPC-Netzwerk, das im Blueprint für die Unternehmensgrundlagen erstellt wurde. In der interaktiven Entwicklungsumgebung werden Vertex AI Workbench-Notebooks in Dienstprojekten bereitgestellt. On-Premises-Nutzer können über den privaten IP-Adressbereich im freigegebene VPC-Netzwerk auf die Projekte zugreifen. Lokale Nutzer können über Private Service Connect auf Google Cloud APIs wie Cloud Storage zugreifen. Jedes freigegebene VPC-Netzwerk (Entwicklung, Nicht-Produktion und Produktion) hat einen eigenen Private Service Connect-Endpunkt.

Das Blueprint-Netzwerk.

Die Betriebsumgebung (Nicht-Produktion und Produktion) hat zwei separate freigegebene VPC-Netzwerke, auf die On-Premises-Ressourcen über private IP-Adressen zugreifen können. Die interaktive und die Betriebsumgebung werden mit VPC Service Controls geschützt.

Cloud Logging

In diesem Blueprint werden die Funktionen von Cloud Logging verwendet, die vom Blueprint zu Unternehmensgrundlagen bereitgestellt werden.

Cloud Monitoring

Zum Überwachen benutzerdefinierter Trainingsjobs enthält der Blueprint ein Dashboard, mit dem Sie die folgenden Messwerte beobachten können:

  • CPU-Auslastung der einzelnen Trainingsknoten
  • Arbeitsspeicherauslastung der einzelnen Trainingsknoten
  • Netzwerknutzung

Wenn ein benutzerdefinierter Trainingsjob fehlgeschlagen ist, nutzt der Blueprint Cloud Monitoring für eine E-Mail-Benachrichtigung, um Sie über den Fehler zu informieren. Zum Überwachen bereitgestellter Modelle, die den Vertex AI-Endpunkt verwenden, enthält der Blueprint ein Dashboard mit den folgenden Messwerten:

  • Leistungsmesswerte:
    • Vorhersagen pro Sekunde
    • Modelllatenz
  • Ressourcennutzung:
    • CPU-Nutzung
    • Arbeitsspeichernutzung

Einrichtung von Organisationsrichtlinien

Zusätzlich zu den Organisationsrichtlinien, die vom Blueprint zu Unternehmensgrundlagen erstellt wurden, fügt dieser Blueprint die Organisationsrichtlinien hinzu, die unter vordefinierter Status für sichere KI, erweitert aufgeführt werden.

Vorgänge

In diesem Abschnitt werden die im Blueprint enthaltenen Umgebungen beschrieben.

Interaktive Umgebung

Damit Sie Daten untersuchen und Modelle entwickeln können, ohne die Sicherheitslage Ihrer Organisation zu gefährden, bietet die interaktive Umgebung eine kontrollierte Reihe von Aktionen, die Sie ausführen können. Sie können Google Cloud-Ressourcen mit einer der folgenden Methoden bereitstellen:

  • Service Catalog verwenden, der über Automatisierung mit Ressourcenvorlagen vorkonfiguriert ist
  • Codeartefakte mithilfe von Vertex AI Workbench-Notebooks erstellen und per Commit an Git-Repositories übergeben

Das folgende Diagramm zeigt die interaktive Umgebung.

Die interaktive Blueprint-Umgebung.

Ein typischer interaktiver Ablauf umfasst die folgenden Schritte und Komponenten, die damit assoziiert sind:

  1. Service Catalog enthält eine ausgewählte Liste von Google Cloud-Ressourcen, die Data Scientists in der interaktiven Umgebung bereitstellen können. Der Data Scientist stellt die Vertex AI Workbench-Notebookressource aus Service Catalog bereit.
  2. Vertex AI Workbench-Notebooks sind die Hauptoberfläche, über die Data Scientists mit Google Cloud-Ressourcen arbeiten, die in der interaktiven Umgebung bereitgestellt werden. Mit den Notebooks können Datenwissenschaftler ihren Code aus Git abrufen und bei Bedarf aktualisieren.
  3. Quelldaten werden außerhalb der interaktiven Umgebung gespeichert und unabhängig von diesem Blueprint verwaltet. Der Zugriff auf die Daten wird von einem Dateninhaber gesteuert. Data Scientists können Lesezugriff auf Quelldaten anfordern, aber keine Daten in die Quelldaten schreiben.
  4. Data Scientists können Quelldaten in die interaktive Umgebung in Ressourcen übertragen, die über Service Catalog erstellt wurden. In der interaktiven Umgebung können Data Scientists die Daten lesen, schreiben und bearbeiten. Datenwissenschaftler können jedoch keine Daten aus der interaktiven Umgebung übertragen oder Zugriff auf Ressourcen gewähren, die von Service Catalog erstellt wurden. In BigQuery werden strukturierte und semistrukturierte Daten gespeichert, in Cloud Storage unstrukturierte Daten.
  5. Der Feature Store bietet Data Scientists Zugriff mit niedriger Latenz auf Features für das Modelltraining.
  6. Data Scientists trainieren Modelle mit benutzerdefinierten Trainingsjobs in Vertex AI. Der Blueprint verwendet auch Vertex AI für die Hyperparameter-Abstimmung.

  7. Data Scientists bewerten Modelle mithilfe von Vertex AI Experiments und Vertex AI TensorBoard. Mit Vertex AI Experiments können Sie mehrere Trainings mit einem Modell ausführen und dabei verschiedene Parameter, Modellierungstechniken, Architekturen und Eingaben verwenden. Mit Vertex AI TensorBoard können Sie die verschiedenen durchgeführten Tests verfolgen, visualisieren und vergleichen und dann das Modell mit den besten beobachteten Eigenschaften zur Validierung auswählen.

  8. Data Scientists validieren ihre Modelle mit der Vertex AI-Bewertung. Um ihre Modelle zu validieren, teilen Data Scientists die Quelldaten in einen Trainings- und einen Validierungsdatensatz auf und führen eine Vertex AI-Bewertung für ihr Modell durch.

  9. Datenwissenschaftler erstellen Container mit Cloud Build, speichern sie in Artifact Registry und verwenden sie in Pipelines in der Betriebsumgebung.

Betriebsumgebung

In der Betriebsumgebung werden ein Git-Repository und Pipelines verwendet. Diese Umgebung umfasst die Produktionsumgebung und die Nicht-Produktionsumgebung des Blueprints der Unternehmensgrundlage. In der Nicht-Produktionsumgebung wählt der Data Scientist eine Pipeline aus einer der Pipelines aus, die in der interaktiven Umgebung entwickelt wurden. Der Data Scientist kann die Pipeline in der Nicht-Produktionsumgebung ausführen, die Ergebnisse auswerten und dann festlegen, welches Modell in die Produktionsumgebung hochgestuft werden soll.

Der Blueprint enthält eine Beispielpipeline, die mit Cloud Composer erstellt wurde, und eine Beispielpipeline, die mit Vertex AI Pipelines erstellt wurde. Das folgende Diagramm zeigt die Betriebsumgebung.

Die Betriebsumgebung des Blueprints.

Ein typischer operativer Ablauf umfasst die folgenden Schritte:

  1. Ein Data Scientist führt einen Entwicklungszweig erfolgreich in einen Bereitstellungszweig ein.
  2. Die Zusammenführung mit dem Bereitstellungszweig löst eine Cloud Build-Pipeline aus.
  3. Eines der folgenden Ereignisse tritt auf:
    • Wenn ein Datenwissenschaftler Cloud Composer als Orchestrator verwendet, verschiebt die Cloud Build-Pipeline einen DAG in Cloud Storage.
    • Wenn der Datenwissenschaftler Vertex AI Pipelines als Orchestrator verwendet, verschiebt die Pipeline eine Python-Datei in Cloud Storage.
  4. Die Cloud Build-Pipeline löst den Orchestrator (Cloud Composer oder Vertex AI Pipelines) aus.
  5. Der Orchestrator ruft die Pipelinedefinition aus Cloud Storage ab und beginnt mit der Ausführung der Pipeline.
  6. Die Pipeline ruft einen Container aus Artifact Registry ab, der von allen Phasen der Pipeline verwendet wird, um Vertex AI-Dienste auszulösen.
  7. Die Pipeline löst mithilfe des Containers eine Datenübertragung vom Quelldatenprojekt in die Betriebsumgebung aus.
  8. Die Daten werden von der Pipeline transformiert, validiert, aufgeteilt und für das Modelltraining und die Modellvalidierung vorbereitet.
  9. Bei Bedarf verschiebt die Pipeline Daten in den Vertex AI Feature Store, damit sie während des Modelltrainings leichter zugänglich sind.
  10. Für das Training des Modells wird die benutzerdefinierte Modellerstellung in Vertex AI verwendet.
  11. In der Pipeline wird die Vertex AI-Bewertung verwendet, um das Modell zu validieren.
  12. Ein validiertes Modell wird von der Pipeline in die Model Registry importiert.
  13. Das importierte Modell wird dann verwendet, um Online-Vorhersagen oder Batch-Vorhersagen zu generieren.
  14. Nachdem das Modell in der Produktionsumgebung bereitgestellt wurde, verwendet die Pipeline Vertex AI Model Monitoring, um zu ermitteln, ob die Leistung des Modells durch Monitoring auf Abweichungen zwischen Training und Bereitstellung und Vorhersage-Drift beeinträchtigt wird.

Bereitstellung

Der Blueprint verwendet eine Reihe von Cloud Build-Pipelines, um die Blueprint-Infrastruktur, die Pipeline in der Betriebsumgebung und die Container zum Erstellen von Modellen für generative KI und ML bereitzustellen. Die verwendeten Pipelines und bereitgestellten Ressourcen sind:

  • Infrastrukturpipeline: Diese Pipeline ist Teil des Blueprints für Unternehmensgrundlagen. Über diese Pipeline werden die Google Cloud-Ressourcen bereitgestellt, die mit der interaktiven Umgebung und der Betriebsumgebung verknüpft sind.
  • Interaktive Pipeline: Die interaktive Pipeline ist Teil der interaktiven Umgebung. Diese Pipeline kopiert Terraform-Vorlagen aus einem Git-Repository in einen Cloud Storage-Bucket, der vom Service Catalog gelesen werden kann. Die interaktive Pipeline wird ausgelöst, wenn eine Pull-Anfrage zur Zusammenführung mit dem Hauptzweig gestellt wird.
  • Container-Pipeline:Der Blueprint enthält eine Cloud Build-Pipeline zum Erstellen von Containern, die in der Betriebspipeline verwendet werden. Container, die in mehreren Umgebungen bereitgestellt werden, sind unveränderliche Container-Images. Unveränderliche Container-Images gewährleisten, dass dasselbe Image in allen Umgebungen bereitgestellt wird und während deren Ausführung nicht geändert werden kann. Wenn Sie die Anwendung ändern müssen, müssen Sie das Image neu erstellen und neu bereitstellen. Container-Images, die im Blueprint verwendet werden, werden in Artifact Registry gespeichert und von den Konfigurationsdateien referenziert, die in der Betriebspipeline verwendet werden.
  • Betriebspipeline: Die Betriebspipeline ist Teil der Betriebsumgebung. Diese Pipeline kopiert DAGs für Cloud Composer- oder Vertex AI-Pipelines, die dann zum Erstellen, Testen und Bereitstellen von Modellen verwendet werden.

Service Catalog

Mit Service Catalog können Entwickler und Cloud-Administratoren ihre Lösungen für interne Unternehmensnutzer nutzbar machen. Die Terraform-Module im Service Catalog werden mit der Cloud Build-CI/CD-Pipeline erstellt und als Artefakte im Cloud Storage-Bucket veröffentlicht. Nachdem die Module in den Bucket kopiert wurden, können Entwickler mithilfe der Module Terraform-Lösungen auf der Service Catalog-Admin-Seite erstellen, die Lösungen zu Service Catalog hinzufügen und die Lösungen für interaktive Umgebungsprojekte freigeben, sodass Nutzer die Ressourcen bereitstellen können.

In der interaktiven Umgebung können Data Scientists mithilfe von Service Catalog Google Cloud-Ressourcen so bereitstellen, dass sie den Sicherheitsanforderungen ihres Unternehmens entsprechen. Bei der Entwicklung eines Modells, das Google Cloud-Ressourcen erfordert, z. B. einen Cloud Storage-Bucket, wählt der Data Scientist die Ressource aus Service Catalog aus, konfiguriert sie und stellt sie in der interaktiven Umgebung bereit. Der Service Catalog enthält vorkonfigurierte Vorlagen für verschiedene Google Cloud-Ressourcen, die der Data Scientist in der interaktiven Umgebung bereitstellen kann. Der Datenwissenschaftler kann die Ressourcenvorlagen nicht ändern, aber die Ressourcen über die Konfigurationsvariablen konfigurieren, die die Vorlage bereitstellt. Das folgende Diagramm zeigt die Struktur der Beziehung zwischen Service Catalog und der interaktiven Umgebung.

Der Blueprint-Katalog.

Datenwissenschaftler stellen Ressourcen mit dem Service Catalog bereit, wie in den folgenden Schritten beschrieben:

  1. Der MLOps-Entwickler fügt eine Terraform-Ressourcenvorlage für Google Cloud in ein Git-Repository ein.
  2. Der Commit in Git löst eine Cloud Build-Pipeline aus.
  3. Cloud Build kopiert die Vorlage und alle zugehörigen Konfigurationsdateien in Cloud Storage.
  4. Der MLOps-Ingenieur richtet die Service Catalog-Lösungen und den Service Catalog manuell ein. Der Entwickler gibt den Service Catalog dann für ein Dienstprojekt in der interaktiven Umgebung frei.
  5. Der Data Scientist wählt eine Ressource aus dem Service Catalog aus.
  6. Service Catalog stellt die Vorlage in der interaktiven Umgebung bereit.
  7. Die Ressource ruft alle erforderlichen Konfigurationsscripts ab.
  8. Der Data Scientist interagiert mit den Ressourcen.

Repositories

Die in Bereitstellung beschriebenen Pipelines werden durch Änderungen im entsprechenden Repository ausgelöst. Um sicherzustellen, dass niemand unabhängige Änderungen an der Produktionsumgebung vornehmen kann, werden die Verantwortlichkeiten zwischen Nutzern, die Code senden können, und Nutzern, die Codeänderungen genehmigen können, getrennt. In der folgenden Tabelle werden die Blueprint-Repositories und ihre Einreicher und Genehmiger beschrieben.

Repository Pipeline Beschreibung Absender Genehmiger

ml-foundation

Infrastruktur
Enthält den Terraform-Code für den Blueprint für generative KI und ML, der die interaktiven und operativen Umgebungen erstellt. MLOps-Ingenieur DevOps-Entwickler

service-catalog

Interaktiv Enthält die Vorlagen für die Ressourcen, die der Service Catalog bereitstellen kann. MLOps-Ingenieur DevOps-Entwickler

artifact-publish

Container Enthält die Container, die Pipelines in der Betriebsumgebung verwenden können. Data Scientist Data Engineer

machine-learning

Betrieblich Enthält den Quellcode, den Pipelines in der Betriebsumgebung verwenden können. Data Scientist Data Engineer

Verzweigungsstrategie

Der Blueprint verwendet nichtflüchtige Verzweigung, um Code in der zugehörigen Umgebung bereitzustellen. Der Blueprint verwendet drei Zweige (Entwicklung, Nicht-Produktion und Produktion), die die entsprechenden Umgebungen widerspiegeln.

Sicherheitskontrollen

Der Blueprint für generative KI und ML für Unternehmen verwendet ein mehrstufiges Defense-in-Depth-Sicherheitsmodell, das standardmäßige Google Cloud-Funktionen, Google Cloud-Dienste und Sicherheitsfunktionen nutzt, die über den Blueprint zu Unternehmensgrundlagen konfiguriert werden. Das folgende Diagramm zeigt die Schichtung der verschiedenen Sicherheitskontrollen für den Blueprint.

Die Sicherheitskontrollen des Blueprints.

Die Funktionen der Ebenen sind:

  • Oberfläche: Bietet Data Scientists Dienste, mit denen sie kontrolliert mit dem Blueprint interagieren können.
  • Bereitstellung: Bietet eine Reihe von Pipelines, mit denen Infrastruktur bereitgestellt, Container erstellt und Modelle erstellt werden. Die Verwendung von Pipelines ermöglicht Prüfbarkeit, Rückverfolgbarkeit und Wiederholbarkeit.
  • Netzwerk: Bietet Schutz vor Datenexfiltration für die Blueprint-Ressourcen auf API- und IP-Ebene.
  • Zugriffsverwaltung: steuert, wer auf welche Ressourcen zugreifen kann, und verhindert den nicht autorisierten Zugriff auf Ihre Ressourcen.
  • Verschlüsselung:Sie können Ihre Verschlüsselungsschlüssel und Geheimnisse verwalten und Ihre Daten durch Standardverschlüsselung ruhender Daten und Verschlüsselung während der Übertragung schützen.
  • Erkennung:Hilft Ihnen, Fehlkonfigurationen und schädliche Aktivitäten zu erkennen.
  • Präventiv: Sie können damit die Bereitstellung Ihrer Infrastruktur steuern und einschränken.

In der folgenden Tabelle werden die Sicherheitsmaßnahmen beschrieben, die mit den einzelnen Schichten verknüpft sind.

Layer Ressource Sicherheitskontrollen
Schnittstelle Vertex AI Workbench Bietet ein verwaltetes Notebook mit Nutzerzugriffssteuerung, Netzwerkzugriffssteuerung, IAM-Zugriffssteuerung und deaktivierten Dateidownloads. Diese Funktionen sorgen für eine sicherere Nutzererfahrung.
Git-Repositories Bietet eine Zugriffssteuerung für Nutzer, um Ihre Repositories zu schützen.
Service Catalog Bietet Data Scientists eine ausgewählte Liste von Ressourcen, die nur in genehmigten Konfigurationen bereitgestellt werden können.
Bereitstellung Infrastrukturpipeline Bietet einen sicheren Ablauf zum Bereitstellen der Blueprint-Infrastruktur mithilfe von Terraform.
Interaktive Pipeline Bietet einen sicheren Ablauf zum Übertragen von Vorlagen aus einem Git-Repository in einen Bucket innerhalb Ihrer Google Cloud-Organisation.
Container-Pipeline Bietet einen sicheren Ablauf zum Erstellen von Containern, die von der Betriebspipeline verwendet werden.
Betriebspipeline Bietet einen kontrollierten Ablauf zum Trainieren, Testen, Validieren und Bereitstellen von Modellen.
Artifact Registry Speichert Container-Images auf sichere Weise mithilfe der Ressourcenzugriffssteuerung
Netzwerk Private Service Connect Ermöglicht die Kommunikation mit Google Cloud APIs über private IP-Adressen, sodass Sie keinen Traffic gegenüber dem Internet exponieren.
VPC mit privaten IP-Adressen Der Blueprint verwendet VPCs mit privaten IP-Adressen, um die Anfälligkeit gegenüber Bedrohungen im Internet zu senken.
VPC Service Controls Hilft, geschützte Ressourcen vor Daten-Exfiltration zu schützen.
Firewall Hilft, das VPC-Netzwerk vor unbefugtem Zugriff zu schützen.
Zugriffsverwaltung Cloud Identity Bietet eine zentrale Nutzerverwaltung, wodurch das Risiko eines unbefugten Zugriffs verringert wird.
IAM Bietet eine detaillierte Steuerung dafür, wer was mit welchen Ressourcen tun kann, und ermöglicht so die Anwendung des Prinzips der geringsten Berechtigung bei der Zugriffsverwaltung.
Verschlüsselung Cloud KMS Hier können Sie die Verschlüsselungsschlüssel verwalten, die in Ihrer Google Cloud-Organisation verwendet werden.
Secret Manager Bietet einen Secret-Store für Ihre Modelle, der über IAM gesteuert wird.
Verschlüsselung ruhender Daten Standardmäßig verschlüsselt Google Cloud alle inaktiven Daten.
Verschlüsselung während der Übertragung Google Cloud verschlüsselt standardmäßig Daten in der Übertragung.
Erkennung Security Command Center Bietet Bedrohungsdetektoren, die Ihre Google Cloud-Organisation schützen.
Kontinuierliche Architektur Prüft Ihre Google Cloud-Organisation kontinuierlich anhand einer Reihe von OPA-Richtlinien (Open Policy Agent), die Sie definiert haben.
IAM Recommender Hier werden die Berechtigungen von Nutzern analysiert und Vorschläge zur Reduzierung der Berechtigungen gemacht, um das Prinzip der geringsten Berechtigung durchzusetzen.
Firewall Insights Analysiert Firewallregeln, identifiziert zu freizügige Firewallregeln und schlägt restriktivere Firewalls vor, um die allgemeine Sicherheitslage zu verbessern.
Cloud Logging Bietet Transparenz in Bezug auf Systemaktivitäten und unterstützt die Erkennung von Anomalien und schädlichen Aktivitäten.
Cloud Monitoring Erfasst wichtige Signale und Ereignisse, die bei der Identifizierung verdächtiger Aktivitäten helfen können.
Prävention Organisationsrichtliniendienst Hiermit können Sie Aktionen in Ihrer Google Cloud-Organisation einschränken.

Nächste Schritte