Netzwerk

Diese Seite enthält Hintergrundinformationen zum Herstellen einer Verbindung von Datenquellen aus öffentlichen oder privaten Cloud Data Fusion-Instanzen aus Design- und Ausführungsumgebungen.

Vorbereitung

Auf dieser Seite wird davon ausgegangen, dass Sie mit den folgenden Begriffen vertraut sind:

Mandantenprojekt

Cloud Data Fusion erstellt ein Mandantenprojekt, das die Ressourcen und Dienste enthält, die benötigt werden, um Pipelines in Ihrem Namen zu verwalten. Beispiel: Pipelines in den Dataproc-Clustern ausführen, die sich in Ihrem Kundenprojekt befinden Ein Mandantenprojekt wird Kunden nicht zur Verfügung gestellt. Wenn Sie jedoch eine private Instanz erstellen, müssen Sie möglicherweise den Namen des Mandantenprojekts verwenden, um das VPC-Peering einzurichten.

Ein Mandantenprojekt kann mehrere Cloud Data Fusion-Instanzen haben. Sie greifen über eine Cloud Data Fusion-Instanz oder über das gcloud-Befehlszeilentool auf die Ressourcen und Dienste zu, die ein Mandantenprojekt enthält.

Weitere Informationen finden Sie in der Dokumentation zu Service Infrastructure über Mandantenprojekte.

Kundenprojekt

Das Projekt wird vom Kunden erstellt und gehört zu dessen Eigentümer. Standardmäßig erstellt Cloud Data Fusion in diesem Projekt einen sitzungsspezifischen Dataproc-Cluster, um die Pipelines des Kunden auszuführen.

Cloud Data Fusion-Instanz

Eine Cloud Data Fusion-Instanz ist eine einmalige Bereitstellung von Cloud Data Fusion. Erstellen Sie über die Google Cloud Console eine Cloud Data Fusion-Instanz, um mit der Verwendung von Cloud Data Fusion zu beginnen.

Sie können mehrere Instanzen in einem einzelnen Google Cloud-Projekt erstellen und die Google Cloud-Region angeben, in der die Cloud Data Fusion-Instanzen erstellt werden sollen.

Auf der Grundlage Ihrer Anforderungen und Kostenbeschränkungen können Sie eine Entwickler-, Basic- oder Enterprise-Instanz erstellen.

Jede Cloud Data Fusion-Instanz enthält eine eindeutige, unabhängige Cloud Data Fusion-Bereitstellung, die eine Reihe von Diensten enthält, die die Verwaltung des Pipeline-Lebenszyklus, die Orchestrierung, Koordination und Metadatenverwaltung übernehmen. Diese Dienste werden mit lang laufenden Ressourcen in einem Mandantenprojekt ausgeführt.

Netzwerkdiagramm

Sie können Datenpipelines erstellen, die Daten aus verschiedenen lokalen und Cloud-Datenquellen extrahieren, umwandeln, kombinieren, zusammenfassen und laden.

Informationen zu Cloud Data Fusion-Versionen ab Version 6.4 finden Sie in den Diagrammen zur Kontrolle des ausgehenden Traffics in einer privaten Instanz und zur Verbindung mit einer öffentlichen Quelle.

Für Cloud Data Fusion-Versionen unter 6.4, zeigt das folgende Diagramm der Systemarchitektur, wie Cloud Data Fusion mit Datenquellen von Diensten wie Vorschau oder Wrangler in einem Mandantenprojekt und Dataproc in einem Kundenprojekt verbunden wird.

Cloud Data Fusion-Netzwerkdiagramm

Vorteile der Verwendung eines Mandantenprojekts

Die Verwendung eines Mandantenprojekts in Cloud Data Fusion bietet folgende Vorteile:

  • Nutzer und Entwickler können verwaltete Dienste nur in einem Mandantenprojekt verwenden, das von der Cloud Data Fusion-Web-UI oder dem gcloud-Tool bereitgestellt wird.
  • Nutzer können Ressourcen in einem Mandantenprojekt weder aufrufen noch verwalten. Daher werden Ihnen keine Kosten berechnet und es können keine unbeabsichtigten Änderungen an den Diensten vorgenommen werden, die zu Systemausfällen führen können.
  • Jeder verwaltete Dienst im Mandantenprojekt hat ein eigenes VPC-Netzwerk und Subnetz.

Umgebungen entwerfen und ausführen

Cloud Data Fusion bietet eine Trennung von Design- und Ausführungsumgebungen, mit denen Sie eine Pipeline einmal erstellen und dann in mehreren Umgebungen ausführen können. Die Designumgebung befindet sich im Mandantenprojekt, während sich die Ausführungsumgebung in einem oder mehreren Kundenprojekten befindet.

Beispiel: Sie entwerfen Ihre Pipeline mit Cloud Data Fusion-Diensten wie Wrangler und Preview. Diese Dienste werden im Mandantenprojekt ausgeführt, wobei der Zugriff auf Daten über die von Google verwaltete Rolle Cloud Data Fusion-Dienst-Agent gesteuert wird. Anschließend führen Sie die Pipeline in Ihrem Kundenprojekt aus, damit der Dataproc-Cluster verwendet wird. Im Kundenprojekt wird der Zugriff auf Daten über das Compute Engine-Standarddienstkonto gesteuert. Sie können Ihr Projekt für die Verwendung eines benutzerdefinierten Dienstkontos konfigurieren.

Weitere Informationen zum Konfigurieren von Dienstkonten finden Sie unter Cloud Data Fusion-Dienstkonten.

Entwicklungsumgebung

Wenn Sie in Ihrem Kundenprojekt eine Cloud Data Fusion-Instanz erstellen, erstellt Cloud Data Fusion für jedes Kundenprojekt automatisch ein separates, von Google verwaltetes Mandantenprojekt. Im Mandantenprojekt werden die Dienste ausgeführt, die zum Verwalten des Lebenszyklus von Pipelines und Metadaten, der Cloud Data Fusion-Benutzeroberfläche und von Tools für das Design von Komponenten wie Vorschau und Wrangler erforderlich sind.

Ausführungsumgebung

Nachdem Sie Ihre Pipeline in einer Instanz überprüft und bereitgestellt haben, können Sie die Pipeline entweder manuell oder über einen Zeitplan oder einen Pipelinestatus-Trigger ausführen.

Unabhängig davon, ob die Ausführungsumgebung von Cloud Data Fusion bereitgestellt oder verwaltet wird, ist die Umgebung in Ihrem Kundenprojekt vorhanden.

Cloud Data Fusion-Instanzen

Es gibt zwei Arten von Cloud Data Fusion-Instanzen basierend auf einem Zugriffsmodell: eine öffentliche (Standard) Instanz und eine private Instanz.

instancesffentliche Instanzen (Standard)

Am einfachsten lässt sich eine Cloud Data Fusion-Instanz bereitstellen, wenn Sie eine öffentliche Instanz erstellen. Sie dient als Ausgangspunkt und bietet Zugriff auf externe Endpunkte im öffentlichen Internet.

Eine öffentliche Instanz in Cloud Data Fusion verwendet das Standard-VPC-Netzwerk in Ihrem Projekt.

Das Standard-VPC-Netzwerk hat folgende Eigenschaften:

  • Automatisch generierte Subnetze für jede Region
  • Routingtabellen
  • Firewallregeln für die Kommunikation zwischen Ihren Rechenressourcen

Netzwerkübergreifender Ausfall

Wenn Sie ein neues Projekt erstellen, hat das Standard-VPC-Netzwerk den Vorteil, dass es automatisch ein Subnetz pro Region unter Verwendung eines vordefinierten IP-Adressbereichs als CIDR-Block ausfüllt. Die IP-Adressbereiche beginnen mit 10.128.0.0/20, 10.132.0.0/20 in den globalen Google Cloud-Regionen.

Damit Ihre Rechenressourcen regionenübergreifend miteinander verbunden werden können, legt das VPC-Standardnetzwerk die standardmäßigen lokalen Routen für jedes Subnetz fest. Wenn Sie die Standardroute zum Internet (0.0.0.0/0) einrichten, erhalten Sie Zugriff auf das Internet und erfassen nicht erfassten Netzwerktraffic.

Firewallregeln

Das Standard-VPC-Netzwerk bietet eine Reihe von Firewallregeln:

Standard Beschreibung
Standard-icmp erlauben icmp-Protokoll für Quelle 0.0.0.0/0 aktivieren
Standardmäßig zulassen (intern) tcp:0-65535 aktivieren; udp:0-65535 icmp für Quelle 10.128.0.0/9, die Min.. 10.128.0.1 bis max. 10.255.255.254 IP-Adressen)
Standard-rdp erlauben tcp:3389 für die Quelle "0.0.0.0/0" aktivieren
Standard-ssh erlauben tcp:22 für die Quelle "0.0.0.0/0" aktivieren

Diese VPC-Standardeinstellungen minimieren die Voraussetzungen für die Einrichtung von Cloud-Diensten, einschließlich Cloud Data Fusion. Aufgrund von Bedenken zur Netzwerksicherheit können Organisationen häufig das Standard-VPC-Netzwerk nicht für Geschäftsvorgänge verwenden. Ohne das Standard-VPC-Netzwerk können Sie keine öffentliche Cloud Data Fusion-Instanz erstellen. Führen Sie stattdessen die Schritte zum Erstellen einer privaten Cloud Data Fusion-Instanz aus.

Das Standard-VPC-Netzwerk bietet keinen offenen Zugriff auf Ressourcen. Stattdessen wird über den Identitäts- und Zugriffsverwaltungsdienst (IAM) gesteuert, wer auf Ressourcen zugreifen kann:

  • Für die Anmeldung in Google Cloud ist eine bestätigte Identität erforderlich.
  • Nach der Anmeldung benötigen Sie eine explizite Berechtigung (z. B. die Rolle "Betrachter"), um Google Cloud-Dienste aufzurufen.

Private Instanzen

Bei einigen Organisationen müssen alle Produktionssysteme von öffentlichen IP-Adressen isoliert sein. Eine private Cloud Data Fusion-Instanz erfüllt diese Bedingungen für alle Arten von VPC-Netzwerkeinstellungen.

In Cloud Data Fusion-Versionen unter Version 6.4 verwenden Design- und Ausführungsumgebungen private IP-Adressen. Es werden keine öffentlichen Internet-IP-Adressen verwendet, die mit der Cloud Data Fusion Compute Engine verbunden sind. Daher kann die private IP-Instanz von Cloud Data Fusion nicht im öffentlichen Internet auf Datenquellen zugreifen.

Wenn Sie von einer privaten Instanz aus eine Verbindung zu Datenquellen im öffentlichen Internet herstellen möchten, entwerfen Sie Ihre Pipeline in einer öffentlichen Instanz und verschieben Sie diese dann zur Ausführung in eine private Instanz in einem Kundenprojekt, in der Sie die projektbezogene Kontrolle VPC-Richtlinien Sie müssen sowohl aus den Projekten, die Sie während des Entwurfs als auch während der Ausführung verwenden, eine Verbindung zu Ihren Daten herstellen.

Zugriff auf Daten in Design- und Ausführungsumgebung

In einer öffentlichen Instanz erfolgt die Netzwerkkommunikation über das offene Internet, was für kritische Umgebungen nicht empfohlen wird. Um auf Ihre Datenquellen sicher zuzugreifen, führen Sie die Pipelines immer über eine private Instanz in Ihrer Ausführungsumgebung aus.

In Cloud Data Fusion Version 6.4 können Sie beim Erstellen Ihrer Pipeline nicht über eine private Instanz auf Datenquellen im offenen Internet zugreifen. Stattdessen entwerfen Sie Ihre Pipeline in einem Mandantenprojekt mithilfe einer öffentlichen Instanz, um eine Verbindung zu Datenquellen im Internet herzustellen. Nachdem Sie Ihre Pipeline erstellt haben, verschieben Sie sie in ein Kundenprojekt und führen Sie sie in einer privaten Instanz aus, damit Sie VPC-Richtlinien steuern können. Sie müssen eine Verbindung zu Ihren Daten aus beiden Projekten herstellen.

Weitere Informationen zu den Projekttypen und Instanzen, die für den Zugriff auf verschiedene Datenquellen erforderlich sind, finden Sie im Abschnitt Zugriff auf Quellen.

Zugriff auf Quellen

Wenn Ihre Ausführungsumgebung in einer Cloud Data Fusion-Version unter 6.4 ausgeführt wird, können Sie nur auf Ressourcen in Ihrem VPC-Netzwerk zugreifen. Wenn Sie Cloud VPN oder Cloud Interconnect einrichten, können Sie auf lokale Datenquellen zugreifen. Cloud Data Fusion-Versionen vor Version 6.4 können nur auf Quellen im öffentlichen Internet zugreifen, wenn Sie ein Cloud NAT-Gateway eingerichtet haben.

Beim Zugriff auf Datenquellen verwenden Sie öffentliche und private Instanzen:

  • Ausgehende Aufrufe an Google Cloud APIs über den privaten Google-Zugriff senden
  • über VPC-Peering mit einer Ausführungsumgebung (Dataproc) kommunizieren

In der folgenden Tabelle werden öffentliche und private Instanzen während des Entwurfs und der Ausführung für verschiedene Datenquellen verglichen:

Datenquelle Cloudffentliche Cloud Data Fusion-Instanz
(Designzeit)
Cloudffentliche Cloud Data Fusion-Dataproc
(Ausführung)
Private Cloud Data Fusion-Instanz
(Designzeit)
Private Cloud Data Fusion Dataproc
(Ausführung)
Google Cloud-Quelle
(nachdem Sie Berechtigungen erteilt und Firewallregeln festgelegt haben)
Lokale Quelle
(nach Einrichtung von VPN/Interconnect, Berechtigungen gewähren und Firewallregeln festlegen)
internetffentliche Internetquelle
(nachdem Sie Berechtigungen erteilt und Firewallregeln festgelegt haben)
Versionen | 6.4 Versionen < 6,4

Nächste Schritte