Einführung in Cloud Data Fusion-Netzwerke

Diese Seite enthält Hintergrundinformationen zum Herstellen einer Verbindung zu Ihren Datenquellen von öffentlichen oder privaten Cloud Data Fusion-Instanzen aus Design- und Ausführungsumgebungen.

Hinweise

Netzwerke in Cloud Data Fusion erfordern ein grundlegendes Verständnis der Folgendes:

Mandantenprojekt

Cloud Data Fusion erstellt ein Mandantenprojekt, das die Ressourcen enthält. und Dienste, die für die Verwaltung von Pipelines in Ihrem Namen erforderlich sind, z. B. führt Pipelines auf den Dataproc-Clustern aus, Kundenprojekts.

Das Mandantenprojekt ist nicht direkt für Sie sichtbar, Sie eine private Instanz erstellen, verwenden Sie den Projektnamen, um eine VPC einzurichten. Peering. Jede private Instanz im Mandantenprojekt hat eine eigene VPC-Netzwerk und Subnetz.

Das Projekt kann mehrere Cloud Data Fusion-Instanzen haben. Ich Ressourcen und Dienste verwalten, die darin enthalten sind, wenn Sie auf eine Instanz in der Cloud Data Fusion-UI oder der Google Cloud CLI.
Weitere Informationen finden Sie in der Service Infrastructure-Dokumentation zu Mandantenprojekte.

Kundenprojekt

Der Kunde erstellt und besitzt dieses Projekt. Standardmäßig Cloud Data Fusion erstellt einen sitzungsspezifischen Dataproc-Cluster zum Ausführen Ihrer Pipelines.

Cloud Data Fusion-Instanz

Eine Cloud Data Fusion-Instanz ist eine einzigartige Bereitstellung von Cloud Data Fusion, in dem Sie Pipelines entwerfen und ausführen. Sie können mehrere Instanzen in einem einzelnen Projekt erstellen und die Google Cloud-Region, in der Cloud Data Fusion erstellt werden soll Instanzen. Basierend auf Ihren Anforderungen und Kostenbeschränkungen können Sie Instanz, die den Entwickler, Basic oder Enterprise Version von Cloud Data Fusion. Jede Instanz enthält eine eindeutige, unabhängige Cloud Data Fusion-Instanz Bereitstellung mit einer Reihe von Diensten zur Verwaltung des Pipelinelebenszyklus Orchestrierung, Koordination und Metadatenmanagement. Diese mit lang andauernden Ressourcen in einem Mandantenprojekt

Netzwerkdiagramm

Die folgenden Diagramme zeigen die Verbindungen, wenn Sie Datenpipelines erstellen, Extrahieren, Transformieren, Vermischen, Aggregieren und Laden von Daten aus verschiedenen lokalen und Cloud-Datenquellen.

In den Diagrammen sehen Sie Ausgehenden Traffic in einer privaten Instanz steuern und Herstellen einer Verbindung mit einer öffentlichen Quelle

Pipelinedesign und -ausführung

Cloud Data Fusion bietet eine Trennung von Design- und Ausführungsumgebungen, sodass Sie eine Pipeline einmal entwerfen und dann in mehreren Umgebungen ausführen können. Die Designumgebung befindet sich im Mandantenprojekt, während sich die Ausführungsumgebung in einem oder mehreren Kundenprojekten befindet.

Beispiel: Sie entwerfen Ihre Pipeline mit Cloud Data Fusion-Diensten wie Wrangler und Vorschau. Diese Dienste werden im Mandantenprojekt ausgeführt, wo Zugriff auf werden die Daten vom von Google verwalteten Cloud Data Fusion-Dienst-Agent Rolle. Anschließend führen Sie die Pipeline in Ihrem Kundenprojekt aus, damit sie Ihren Dataproc-Cluster verwendet. Im Kundenprojekt ist die Standardeinstellung Das Compute Engine-Dienstkonto steuert den Datenzugriff. Sie können Ihr um ein benutzerdefiniertes Dienstkonto zu verwenden.

Weitere Informationen zum Konfigurieren von Dienstkonten finden Sie unter Cloud Data Fusion-Dienstkonten.

Designumgebung

Wenn Sie eine Cloud Data Fusion-Instanz in Ihrem Kundenprojekt erstellen, Cloud Data Fusion erstellt automatisch einen separaten, von Google verwalteten Mandanten um die Dienste auszuführen, die zum Verwalten des Lebenszyklus von Pipelines und Metadaten, die Cloud Data Fusion-UI und Designzeit-Tools wie Preview und Wrangler.

DNS-Auflösung in Cloud Data Fusion

Um Domainnamen in Ihrer Entwicklungszeitumgebung aufzulösen, wenn Sie Vorschau der Daten ansehen, die Sie in Google Cloud übertragen, mit DNS-Peering (verfügbar ab Cloud Data Fusion 6.7.0). Sie können Domain- oder Hostnamen für Quellen und Senken, die nicht so oft neu konfiguriert werden müssen, IP-Adressen

Die DNS-Auflösung wird in Ihrer Entwicklungsumgebung in Mit Cloud Data Fusion können Sie Verbindungen testen und Pipelines in der Vorschau anzeigen lassen, die Domainnamen lokaler Server oder anderer Server (z. B. Datenbanken oder FTP-Server) in einem privaten VPC-Netzwerk.

Weitere Informationen finden Sie unter DNS-Peering und Cloud DNS-Weiterleitung:

Ausführungsumgebung

Nachdem Sie Ihre Pipeline in einer Instanz überprüft und bereitgestellt haben, wird sie entweder manuell oder nach einem Zeitplan bzw. einem Trigger für den Pipelinestatus ausgeführt.

Ob die Ausführungsumgebung bereitgestellt und verwaltet wird Cloud Data Fusion oder der Kunde, die Umgebung existiert in Ihrem Kunden. Projekt arbeiten.

Öffentliche Instanzen (Standard)

Am einfachsten stellen Sie eine Cloud Data Fusion-Instanz bereit, indem Sie eine öffentliche Instanz erstellen. Es dient als Ausgangspunkt und bietet Zugriff auf externe Endpunkte im öffentlichen Internet.

Eine öffentliche Instanz in Cloud Data Fusion verwendet das Standard-VPC-Netzwerk in Ihrem Projekt.

Das VPC-Standardnetzwerk hat Folgendes:

  • Automatisch generierte Subnetze für jede Region
  • Tabellen weiterleiten
  • Firewallregeln für die Kommunikation zwischen Ihren Rechenressourcen

Netzwerke über Regionen hinweg

Wenn Sie ein neues Projekt erstellen, hat das Standard-VPC-Netzwerk den Vorteil, dass es ein Subnetz pro Region automatisch mit einem vordefinierten IP-Adressbereich befüllt, der als CIDR-Block ausgedrückt wird. Die IP-Adressbereiche beginnen in den globalen Google Cloud-Regionen mit 10.128.0.0/20, 10.132.0.0/20.

Damit Ihre Computing-Ressourcen regionenübergreifend miteinander verbunden sind, legt das Standard-VPC-Netzwerk die standardmäßigen lokalen Routen für jedes Subnetz fest. Durch das Einrichten der Standardroute zum Internet (0.0.0.0/0) erhalten Sie Zugriff auf das Internet und erfassen den nicht weitergeleiteten Netzwerktraffic.

Firewallregeln

Das Standard-VPC-Netzwerk bietet eine Reihe von Firewallregeln:

Standard Beschreibung
icmp standardmäßig zulassen icmp-Protokoll für Quelle 0.0.0.0/0 aktivieren
Intern standardmäßig zulassen tcp:0-65535 aktivieren; udp:0-65535; icmp für Quelle 10.128.0.0/9, die mindestens 10.128.0.1 bis maximal 10.255.255.254 IP-Adressen abdeckt
rdp standardmäßig zulassen tcp:3389 für Quelle 0.0.0.0/0 aktivieren
ssh standardmäßig zulassen tcp:22 für Quelle 0.0.0.0/0 aktivieren

Diese Standardeinstellungen für VPC-Netzwerke minimieren die Voraussetzungen für die Einrichtung von Cloud-Diensten, einschließlich Cloud Data Fusion. Aufgrund von Bedenken über die Netzwerksicherheit, lassen Organisationen die Standardeinstellungen VPC-Netzwerk für Geschäftsvorgänge Ohne die Standardeinstellung VPC-Netzwerk, Sie können kein öffentliches Cloud Data Fusion-Objekt erstellen Instanz. Stattdessen Erstellen Sie eine private Instanz.

Das Standard-VPC-Netzwerk gewährt keinen offenen Zugriff auf Ressourcen. Stattdessen wird der Zugriff über die Identitäts- und Zugriffsverwaltung (Identity and Access Management, IAM) gesteuert:

  • Für die Anmeldung in Google Cloud ist eine bestätigte Identität erforderlich.
  • Nach der Anmeldung benötigen Sie eine ausdrückliche Genehmigung, z. B. der Viewer, um Google Cloud-Dienste aufzurufen.

Private Instanzen

Bei einigen Organisationen müssen alle ihre Produktionssysteme von öffentlichen IP-Adressen isoliert sein. Eine private Cloud Data Fusion-Instanz erfüllt diese Anforderung in allen Arten von VPC-Netzwerkeinstellungen.

Private Service Connect in Cloud Data Fusion

Cloud Data Fusion-Instanzen müssen möglicherweise eine Verbindung zu Ressourcen herstellen, die sich lokal, in Google Cloud oder bei anderen Cloud-Anbietern. Bei Verwendung Cloud Data Fusion mit internen IP-Adressen, Verbindungen zu externen werden über das VPC-Netzwerk in Ihrem Google Cloud-Projekt Traffic über das Netzwerk läuft nicht über öffentlich zugänglichen Internet. Wenn Cloud Data Fusion Zugriff auf Ihr mit VPC-Netzwerk-Peering nutzen, gibt es Einschränkungen, was bei großen Netzwerken deutlich wird.

Mit Private Service Connect-Schnittstellen bietet Cloud Data Fusion stellt ohne VPC-Netzwerk-Peering eine Verbindung zu Ihrer VPC her. Die Private Service Connect-Schnittstelle ist eine Art von Private Service Connect mit dem Cloud Data Fusion private und sichere Verbindungen zu VPC-Netzwerken von Nutzern. Dies bietet nicht nur Flexibilität und einfachen Zugriff (wie VPC-Netzwerk-Peering), bietet aber auch die und verbraucherseitige Kontrolle, Private Service Connect-Angebote Weitere Informationen finden Sie unter Erstellen eine private Instanz mit Private Service Connect.

Zugriff auf Daten in Design- und Ausführungsumgebungen

In einer öffentlichen Instanz erfolgt die Netzwerkkommunikation über das offene Internet, was für kritische Umgebungen nicht empfohlen wird. Für den sicheren Zugriff auf Ihre Datenquellen führen Sie Ihre Pipelines immer von einer privaten Instanz in Ihrer Ausführungsumgebung aus.

Zugriff auf Quellen

Beim Zugriff auf Datenquellen, öffentliche und private Instanzen:

  • Ausgehende Aufrufe von Google Cloud APIs mit privatem Google-Zugriff ausführen
  • Mit einer Ausführungsumgebung (Dataproc) über VPC-Peering kommunizieren

In der folgenden Tabelle werden öffentliche und private Instanzen während des Entwurfs und der Ausführung für verschiedene Datenquellen verglichen:

Datenquelle Öffentliche Cloud Data Fusion-Instanz
(Entwicklungszeit)
Öffentliche Cloud Data Fusion-Dataproc
(Ausführung)
Private Cloud Data Fusion-Instanz
(Entwicklungszeit)
Private Cloud Data Fusion-Dataproc
(Ausführung)
Google Cloud-Quelle
(nachdem Sie Berechtigungen erteilt und Firewallregeln festgelegt haben)
Lokale Quelle
(nach dem Einrichten von VPN/Interconnect, Gewähren von Berechtigungen und Festlegen von Firewallregeln)
Öffentliche Internetquelle
(nachdem Sie Berechtigungen erteilt und Firewallregeln festgelegt haben)

Nächste Schritte