Diese Seite enthält Hintergrundinformationen zum Herstellen einer Verbindung zu Ihren Datenquellen von öffentlichen oder privaten Cloud Data Fusion-Instanzen aus Design- und Ausführungsumgebungen.
Hinweis
Für das Netzwerk in Cloud Data Fusion sind grundlegende Kenntnisse zu folgenden Themen erforderlich:
Mandantenprojekt
Cloud Data Fusion erstellt ein Mandantenprojekt, das die Ressourcen und Dienste enthält, die zum Verwalten von Pipelines für Sie erforderlich sind, z. B. wenn Pipelines auf den Dataproc-Clustern in Ihrem Kundenprojekt ausgeführt werden.
Das Mandantenprojekt wird nicht direkt angezeigt, aber wenn Sie eine private Instanz erstellen, verwenden Sie den Projektnamen, um VPC-Peering einzurichten. Jede private Instanz im Mandantenprojekt hat ein eigenes VPC-Netzwerk und ein eigenes Subnetz.
Das Projekt kann mehrere Cloud Data Fusion-Instanzen haben. Sie verwalten die darin enthaltenen Ressourcen und Dienste, wenn Sie über die Cloud Data Fusion-UI oder die Google Cloud CLI auf eine Instanz zugreifen.
Weitere Informationen finden Sie in der Dokumentation zu Service Infrastructure über Mandantenprojekte.
Kundenprojekt
Der Kunde erstellt und besitzt dieses Projekt. Standardmäßig erstellt Cloud Data Fusion in diesem Projekt einen sitzungsspezifischen Dataproc-Cluster, um Ihre Pipelines auszuführen.
Cloud Data Fusion-Instanz
Eine Cloud Data Fusion-Instanz ist eine einzigartige Bereitstellung von Cloud Data Fusion, bei der Sie Pipelines entwerfen und ausführen. Sie können mehrere Instanzen in einem einzelnen Projekt erstellen und die Google Cloud-Region angeben, in der die Cloud Data Fusion-Instanzen erstellt werden sollen. Basierend auf Ihren Anforderungen und Kosteneinschränkungen können Sie eine Instanz erstellen, die die Developer-, Basic- oder Enterprise-Version von Cloud Data Fusion verwendet. Jede Instanz enthält eine eindeutige, unabhängige Cloud Data Fusion-Bereitstellung, die eine Reihe von Diensten für die Verwaltung des Pipelinelebenszyklus, die Orchestrierung, die Koordination und die Metadatenverwaltung enthält. Diese Dienste werden mit Ressourcen mit langer Ausführungszeit in einem Mandantenprojekt ausgeführt.
Netzwerkdiagramm
Das folgende Diagramm zeigt die Verbindungen, wenn Sie Datenpipelines erstellen, die Daten aus verschiedenen lokalen und Cloud-Datenquellen extrahieren, umwandeln, zusammenführen, aggregieren und laden.
In den Cloud Data Fusion-Versionen ab 6.4 finden Sie die Diagramme zum Steuern von ausgehendem Traffic in einer privaten Instanz und zum Herstellen einer Verbindung zu einer öffentlichen Quelle.
Für Versionen vor 6.4 zeigt das folgende Diagramm der Systemarchitektur, wie Cloud Data Fusion eine Verbindung zu Datenquellen von Diensten wie Preview oder Wrangler in einem Mandantenprojekt und Dataproc in einem Kundenprojekt herstellt.
Pipelinedesign und -ausführung
Cloud Data Fusion bietet eine Trennung von Design- und Ausführungsumgebungen, sodass Sie eine Pipeline einmal entwerfen und dann in mehreren Umgebungen ausführen können. Die Designumgebung befindet sich im Mandantenprojekt, während sich die Ausführungsumgebung in einem oder mehreren Kundenprojekten befindet.
Beispiel: Sie entwerfen Ihre Pipeline mit Cloud Data Fusion-Diensten wie Wrangler und Vorschau. Diese Dienste werden im Mandantenprojekt ausgeführt, in dem der Zugriff auf Daten über die von Google verwaltete Rolle Cloud Data Fusion-Dienst-Agent gesteuert wird. Anschließend führen Sie die Pipeline in Ihrem Kundenprojekt aus, damit sie Ihren Dataproc-Cluster verwendet. Im Kundenprojekt steuert das Compute Engine-Standarddienstkonto den Zugriff auf Daten. Sie können Ihr Projekt für die Verwendung eines benutzerdefinierten Dienstkontos konfigurieren.
Weitere Informationen zum Konfigurieren von Dienstkonten finden Sie unter Cloud Data Fusion-Dienstkonten.
Designumgebung
Wenn Sie eine Cloud Data Fusion-Instanz in Ihrem Kundenprojekt erstellen, erstellt Cloud Data Fusion automatisch ein separates, von Google verwaltetes Mandantenprojekt, um die Dienste auszuführen, die für die Verwaltung des Lebenszyklus von Pipelines und Metadaten, der Cloud Data Fusion-UI und Tools für die Entwicklung wie Vorschau und Wrangler erforderlich sind.
DNS-Auflösung in Cloud Data Fusion
Verwenden Sie DNS-Peering (verfügbar ab Cloud Data Fusion 6.7.0), um Domainnamen in Ihrer Entwicklungsumgebung aufzulösen, wenn Sie die Daten, die Sie in Google Cloud übertragen, in der Cloud codieren und eine Vorschau anzeigen lassen. Damit können Sie Domains oder Hostnamen für Quellen und Senken verwenden, die nicht so oft neu konfiguriert werden müssen wie IP-Adressen.
Die DNS-Auflösung wird in Ihrer Entwicklungszeit in Cloud Data Fusion empfohlen, wenn Sie Verbindungen und Vorschaupipelines testen, die Domainnamen von lokalen oder anderen Servern (z. B. Datenbanken oder FTP-Servern) in einem privaten VPC-Netzwerk verwenden.
Weitere Informationen finden Sie unter DNS-Peering und Cloud DNS-Weiterleitung.
Ausführungsumgebung
Nachdem Sie Ihre Pipeline in einer Instanz überprüft und bereitgestellt haben, wird sie entweder manuell oder nach einem Zeitplan bzw. einem Trigger für den Pipelinestatus ausgeführt.
Unabhängig davon, ob die Ausführungsumgebung von Cloud Data Fusion oder dem Kunden bereitgestellt und verwaltet wird, ist die Umgebung in Ihrem Kundenprojekt vorhanden.
Öffentliche Instanzen (Standard)
Am einfachsten stellen Sie eine Cloud Data Fusion-Instanz bereit, indem Sie eine öffentliche Instanz erstellen. Es dient als Ausgangspunkt und bietet Zugriff auf externe Endpunkte im öffentlichen Internet.
Eine öffentliche Instanz in Cloud Data Fusion verwendet das Standard-VPC-Netzwerk in Ihrem Projekt.
Das Standard-VPC-Netzwerk hat Folgendes:
- Automatisch generierte Subnetze für jede Region
- Tabellen weiterleiten
- Firewallregeln für die Kommunikation zwischen Ihren Rechenressourcen
Netzwerke über Regionen hinweg
Wenn Sie ein neues Projekt erstellen, hat das Standard-VPC-Netzwerk den Vorteil, dass es ein Subnetz pro Region automatisch mit einem vordefinierten IP-Adressbereich befüllt, der als CIDR-Block ausgedrückt wird. Die IP-Adressbereiche beginnen in den globalen Google Cloud-Regionen mit 10.128.0.0/20
, 10.132.0.0/20
.
Damit Ihre Computing-Ressourcen regionenübergreifend miteinander verbunden sind, legt das Standard-VPC-Netzwerk die standardmäßigen lokalen Routen für jedes Subnetz fest. Durch das Einrichten der Standardroute zum Internet (0.0.0.0/0
) erhalten Sie Zugriff auf das Internet und erfassen den nicht weitergeleiteten Netzwerktraffic.
Firewallregeln
Das Standard-VPC-Netzwerk bietet eine Reihe von Firewallregeln:
Standard | Beschreibung |
---|---|
icmp standardmäßig zulassen |
icmp -Protokoll für Quelle 0.0.0.0/0 aktivieren |
Intern standardmäßig zulassen | tcp:0-65535 ; udp:0-65535 ; icmp für die Quelle 10.128.0.0/9 aktivieren; damit werden mindestens 10.128.0.1 bis maximal 10.255.255.254 IP-Adressen abgedeckt |
rdp standardmäßig zulassen |
tcp:3389 für Quelle 0.0.0.0/0 aktivieren |
ssh standardmäßig zulassen |
tcp:22 für Quelle 0.0.0.0/0 aktivieren |
Diese Standardeinstellungen für VPC-Netzwerke minimieren die Voraussetzungen für die Einrichtung von Cloud-Diensten, einschließlich Cloud Data Fusion. Aufgrund von Bedenken in Bezug auf die Netzwerksicherheit ist es in Organisationen oft nicht zulässig, das Standard-VPC-Netzwerk für Geschäftsvorgänge zu verwenden. Ohne das VPC-Standardnetzwerk können Sie keine öffentliche Cloud Data Fusion-Instanz erstellen. Erstellen Sie stattdessen eine private Instanz.
Das Standard-VPC-Netzwerk gewährt keinen offenen Zugriff auf Ressourcen. Stattdessen wird über die Identitäts- und Zugriffsverwaltung (Identity and Access Management, IAM) der Zugriff gesteuert:
- Für die Anmeldung in Google Cloud ist eine validierte Identität erforderlich.
- Nach der Anmeldung benötigen Sie eine explizite Berechtigung (z. B. die Rolle „Betrachter“), um Google Cloud-Dienste aufrufen zu können.
Private Instanzen
Bei einigen Organisationen müssen alle ihre Produktionssysteme von öffentlichen IP-Adressen isoliert sein. Eine private Cloud Data Fusion-Instanz erfüllt diese Anforderung in allen Arten von VPC-Netzwerkeinstellungen.
Private Instanzen in Version 6.4 und niedriger
In Cloud Data Fusion-Versionen vor 6.4 verwenden Design- und Ausführungsumgebungen nur interne IP-Adressen. Sie verwenden keine öffentlichen Internet-IP-Adressen, die an Cloud Data Fusion Compute Engine angehängt sind. Als Entwicklungstool kann die private Cloud Data Fusion-Instanz nicht auf Datenquellen im öffentlichen Internet zugreifen.
Erstellen Sie stattdessen die Pipeline in einer öffentlichen Instanz. Verschieben Sie sie dann zur Ausführung in eine private Instanz in einem Kundenprojekt, in der Sie die VPC-Richtlinien des Projekts steuern. Sie müssen bei beiden Projekten eine Verbindung zu Ihren Daten herstellen.
Zugriff auf Daten in Design- und Ausführungsumgebungen
In einer öffentlichen Instanz erfolgt die Netzwerkkommunikation über das offene Internet, was für kritische Umgebungen nicht empfohlen wird. Für den sicheren Zugriff auf Ihre Datenquellen führen Sie Ihre Pipelines immer von einer privaten Instanz in Ihrer Ausführungsumgebung aus.
Wenn Sie in Cloud Data Fusion Version 6.4 Ihre Pipeline entwerfen, können Sie nicht über eine private Instanz auf Datenquellen im offenen Internet zugreifen. Stattdessen entwerfen Sie die Pipeline in einem Mandantenprojekt mithilfe einer öffentlichen Instanz, um eine Verbindung zu Datenquellen im Internet herzustellen. Nachdem Sie Ihre Pipeline erstellt haben, verschieben Sie sie in ein Kundenprojekt und führen Sie sie in einer privaten Instanz aus, damit Sie VPC-Richtlinien steuern können. Sie müssen bei beiden Projekten eine Verbindung zu Ihren Daten herstellen.
Zugriff auf Quellen
Wenn Ihre Ausführungsumgebung in einer Cloud Data Fusion-Version vor 6.4 ausgeführt wird, können Sie nur auf Ressourcen in Ihrem VPC-Netzwerk zugreifen. Cloud VPN oder Cloud Interconnect für den Zugriff auf lokale Datenquellen einrichten. Cloud Data Fusion-Versionen vor 6.4 können nur dann auf Quellen im öffentlichen Internet zugreifen, wenn Sie ein Cloud NAT-Gateway einrichten.
Beim Zugriff auf Datenquellen, öffentliche und private Instanzen:
- Ausgehende Aufrufe von Google Cloud APIs mit privatem Google-Zugriff ausführen
- Mit einer Ausführungsumgebung (Dataproc) über VPC-Peering kommunizieren
In der folgenden Tabelle werden öffentliche und private Instanzen während des Entwurfs und der Ausführung für verschiedene Datenquellen verglichen:
Datenquelle | Öffentliche Cloud Data Fusion-Instanz (Entwicklungszeit) |
Öffentliche Cloud Data Fusion-Dataproc (Ausführung) |
Private Cloud Data Fusion-Instanz (Entwicklungszeit) |
Private Cloud Data Fusion-Dataproc (Ausführung) |
---|---|---|---|---|
Google Cloud-Quelle (nachdem Sie Berechtigungen erteilt und Firewallregeln festgelegt haben) |
||||
Lokale Quelle (nach dem Einrichten von VPN/Interconnect, Gewähren von Berechtigungen und Festlegen von Firewallregeln) |
||||
Öffentliche Internetquelle (nachdem Sie Berechtigungen erteilt und Firewallregeln festgelegt haben) |
Versionen ≥ 6.4 Versionen < 6.4 |
Nächste Schritte
- Zugriffssteuerung in Cloud Data Fusion
- Dienstkonten in Cloud Data Fusion
- Öffentliche Instanz erstellen
- Private Instanz erstellen