Diese Seite enthält Hintergrundinformationen zum Herstellen einer Verbindung zu Ihren Datenquellen von öffentlichen oder privaten Cloud Data Fusion-Instanzen aus Design- und Ausführungsumgebungen.
Vorbereitung
Auf dieser Seite wird davon ausgegangen, dass Sie mit diesen Begriffen vertraut sind:
- Mandantenprojekt
Cloud Data Fusion erstellt ein Mandantenprojekt, das die Ressourcen und Dienste enthält, die es zur Verwaltung von Pipelines in Ihrem Namen benötigt. Beispiel: Pipelines auf Ihren Dataproc-Clustern ausführen, die sich in Ihrem Kundenprojekt befinden. Ein Mandantenprojekt ist für Kunden nicht verfügbar. Wenn Sie jedoch eine private Instanz erstellen, müssen Sie möglicherweise den Mandantenprojektnamen verwenden, um VPC-Peering einzurichten.
Ein Mandantenprojekt kann mehrere Cloud Data Fusion-Instanzen haben. Sie greifen auf die Ressourcen und Dienste, die ein Mandantenprojekt enthält, über eine Cloud Data Fusion-Instanz über die Cloud Data Fusion-Web-UI oder die Google Cloud-Befehlszeile zu.
Weitere Informationen finden Sie in der Service Infrastructure-Dokumentation zu Mandantenprojekten.
- Kundenprojekt
Der Kunde erstellt und besitzt dieses Projekt. Standardmäßig erstellt Cloud Data Fusion in diesem Projekt einen sitzungsspezifischen Dataproc-Cluster, um die Pipelines des Kunden auszuführen.
- Cloud Data Fusion-Instanz
Eine Cloud Data Fusion-Instanz ist eine einmalige Bereitstellung von Cloud Data Fusion. Für den Einstieg in Cloud Data Fusion erstellen Sie in der Google Cloud Console eine Cloud Data Fusion-Instanz.
Sie können mehrere Instanzen in einem Google Cloud-Projekt erstellen und die Google Cloud-Region angeben, in der Ihre Cloud Data Fusion-Instanzen erstellt werden sollen.
Je nach Anforderungen und Kostenbeschränkungen können Sie eine Developer-, Basic- oder Enterprise-Instanz erstellen.
Jede Cloud Data Fusion-Instanz enthält eine einzigartige, unabhängige Cloud Data Fusion-Bereitstellung, die eine Reihe von Diensten für die Verwaltung des Pipelinelebenszyklus, die Orchestrierung, Koordinierung und die Metadatenverwaltung enthält. Diese Dienste werden mit lang laufenden Ressourcen in einem Mandantenprojekt ausgeführt.
Netzwerkdiagramm
Sie können Datenpipelines erstellen, um Daten aus verschiedenen lokalen und Cloud-Datenquellen zu extrahieren, zu transformieren, zu mischen, zu aggregieren und zu laden.
Informationen zu Cloud Data Fusion Version 6.4 und höher finden Sie in Diagrammen zur Steuerung des ausgehenden Traffics in einer privaten Instanz und zu Verbindung mit einer öffentlichen Quelle herstellen.
Für Cloud Data Fusion-Versionen unter 6.4 zeigt das folgende Systemarchitekturdiagramm, wie Cloud Data Fusion eine Verbindung zu Datenquellen von Diensten wie Vorschau oder Wrangler in einem Mandantenprojekt und Dataproc in einem Kundenprojekt herstellt.
Vorteile der Verwendung eines Mandantenprojekts
Die Verwendung eines Mandantenprojekts in Cloud Data Fusion bietet folgende Vorteile:
- Nutzer und Entwickler können nur verwaltete Dienste in einem Mandantenprojekt verwenden, das über die Cloud Data Fusion-Web-UI oder gcloud-Befehlszeile bereitgestellt wird.
- Nutzer können keine Ressourcen in einem Mandantenprojekt aufrufen oder verwalten. Daher wird Ihnen nichts in Rechnung gestellt und sie nehmen keine unbeabsichtigten Änderungen an den Diensten vor, was zu Systemausfällen führen kann.
- Jeder verwaltete Dienst im Mandantenprojekt hat ein eigenes VPC-Netzwerk und Subnetz.
Design- und Ausführungsumgebungen
Cloud Data Fusion bietet eine Trennung von Design- und Ausführungsumgebungen, sodass Sie eine Pipeline einmal entwerfen und dann in mehreren Umgebungen ausführen können. Die Designumgebung befindet sich im Mandantenprojekt, während sich die Ausführungsumgebung in einem oder mehreren Kundenprojekten befindet.
Beispiel: Sie entwerfen Ihre Pipeline mit Cloud Data Fusion-Diensten wie Wrangler und Vorschau. Diese Dienste werden im Mandantenprojekt ausgeführt, in dem der Zugriff auf Daten von der von Google verwalteten Rolle Cloud Data Fusion-Dienst-Agent gesteuert wird. Anschließend führen Sie die Pipeline in Ihrem Kundenprojekt aus, damit sie Ihren Dataproc-Cluster verwendet. Im Kundenprojekt wird der Zugriff auf Daten vom Compute Engine-Standarddienstkonto gesteuert. Sie können Ihr Projekt für die Verwendung eines benutzerdefinierten Dienstkontos konfigurieren.
Weitere Informationen zum Konfigurieren von Dienstkonten finden Sie unter Cloud Data Fusion-Dienstkonten.
Designumgebung
Wenn Sie in Ihrem Kundenprojekt eine Cloud Data Fusion-Instanz erstellen, erstellt Cloud Data Fusion automatisch für jedes Kundenprojekt ein separates, von Google verwaltetes Mandantenprojekt. Im Mandantenprojekt werden die Dienste ausgeführt, die zum Verwalten des Lebenszyklus von Pipelines und Metadaten, der Cloud Data Fusion-UI und Designtools wie Vorschau und Wrangler erforderlich sind.
Ausführungsumgebung
Nachdem Sie Ihre Pipeline in einer Instanz überprüft und bereitgestellt haben, wird sie entweder manuell oder nach einem Zeitplan bzw. einem Trigger für den Pipelinestatus ausgeführt.
Unabhängig davon, ob die Ausführungsumgebung von Cloud Data Fusion oder dem Kunden bereitgestellt und verwaltet wird, ist die Umgebung in Ihrem Kundenprojekt vorhanden.
Cloud Data Fusion-Instanzen
Es gibt zwei Arten von Cloud Data Fusion-Instanzen, die auf einem Zugriffsmodell basieren: eine öffentliche (Standardinstanz) und eine private Instanz.
Öffentliche Instanzen (Standard)
Am einfachsten stellen Sie eine Cloud Data Fusion-Instanz bereit, indem Sie eine öffentliche Instanz erstellen. Es dient als Ausgangspunkt und bietet Zugriff auf externe Endpunkte im öffentlichen Internet.
Eine öffentliche Instanz in Cloud Data Fusion verwendet das Standard-VPC-Netzwerk in Ihrem Projekt.
Das Standard-VPC-Netzwerk hat die folgenden Eigenschaften:
- Automatisch generierte Subnetze für jede Region
- Tabellen weiterleiten
- Firewallregeln für die Kommunikation zwischen Ihren Rechenressourcen
Netzwerke über Regionen hinweg
Wenn Sie ein neues Projekt erstellen, hat das Standard-VPC-Netzwerk den Vorteil, dass es ein Subnetz pro Region automatisch mit einem vordefinierten IP-Adressbereich befüllt, der als CIDR-Block ausgedrückt wird. Die IP-Adressbereiche beginnen in den globalen Google Cloud-Regionen mit 10.128.0.0/20
, 10.132.0.0/20
.
Damit Ihre Computing-Ressourcen regionenübergreifend miteinander verbunden sind, legt das Standard-VPC-Netzwerk die standardmäßigen lokalen Routen für jedes Subnetz fest. Durch das Einrichten der Standardroute zum Internet (0.0.0.0/0
) erhalten Sie Zugriff auf das Internet und erfassen den nicht weitergeleiteten Netzwerktraffic.
Firewallregeln
Das Standard-VPC-Netzwerk bietet eine Reihe von Firewallregeln:
Standard | Beschreibung |
---|---|
icmp standardmäßig zulassen |
icmp -Protokoll für Quelle 0.0.0.0/0 aktivieren |
Intern standardmäßig zulassen | tcp:0-65535 ;udp:0-65535 ;icmp für die Quelle 10.128.0.0/9 aktivieren, die mindestens 10.128.0.1 bis maximal 10.255.255.254 IP-Adressen umfasst. |
rdp standardmäßig zulassen |
tcp:3389 für Quelle 0.0.0.0/0 aktivieren |
ssh standardmäßig zulassen |
tcp:22 für Quelle 0.0.0.0/0 aktivieren |
Diese Standardeinstellungen für VPC-Netzwerke minimieren die Voraussetzungen für die Einrichtung von Cloud-Diensten, einschließlich Cloud Data Fusion. Aufgrund von Bedenken hinsichtlich der Netzwerksicherheit können Sie das Standard-VPC-Netzwerk häufig nicht für Geschäftsvorgänge verwenden. Ohne das standardmäßige VPC-Netzwerk können Sie keine öffentliche Cloud Data Fusion-Instanz erstellen. Führen Sie stattdessen die Schritte zum Erstellen einer privaten Cloud Data Fusion-Instanz aus.
Das Standard-VPC-Netzwerk gewährt keinen offenen Zugriff auf Ressourcen. Stattdessen steuert der Identitäts- und Zugriffsverwaltungsdienst (Identity and Access Management, IAM) den Zugriff auf Ressourcen:
- Für die Anmeldung in Google Cloud ist eine validierte Identität erforderlich.
- Nach der Anmeldung benötigen Sie eine explizite Berechtigung (z. B. die Betrachterrolle), um Google Cloud-Dienste aufzurufen.
Private Instanzen
Bei einigen Organisationen müssen alle ihre Produktionssysteme von öffentlichen IP-Adressen isoliert sein. Eine private Cloud Data Fusion-Instanz erfüllt diese Anforderung in allen Arten von VPC-Netzwerkeinstellungen.
In Cloud Data Fusion-Versionen unter 6.4 verwenden Design- und Ausführungsumgebungen private IP-Adressen. Sie verwenden keine öffentlichen Internet-IP-Adressen, die mit Cloud Data Fusion Compute Engine verbunden sind. Daher kann die private IP-Instanz von Cloud Data Fusion als Designtool nicht auf Datenquellen im öffentlichen Internet zugreifen.
Um von einer privaten Instanz eine Verbindung zu Datenquellen im öffentlichen Internet herzustellen, entwerfen Sie die Pipeline in einer öffentlichen Instanz und verschieben sie dann zur Ausführung in eine private Instanz in einem Kundenprojekt, in dem Sie die VPC-Richtlinien steuern. Sie müssen aus beiden Projekten, die Sie während der Entwicklung und Ausführung verwenden, eine Verbindung zu Ihren Daten herstellen.
Zugriff auf Daten in Design- und Ausführungsumgebungen
In einer öffentlichen Instanz erfolgt die Netzwerkkommunikation über das offene Internet, was für kritische Umgebungen nicht empfohlen wird. Für den sicheren Zugriff auf Ihre Datenquellen führen Sie Ihre Pipelines immer von einer privaten Instanz in Ihrer Ausführungsumgebung aus.
Wenn Sie in Cloud Data Fusion Version 6.4 Ihre Pipeline entwerfen, können Sie nicht über eine private Instanz auf Datenquellen im offenen Internet zugreifen. Stattdessen entwerfen Sie die Pipeline in einem Mandantenprojekt mithilfe einer öffentlichen Instanz, um eine Verbindung zu Datenquellen im Internet herzustellen. Nachdem Sie Ihre Pipeline erstellt haben, verschieben Sie sie in ein Kundenprojekt und führen Sie sie in einer privaten Instanz aus, damit Sie VPC-Richtlinien steuern können. Sie müssen bei beiden Projekten eine Verbindung zu Ihren Daten herstellen.
Weitere Informationen zu den Projekttypen und Instanzen, die für den Zugriff auf verschiedene Datenquellen erforderlich sind, finden Sie im Abschnitt Zugriff auf Quellen.
Zugriff auf Quellen
Wenn Ihre Ausführungsumgebung in einer Cloud Data Fusion-Version unter 6.4 ausgeführt wird, können Sie nur auf Ressourcen in Ihrem VPC-Netzwerk zugreifen. Durch das Einrichten von Cloud VPN oder Cloud Interconnect können Sie auf lokale Datenquellen zugreifen. Cloud Data Fusion-Versionen vor 6.4 können nur auf Quellen im öffentlichen Internet zugreifen, wenn Sie ein Cloud NAT-Gateway einrichten.
Beim Zugriff auf Datenquellen, öffentliche und private Instanzen:
- Ausgehende Aufrufe von Google Cloud APIs mit privatem Google-Zugriff ausführen
- Mit einer Ausführungsumgebung (Dataproc) über VPC-Peering kommunizieren
In der folgenden Tabelle werden öffentliche und private Instanzen während des Entwurfs und der Ausführung für verschiedene Datenquellen verglichen:
Datenquelle | Öffentliche Cloud Data Fusion-Instanz (Entwicklungszeit) |
Öffentliche Cloud Data Fusion-Dataproc (Ausführung) |
Private Cloud Data Fusion-Instanz (Entwicklungszeit) |
Private Cloud Data Fusion-Dataproc (Ausführung) |
---|---|---|---|---|
Google Cloud-Quelle (nachdem Sie Berechtigungen erteilt und Firewallregeln festgelegt haben) |
||||
Lokale Quelle (nach dem Einrichten von VPN/Interconnect, Gewähren von Berechtigungen und Festlegen von Firewallregeln) |
||||
Öffentliche Internetquelle (nachdem Sie Berechtigungen erteilt und Firewallregeln festgelegt haben) |
Versionen ≥ 6.4 Versionen < 6.4 |
Weitere Informationen
- Zugriffssteuerung in Cloud Data Fusion
- Dienstkonten in Cloud Data Fusion
- Öffentliche Instanz erstellen
- Private Instanz erstellen