Private Instanz mit VPC-Peering erstellen

Auf dieser Seite wird beschrieben, wie Sie eine Cloud Data Fusion-Instanz mit einer internen IP-Adresse erstellen. Sie erstellen die Instanz in einem VPC-Netzwerk oder einem freigegebenen VPC-Netzwerk.

Eine private Cloud Data Fusion-Instanz bietet folgende Vorteile:

  • Die Verbindungen zur Instanz werden über ein privates VPC-Netzwerk in Ihrem Google Cloud-Projekt hergestellt. Der Traffic über das Netzwerk läuft nicht über das öffentliche Internet.

  • Die Instanz kann eine Verbindung zu Ihren lokalen Ressourcen wie relationalen Datenbanken herstellen, da Ihr lokales Netzwerk über Cloud VPN oder Cloud Interconnect mit dem privaten VPC-Netzwerk von Google Cloud verbunden ist. Sie können über das private Netzwerk sicher auf Ihre lokalen Ressourcen wie Datenbanken zugreifen, ohne Zugriff auf Google Cloud zu gewähren.

Lernziele

  • Richten Sie das VPC-Netzwerk oder das freigegebene VPC-Netzwerk ein.
  • Weisen Sie einen IP-Bereich zu, mit dem die Cloud Data Fusion-Instanz im Mandantenprojekt bereitgestellt wird.
  • Erstellen Sie die private Cloud Data Fusion-Instanz.
  • Richten Sie das VPC-Netzwerk-Peering zwischen der VPC, die die Cloud Data Fusion-Instanz enthält, und der VPC mit dem zugehörigen Mandantenprojekt ein.
  • Richten Sie für freigegebene VPC-Netzwerke IAM-Berechtigungen (Identity and Access Management) ein.
  • Wenn Ihre private Instanz Cloud Data Fusion Version 6.2.0 oder niedriger verwendet, erstellen Sie eine Firewallregel.
  • Aktivieren Sie den privater Google-Zugriff im Dataproc-Subnetz, damit verschiedene Google Cloud-Dienste intern miteinander kommunizieren können.

Hinweise

  • Informationen zur Bereitstellungsarchitektur von Cloud Data Fusion finden Sie unter Netzwerk.

VPC-Netzwerk einrichten

Erstellen Sie ein VPC-Netzwerk oder ein freigegebenes VPC-Netzwerk, falls noch nicht geschehen.

Zum Einrichten Ihres VPC-Netzwerk müssen Sie einen IP-Adressbereich zuweisen.

IP-Bereich zuweisen

VPC-Netzwerk

Wenn Sie kein freigegebene VPC-Netzwerk verwenden, weist Cloud Data Fusion beim Erstellen einer Instanz standardmäßig einen IP-Bereich zu.

Freigegebenes VPC-Netzwerk

Wenn Sie eine freigegebene VPC verwenden möchten, müssen Sie der Cloud Data Fusion-Instanz einen IP-Bereich zuweisen.

So weisen Sie einen IP-Bereich für Ihre Cloud Data Fusion-Instanz zu:

  1. Rufen Sie in der Google Cloud Console die Seite VPC-Netzwerke auf.

    Zur Seite VPC-Netzwerke

  2. Klicken Sie in der Spalte Name auf das VPC-Netzwerk, in dem Sie eine private Cloud Data Fusion-Instanz erstellen möchten.

    Die Seite VPC-Netzwerkdetails wird geöffnet.

  3. Klicken Sie auf Private Dienstverbindung. Aktivieren Sie die Service Networking API, wenn Sie dazu aufgefordert werden. Klicken Sie dazu auf API aktivieren.

    Konfigurieren Sie die VPC-Netzwerkdetails.

  4. Klicken Sie auf IP-Bereich zuweisen.

    1. Geben Sie einen Namen für den IP-Bereich ein.

    2. Klicken Sie unter IP-Bereich auf Automatisch.

    3. Geben Sie eine Präfixgröße von 22 an.

    4. Klicken Sie auf Zuweisen.

      Weisen Sie einen IP-Bereich zu.

Private Instanz erstellen

Erstellen Sie die private Cloud Data Fusion-Instanz in einem VPC-Netzwerk oder einem freigegebene VPC-Netzwerk.

VPC-Netzwerk

Verwenden Sie zum Erstellen der Instanz in einem VPC-Netzwerk entweder die Google Cloud Console oder cURL.

Wenn Sie Ihre private Instanz mit der Google Cloud Console erstellen, weist Cloud Data Fusion den IP-Adressbereich /22 standardmäßig zu. Wenn Sie einen anderen IP-Bereich auswählen möchten, müssen Sie den cURL-Befehl verwenden.

Console

  1. Rufen Sie die Seite Data Fusion-Instanz erstellen auf.

    Zur Seite „Data Fusion-Instanz erstellen“

  2. Geben Sie einen Instanznamen und eine Beschreibung für die Instanz ein.

  3. Wählen Sie die Region aus, in der die Instanz erstellt werden soll.

  4. Wählen Sie eine Version und eine Version von Cloud Data Fusion aus.

  5. Geben Sie das Dataproc-Dienstkonto an, das zum Ausführen Ihrer Cloud Data Fusion-Pipeline in Dataproc verwendet werden soll. Das Compute Engine-Standardkonto ist bereits ausgewählt.

  6. Erweitern Sie das Menü Erweiterte Optionen und klicken Sie auf Private IP-Adresse aktivieren.

  7. Wählen Sie im Feld Netzwerk ein Netzwerk aus, in dem die Instanz erstellt werden soll.

  8. Klicken Sie auf Erstellen. Es kann bis zu 30 Minuten dauern, bis die Instanz erstellt ist.

cURL

Um Ihnen die Arbeit zu erleichtern, können Sie die folgenden Variablen exportieren oder diese Werte direkt durch die folgenden Befehle ersetzen:

export PROJECT=PROJECT_ID
export LOCATION=REGION
export DATA_FUSION_API_NAME=datafusion.googleapis.com

Rufen Sie zum Erstellen der Instanz die zugehörige Methode create() auf:

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://$DATA_FUSION_API_NAME/v1/projects/$PROJECT/locations/$LOCATION/instances?instance_id=INSTANCE_ID -X POST -d '{"description": "Private CDF instance created through REST.", "type": "ENTERPRISE", "privateInstance": true, "networkConfig": {"network": "NETWORK_NAME", "ipAllocation": "IP_RANGE"}}'

Ersetzen Sie Folgendes:

  • INSTANCE_ID: Der ID-String, den die neue Instanz erhalten soll.
  • NETWORK_NAME: Der Name des VPC-Netzwerk, in dem Sie Ihre private Instanz erstellen möchten.
  • IP_RANGE: Der zugewiesene IP-Bereich. Sie finden den IP-Bereich in der Google Cloud Console unter VPC-Netzwerkdetails > Private Dienstverbindung > Interner IP-Bereich .

Freigegebenes VPC-Netzwerk

Verwenden Sie zum Erstellen der Instanz in einem freigegebene VPC-Netzwerk cURL und nicht die Google Cloud Console.

cURL

Um Ihnen die Arbeit zu erleichtern, können Sie die folgenden Variablen exportieren. Alternativ können Sie diese Werte in den folgenden Befehlen direkt ersetzen:

export PROJECT=PROJECT_ID
export LOCATION=REGION
export DATA_FUSION_API_NAME=datafusion.googleapis.com

Rufen Sie zum Erstellen der Instanz die zugehörige Methode create() auf:

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://$DATA_FUSION_API_NAME/v1/projects/$PROJECT/locations/$LOCATION/instances?instanceId=INSTANCE_ID -X POST -d '{"description": "Private CDF instance created through REST.", "type": "ENTERPRISE", "privateInstance": true, "networkConfig": {"network": "projects/SHARED_VPC_HOST_PROJECT_ID/global/networks/NETWORK_NAME", "ipAllocation": "IP_RANGE"}}'

Ersetzen Sie Folgendes:

  • INSTANCE_ID: Der ID-String, den die neue Instanz erhalten soll.
  • SHARED_VPC_HOST_PROJECT_ID: Die ID des Projekts, das das freigegebene VPC-Netzwerk hostet.
  • NETWORK_NAME: Der Name des VPC-Netzwerk, in dem Sie die private Instanz erstellen möchten.
  • IP_RANGE: Der zugewiesene IP-Bereich. Sie finden den IP-Bereich in der Google Cloud Console auf der Seite VPC-Netzwerkdetails > Private Dienstverbindung > Interner IP-Bereich.

VPC-Netzwerk-Peering einrichten

Cloud Data Fusion-Dienste, die Sie in Ihrer Designumgebung verwenden (z. B. Wrangler, Connection Manager und Schema Validation), initiieren Netzwerkverbindungen von der VPC des Mandantenprojekts zu den Quellsystemen. Cloud Data Fusion verwendet VPC-Netzwerk-Peering, um eine Netzwerkverbindung mit der VPC oder der freigegebene VPC herzustellen, die Ihre Instanz enthält. Mit dem VPC-Netzwerk-Peering kann Cloud Data Fusion über interne IP-Adressen auf Ressourcen in Ihrem Netzwerk zugreifen. Dazu verwenden Sie Ihre eigene VPC und deren Steuerelemente. Informationen zum Herstellen einer Verbindung zu einer Ressource in einem anderen Netzwerk finden Sie in den Schritten für Anwendungsfälle für Verbindungen.

Im folgenden Abschnitt wird beschrieben, wie Sie eine Peering-Konfiguration zwischen Ihrem Netzwerk und dem Netzwerk des Mandantenprojekts von Cloud Data Fusion erstellen.

Mandantenprojekt-ID abrufen

Zum Erstellen einer Peering-Konfiguration benötigen Sie die ID des Mandantenprojekts.

  1. Rufen Sie die Seite Cloud Data Fusion-Seite Instanzen auf.

    Zur Seite „Instanzen“

  2. Wählen Sie in der Spalte Instanzname die Instanz aus.

  3. Kopieren Sie auf der Seite Instanzdetails die Mandantenprojekt-ID, die in den folgenden Schritten zum Erstellen einer Peering-Verbindung erforderlich ist.

Peering-Verbindung erstellen

  1. Rufen Sie die Seite VPC-Netzwerk-Peering auf.

    Zum VPC-Netzwerk-Peering

  2. Klicken Sie auf Verbindung erstellen > Weiter.

  3. Führen Sie auf der Seite Peering-Verbindung erstellen die folgenden Schritte aus:

    1. Geben Sie einen Namen für die Peering-Verbindung ein.
    2. Wählen Sie unter Mein VPC-Netzwerk das Netzwerk aus, das Ihre Cloud Data Fusion-Instanz enthält.
    3. Wählen Sie für Peering-VPC-Netzwerk die Option In einem anderen Projekt aus.
    4. Geben Sie als Projekt-ID die Mandantenprojekt-ID ein, die Sie zuvor in dieser Anleitung ermittelt haben.
    5. Wählen Sie für VPC-Netzwerkname ein Netzwerk aus oder geben Sie INSTANCE_REGION-INSTANCE_ID ein.

      Ersetzen Sie Folgendes:

      • INSTANCE_REGION: Die Region, in der Sie Ihre Cloud Data Fusion-Instanz erstellt haben.
      • INSTANCE_ID: die ID Ihrer Cloud Data Fusion-Instanz.
    6. Wählen Sie die Internet Protocol-Version für die Peering-Verbindung aus, um IPv4- und IPv6-Routen zwischen Ihrem VPC-Netzwerk und dem Peering-VPC-Netzwerk auszutauschen. Weitere Informationen finden Sie unter VPC-Netzwerk-Peering.

    7. Wählen Sie Benutzerdefinierte Routen exportieren aus, damit benutzerdefinierte Routen von Ihrem VPC-Netzwerk in das Mandanten-VPC-Netzwerk exportiert werden können.

    8. Legen Sie fest, ob Subnetzrouten mit öffentlicher IPv4 in Ihr VPC-Netzwerk importiert oder exportiert werden können.

    9. Klicken Sie auf Erstellen.

    Das VPC-Netzwerk-Peering wird kurz nach seiner Erstellung aktiv.

IAM-Berechtigungen einrichten

VPC-Netzwerk

Überspringen Sie diesen Schritt und fahren Sie mit Firewallregel erstellen fort.

Freigegebenes VPC-Netzwerk

Wenn Sie Ihre Cloud Data Fusion-Instanz in einem freigegebene VPC-Netzwerk erstellen, müssen Sie den folgenden Dienstkonten die Rolle „Compute-Netzwerknutzer“ zuweisen. Wenn Sie Berechtigungen für alle Subnetze erteilen möchten, weisen Sie dem freigegebene VPC-Hostprojekt die Rolle zu.

Wenn Sie den Zugriff genauer steuern möchten, weisen Sie die Rolle stattdessen einem bestimmten Subnetz und die Rolle „Network Viewer“ für das Hostprojekt zu.

  • Cloud Data Fusion-Dienstkonto: service-PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com
  • Dataproc-Dienstkonto: service-PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com

PROJECT_NUMBER ist die Nummer des Google Cloud-Projekts, das Ihre Cloud Data Fusion-Instanz enthält.

Weitere Informationen finden Sie unter Zugriff auf die erforderlichen Dienstkonten gewähren.

Firewallregel erstellen

Erstellen Sie eine Firewallregel für Ihr VPC-Netzwerk, die eingehende SSH-Verbindungen aus dem IP-Bereich zulässt, den Sie bei der Erstellung Ihrer privaten Cloud Data Fusion-Instanz angegeben haben.

Dieser Schritt ist für Cloud Data Fusion-Versionen vor 6.2.0 erforderlich. Er ermöglicht die Kommunikation zwischen Cloud Data Fusion- und Dataproc-Clustern, auf denen Pipelines ausgeführt werden.

Sie können die Firewallregel über die Google Cloud Console oder über die gcloud CLI erstellen.

Console

Weitere Informationen finden Sie unter Firewallregeln erstellen.

gcloud

Führen Sie dazu diesen Befehl aus:

gcloud compute firewall-rules create FIREWALL_NAME-allow-ssh --allow=tcp:22 --source-ranges=IP_RANGE --network=NETWORK_NAME --project=PROJECT_ID

Ersetzen Sie Folgendes:

  • FIREWALL_NAME: Der Name der zu erstellenden Firewallregel.
  • IP_RANGE: Der zugewiesene IP-Bereich.
  • NETWORK_NAME: Der Name des Netzwerks, mit dem die Firewallregel verknüpft ist. Dies ist der Name des VPC-Netzwerks, in dem Sie die private Instanz erstellt haben.
  • PROJECT_ID: Die ID des Projekts, das das VPC-Netzwerk hostet.

Schritte für Anwendungsfälle mit Verbindungen

In den folgenden Abschnitten werden verbindungsbezogene Anwendungsfälle für private Instanzen beschrieben.

Privaten Google-Zugriff aktivieren

Für den Zugriff auf Ressourcen über interne IP-Adressen muss Cloud Data Fusion die Dataproc-Cluster erstellen und die Datenpipelines in einem Subnetz mit privater Google-Zugriff ausführen. Sie müssen den privater Google-Zugriff für das Subnetz aktivieren, das die Dataproc-Cluster enthält.

  • Wenn in der Region, in der die Dataproc-Cluster gestartet werden, nur ein Subnetz vorhanden ist, wird der Cluster in diesem Subnetz gestartet.
  • Wenn es in einer Region mehrere Subnetze gibt, müssen Sie Cloud Data Fusion so konfigurieren, dass das Subnetz mit privater Google-Zugriff zum Starten von Dataproc-Clustern ausgewählt wird.

Informationen zum Aktivieren des privater Google-Zugriff für das Subnetz finden Sie unter Konfiguration des privaten Google-Zugriffs.

Optional: Verbindung zu anderen Quellen herstellen

Nachdem Sie eine private Instanz in Cloud Data Fusion erstellt haben, können Sie eine Verbindung zu anderen Quellen wie den folgenden Anwendungsfällen herstellen:

Optional: DNS-Peering aktivieren

Aktivieren Sie in den folgenden Fällen DNS-Peering:

  • Wenn Cloud Data Fusion über Hostnamen und nicht über IP-Adressen eine Verbindung zu Systemen herstellt
  • Wenn das Zielsystem hinter einem Load-Balancer bereitgestellt wird, wie es in einigen SAP-Bereitstellungen der Fall ist

Nächste Schritte