Auf dieser Seite wird beschrieben, wie Sie die Zugriffssteuerung verwalten, wenn Sie eine Pipeline bereitstellen und ausführen, die Dataproc-Cluster in einem anderen Google Cloud-Projekt verwendet.
Szenario
Wenn eine Cloud Data Fusion-Instanz in einem Google Cloud-Projekt gestartet wird, werden standardmäßig Pipelines mithilfe von Dataproc-Clustern im selben Projekt bereitgestellt und ausgeführt. Ihre Organisation erfordern, dass Sie Cluster in einem anderen Projekt verwenden. In diesem Fall müssen Sie den Zugriff zwischen den Projekten verwalten. Auf der folgenden Seite wird beschrieben, wie Sie die Baseline (Standardkonfigurationen) ändern und die entsprechenden Zugriffssteuerungen anwenden.
Hinweise
Für die Lösungen in diesem Anwendungsfall ist der folgende Kontext erforderlich:
- Vorkenntnisse zu grundlegenden Konzepten von Cloud Data Fusion
- Vorkenntnisse zu Identity and Access Management (IAM) für Cloud Data Fusion
- Vorkenntnisse zu Cloud Data Fusion-Netzwerken
Annahmen und Umfang
Dieser Anwendungsfall hat folgende Anforderungen:
- Eine private Cloud Data Fusion-Instanz. Aus Sicherheitsgründen kann eine Organisation verlangen, dass Sie diese Art von Instanz verwenden.
- Eine BigQuery-Quelle und -Senke.
- Zugriffssteuerung mit IAM, keine rollenbasierte Zugriffssteuerung (Role-Based Access Control, RBAC).
Lösung
Bei dieser Lösung werden die Architektur und Konfiguration der Baseline mit denen des Anwendungsfalls verglichen.
Architektur
In den folgenden Diagrammen wird die Projektarchitektur zum Erstellen einer Cloud Data Fusion-Instanz und zum Ausführen von Pipelines verglichen, wenn Sie Cluster im selben Projekt (Baseline) und in einem anderen Projekt über die VPC des Mandantenprojekts verwenden.
Referenzarchitektur
Dieses Diagramm zeigt die grundlegende Architektur der Projekte:
Für die Baseline-Konfiguration erstellen Sie eine private Cloud Data Fusion-Instanz und führen eine Pipeline ohne zusätzliche Anpassungen aus:
- Sie verwenden eines der integrierten Compute-Profile.
- Quell- und Senkenobjekt befinden sich im selben Projekt wie die Instanz
- Den Dienstkonten wurden keine zusätzlichen Rollen gewährt
Weitere Informationen zu Mandanten- und Kundenprojekten finden Sie unter Netzwerk.
Anwendungsfallarchitektur
Dieses Diagramm zeigt die Projektarchitektur, wenn Sie Cluster in einem anderen Projekt:
Konfigurationen
In den folgenden Abschnitten werden die Basiskonfigurationen mit dem Anwendungsfall verglichen Konfigurationen für die Verwendung von Dataproc-Clustern in ein anderes Projekt über die Standard-VPC des Mandantenprojekts.
In den folgenden Anwendungsfallbeschreibungen wird die Cloud Data Fusion-Instanz im Kundenprojekt ausgeführt und der Dataproc-Cluster wird im Dataproc-Projekt gestartet.
VPC und Instanz des Mandantenprojekts
Referenz | Anwendungsfall |
---|---|
Im obigen Referenzarchitekturdiagramm
enthält das Mandantenprojekt
enthält die folgenden Komponenten:
|
Für diesen Anwendungsfall ist keine zusätzliche Konfiguration erforderlich. |
Kundenprojekt
Referenz | Anwendungsfall |
---|---|
In Ihrem Google Cloud-Projekt stellen Sie Pipelines bereit und führen sie aus. Standardmäßig werden die Dataproc-Cluster in diesem wenn Sie Ihre Pipelines ausführen. | In diesem Anwendungsfall verwalten Sie zwei Projekte. Auf dieser Seite bezieht sich das Kundenprojekt auf den Ort, an dem die Cloud Data Fusion-Instanz ausgeführt wird. Das Dataproc-Projekt bezieht sich auf in dem die Dataproc-Cluster gestartet werden. |
Kunden-VPC
Referenz | Anwendungsfall |
---|---|
Aus Ihrer Sicht (der des Kunden) befindet sich Cloud Data Fusion logisch im VPC des Kunden. Zusammenfassung : Die Details zum VPC des Kunden finden Sie auf der Seite „VPC-Netzwerke“ Ihres Projekts. |
Für diesen Anwendungsfall ist keine zusätzliche Konfiguration erforderlich. |
Subnetz von Cloud Data Fusion
Referenz | Anwendungsfall |
---|---|
Aus Ihrer Sicht (der des Kunden) befindet sich Cloud Data Fusion logisch in diesem Subnetz. Zusammenfassung : Die Region dieses Subnetzes stimmt mit dem Speicherort der Cloud Data Fusion-Instanz im Mandantenprojekt überein. |
Für diesen Anwendungsfall ist keine zusätzliche Konfiguration erforderlich. |
Dataproc-Subnetz
Referenz | Anwendungsfall |
---|---|
Das Subnetz, in dem Dataproc-Cluster gestartet werden, wenn Sie eine Pipeline ausführen. Zusammenfassung:
|
Dies ist ein neues Subnetz, in dem Dataproc-Cluster wenn Sie eine Pipeline ausführen. Zusammenfassung:
|
Quellen und Senken
Referenz | Anwendungsfall |
---|---|
Die Quellen, in denen Daten extrahiert werden, und Senken, in die die Daten geladen werden, wie BigQuery-Quellen und -Senken. Wichtigste Erkenntnisse:
|
Die nutzungsspezifischen Zugriffssteuerungskonfigurationen auf dieser Seite gelten für BigQuery-Quellen und -Ziele. |
Cloud Storage
Referenz | Anwendungsfall |
---|---|
Der Speicher-Bucket im Kundenprojekt, der die Übertragung von Dateien zwischen Cloud Data Fusion und Dataproc unterstützt. Zusammenfassung:
|
Für diesen Anwendungsfall ist keine zusätzliche Konfiguration erforderlich. |
Von Quelle und Senke verwendete temporäre Buckets
Referenz | Anwendungsfall |
---|---|
Die temporären Buckets, die von Plug-ins für Ihre Quellen und Senken erstellt wurden, z. B. die vom BigQuery-Senken-Plug-in initiierten Jobs. Zusammenfassung:
|
Für diesen Anwendungsfall kann der Bucket in einem beliebigen Projekt erstellt werden. |
Buckets, die Datenquellen oder Datensenken für Plug-ins sind
Referenz | Anwendungsfall |
---|---|
Kunden-Buckets, die Sie in den Konfigurationen für Plug-ins angeben, z. B. das Cloud Storage-Plug-in und das FTP-zu-Cloud Storage-Plug-in. | Für diesen Anwendungsfall ist keine zusätzliche Konfiguration erforderlich. |
IAM: Cloud Data Fusion API-Dienst-Agent
Referenz | Anwendungsfall |
---|---|
Wenn die Cloud Data Fusion API aktiviert ist, wird die Rolle Cloud Data Fusion API-Dienst-Agent ( Zusammenfassung:
|
Weisen Sie für diesen Anwendungsfall dem Dienstkonto im Dataproc-Projekt die Rolle „Cloud Data Fusion API-Dienst-Agent“ zu. Weisen Sie dann die folgenden Rollen in diesem Projekt zu:
|
IAM: Dataproc-Dienstkonto
Referenz | Anwendungsfall |
---|---|
Das Dienstkonto, mit dem die Pipeline als Job innerhalb des Dataproc-Clusters ausgeführt wird. Standardmäßig ist dies das Compute Engine-Dienstkonto. Optional: In der Baseline-Konfiguration können Sie das Standarddienstkonto in ein anderes Dienstkonto aus demselben Projekt ändern. Erteilen die folgenden IAM-Rollen für das neue Dienstkonto:
|
In diesem Anwendungsfall wird davon ausgegangen, dass Sie die Standardeinstellung
Compute Engine-Dienstkonto ( Weisen Sie dem Standard-Compute Engine-Dienstkonto im Dataproc-Projekt die folgenden Rollen zu.
Cloud Data Fusion die Rolle „Dienstkontonutzer“ zuweisen Dienstkonto im Compute Engine-Standarddienstkonto von das Dataproc-Projekt. Diese Aktion muss im Dataproc-Projekt Fügen Sie dem Cloud Data Fusion-Projekt das standardmäßige Compute Engine-Dienstkonto des Dataproc-Projekts hinzu. Gewähren Sie außerdem die folgenden Rollen:
|
APIs
Referenz | Anwendungsfall |
---|---|
Wenn Sie die Cloud Data Fusion API aktivieren, werden auch die folgenden APIs aktiviert. Weitere Informationen zu diesen APIs finden Sie in Ihrem Projekt auf der Seite „APIs & Dienste“.
Wenn Sie die Cloud Data Fusion API aktivieren, wird der folgende Dienst Konten werden Ihrem Projekt automatisch hinzugefügt:
|
Aktivieren Sie für diesen Anwendungsfall die folgenden APIs im Projekt, das das Dataproc-Projekt enthält:
|
Verschlüsselungsschlüssel
Referenz | Anwendungsfall |
---|---|
In der Baseline-Konfiguration können Verschlüsselungsschlüssel von Google verwaltet oder CMEK sein. Zusammenfassung: Wenn Sie CMEK verwenden, sind für die Baseline-Konfiguration folgende Voraussetzungen erforderlich:
Je nach den in Ihrer Pipeline verwendeten Diensten, z. B. BigQuery oder Cloud Storage, müssen Dienstkonten auch die Rolle „Cloud KMS CryptoKey-Verschlüsseler/Entschlüsseler“ zugewiesen werden:
|
Wenn Sie CMEK nicht verwenden, sind für diesen Anwendungsfall keine weiteren Änderungen erforderlich. Wenn Sie CMEK verwenden, muss die Rolle „Cloud KMS CryptoKey Encrypter/Decrypter“ für das folgende Dienstkonto auf Schlüsselebene im Projekt erstellen, in dem es erstellt wird:
Je nach den in Ihrer Pipeline verwendeten Diensten, z. B. BigQuery oder Cloud Storage, muss auch anderen Dienstkonten die Rolle „Cloud KMS CryptoKey-Verschlüsseler/Entschlüsseler“ auf Schlüsselebene zugewiesen werden. Beispiel:
|
Nachdem Sie diese anwendungsfallspezifischen Konfigurationen vorgenommen haben, kann Ihre Datenpipeline auf Clustern in einem anderen Projekt ausgeführt werden.
Nächste Schritte
- Weitere Informationen zu Netzwerken in Cloud Data Fusion
- Weitere Informationen finden Sie in der Referenz zu einfachen und vordefinierten IAM-Rollen.