Systemverwaltung
Wenn Sie in Cloud Data Fusion Studio auf Systemadministrator klicken, werden die folgenden Tabs angezeigt:
- Auf dem Tab Verwaltung sehen Sie den Systemstatus verschiedener Cloud Data Fusion-Dienste. Außerdem können Sie sich Protokolle für jeden der Dienste ansehen.
Auf dem Tab Konfiguration können Sie die folgenden Steuerelemente erstellen, ansehen und bearbeiten:
- Namespaces: Weitere Informationen finden Sie unter Zugriffssteuerung mit einem Namespace-Dienstkonto.
- Computing-Profile des Systems. Compute-Profile geben an, welcher Bereitsteiler beim Erstellen eines Clusters für die Pipelineausführung und beim Anwenden der zugehörigen Konfigurationen verwendet werden soll.
Bereitsteller sind für das Erstellen, Initialisieren und Löschen der in der Pipelines ausgeführt werden. Jeder Bereitsteiler stellt eine Reihe von Konfigurationen bereit, mit denen gesteuert wird, welche Art von Cluster erstellt und gelöscht wird. Unterschiedliche Bereitsteller erstellen unterschiedliche Arten von Clustern.
Jedes Compute-Profil hat einen Gültigkeitsbereich: „System“ oder „Nutzer“. Sie können ein System-Berechnungsprofil für alle darunter liegenden Namespaces verwenden. Compute-Profile von Nutzern sind in einem und nur Pipelines in diesem Namespace können die Compute Engine-Instanz Profilen.
Auf dem Tab Konfigurationen können Sie ein Systemrechenprofil erstellen, das auf alle Namespaces angewendet wird. Cloud Data Fusion weist ein Standard-Rechenprofil zu.
Wenn Sie ein Compute-Profil erstellen, wählen Sie den Bereitsteller aus, mit dem die Cloud-Laufzeitdetails im Profil erstellt und konfiguriert werden.
Systemeinstellungen
Einstellungen sind vordefinierte Konfigurationen, die auf verschiedenen Cloud Data Fusion, einschließlich System selbst, Namespaces, Anwendungen (die Pipelines enthalten) und einzelne Programme innerhalb von Pipelines. Einstellungen bieten eine Möglichkeit, Standardwerte für häufig verwendete Konfigurationen festzulegen. Diese Standardeinstellungen können von Pipelines und Programmen auf niedrigeren Ebenen übernommen werden, wodurch sich sich wiederholende Konfigurationsaufgaben reduzieren lassen. Weitere Informationen finden Sie unter Makros verwalten, Einstellungen und Laufzeitargumente.
HTTP-Aufrufaktion
Über die HTTP-Call-Aktion auf der Seite Systemadmin können Sie mit Die eigene API von Cloud Data Fusion oder möglicherweise ein anderer Google Cloud-Dienst APIs direkt über die Cloud Data Fusion Studio-Oberfläche Wenn Sie jedoch Datenverarbeitungspipelines mit externen Datenquellen erstellen, sollten Sie stattdessen das HTTP-Plug-in und den HTTP-Aufruf-Executor in Ihren Pipelines verwenden. Sie unterscheidet sich geringfügig von der HTTP-Aufrufaktion, die zugrunde liegenden Konzepte sind jedoch ähnlich.
Konfigurationen und Anwendungsfälle
Die HTTP-Aufrufaktion wird hauptsächlich für Verwaltungsaufgaben oder in Cloud Data Fusion konfigurieren. Sie können direkt über Cloud Data Fusion Studio mit der Cloud Data Fusion API oder anderen Google Cloud-Diensten interagieren, die eine HTTP API bereitstellen.
Konfigurationen
Für einen HTTP-Aufruf können Sie die folgenden Details definieren:
- URL: Zielendpunkt des Webdienstes, auf den der Webdienst verweist anrufen.
- Method: Die zu verwendende HTTP-Methode, z. B.
GET
,POST
oderPUT
. - Optional: Header: Alle benutzerdefinierten Header, die für die Anfrage erforderlich sind.
- Optional: Body: Daten, die im Anfragetext gesendet werden sollen, z. B. für
POST
- undPUT
-Aufrufe.
Anschließend können Sie den definierten HTTP-Aufruf ausführen und die Antwort im Webdienst in Cloud Data Fusion Studio.
Anwendungsfälle
- Cloud Data Fusion API-Aufrufe testen Mit der HTTP-Aufrufaktion können Sie die Funktionen der Cloud Data Fusion API direkt über die Weboberfläche testen oder kennenlernen. Diese Aktion kann hilfreich sein, um das API-Verhalten zu verstehen oder potenzielle Probleme zu beheben.
- Namespaces verwalten (erweitert). Es gibt zwar eine spezielle Benutzeroberfläche für die Namespaceverwaltung, aber die HTTP-Aufrufaktion kann für erweiterte Aufgaben verwendet werden, indem direkt die Cloud Data Fusion API zum Erstellen, Löschen oder Konfigurieren von Namespaces aufgerufen wird.
- Interaktion mit anderen Google Cloud-Diensten (eingeschränkt) Wenn andere von Ihnen verwendete Google Cloud-Dienste eine öffentlich dokumentierte HTTP API verwenden, können Sie die HTTP-Aufrufaktion verwenden, um mit diesen Dies ist jedoch ein ungewöhnlicher Anwendungsfall.
Was Sie bedenken sollten
- Sicherheit: Seien Sie vorsichtig, wenn Sie die HTTP-Call-Aktion verwenden. insbesondere bei sensiblen Daten oder Cloud Data Fusion API-Aufrufen, die auf Ihre Umgebung auswirken könnte. Machen Sie sich mit den Auswirkungen jedes API-Aufrufs vertraut, bevor Sie ihn ausführen.
- Einschränkungen: Die HTTP-Aufrufaktion ist hauptsächlich für administrative Aufgaben und Testzwecke. Es ist nicht für den Aufbau von Pipelines für die Datenverarbeitung mit Datenmanipulationen Cloud Data Fusion.
- Alternative für Pipelines: Wenn Sie externe Datenquellen oder ‑dienste in Ihre Datenpipelines einbinden möchten, verwenden Sie das HTTP-Plug-in und den zugehörigen HTTP-Aufrufausführer in Ihren Pipelinedefinitionen. Dieses bietet eine robustere und kontrolliertere Möglichkeit, HTTP-Interaktionen zu verwalten in Ihren Datenverarbeitungs-Workflows.
Namespace-Verwaltung
Wenn Sie in Cloud Data Fusion Studio auf Namespace-Administrator klicken, können Sie die Konfigurationen für den jeweiligen Namespace verwalten. Für jeden Namespace können Sie die folgenden Aspekte definieren:
- Compute-Profile: Die Profile, die unter Namespace-Administrator eingerichtet wurden, sind Nutzer-Compute-Profile. Nur Pipelines in diesem Namespace können diese Nutzer verwenden Computing-Profilen. Weitere Informationen finden Sie unter Computing-Profile verwalten.
- Preferences (Einstellungen): Auf Namespace-Ebene definierte Einstellungen gelten für Namespace, Anwendungen (die Pipelines enthalten) und einzelne Programme innerhalb von Pipelines. Weitere Informationen finden Sie unter Makros verwalten, Einstellungen und Laufzeitargumente.
- Verbindungen: Mit Cloud Data Fusion können Sie Verbindungen zu Quellen und Senken in Datenpipelines. Sie können Verbindungen auf der Seite „Namespace-Administrator“ hinzufügen. Weitere Informationen finden Sie unter Verbindungen erstellen und verwalten.
- Treiber: Für einige Plug-ins in Cloud Data Fusion muss dem Namensbereich ein JDBC-Treiber hinzugefügt werden. Bevor Sie beispielsweise eine Pipeline mit einer MySQL-Batch-Quell-Plug-in – Sie müssen den unterstützten MySQL-Treiber dem -Namespace auf sie zugegriffen werden. Sie können JDBC-Treiber von der Namespace-Verwaltung oder direkt über den Hub. Weitere Informationen finden Sie unter Plug-in-Treiber.
- Source Control Management: zur effizienten Verwaltung des Entwicklungsprozesses bereitgestellter Pipelines können Sie mit Source Control Management eine Verbindung Namespace mit dem Repository Ihres Versionsverwaltungssystems. Weitere Informationen finden Sie unter Pipelines mithilfe der Versionskontrolle verwalten.
- Dienstkonto: zum Steuern des Zugriffs auf Google Cloud-Ressourcen Namespaces in Cloud Data Fusion verwenden die Standardmäßig Cloud Data Fusion API-Dienst-Agent.
Für eine bessere Datenisolation können Sie eine benutzerdefinierte Dienstkonto für Identity and Access Management (IAM) (bekannt als „Pro Namespace“) Dienstkonto) mit jedem Namespace. Mit dem benutzerdefinierten IAM-Dienstkonto, das sich für verschiedene Namespaces unterscheiden kann, können Sie den Zugriff auf Google Cloud-Ressourcen zwischen Namespaces für Pipeline-Vorgänge in Cloud Data Fusion steuern, z. B. Pipeline-Vorschau, Wrangler und Pipeline-Validierung. Weitere Informationen finden Sie unter Zugriffssteuerung mit Namespace-Dienstkonto.
Nächste Schritte
- Weitere Informationen zu Compute-Profilen
- Weitere Informationen zu Makros, Einstellungen und Laufzeitargumenten