Dataproc-Bereitstellungseigenschaften

Der Dataproc-Bereitsteller in Cloud Data Fusion ruft die Dataproc API auf, um Cluster in Ihren Google Cloud-Projekten zu erstellen und zu löschen. Sie können die Cluster in den Einstellungen des Bereitstellers konfigurieren.

Weitere Informationen zur Kompatibilität zwischen Cloud Data Fusion- und Dataproc-Versionen finden Sie unter Versionskompatibilität.

Attribute

Attribut Beschreibung
Projekt-ID Das Google Cloud Projekt, in dem der Dataproc-Cluster erstellt wird. Die Dataproc API muss für das Projekt aktiviert sein.
Dienstkontoschlüssel des Erstellers

Der für den Bereitsteller bereitgestellte Dienstkontoschlüssel muss die Berechtigung zum Zugriff auf die Dataproc- und Compute Engine APIs haben. Da Ihr Kontoschlüssel vertraulich ist, empfehlen wir, ihn über den Sicheren Speicher bereitzustellen.

Nachdem Sie den sicheren Schlüssel erstellt haben, können Sie ihn einem Namespace oder einem System-Rechenprofil hinzufügen. Klicken Sie bei einem Namespace-Rechenprofil auf das Schild  und wählen Sie den sicheren Schlüssel aus. Geben Sie für ein System-Rechenprofil den Namen des Schlüssels in das Feld Secure Account Key ein.

Region Ein geografischer Standort, an dem Sie Ihre Ressourcen hosten können, z. B. die Compute-Knoten für den Dataproc-Cluster.
Zone Ein abgegrenzter Bereitstellungsbereich innerhalb einer Region.
Netzwerk Das VPC-Netzwerk in Ihrem Google Cloud Projekt, das beim Erstellen eines Dataproc-Clusters verwendet wird.
Netzwerkhostprojekt-ID Wenn sich das Netzwerk in einem anderen Projekt befindet, Google Cloud geben Sie die ID dieses Projekts ein. Geben Sie für eine freigegebene VPC die ID des Hostprojekts ein, in dem sich das Netzwerk befindet.
Subnetz Das Subnetz, das beim Erstellen von Clustern verwendet werden soll. Sie muss sich im angegebenen Netzwerk und in der Region befinden, in der sich die Zone befindet. Wenn Sie dieses Feld leer lassen, wird ein Subnetz basierend auf dem Netzwerk und der Zone ausgewählt.
Runner-Dienstkonto Der Name des Dienstkontos der Dataproc-VMs, die zum Ausführen von Programmen verwendet werden. Wenn Sie dieses Feld leer lassen, wird das Compute Engine-Standarddienstkonto verwendet.
Anzahl der Master

Die Anzahl der Masterknoten im Cluster. Diese Knoten enthalten den YARN Resource Manager, den HDFS NameNode und alle Treiber. Muss auf 1 oder 3 festgelegt sein.

Der Standardwert ist 1.

Master-Maschinentyp

Der Typ der Mastermaschine, die verwendet werden soll. Wählen Sie einen der folgenden Maschinentypen aus:

  • n1
  • n2
  • n2d
  • e2

In Cloud Data Fusion Version 6.7.2 und höher ist e2 standardmäßig festgelegt.

In Version 6.7.1 ist der Standardwert n2.

In Version 6.7.0 und niedriger ist der Standardwert n1.

Master-Kerne

Anzahl der virtuellen Kerne, die einem Masterknoten zugewiesen sind.

Der Standardwert ist 2.

Master-Speicher (GB)

Die Menge an Arbeitsspeicher in Gigabyte, die einem Masterknoten zugewiesen ist.

Standardwert ist 8 GB.

Größe des Masterlaufwerks (GB)

Laufwerksgröße in Gigabyte, die einem Masterknoten zugewiesen ist.

Der Standardwert ist 1.000 GB.

Master-Laufwerktyp

Typ des Bootlaufwerks für einen Masterknoten:

  • Persistente Standardfestplatte
  • Nichtflüchtiger SSD-Speicher

Standardmäßig ist Standard-persistenter Speicher ausgewählt.

Worker-Maschinentyp

Der Typ des zu verwendenden Workers. Wählen Sie einen der folgenden Maschinentypen aus:

  • n1
  • n2
  • n2d
  • e2

In Cloud Data Fusion Version 6.7.2 und höher ist e2 standardmäßig festgelegt.

In Version 6.7.1 ist der Standardwert n2.

In Version 6.7.0 und niedriger ist der Standardwert n1.

Worker-Cores

Anzahl der virtuellen Kerne, die einem Worker-Knoten zugewiesen sind.

Der Standardwert ist 2.

Arbeitsspeicher für Worker (GB)

Die Größe des Arbeitsspeichers in Gigabyte, die einem Worker-Knoten zugewiesen wird.

Standardwert ist 8 GB.

Größe des Laufwerks für Worker (GB)

Die Laufwerksgröße in Gigabyte, die einem Worker-Knoten zugewiesen ist.

Der Standardwert ist 1.000 GB.

Laufwerkstyp des Workers

Typ des Bootlaufwerks für einen Worker-Knoten:

  • Persistente Standardfestplatte
  • Nichtflüchtiger SSD-Speicher

Standardmäßig ist Standard-persistenter Speicher ausgewählt.

Vordefiniertes Autoscaling verwenden Hiermit wird die Verwendung der vordefinierten Dataproc-Autoscaling-Funktion aktiviert.
Anzahl der primären Worker

Worker-Knoten enthalten einen YARN NodeManager und einen HDFS DataNode.

Der Standardwert ist 2.

Anzahl der sekundären Mitarbeiter Sekundäre Workerknoten enthalten einen YARN NodeManager, aber keinen HDFS DataNode. Dieser Wert ist normalerweise auf null festgelegt, es sei denn, eine Autoscaling-Richtlinie erfordert einen höheren Wert.
Autoscaling-Richtlinie

Pfad für die Autoscaling-Richtlinien-ID oder den Ressourcen-URI.

Informationen zum Konfigurieren und Verwenden von Dataproc-Autoscaling für die automatische und dynamische Anpassung von Clustern an ihre Arbeitslastanforderungen finden Sie unter Autoscaling verwenden und Dataproc-Cluster automatisch skalieren.

Metadaten Zusätzliche Metadaten für Instanzen, die in Ihrem Cluster ausgeführt werden. Sie können es in der Regel zum Überwachen der Abrechnung und von Rückbuchungen verwenden. Weitere Informationen finden Sie unter Clustermetadaten.
Netzwerk-Tags Sie können Netzwerk-Tags zuweisen, um Firewallregeln auf die bestimmten Knoten eines Clusters anzuwenden. Netzwerk-Tags müssen mit einem Kleinbuchstaben beginnen und dürfen Kleinbuchstaben, Ziffern und Bindestriche enthalten. Am Ende des Tags muss ein Kleinbuchstabe oder eine Ziffer stehen.
Secure Boot aktivieren

Aktiviert Secure Boot auf den Dataproc-VMs.

Standardwert ist False.

vTPM aktivieren

Aktiviert das Virtual Trusted Platform Module (vTPM) auf den Dataproc-VMs.

Standardwert ist False.

Integritätsmonitoring aktivieren

Aktiviert das virtuelle Integrity Monitoring auf den Dataproc-VMs.

Standardwert ist False.

Image-Version Die Dataproc-Image-Version. Wenn Sie dieses Feld leer lassen, wird automatisch eine Option ausgewählt. Wenn die Property URI für benutzerdefiniertes Bild leer bleibt, wird sie ignoriert.
URI eines benutzerdefinierten Images Der URI des Dataproc-Images. Wenn Sie dieses Feld leer lassen, wird der Wert aus dem Attribut Bildversion abgeleitet.
Staging-Bucket Cloud Storage-Bucket, der zum Staging von Jobabhängigkeiten und Konfigurationsdateien für das Ausführen von Pipelines in Dataproc verwendet wird.
Temporärer Bucket

Cloud Storage-Bucket, der zum Speichern sitzungsspezifischer Cluster- und Jobdaten wie Spark-Verlaufsdateien in Dataproc verwendet wird.

Diese Eigenschaft wurde in Cloud Data Fusion Version 6.9.2 eingeführt.

Name des Verschlüsselungsschlüssels Der vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK), der von Dataproc verwendet wird.
OAuth-Bereiche

Die OAuth 2.0-Bereiche, die Sie je nach erforderlichem Zugriffsniveau für den Zugriff auf Google APIs anfordern müssen. Google Cloud Platform Scope ist immer enthalten.

Diese Eigenschaft wurde in Cloud Data Fusion Version 6.9.2 eingeführt.

Initialisierungsaktionen Eine Liste von Skripts, die während der Initialisierung des Clusters ausgeführt werden. Initialisierungsaktionen sollten in Cloud Storage platziert werden.
Clusterattribute Clustereigenschaften, die die Standardkonfigurationseigenschaften der Hadoop-Dienste überschreiben. Weitere Informationen zu geeigneten Schlüssel/Wert-Paaren finden Sie unter Clustereigenschaften.
Gängige Labels

Labels zum Organisieren der erstellten Dataproc-Cluster und ‑Jobs

Sie können jede Ressource mit einem Label versehen und dann die Ressourcen nach den Labels filtern. Informationen zu Labels werden an das Abrechnungssystem weitergeleitet, sodass Kunden die in Rechnung gestellten Kosten nach Labels aufschlüsseln können.

Maximale Inaktivitätszeit

Konfigurieren Sie Dataproc so, dass ein Cluster gelöscht wird, wenn er länger als die angegebene Anzahl von Minuten inaktiv ist. Cluster werden normalerweise direkt nach dem Ende eines Durchlaufs gelöscht. In seltenen Fällen kann das Löschen jedoch fehlschlagen. Weitere Informationen finden Sie unter Fehlerbehebung beim Löschen von Clustern.

Standardmäßig ist 30 Minuten festgelegt.

Clusterlöschung überspringen

Gibt an, ob das Löschen des Clusters am Ende einer Ausführung übersprungen werden soll. Cluster müssen manuell gelöscht werden. Diese Option sollte nur bei der Fehlerbehebung für einen fehlgeschlagenen Lauf verwendet werden.

Standardwert ist False.

Integration in Stackdriver Logging aktivieren

Aktivieren Sie die Stackdriver-Logging-Integration.

Standardwert ist True.

Stackdriver Monitoring-Integration aktivieren

Aktivieren Sie die Stackdriver Monitoring-Integration.

Standardwert ist True.

Component Gateway aktivieren

Aktivieren Sie das Komponenten-Gateway für den Zugriff auf die Clusteroberflächen, z. B. den YARN ResourceManager und den Spark HistoryServer.

Standardwert ist False.

Externe IP-Adresse bevorzugen

Wenn das System im Google Cloud gleichen Netzwerk wie der Cluster ausgeführt wird, verwendet es normalerweise die interne IP-Adresse, um mit dem Cluster zu kommunizieren. Wenn immer die externe IP-Adresse verwendet werden soll, legen Sie diesen Wert auf True fest.

Standardwert ist False.

Umfrageverzögerung erstellen

Die Anzahl der Sekunden, die nach dem Erstellen eines Clusters gewartet werden soll, bevor die Abfrage gestartet wird, ob der Cluster erstellt wurde.

Standardmäßig ist 60 Sekunden festgelegt.

Mit den Abfrageeinstellungen wird festgelegt, wie oft der Clusterstatus beim Erstellen und Löschen von Clustern abgefragt wird. Wenn Sie viele Pipelines gleichzeitig ausführen lassen möchten, sollten Sie diese Einstellungen ändern.

Jitter für Umfragen erstellen

Maximaler Zufallsjitter in Sekunden, der der Verzögerung beim Erstellen eines Clusters hinzugefügt wird. Mit dieser Eigenschaft können Sie viele gleichzeitige API-Aufrufe in Google Cloud verhindern, wenn viele Pipelines zur selben Zeit ausgeführt werden sollen.

Standardmäßig ist 20 Sekunden festgelegt.

Abfrageverzögerung löschen

Die Anzahl der Sekunden, die nach dem Löschen eines Clusters gewartet werden soll, bevor der Vorgang geprüft wird, ob der Cluster gelöscht wurde.

Der Standardwert ist 30 Sekunden.

Abfrageintervall

Die Anzahl der Sekunden, die zwischen Abfragen des Clusterstatus gewartet werden soll.

Der Standardwert ist 2.

Weboberfläche-Attribute des Dataproc-Profils, die JSON-Attributen zugeordnet sind

Name der Dataproc-Profil-UI-Property Name der JSON-Eigenschaft des Dataproc-Profils
Profillabel name
Profilname label
Beschreibung description
Projekt-ID projectId
Dienstkontoschlüssel des Erstellers accountKey
Region region
Zone zone
Netzwerk network
Netzwerkhostprojekt-ID networkHostProjectId
Subnetz subnet
Runner-Dienstkonto serviceAccount
Anzahl der Master masterNumNodes
Master-Maschinentyp masterMachineType
Master-Kerne masterCPUs
Master-Speicher (GB) masterMemoryMB
Größe des Masterlaufwerks (GB) masterDiskGB
Master-Laufwerktyp masterDiskType
Anzahl der primären Worker workerNumNodes
Anzahl der sekundären Mitarbeiter secondaryWorkerNumNodes
Worker-Maschinentyp workerMachineType
Worker-Cores workerCPUs
Arbeitsspeicher für Worker (GB) workerMemoryMB
Größe des Laufwerks für Worker (GB) workerDiskGB
Laufwerkstyp des Workers workerDiskType
Metadaten clusterMetaData
Netzwerk-Tags networkTags
Secure Boot aktivieren secureBootEnabled
vTPM aktivieren vTpmEnabled
Integritätsmonitoring aktivieren integrityMonitoringEnabled
Image-Version imageVersion
URI eines benutzerdefinierten Images customImageUri
Cloud Storage-Bucket gcsBucket
Name des Verschlüsselungsschlüssels encryptionKeyName
Autoscaling-Richtlinie autoScalingPolicy
Initialisierungsaktionen initActions
Clusterattribute clusterProperties
Labels clusterLabels
Maximale Inaktivitätszeit idleTTL
Clusterlöschung überspringen skipDelete
Integration in Stackdriver Logging aktivieren stackdriverLoggingEnabled
Stackdriver Monitoring-Integration aktivieren stackdriverMonitoringEnabled
Component Gateway aktivieren componentGatewayEnabled
Externe IP-Adresse bevorzugen preferExternalIP
Umfrageverzögerung erstellen pollCreateDelay
Jitter für Umfragen erstellen pollCreateJitter
Abfrageverzögerung löschen pollDeleteDelay
Abfrageintervall pollInterval

Best Practices

Wenn Sie einen statischen Cluster für Ihre Pipelines erstellen, lesen Sie die Best Practices für die Clusterkonfiguration.

Nächste Schritte