Diese Seite wurde von der Cloud Translation API übersetzt.

Dataproc-Bereitstellungseigenschaften

Der Dataproc-Bereitsteller in Cloud Data Fusion ruft die Dataproc API auf, um Cluster in Ihren Google Cloud-Projekten zu erstellen und zu löschen. Sie können die Cluster in den Einstellungen des Bereitstellers konfigurieren.

Weitere Informationen zur Kompatibilität zwischen Cloud Data Fusion- und Dataproc-Versionen finden Sie unter Versionskompatibilität.

Attribute

Attribut	Beschreibung
Projekt-ID	Das Google Cloud Projekt, in dem der Dataproc-Cluster erstellt wird. Die Dataproc API muss für das Projekt aktiviert sein.
Dienstkontoschlüssel des Erstellers	Der für den Bereitsteller bereitgestellte Dienstkontoschlüssel muss die Berechtigung zum Zugriff auf die Dataproc- und Compute Engine APIs haben. Da Ihr Kontoschlüssel vertraulich ist, empfehlen wir, ihn über den Sicheren Speicher bereitzustellen. Nachdem Sie den sicheren Schlüssel erstellt haben, können Sie ihn einem Namespace oder einem System-Rechenprofil hinzufügen. Klicken Sie bei einem Namespace-Rechenprofil auf das Schild und wählen Sie den sicheren Schlüssel aus. Geben Sie für ein System-Rechenprofil den Namen des Schlüssels in das Feld Secure Account Key ein.
Region	Ein geografischer Standort, an dem Sie Ihre Ressourcen hosten können, z. B. die Compute-Knoten für den Dataproc-Cluster.
Zone	Ein abgegrenzter Bereitstellungsbereich innerhalb einer Region.
Netzwerk	Das VPC-Netzwerk in Ihrem Google Cloud Projekt, das beim Erstellen eines Dataproc-Clusters verwendet wird.
Netzwerkhostprojekt-ID	Wenn sich das Netzwerk in einem anderen Projekt befindet, Google Cloud geben Sie die ID dieses Projekts ein. Geben Sie für eine freigegebene VPC die ID des Hostprojekts ein, in dem sich das Netzwerk befindet.
Subnetz	Das Subnetz, das beim Erstellen von Clustern verwendet werden soll. Sie muss sich im angegebenen Netzwerk und in der Region befinden, in der sich die Zone befindet. Wenn Sie dieses Feld leer lassen, wird ein Subnetz basierend auf dem Netzwerk und der Zone ausgewählt.
Runner-Dienstkonto	Der Name des Dienstkontos der Dataproc-VMs, die zum Ausführen von Programmen verwendet werden. Wenn Sie dieses Feld leer lassen, wird das Compute Engine-Standarddienstkonto verwendet.
Anzahl der Master	Die Anzahl der Masterknoten im Cluster. Diese Knoten enthalten den YARN Resource Manager, den HDFS NameNode und alle Treiber. Muss auf 1 oder 3 festgelegt sein. Der Standardwert ist 1.
Master-Maschinentyp	Der Typ der Mastermaschine, die verwendet werden soll. Wählen Sie einen der folgenden Maschinentypen aus: n1 n2 n2d e2 In Cloud Data Fusion Version 6.7.2 und höher ist e2 standardmäßig festgelegt. In Version 6.7.1 ist der Standardwert n2. In Version 6.7.0 und niedriger ist der Standardwert n1.
Master-Kerne	Anzahl der virtuellen Kerne, die einem Masterknoten zugewiesen sind. Der Standardwert ist 2.
Master-Speicher (GB)	Die Menge an Arbeitsspeicher in Gigabyte, die einem Masterknoten zugewiesen ist. Standardwert ist 8 GB.
Größe des Masterlaufwerks (GB)	Laufwerksgröße in Gigabyte, die einem Masterknoten zugewiesen ist. Der Standardwert ist 1.000 GB.
Master-Laufwerktyp	Typ des Bootlaufwerks für einen Masterknoten: Persistente Standardfestplatte Nichtflüchtiger SSD-Speicher Standardmäßig ist Standard-persistenter Speicher ausgewählt.
Worker-Maschinentyp	Der Typ des zu verwendenden Workers. Wählen Sie einen der folgenden Maschinentypen aus: n1 n2 n2d e2 In Cloud Data Fusion Version 6.7.2 und höher ist e2 standardmäßig festgelegt. In Version 6.7.1 ist der Standardwert n2. In Version 6.7.0 und niedriger ist der Standardwert n1.
Worker-Cores	Anzahl der virtuellen Kerne, die einem Worker-Knoten zugewiesen sind. Der Standardwert ist 2.
Arbeitsspeicher für Worker (GB)	Die Größe des Arbeitsspeichers in Gigabyte, die einem Worker-Knoten zugewiesen wird. Standardwert ist 8 GB.
Größe des Laufwerks für Worker (GB)	Die Laufwerksgröße in Gigabyte, die einem Worker-Knoten zugewiesen ist. Der Standardwert ist 1.000 GB.
Laufwerkstyp des Workers	Typ des Bootlaufwerks für einen Worker-Knoten: Persistente Standardfestplatte Nichtflüchtiger SSD-Speicher Standardmäßig ist Standard-persistenter Speicher ausgewählt.
Vordefiniertes Autoscaling verwenden	Hiermit wird die Verwendung der vordefinierten Dataproc-Autoscaling-Funktion aktiviert.
Anzahl der primären Worker	Worker-Knoten enthalten einen YARN NodeManager und einen HDFS DataNode. Der Standardwert ist 2.
Anzahl der sekundären Mitarbeiter	Sekundäre Workerknoten enthalten einen YARN NodeManager, aber keinen HDFS DataNode. Dieser Wert ist normalerweise auf null festgelegt, es sei denn, eine Autoscaling-Richtlinie erfordert einen höheren Wert.
Autoscaling-Richtlinie	Pfad für die Autoscaling-Richtlinien-ID oder den Ressourcen-URI. Informationen zum Konfigurieren und Verwenden von Dataproc-Autoscaling für die automatische und dynamische Anpassung von Clustern an ihre Arbeitslastanforderungen finden Sie unter Autoscaling verwenden und Dataproc-Cluster automatisch skalieren.
Metadaten	Zusätzliche Metadaten für Instanzen, die in Ihrem Cluster ausgeführt werden. Sie können es in der Regel zum Überwachen der Abrechnung und von Rückbuchungen verwenden. Weitere Informationen finden Sie unter Clustermetadaten.
Netzwerk-Tags	Sie können Netzwerk-Tags zuweisen, um Firewallregeln auf die bestimmten Knoten eines Clusters anzuwenden. Netzwerk-Tags müssen mit einem Kleinbuchstaben beginnen und dürfen Kleinbuchstaben, Ziffern und Bindestriche enthalten. Am Ende des Tags muss ein Kleinbuchstabe oder eine Ziffer stehen.
Secure Boot aktivieren	Aktiviert Secure Boot auf den Dataproc-VMs. Standardwert ist False.
vTPM aktivieren	Aktiviert das Virtual Trusted Platform Module (vTPM) auf den Dataproc-VMs. Standardwert ist False.
Integritätsmonitoring aktivieren	Aktiviert das virtuelle Integrity Monitoring auf den Dataproc-VMs. Standardwert ist False.
Image-Version	Die Dataproc-Image-Version. Wenn Sie dieses Feld leer lassen, wird automatisch eine Option ausgewählt. Wenn die Property URI für benutzerdefiniertes Bild leer bleibt, wird sie ignoriert.
URI eines benutzerdefinierten Images	Der URI des Dataproc-Images. Wenn Sie dieses Feld leer lassen, wird der Wert aus dem Attribut Bildversion abgeleitet.
Staging-Bucket	Cloud Storage-Bucket, der zum Staging von Jobabhängigkeiten und Konfigurationsdateien für das Ausführen von Pipelines in Dataproc verwendet wird.
Temporärer Bucket	Cloud Storage-Bucket, der zum Speichern sitzungsspezifischer Cluster- und Jobdaten wie Spark-Verlaufsdateien in Dataproc verwendet wird. Diese Eigenschaft wurde in Cloud Data Fusion Version 6.9.2 eingeführt.
Name des Verschlüsselungsschlüssels	Der vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK), der von Dataproc verwendet wird.
OAuth-Bereiche	Die OAuth 2.0-Bereiche, die Sie je nach erforderlichem Zugriffsniveau für den Zugriff auf Google APIs anfordern müssen. Google Cloud Platform Scope ist immer enthalten. Diese Eigenschaft wurde in Cloud Data Fusion Version 6.9.2 eingeführt.
Initialisierungsaktionen	Eine Liste von Skripts, die während der Initialisierung des Clusters ausgeführt werden. Initialisierungsaktionen sollten in Cloud Storage platziert werden.
Clusterattribute	Clustereigenschaften, die die Standardkonfigurationseigenschaften der Hadoop-Dienste überschreiben. Weitere Informationen zu geeigneten Schlüssel/Wert-Paaren finden Sie unter Clustereigenschaften.
Gängige Labels	Labels zum Organisieren der erstellten Dataproc-Cluster und ‑Jobs Sie können jede Ressource mit einem Label versehen und dann die Ressourcen nach den Labels filtern. Informationen zu Labels werden an das Abrechnungssystem weitergeleitet, sodass Kunden die in Rechnung gestellten Kosten nach Labels aufschlüsseln können.
Maximale Inaktivitätszeit	Konfigurieren Sie Dataproc so, dass ein Cluster gelöscht wird, wenn er länger als die angegebene Anzahl von Minuten inaktiv ist. Cluster werden normalerweise direkt nach dem Ende eines Durchlaufs gelöscht. In seltenen Fällen kann das Löschen jedoch fehlschlagen. Weitere Informationen finden Sie unter Fehlerbehebung beim Löschen von Clustern. Standardmäßig ist 30 Minuten festgelegt.
Clusterlöschung überspringen	Gibt an, ob das Löschen des Clusters am Ende einer Ausführung übersprungen werden soll. Cluster müssen manuell gelöscht werden. Diese Option sollte nur bei der Fehlerbehebung für einen fehlgeschlagenen Lauf verwendet werden. Standardwert ist False.
Integration in Stackdriver Logging aktivieren	Aktivieren Sie die Stackdriver-Logging-Integration. Standardwert ist True.
Stackdriver Monitoring-Integration aktivieren	Aktivieren Sie die Stackdriver Monitoring-Integration. Standardwert ist True.
Component Gateway aktivieren	Aktivieren Sie das Komponenten-Gateway für den Zugriff auf die Clusteroberflächen, z. B. den YARN ResourceManager und den Spark HistoryServer. Standardwert ist False.
Externe IP-Adresse bevorzugen	Wenn das System im Google Cloud gleichen Netzwerk wie der Cluster ausgeführt wird, verwendet es normalerweise die interne IP-Adresse, um mit dem Cluster zu kommunizieren. Wenn immer die externe IP-Adresse verwendet werden soll, legen Sie diesen Wert auf True fest. Standardwert ist False.
Umfrageverzögerung erstellen	Die Anzahl der Sekunden, die nach dem Erstellen eines Clusters gewartet werden soll, bevor die Abfrage gestartet wird, ob der Cluster erstellt wurde. Standardmäßig ist 60 Sekunden festgelegt. Mit den Abfrageeinstellungen wird festgelegt, wie oft der Clusterstatus beim Erstellen und Löschen von Clustern abgefragt wird. Wenn Sie viele Pipelines gleichzeitig ausführen lassen möchten, sollten Sie diese Einstellungen ändern.
Jitter für Umfragen erstellen	Maximaler Zufallsjitter in Sekunden, der der Verzögerung beim Erstellen eines Clusters hinzugefügt wird. Mit dieser Eigenschaft können Sie viele gleichzeitige API-Aufrufe in Google Cloud verhindern, wenn viele Pipelines zur selben Zeit ausgeführt werden sollen. Standardmäßig ist 20 Sekunden festgelegt.
Abfrageverzögerung löschen	Die Anzahl der Sekunden, die nach dem Löschen eines Clusters gewartet werden soll, bevor der Vorgang geprüft wird, ob der Cluster gelöscht wurde. Der Standardwert ist 30 Sekunden.
Abfrageintervall	Die Anzahl der Sekunden, die zwischen Abfragen des Clusterstatus gewartet werden soll. Der Standardwert ist 2.

Weboberfläche-Attribute des Dataproc-Profils, die JSON-Attributen zugeordnet sind

Name der Dataproc-Profil-UI-Property	Name der JSON-Eigenschaft des Dataproc-Profils
Profillabel	`name`
Profilname	`label`
Beschreibung	`description`
Projekt-ID	`projectId`
Dienstkontoschlüssel des Erstellers	`accountKey`
Region	`region`
Zone	`zone`
Netzwerk	`network`
Netzwerkhostprojekt-ID	`networkHostProjectId`
Subnetz	`subnet`
Runner-Dienstkonto	`serviceAccount`
Anzahl der Master	`masterNumNodes`
Master-Maschinentyp	`masterMachineType`
Master-Kerne	`masterCPUs`
Master-Speicher (GB)	`masterMemoryMB`
Größe des Masterlaufwerks (GB)	`masterDiskGB`
Master-Laufwerktyp	`masterDiskType`
Anzahl der primären Worker	`workerNumNodes`
Anzahl der sekundären Mitarbeiter	`secondaryWorkerNumNodes`
Worker-Maschinentyp	`workerMachineType`
Worker-Cores	`workerCPUs`
Arbeitsspeicher für Worker (GB)	`workerMemoryMB`
Größe des Laufwerks für Worker (GB)	`workerDiskGB`
Laufwerkstyp des Workers	`workerDiskType`
Metadaten	`clusterMetaData`
Netzwerk-Tags	`networkTags`
Secure Boot aktivieren	`secureBootEnabled`
vTPM aktivieren	`vTpmEnabled`
Integritätsmonitoring aktivieren	`integrityMonitoringEnabled`
Image-Version	`imageVersion`
URI eines benutzerdefinierten Images	`customImageUri`
Cloud Storage-Bucket	`gcsBucket`
Name des Verschlüsselungsschlüssels	`encryptionKeyName`
Autoscaling-Richtlinie	`autoScalingPolicy`
Initialisierungsaktionen	`initActions`
Clusterattribute	`clusterProperties`
Labels	`clusterLabels`
Maximale Inaktivitätszeit	`idleTTL`
Clusterlöschung überspringen	`skipDelete`
Integration in Stackdriver Logging aktivieren	`stackdriverLoggingEnabled`
Stackdriver Monitoring-Integration aktivieren	`stackdriverMonitoringEnabled`
Component Gateway aktivieren	`componentGatewayEnabled`
Externe IP-Adresse bevorzugen	`preferExternalIP`
Umfrageverzögerung erstellen	`pollCreateDelay`
Jitter für Umfragen erstellen	`pollCreateJitter`
Abfrageverzögerung löschen	`pollDeleteDelay`
Abfrageintervall	`pollInterval`

Best Practices

Wenn Sie einen statischen Cluster für Ihre Pipelines erstellen, lesen Sie die Best Practices für die Clusterkonfiguration.

Nächste Schritte

Weitere Informationen zum Verwalten von Rechenprofilen