Dataproc-Staging-Bucket

Wenn Sie einen Cluster erstellen, erstellt Dataproc standardmäßig einen Cloud Storage-Staging-Bucket in Ihrem Projekt oder verwendet einen vorhandenen mit Dataproc erstellten Staging-Bucket aus einer vorherigen Anfrage zur Clustererstellung. Dieser Bucket wird zur Bereitstellung von Clusterjobabhängigkeiten, der Jobtreiberausgabe und Clusterkonfigurationsdateien verwendet. Anstatt der Erstellung eines Standard-Staging-Buckets können Sie einen vorhandenen Cloud Storage-Bucket angeben, den Dataproc als Staging-Bucket Ihres Clusters verwendet.

gcloud-Befehl

Führen Sie den gcloud dataproc clusters create-Befehl mit dem Flag --bucket lokal in einem Terminalfenster oder in Cloud Shell aus, um den Staging-Bucket Ihres Clusters anzugeben.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --bucket=bucket-name \
    other args ...

REST API

Verwenden Sie das Feld ClusterConfig.configBucket in einer clusters.create-Anfrage, um den Staging-Bucket Ihres Clusters anzugeben.

Console

Verwenden Sie das Feld Cloud Storage staging bucket im Bereich Cluster erstellen → Erweiterte Optionen der Google Cloud Console, um den Staging-Bucket des Clusters anzugeben oder auszuwählen.

In jeder geografischen Region wird ein separater Bucket verwendet, der von der Compute Engine-Zone des Clusters bestimmt wird. Ein von Dataproc erstellter Staging-Bucket wird von Clustern in derselben Region gemeinsam genutzt. Mit Staging-Buckets wird für verschiedene Konfigurations- und Steuerungsdateien, die vom Cluster benötigt werden, ein Staging durchgeführt. Staging-Buckets erhalten darüber hinaus Ergebnisse vom Cloud SDK-Befehl gcloud dataproc clusters diagnose.

Dataproc verwendet eine definierte Ordnerstruktur für Cloud Storage-Buckets, die Clustern zugeordnet sind. Dataproc unterstützt auch das Hinzufügen weiterer Cluster zu einem Cloud Storage-Bucket. Zum Speichern von Job-Treiberausgaben in Cloud Storage wird folgende Ordnerstruktur verwendet:

cloud-storage-bucket-name
  - google-cloud-dataproc-metainfo
    - list of cluster IDs
        - list of job IDs
          - list of output logs for a job

Sie können mit dem gcloud-Befehlszeilentool, der Dataproc API oder der Google Cloud Console den Namen des Staging-Buckets eines Clusters auflisten.

gcloud-Befehl

Führen Sie den gcloud dataproc clusters describe-Befehl lokal in einem Terminalfenster oder in Cloud Shell aus. Der mit dem Cluster verknüpfte Staging-Bucket wird in der Ausgabe aufgeführt.

gcloud dataproc clusters describe cluster-name \
    --region=region \
...
clusterName: cluster-name
clusterUuid: daa40b3f-5ff5-4e89-9bf1-bcbfec ...
config:
    configBucket: dataproc-staging-...
    ...

REST API

Rufen Sie clusters.get auf, um die Clusterdetails einschließlich des Namens des Staging-Buckets des Clusters aufzulisten.

{
 "projectId": "vigilant-sunup-163401",
 "clusterName": "cluster-name",
 "config": {
  "configBucket": "dataproc-staging-...",
...
}

Console

Rufen Sie die Clusterdetails einschließlich des Namens des Staging-Buckets des Clusters in der Cloud Console auf.