Dataproc-Staging-Bucket

Wenn Sie einen Cluster erstellen, erstellt Dataproc standardmäßig einen Cloud Storage-Staging-Bucket in Ihrem Projekt oder verwendet einen vorhandenen mit Dataproc erstellten Staging-Bucket aus einer vorherigen Anfrage zur Clustererstellung. Dieser Bucket wird zur Bereitstellung von Clusterjobabhängigkeiten, der Jobtreiberausgabe und Clusterkonfigurationsdateien verwendet. Anstatt der Erstellung eines Standard-Staging-Buckets können Sie einen vorhandenen Cloud Storage-Bucket angeben, den Dataproc als Staging-Bucket Ihres Clusters verwendet.

gcloud-Befehl

Führen Sie den gcloud dataproc clusters create-Befehl mit dem Flag --bucket lokal in einem Terminalfenster oder in Cloud Shell aus, um den Staging-Bucket Ihres Clusters anzugeben.

    gcloud dataproc clusters create  cluster-name \
        --bucket=bucket URI (for example, gs://mybucket-name) \
        other args ...
    

REST API

Verwenden Sie das Feld ClusterConfig.configBucket in einer clusters.create-Anfrage, um den Staging-Bucket Ihres Clusters anzugeben.

Console

Verwenden Sie das Feld Cloud Storage staging bucket im Bereich Cluster erstellen→Erweiterte Optionen der Google Cloud Console, um den Staging-Bucket des Clusters anzugeben oder auszuwählen.

In jeder geografischen Region wird ein separater Bucket verwendet, der von der Compute Engine-Zone des Clusters bestimmt wird. Ein von Dataproc erstellter Staging-Bucket wird von Clustern in derselben Region gemeinsam genutzt. Mit Staging-Buckets wird für verschiedene Konfigurations- und Steuerungsdateien, die vom Cluster benötigt werden, ein Staging durchgeführt. Staging-Buckets erhalten darüber hinaus Ergebnisse vom Cloud SDK-Befehl gcloud dataproc clusters diagnose.

Dataproc verwendet eine definierte Ordnerstruktur für Cloud Storage-Buckets, die Clustern zugeordnet sind. Cloud Dataproc unterstützt auch das Hinzufügen weiterer Cluster zu einem Cloud Storage-Bucket. Zum Speichern von Jobtreiberausgaben in Cloud Storage wird folgende Ordnerstruktur verwendet:

    cloud-storage-bucket-name
      - google-cloud-dataproc-metainfo
        - list of cluster IDs
            - list of job IDs
              - list of output logs for a job
    

Sie können mit dem Befehlszeilentool gcloud, der Dataproc API oder der Google Cloud Console den Namen des Staging-Buckets eines Clusters auflisten.

gcloud-Befehl

Führen Sie den gcloud dataproc clusters describe-Befehl lokal in einem Terminalfenster oder in Cloud Shell aus. Der mit dem Cluster verknüpfte Staging-Bucket wird in der Ausgabe aufgeführt.

    gcloud dataproc clusters describe cluster-name
    clusterName: cluster-name
    clusterUuid: daa40b3f-5ff5-4e89-9bf1-bcbfec ...
    config:
        configBucket: dataproc-edc9d85f-12f9-4905...
        ...
    

REST API

Rufen Sie clusters.get auf, um die Clusterdetails einschließlich des Namens des Staging-Buckets des Clusters aufzulisten.

    {
     "projectId": "vigilant-sunup-163401",
     "clusterName": "cluster-name",
     "config": {
      "configBucket": "dataproc-a8cd0...",
    ...
    }
    

Console

Rufen Sie die Clusterdetails einschließlich des Namens des Staging-Buckets des Clusters in der Cloud Console auf.