Bucket staging dan sementara Dataproc

Saat Anda membuat cluster, HDFS akan digunakan sebagai sistem file default. Anda dapat mengganti perilaku ini dengan menetapkan defaultFS sebagai bucket Cloud Storage. Secara default, Dataproc juga membuat staging Cloud Storage dan bucket sementara Cloud Storage di project Anda atau menggunakan kembali staging dan bucket sementara yang dibuat Dataproc dari permintaan pembuatan cluster sebelumnya.

  • Bucket staging: Digunakan untuk melakukan staging dependensi tugas cluster, output driver tugas, dan file konfigurasi cluster. Juga menerima output dari perintah gcloud dataproc clusters diagnose gcloud CLI.

  • Bucket sementara: Digunakan untuk menyimpan data cluster dan tugas efemeral, seperti file histori Spark dan MapReduce.

Jika Anda tidak menentukan bucket staging atau sementara saat membuat cluster, Dataproc akan menetapkan lokasi Cloud Storage di AS, ASIA, atau Uni Eropa untuk bucket staging dan sementara cluster Anda sesuai dengan zona Compute Engine tempat cluster Anda di-deploy, lalu membuat dan mengelola bucket per lokasi tingkat project ini. Bucket staging dan bucket sementara yang dibuat Dataproc digunakan secara bersama oleh berbagai cluster di region yang sama, dan dibuat dengan durasi retensi penghapusan sementara Cloud Storage yang ditetapkan ke 0 detik.

Bucket sementara berisi data sementara, dan memiliki TTL 90 hari. Bucket staging, yang dapat berisi data konfigurasi dan file dependensi yang diperlukan oleh beberapa cluster, tidak memiliki TTL. Namun, Anda dapat menerapkan aturan siklus proses ke file dependensi (file dengan ekstensi nama file ".jar" yang terletak di folder bucket staging) untuk menjadwalkan penghapusan file dependensi saat file tersebut tidak lagi diperlukan oleh cluster Anda.

Membuat bucket staging dan sementara Anda sendiri

Daripada mengandalkan pembuatan bucket staging dan sementara default, Anda dapat menentukan bucket Cloud Storage yang ada yang akan digunakan Dataproc sebagai bucket staging dan sementara cluster.

perintah gcloud

Jalankan perintah gcloud dataproc clusters create dengan flag --bucket dan/atau --temp-bucket secara lokal di jendela terminal atau di Cloud Shell untuk menentukan bucket staging dan/atau sementara cluster Anda.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --bucket=bucket-name \
    --temp-bucket=bucket-name \
    other args ...

REST API

Gunakan kolom ClusterConfig.configBucket dan ClusterConfig.tempBucket dalam permintaan clusters.create untuk menentukan bucket sementara dan staging cluster Anda.

Konsol

Di konsol Google Cloud, buka halaman Create a cluster Dataproc. Pilih panel Sesuaikan cluster, lalu gunakan kolom Penyimpanan file untuk menentukan atau memilih bucket staging cluster.

Catatan: Saat ini, menentukan bucket sementara menggunakan konsol Google Cloud tidak didukung.

Dataproc menggunakan struktur folder yang ditentukan untuk bucket Cloud Storage yang dilampirkan ke cluster. Dataproc juga mendukung lampiran lebih dari satu cluster ke bucket Cloud Storage. Struktur folder yang digunakan untuk menyimpan output driver tugas di Cloud Storage adalah:

cloud-storage-bucket-name
  - google-cloud-dataproc-metainfo
    - list of cluster IDs
        - list of job IDs
          - list of output logs for a job

Anda dapat menggunakan alat command line gcloud, Dataproc API, atau konsol Google Cloud untuk mencantumkan nama bucket staging dan temp cluster.

Konsol

  • Lihat detail cluster, yang mencakup nama bucket staging cluster, di halaman Clusters Dataproc di konsol Google Cloud.
  • Di halaman Cloud Storage Browser konsol Google Cloud, filter hasil yang berisi "dataproc-temp-".

Perintah gcloud

Jalankan perintah gcloud dataproc clusters describe secara lokal di jendela terminal atau di Cloud Shell. Bucket staging dan sementara yang terkait dengan cluster Anda tercantum dalam output.

gcloud dataproc clusters describe cluster-name \
    --region=region \
...
clusterName: cluster-name
clusterUuid: daa40b3f-5ff5-4e89-9bf1-bcbfec ...
config:
    configBucket: dataproc-...
    ...
    tempBucket: dataproc-temp...

REST API

Panggil clusters.get untuk mencantumkan detail cluster, termasuk nama bucket sementara dan staging cluster.

{
 "projectId": "vigilant-sunup-163401",
 "clusterName": "cluster-name",
 "config": {
  "configBucket": "dataproc-...",
...
  "tempBucket": "dataproc-temp-...",
}

defaultFS

Anda dapat menetapkan core:fs.defaultFS ke lokasi bucket di Cloud Storage (gs://defaultFS-bucket-name) untuk menetapkan Cloud Storage sebagai sistem file default. Tindakan ini juga menetapkan core:fs.gs.reported.permissions, izin yang dilaporkan yang ditampilkan oleh konektor Cloud Storage untuk semua file, ke 777.

Jika Cloud Storage tidak ditetapkan sebagai sistem file default, HDFS akan digunakan, dan properti core:fs.gs.reported.permissions akan menampilkan 700, nilai default.

gcloud dataproc clusters create cluster-name \
    --properties=core:fs.defaultFS=gs://defaultFS-bucket-name \
    --region=region \
    --bucket=staging-bucket-name \
    --temp-bucket=temp-bucket-name \
    other args ...