staging Dataproc dan bucket suhu

Saat Anda membuat cluster, HDFS digunakan sebagai sistem file default. Anda dapat mengganti perilaku ini dengan menetapkan defaultFS sebagai bucket Cloud Storage. Secara default, Dataproc juga membuat staging Cloud Storage dan bucket sementara Cloud Storage di project Anda atau menggunakan kembali bucket staging dan sementara yang dibuat Dataproc dari permintaan pembuatan cluster sebelumnya.

  • Bucket staging: Digunakan untuk men-stage dependensi tugas cluster, output driver tugas, dan file konfigurasi cluster. Juga menerima output dari perintah gcloud dataproc Cluster Analyzer gcloud CLI.

  • Bucket temp: Digunakan untuk menyimpan data tugas dan cluster sementara, seperti file histori Spark dan MapReduce.

Jika Anda tidak menentukan bucket staging atau sementara saat membuat cluster, Dataproc akan menetapkan lokasi Cloud Storage di AS, ASIA, atau Uni Eropa untuk staging dan bucket temp cluster Anda sesuai dengan zona Compute Engine tempat cluster Anda di-deploy, lalu membuat dan mengelola bucket per lokasi level project ini. staging dan bucket sementara yang dibuat Dataproc digunakan bersama di antara cluster di region yang sama.

Bucket temp berisi data sementara, dan memiliki TTL selama 90 hari. Bucket staging, yang dapat berisi data konfigurasi dan file dependensi yang diperlukan oleh beberapa cluster, tidak memiliki TTL. Namun, Anda dapat menerapkan aturan siklus proses ke file dependensi (file dengan ekstensi nama file ".jar" yang terletak di folder bucket staging) untuk menjadwalkan penghapusan file dependensi saat tidak lagi diperlukan oleh cluster Anda.

Membuat bucket staging dan temp Anda sendiri

Daripada mengandalkan pembuatan bucket staging dan sementara default, Anda dapat menentukan bucket Cloud Storage yang sudah ada yang akan digunakan Dataproc sebagai bucket staging dan temp cluster Anda.

Perintah gcloud

Jalankan perintah gcloud dataproc clusters create dengan flag --bucket dan/atau --temp-bucket secara lokal di jendela terminal atau di Cloud Shell untuk menentukan staging dan/atau bucket temp cluster Anda.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --bucket=bucket-name \
    --temp-bucket=bucket-name \
    other args ...

REST API

Gunakan kolom ClusterConfig.configBucket dan ClusterConfig.tempBucket dalam permintaan clusters.create untuk menentukan bucket staging dan sementara cluster Anda.

Konsol

Di Konsol Google Cloud, buka halaman Buat cluster Dataproc. Pilih panel Customize cluster, lalu gunakan kolom File storage untuk menentukan atau memilih bucket staging cluster.

Catatan: Saat ini, penetapan bucket sementara menggunakan konsol Google Cloud tidak didukung.

Dataproc menggunakan struktur folder yang telah ditentukan untuk bucket Cloud Storage yang terpasang pada cluster. Dataproc juga mendukung penyertaan lebih dari satu cluster ke bucket Cloud Storage. Struktur folder yang digunakan untuk menyimpan output driver tugas di Cloud Storage adalah:

cloud-storage-bucket-name
  - google-cloud-dataproc-metainfo
    - list of cluster IDs
        - list of job IDs
          - list of output logs for a job

Anda dapat menggunakan alat command line gcloud, Dataproc API, atau Google Cloud Console untuk mencantumkan nama bucket staging dan sementara cluster.

Konsol

  • \Lihat detail cluster, yang mencakup nama bucket staging cluster, di halaman Clusters Dataproc di Google Cloud Console.
  • Di halaman Cloud Storage Browser di konsol Google Cloud, filter hasil yang berisi "dataproc-temp-".

Perintah gcloud

Jalankan perintah gcloud dataproc clusters describe secara lokal di jendela terminal atau di Cloud Shell. Bucket staging dan sementara yang terkait dengan cluster Anda dicantumkan dalam output.

gcloud dataproc clusters describe cluster-name \
    --region=region \
...
clusterName: cluster-name
clusterUuid: daa40b3f-5ff5-4e89-9bf1-bcbfec ...
config:
    configBucket: dataproc-...
    ...
    tempBucket: dataproc-temp...

REST API

Panggil clusters.get untuk mencantumkan detail cluster, termasuk nama staging cluster dan bucket sementara.

{
 "projectId": "vigilant-sunup-163401",
 "clusterName": "cluster-name",
 "config": {
  "configBucket": "dataproc-...",
...
  "tempBucket": "dataproc-temp-...",
}

defaultFS

Anda dapat menetapkan core:fs.defaultFS ke lokasi bucket di Cloud Storage (gs://defaultFS-bucket-name) untuk menetapkan Cloud Storage sebagai sistem file default. Tindakan ini juga menetapkan core:fs.gs.reported.permissions, izin yang dilaporkan yang ditampilkan oleh konektor Cloud Storage untuk semua file, ke 777.

Jika Cloud Storage tidak ditetapkan sebagai sistem file default, HDFS akan digunakan, dan properti core:fs.gs.reported.permissions akan menampilkan 700, nilai default.

gcloud dataproc clusters create cluster-name \
    --properties=core:fs.defaultFS=gs://defaultFS-bucket-name \
    --region=region \
    --bucket=staging-bucket-name \
    --temp-bucket=temp-bucket-name \
    other args ...