Dataproc 스테이징 및 임시 버킷

클러스터를 만들면 기본적으로 Dataproc은 프로젝트에 Cloud Storage 스테이징과 Cloud Storage 임시 버킷을 만들거나 이전 클러스터 생성 요청에서 기존 Dataproc에서 생성한 스테이징 및 임시 버킷을 재사용합니다.

  • 스테이징 버킷: 클러스터 작업 종속 항목, 작업 드라이버 출력, 클러스터 구성 파일을 스테이징하는 데 사용됩니다. 또한 Cloud SDK gcloud dataproc clusters diagnose 명령어에서 출력을 수신합니다.

  • 임시 버킷: Spark 및 맵리듀스 기록 파일과 같은 임시 클러스터 및 작업 데이터를 저장하는 데 사용됩니다.

스테이징 또는 임시 버킷을 지정하지 않으면 Dataproc이 클러스터가 배포된 Compute Engine 영역에 따라 클러스터의 스테이징 및 임시 버킷에 대한 미국, 아시아 또는 유럽 내 Cloud Storage 위치를 설정합니다. 그런 다음, 프로젝트 수준의 위치별 버킷을 생성하고 관리합니다. Dataproc에서 생성한 스테이징 및 임시 버킷은 동일한 리전의 클러스터간에 공유됩니다. 기본적으로 임시 버킷의 TTL은 90일입니다.

기본 스테이징 및 임시 버킷 생성에 의존하지 않고 Dataproc이 클러스터의 스테이징 및 임시 버킷으로 사용할 기존 Cloud Storage 버킷을 지정할 수 있습니다.

gcloud 명령어

터미널 창 또는 Cloud Shell에서 --bucket 또는 --temp-bucket 플래그를 사용하여 gcloud dataproc clusters create 명령어를 실행하여 클러스터의 스테이징 또는 임시 버킷을 지정합니다.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --bucket=bucket-name \
    --temp-bucket=bucket-name \
    other args ...

REST API

clusters.create 요청에서 ClusterConfig.configBucketClusterConfig.tempBucket 필드를 사용하여 클러스터의 스테이징 및 임시 버킷을 지정합니다.

콘솔

Google Cloud Console의 클러스터 만들기→고급 옵션 패널에서 Cloud Storage staging bucket 필드를 사용하여 클러스터의 스테이징 버킷을 지정하거나 선택합니다.

참고: 현재 Cloud Console을 사용하여 임시 버킷을 지정하는 것은 지원되지 않습니다.

Dataproc는 클러스터에 연결된 Cloud Storage 버킷에 대해 정의된 폴더 구조를 사용합니다. 또한 Dataproc에서는 Cloud Storage 버킷에 클러스터를 한 개 넘게 연결할 수 있습니다. Cloud Storage에 작업 드라이버 출력을 저장하는 데 사용되는 폴더 구조는 다음과 같습니다.

cloud-storage-bucket-name
  - google-cloud-dataproc-metainfo
    - list of cluster IDs
        - list of job IDs
          - list of output logs for a job

gcloud 명령줄 도구, Dataproc API, Google Cloud Console을 사용하여 클러스터의 스테이징 및 임시 버킷 이름을 나열할 수 있습니다.

gcloud 명령어

터미널 창 또는 Cloud Shell에서 로컬로 gcloud dataproc clusters describe 명령어를 실행합니다. 클러스터와 연결된 스테이징 및 임시 버킷이 출력에 나열됩니다.

gcloud dataproc clusters describe cluster-name \
    --region=region \
...
clusterName: cluster-name
clusterUuid: daa40b3f-5ff5-4e89-9bf1-bcbfec ...
config:
    configBucket: dataproc-...
    ...
    tempBucket: dataproc-temp...

REST API

clusters.get을 호출하여 클러스터의 스테이징 및 임시 버킷 이름을 포함한 클러스터 세부정보를 나열합니다.

{
 "projectId": "vigilant-sunup-163401",
 "clusterName": "cluster-name",
 "config": {
  "configBucket": "dataproc-...",
...
  "tempBucket": "dataproc-temp-...",
}

콘솔

Cloud Console에서 클러스터의 스테이징 버킷 이름을 포함하여 클러스터 세부정보를 확인합니다.

참고: 현재 임시 버킷의 콘솔 표시는 지원되지 않습니다.