단일 노드 클러스터

단일 노드 클러스터는 노드가 하나뿐인 Dataproc 클러스터입니다. 이 단일 노드는 Dataproc 클러스터의 마스터 및 작업자의 역할을 합니다. 단일 노드 클러스터에는 노드가 하나뿐이지만 아래 나와 있는 사항을 제외하고 Dataproc의 개념과 기능이 대부분 그대로 적용됩니다.

단일 노드 Dataproc 클러스터를 사용할 수 있는 상황은 다음과 같이 다양합니다.

  • 새로운 버전의 Spark 및 Hadoop 또는 다른 오픈소스의 구성요소 사용
  • 개념 증명(PoC) 데모 구축
  • 간단한 데이터 사이언스
  • 소규모의 중요하지 않은 데이터 처리
  • Spark 및 Hadoop 생태계 관련 교육

단일 노드 클러스터의 의미 체계

단일 노드 Dataproc 클러스터에는 다음과 같은 시맨틱스가 적용됩니다.

  • 단일 노드 클러스터는 멀티 노드 Dataproc 클러스터와 동일하게 구성되며 HDFS 및 YARN 같은 서비스가 포함됩니다.
  • 단일 노드 클러스터는 초기화 작업의 마스터 노드로 보고합니다.
  • 단일 노드는 마스터와 작업자의 역할을 모두 수행하므로 단일 노드 클러스터는 작업자 0을 표시합니다.
  • 단일 노드 클러스터에는 clustername-m의 패턴을 따르는 호스트 이름이 지정됩니다. 이 호스트 이름을 사용하여 노드에서 웹 UI에 SSH를 통해 접속하거나 연결할 수 있습니다.
  • 단일 노드 클러스터는 멀티 노드 클러스터로 업그레이드할 수 없습니다. 만들어진 단일 노드 클러스터는 하나의 노드로 제한됩니다. 이와 유사하게 멀티 노드 클러스터는 단일 노드 클러스터로 축소할 수 없습니다.

제한사항

  • 단일 노드 클러스터는 대용량 병렬 데이터 처리에는 사용하지 않는 것이 좋습니다. 단일 노드 클러스터에서 리소스를 초과하는 경우, 멀티 노드 Dataproc 클러스터를 사용하는 것이 좋습니다.

  • 단일 노드 클러스터에는 노드가 하나이므로 고가용성으로 사용할 수 없습니다.

  • 단일 노드 클러스터는 선점형 VM을 사용할 수 없습니다.

단일 노드 클러스터 만들기

gcloud 명령어

gcloud 명령줄 도구를 사용하여 단일 노드 Dataproc 클러스터를 만들 수 있습니다. 단일 노드 클러스터를 만들려면 --single-node 플래그를 gcloud dataproc clusters create 명령어로 전달하세요.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --single-node \
    ... other args

REST API

clusters.create 요청을 사용하여 Dataproc REST API를 통해 단일 노드 클러스터를 만들 수 있습니다. 이를 요청할 때 다음을 수행해야 합니다.

  1. "dataproc:dataproc.allow.zero.workers":"true" 속성을 클러스터 요청의 SoftwareConfig에 추가합니다.
  2. workerConfigsecondaryWorkerConfig에 대한 값을 제출하지 않습니다(ClusterConfig 참조).

콘솔

Dataproc 클러스터 만들기 페이지에서 클러스터 설정 패널의 클러스터 유형 섹션에서 '단일 노드(마스터 1, 작업자 0)'를 선택하여 단일 노드 클러스터를 만들 수 있습니다.