단일 노드 클러스터는 노드가 하나뿐인 Dataproc 클러스터입니다. 이 단일 노드는 Dataproc 클러스터의 마스터 및 작업자의 역할을 합니다. 단일 노드 클러스터에는 노드가 하나뿐이지만 아래 나와 있는 사항을 제외하고 Dataproc의 개념과 기능이 대부분 그대로 적용됩니다.
단일 노드 Dataproc 클러스터를 사용할 수 있는 상황은 다음과 같이 다양합니다.
- 새로운 버전의 Spark 및 Hadoop 또는 다른 오픈소스의 구성요소 사용
- 개념 증명(PoC) 데모 구축
- 간단한 데이터 과학
- 소규모의 중요하지 않은 데이터 처리
- Spark 및 Hadoop 생태계 관련 교육
단일 노드 클러스터의 의미 체계
단일 노드 Dataproc 클러스터에는 다음과 같은 시맨틱스가 적용됩니다.
- 단일 노드 클러스터는 멀티 노드 Dataproc 클러스터와 동일하게 구성되며 HDFS 및 YARN 같은 서비스가 포함됩니다.
- 단일 노드 클러스터는 초기화 작업의 마스터 노드로 보고합니다.
- 단일 노드는 마스터와 작업자의 역할을 모두 수행하므로 단일 노드 클러스터는 작업자 0을 표시합니다.
- 단일 노드 클러스터에는 clustername-m의 패턴을 따르는 호스트 이름이 지정됩니다. 이 호스트 이름을 사용하여 노드에서 웹 UI에 SSH를 통해 접속하거나 연결할 수 있습니다.
- 단일 노드 클러스터는 멀티 노드 클러스터로 업그레이드할 수 없습니다. 만들어진 단일 노드 클러스터는 하나의 노드로 제한됩니다. 이와 유사하게 멀티 노드 클러스터는 단일 노드 클러스터로 축소할 수 없습니다.
제한사항
- 단일 노드 클러스터는 대용량 병렬 데이터 처리에는 사용하지 않는 것이 좋습니다. 단일 노드 클러스터에서 리소스를 초과하는 경우, 멀티 노드 Dataproc 클러스터를 사용하는 것이 좋습니다. 
- 단일 노드 클러스터에는 노드가 하나이므로 고가용성으로 사용할 수 없습니다. 
- 단일 노드 클러스터는 선점형 VM을 사용할 수 없습니다. 
단일 노드 클러스터 만들기
gcloud 명령어
gcloud 명령줄 도구를 사용하여 단일 노드 Dataproc 클러스터를 만들 수 있습니다. 단일 노드 클러스터를 만들려면 --single-node 플래그를 gcloud dataproc clusters create 명령어로 전달하세요.
gcloud dataproc clusters create cluster-name \ --region=region \ --single-node \ ... other args
REST API
clusters.create 요청을 사용하여 Dataproc REST API를 통해 단일 노드 클러스터를 만들 수 있습니다. 이를 요청할 때 다음을 수행해야 합니다.
- "dataproc:dataproc.allow.zero.workers":"true"속성을 클러스터 요청의 SoftwareConfig에 추가합니다.
- workerConfig및- secondaryWorkerConfig에 대한 값을 제출하지 않습니다(ClusterConfig 참조).
콘솔
Dataproc 클러스터 만들기 페이지에서 클러스터 설정 패널의 클러스터 유형 섹션에서 '단일 노드(마스터 1, 작업자 0)'를 선택하여 단일 노드 클러스터를 만들 수 있습니다.