Dataproc 개요
클러스터 액세스
구성요소
-
개요
클러스터 구성요소의 개요입니다.
-
Anaconda 선택적 구성요소
클러스터에 Anaconda 구성요소를 설치합니다.
-
Docker 선택적 구성요소
클러스터에 Docker 구성요소를 설치합니다.
-
Flink 선택적 구성요소
클러스터에 Flink 구성요소를 설치합니다.
-
HBase 선택적 구성요소베타
클러스터에 HBase 구성요소를 설치합니다.
-
Hive WebHCat 선택적 구성요소
클러스터에 Hive WebHCat 구성요소를 설치합니다.
-
Hudi 선택적 구성요소
클러스터에 Hudi 구성요소를 설치합니다.
-
Jupyter 선택적 구성요소
클러스터에 Jupyter 구성요소를 설치합니다.
-
Presto 선택적 구성요소
클러스터에 Presto 구성요소를 설치합니다.
-
Ranger 선택적 구성요소
클러스터에 Ranger 구성요소를 설치합니다.
-
Kerberos와 Ranger 사용
클러스터에서 Ranger 구성요소를 Kerberos와 함께 사용합니다.
-
Ranger 스키마 백업 및 복원
단계에 따라 Ranger 스키마를 백업하고 복원합니다.
-
Solr 선택적 구성요소
클러스터에 Solr 구성요소를 설치합니다.
-
Trino 선택적 구성요소
클러스터에 Trino 구성요소를 설치합니다.
-
Zeppelin 선택적 구성요소
클러스터에 Zeppelin 구성요소를 설치합니다.
-
Zooper 선택적 구성요소
클러스터에 Zookeeper 구성요소를 설치합니다.
컴퓨팅 옵션
-
지원되는 머신 유형
Dataproc을 사용하여 특수한 워크로드에 대해 커스텀 머신 유형을 지정할 수 있습니다.
-
GPU 클러스터
Cloud Dataproc 클러스터에 GPU(Graphics Processing Unit)를 사용합니다.
-
로컬 솔리드 스테이트 드라이브
로컬 SSD를 Dataproc 클러스터에 연결합니다.
-
최소 CPU 플랫폼
Dataproc 클러스터에 대한 최소 CPU 플랫폼을 지정합니다.
-
영구 솔리드 스테이트 드라이브(PD-SSD) 부팅 디스크
영구 SSD 부팅 디스크로 클러스터를 만듭니다.
-
보조 작업자 - 선점형 및 비선점형 VM
Dataproc 클러스터에서 선점형 및 비선점형 보조 작업자를 이해하고 사용합니다.
작업 구성 및 실행
-
작업 수명
Dataproc 작업 제한을 이해합니다.
-
작업 지연 문제 해결
작업 지연의 일반적인 원인을 파악하고 방지합니다.
-
영구 기록 서버
Dataproc 영구 기록 서버에 대해 알아보세요.
-
다시 시작 가능한 작업
실패 시 다시 시작되는 작업을 만듭니다. 장기 실행 및 스트리밍 작업에 적합합니다.
-
GKE 기반 Dataproc에서 Spark 작업 실행
GKE 기반 Dataproc 가상 클러스터를 만든 후 가상 클러스터에서 Spark 작업을 실행합니다.
-
YARN의 Docker로 Spark 작업 런타임 환경 맞춤설정
Docker 이미지를 사용하여 Spark 작업 환경을 맞춤설정합니다.
-
DataprocFileOutputCommitter로 Spark 작업 실행
Dataproc의 향상된 구성 가능 버전의 오픈소스
FileOutputCommitter
로 Spark 작업을 실행합니다.
클러스터 구성
-
클러스터 자동 확장
자동 확장을 사용하여 클러스터의 크기를 자동으로 조정함으로써 사용자 워크로드의 요구 사항을 충족시키는 방법을 알아보세요.
-
자동 영역 배치
Dataproc이 클러스터의 영역을 선택하도록 합니다.
-
클러스터 캐싱
클러스터 캐싱을 사용하여 성능을 개선합니다.
-
클러스터 메타데이터
Dataproc의 클러스터 메타데이터와 맞춤 메타데이터를 설정하는 방법에 대해 알아보세요.
-
클러스터 속성
Dataproc 오픈소스 구성요소에 대한 구성 속성을 사용합니다.
-
클러스터 순환
클러스터 풀에 포함된 클러스터를 순환합니다.
-
향상된 유연성 모드
중간 데이터가 저장된 위치를 변경하여 작업 실행을 계속합니다.
-
가변형 VM
요청한 VM을 사용할 수 없는 경우 클러스터에서 사용할 수 있는 VM 유형을 지정합니다.
-
고가용성 모드
서비스를 사용할 수 없을 때 HDFS 및 YARN의 복구성 향상
-
초기화 작업
설정 시 모든 또는 일부 클러스터 노드에서 실행할 작업을 지정합니다.
-
네트워크 구성
클러스터 네트워크를 구성합니다.
-
클러스터 크기 조정하기
작업이 실행 중인 동안에도 클러스터에 있는 작업자 노드 수를 늘리거나 줄입니다.
-
예약된 삭제
지정된 기간 이후 또는 지정된 시간에 클러스터를 삭제합니다.
-
보안 구성
클러스터 보안 기능을 사용 설정합니다.
-
컨피덴셜 컴퓨팅
컨피덴셜 VM이 있는 클러스터를 만듭니다.
-
고객 관리 암호화 키(CMEK)
Dataproc 클러스터 및 작업 데이터의 암호화된 키를 관리합니다.
-
Ranger Cloud Storage 플러그인
Dataproc과 함께 Ranger Cloud Storage 플러그인을 사용합니다.
-
Dataproc 서비스 계정
Dataproc 서비스 계정을 이해합니다.
-
단일 노드 클러스터
노드가 하나뿐인 라이트 샌드박스 클러스터를 만듭니다.
-
단독 테넌트 노드 클러스터
단독 테넌트 노드에서 클러스터를 만듭니다.
-
스테이징 및 임시 버킷
Dataproc 스테이징 및 임시 버킷에 대해 알아보세요.
커넥터
-
BigQuery 커넥터
Dataproc 클러스터에서 Apache Hadoop용 BigQuery를 사용합니다.
-
BigQuery 커넥터 코드 샘플
BigQuery 코드 샘플을 확인합니다.
-
Dataproc에서 Bigtable
Dataproc 클러스터와 함께 Bigtable Apache HBase 호환 API를 사용합니다.
-
Cloud Storage 커넥터
Cloud Storage 커넥터를 사용합니다.
-
Hive BigQuery 커넥터
Hive BigQuery 커넥터에 대해 알아봅니다.
-
Dataproc을 사용하는 Pub/Sub Lite
Pub/Sub Lite를 Dataproc과 함께 사용합니다.
Identity and Access Management(IAM)
-
Dataproc 권한 및 IAM 역할
사용자 및 그룹이 프로젝트의 Dataproc 리소스에 액세스할 수 있도록 IAM 역할을 설정합니다.
-
Dataproc 주 구성원 및 역할
클러스터에서 작업을 만들고, 관리, 실행하는 데 필요한 Dataproc 주 구성원 및 역할을 이해합니다.
-
Dataproc 세분화된 IAM
상세 클러스터별 권한을 설정합니다.
-
Dataproc 개인 클러스터 인증
개인 클러스터 인증을 설정합니다.
-
Dataproc 서비스 계정 기반 멀티테넌시
멀티 테넌트 클러스터를 설정합니다.
-
커스텀 제약조건을 사용하여 Dataproc 리소스 관리
Dataproc 리소스를 관리하기 위해 커스텀 제약조건을 설정합니다.
Dataproc 리전 엔드포인트
버전 관리
워크플로 템플릿
-
개요
워크플로 템플릿에 대해 알아봅니다.
-
워크플로 모니터링 및 디버깅
워크플로 모니터 및 디버깅 방법
-
매개변수화
워크플로 템플릿을 매개변수화하는 방법을 알아봅니다.
-
YAML 파일 사용
워크플로에서 YAML 파일을 사용하는 방법을 알아봅니다.
-
클러스터 선택기 사용
워크플로에서 클러스터 선택기를 사용하는 방법을 알아봅니다.
-
인라인 워크플로 사용
인라인 워크플로를 만들고 실행하는 방법을 알아봅니다.
-
워크플로 사용
워크플로를 설정하고 실행하는 방법을 알아봅니다.
-
워크플로 예약 솔루션
Cloud Scheduler, Cloud Functions, Cloud Composer로 워크플로를 실행합니다.