Cloud Dataproc

Apache Spark 및 Apache Hadoop을 실행하는 빠르고 쉬우며 저렴한 방법

무료로 사용해 보기

클라우드 네이티브 Apache Hadoop 및 Apache Spark

Cloud Dataproc은 빠르고 사용하기 쉬운 완전 관리형 클라우드 서비스로서 Apache SparkApache Hadoop 클러스터를 더 간단하고 비용 효율적인 방식으로 실행합니다. 몇 시간이나 며칠씩 걸리던 작업이 몇 분이나 몇 초 만에 끝나게 되고, 사용한 리소스에 대해서만 요금을 지불하면 됩니다(초당 청구). Cloud Dataproc은 다른 Google Cloud Platform(GCP) 서비스와도 쉽게 통합되어 데이터 처리, 분석, 머신러닝을 위한 강력하고도 완전한 플랫폼을 제공합니다.

관리형 Hadoop 및 Spark

빠르고 확장 가능한 데이터 처리

Cloud Dataproc 클러스터를 빠르게 생성함은 물론 언제든 노드 수를 3개에서 수백 개까지 조절할 수 있어 데이터 파이프라인이 클러스터보다 커질 일이 없습니다. 각 클러스터 작업은 평균 소요 시간이 90초 미만이므로 인프라 관리에 많은 시간을 뺏기지 않고 통찰을 얻는 데 집중할 수 있습니다.

빠르고 확장 가능한 데이터 처리

저렴한 가격 책정

Google Cloud Platform 가격 책정 원칙을 채택한 Cloud Dataproc은 저렴한 비용과 이해하기 쉬운 실제 사용에 따른 초 단위 가격 구조를 취하고 있습니다. 또한 Cloud Dataproc 클러스터에 더 저렴한 선점형 인스턴스를 포함할 수 있어 보다 낮은 총 비용으로 강력한 클러스터를 얻을 수 있습니다.

저렴한 가격 책정

오픈소스 생태계

Spark 및 Hadoop 생태계는 Cloud Dataproc에 활용할 수 있는 도구, 라이브러리, 문서를 제공합니다. 자주 업데이트되는 버전과 네이티브 버전의 Spark, Hadoop, Pig, Hive를 제공하여 새로운 도구나 API를 학습할 필요 없이 바로 사용을 시작하고 재개발 없이도 기존 프로젝트 또는 ETL 파이프라인을 이전할 수 있습니다.

오픈소스 생태계

Cloud Dataproc 기능

Google Cloud Dataproc은 빠르고 사용이 간편하며 저렴한 관리형 Apache Spark 및 Apache Hadoop 서비스입니다.

자동화된 클러스터 관리
배포, 로그 기록, 모니터링이 관리되어 클러스터가 아닌 데이터에 집중할 수 있습니다. 클러스터의 안정성, 확장성, 속도가 개선됩니다.
크기 조절이 가능한 클러스터
클러스터를 만들고 다양한 가상 머신 유형, 디스크 크기, 노드 수, 네트워킹 옵션에 따라 빠르게 확장할 수 있습니다.
통합
Cloud Storage, BigQuery, Bigtable, Stackdriver Logging, Stackdriver Monitoring과 기본적으로 통합되어 완전하고도 견고한 데이터 플랫폼을 제공합니다.
버전 차별화
이미지 버전 차별화 덕분에 Apache Spark, Apache Hadoop, 기타 도구를 다양한 버전으로 전환할 수 있습니다.
고가용성
다수의 마스터 노드를 사용해 클러스터를 실행하고 실패 시 다시 시작되도록 작업을 설정해 클러스터 및 작업의 고가용성을 보장할 수 있습니다.
개발자 도구
사용하기 쉬운 웹 UI, Google Cloud SDK, RESTful API, SSH 액세스 등 다양한 방식으로 클러스터를 관리할 수 있습니다.
초기화 작업
클러스터를 만들 때 초기화 작업을 실행해 필요한 설정 및 라이브러리를 설치하거나 맞춤설정할 수 있습니다.
자동 또는 수동 구성
Cloud Dataproc은 사용자를 대신해 클러스터의 하드웨어 및 소프트웨어를 자동으로 구성해주며 수동 제어도 지원합니다.
유연한 가상 머신
클러스터에서 맞춤 머신 유형선점형 가상 머신을 사용할 수 있어 사용자 요구에 최적화된 규모로 지원할 수 있습니다.

Cloud Dataflow 및 Cloud Dataproc 비교: 용도

Cloud Dataproc 및 Cloud Dataflow 모두 데이터 처리에 사용할 수 있으며 똑같이 일괄 기능 및 스트리밍 기능을 지원합니다. 그렇다면 자신의 환경에 적합한 제품을 어떻게 결정할 수 있을까요?
Dataproc 및 Dataflow 비교

Cloud Dataproc

Cloud Dataproc은 Apache 빅데이터 생태계의 특정 구성요소를 사용하는 환경에 적합합니다.

  • check 도구/패키지
  • check 파이프라인
  • check 기존 리소스 기술 모음

Cloud Dataflow

Cloud Dataflow는 일반적으로 개발 가능성이 있는 환경에서 선호하는 옵션입니다.

  • check 운영 간접비가 적음
  • check 일괄 또는 스트리밍 파이프라인 개발에 대한 통합 접근 방식
  • check Apache Beam 사용
  • check Cloud Dataflow, Apache Spark, Apache Flink에서 런타임으로 파이프라인 이식 지원

권장 작업

작업 Cloud Dataproc Cloud Dataflow
스트림 처리(ETL) check
일괄 처리(ETL) check check
반복 처리 및 노트북 check
Spark ML을 사용한 머신러닝 check
머신러닝 사전 처리 check(Cloud ML Engine 사용)

Cloud Dataproc 가격

Cloud Dataproc은 클러스터에서 사용하는 Compute Engine 인스턴스의 가상 CPU에 따라 소액의 수수료가 단계적으로 늘어납니다1.

아이오와 오리건 노스 버지니아 사우스캐롤라이나 몬트리올 상파울루 벨기에 런던 네덜란드 프랑크푸르트 시드니 뭄바이 타이완 도쿄
머신 유형 가격
표준 머신
가상 CPU 1-64개
고성능 메모리 머신
가상 CPU 2-64개
고성능 CPU 머신
가상 CPU 2-64개
맞춤 머신
vCPU 및 메모리 사용에 따라 다름
USD 외의 통화로 지불하는 경우 Cloud Platform SKU에 해당 통화로 표기된 가격이 적용됩니다.

1 Cloud Dataproc은 클러스터에서 사용하는 Compute Engine 인스턴스의 가상 CPU에 따라 소액의 수수료가 단계적으로 늘어납니다. Compute Engine network, BigQuery, Cloud Bigtable 등 Cloud Dataproc에서 사용하는 추가 리소스의 요금은 사용에 따라 청구됩니다. 자세한 가격 정보는 가격 책정 가이드를 참조하세요.