Cloud Dataproc

Apache Spark 및 Apache Hadoop을 실행하는 빠르고 쉬우며 저렴한 방법

무료로 사용해 보기

클라우드 네이티브 Apache Hadoop 및 Apache Spark

Cloud Dataproc은 빠르고 사용하기 쉬운 완전 관리형 클라우드 서비스로서 Apache SparkApache Hadoop 클러스터를 더 간단하고 비용 효율적인 방식으로 실행합니다. 몇 시간이나 며칠씩 걸리던 작업이 몇 분이나 몇 초 만에 끝나게 되고, 사용한 리소스에 대해서만 요금을 지불하면 됩니다(초당 청구). Cloud Dataproc은 다른 Google Cloud Platform(GCP) 서비스와도 쉽게 통합되어 데이터 처리, 분석, 머신러닝을 위한 강력하고도 완전한 플랫폼을 제공합니다.

관리형 Hadoop 및 Spark

빠르고 확장 가능한 데이터 처리

Cloud Dataproc 클러스터를 빠르게 생성함은 물론 언제든 노드 수를 3개에서 수백 개까지 조절할 수 있어 데이터 파이프라인이 클러스터보다 커질 일이 없습니다. 각 클러스터 작업은 평균 소요 시간이 90초 미만이므로 인프라 관리에 많은 시간을 뺏기지 않고 통찰을 얻는 데 집중할 수 있습니다.

빠르고 확장 가능한 데이터 처리

저렴한 가격 책정

Google Cloud Platform 가격 책정 원칙을 채택한 Cloud Dataproc은 저렴한 비용과 이해하기 쉬운 실제 사용에 따른 초 단위 가격 구조를 취하고 있습니다. 또한 Cloud Dataproc 클러스터에 더 저렴한 선점형 인스턴스를 포함할 수 있어 보다 낮은 총 비용으로 강력한 클러스터를 얻을 수 있습니다.

저렴한 가격 책정

오픈소스 생태계

Spark 및 Hadoop 생태계는 Cloud Dataproc에 활용할 수 있는 도구, 라이브러리, 문서를 제공합니다. 자주 업데이트되는 버전과 네이티브 버전의 Spark, Hadoop, Pig, Hive를 제공하여 새로운 도구나 API를 학습할 필요 없이 바로 사용을 시작하고 재개발 없이도 기존 프로젝트 또는 ETL 파이프라인을 이전할 수 있습니다.

오픈소스 생태계

Cloud Dataproc 기능

Google Cloud Dataproc은 빠르고 사용이 간편하며 저렴한 관리형 Apache Spark 및 Apache Hadoop 서비스입니다.

자동화된 클러스터 관리
배포, 로깅, 모니터링이 관리되어 클러스터가 아닌 데이터에 집중할 수 있습니다. 클러스터의 안정성, 확장성, 속도가 개선됩니다.
크기 조절이 가능한 클러스터
클러스터를 만들고 다양한 가상 머신 유형, 디스크 크기, 노드 수, 네트워킹 옵션에 따라 빠르게 확장할 수 있습니다.
통합
Cloud Storage, BigQuery, Bigtable, Stackdriver Logging, Stackdriver Monitoring과 기본적으로 통합되어 완전하고도 견고한 데이터 플랫폼을 제공합니다.
버전 관리
이미지 버전 차별화 덕분에 Apache Spark, Apache Hadoop, 기타 도구를 다양한 버전으로 전환할 수 있습니다.
고가용성
다수의 마스터 노드를 사용해 클러스터를 실행하고 실패 시 다시 시작되도록 작업을 설정해 클러스터 및 작업의 고가용성을 보장할 수 있습니다.
개발자 도구
사용하기 쉬운 웹 UI, Google Cloud SDK, RESTful API, SSH 액세스 등 다양한 방식으로 클러스터를 관리할 수 있습니다.
초기화 작업
클러스터를 만들 때 초기화 작업을 실행해 필요한 설정 및 라이브러리를 설치하거나 맞춤설정할 수 있습니다.
자동 또는 수동 구성
Cloud Dataproc은 사용자를 대신해 클러스터의 하드웨어 및 소프트웨어를 자동으로 구성해주며 수동 제어도 지원합니다.
유연한 가상 머신
클러스터에서 커스텀 머신 유형선점형 가상 머신을 사용할 수 있어 사용자 요구에 최적화된 규모로 지원할 수 있습니다.

Cloud Dataflow와 Cloud Dataproc 비교: 용도

Cloud Dataproc 및 Cloud Dataflow 모두 데이터 처리에 사용할 수 있으며 똑같이 일괄 기능 및 스트리밍 기능을 지원합니다. 그렇다면 자신의 환경에 적합한 제품을 어떻게 결정할 수 있을까요?
Dataproc 및 Dataflow 비교

Cloud Dataproc

Cloud Dataproc은 Apache 빅데이터 생태계의 특정 구성요소를 사용하는 환경에 적합합니다.

  • 도구/패키지
  • 파이프라인
  • 기존 리소스 기술 모음

Cloud Dataflow

Cloud Dataflow는 일반적으로 새로운 개발 환경에서 선호하는 옵션입니다.

  • 운영 오버헤드가 적음
  • 일괄 또는 스트리밍 파이프라인 개발에 대한 통합 접근 방식
  • Apache Beam 사용
  • Cloud Dataflow, Apache Spark, Apache Flink에서 런타임으로 파이프라인 이식 지원

권장 작업

작업 Cloud Dataproc Cloud Dataflow
스트림 처리(ETL)
일괄 처리(ETL)
반복 처리 및 노트북
Spark ML을 사용한 머신러닝
머신러닝 사전 처리 (Cloud ML Engine 사용)

Cloud Dataproc 가격

Cloud Dataproc은 클러스터에서 사용하는 Compute Engine 인스턴스의 가상 CPU에 따라 소액의 수수료가 단계적으로 늘어납니다1.

아이오와(us-central1) 오리건(us-west1) 북 버지니아(us-east4) 사우스캐롤라이나(us-east1) 몬트리올(northamerica-northeast1) 상파울루(southamerica-east1) 벨기에(europe-west1) 런던(europe-west2) 네덜란드(europe-west4) 취리히(europe-west6) 프랑크푸르트(europe-west3) 시드니(australia-southeast1) 뭄바이(asia-south1) 홍콩(asia-east2) 타이완(asia-east1) 도쿄(asia-northeast1)
머신 유형 가격
표준 머신
가상 CPU 1-64개
고성능 메모리 머신
가상 CPU 2-64개
고성능 CPU 머신
가상 CPU 2-64개
맞춤 머신
vCPU 및 메모리 사용에 따라 다름
USD 외의 통화로 지불하는 경우 Cloud Platform SKU에 해당 통화로 표기된 가격이 적용됩니다.

1 Cloud Dataproc은 클러스터에서 사용하는 Compute Engine 인스턴스의 가상 CPU에 따라 소액의 수수료가 단계적으로 늘어납니다. Compute Engine network, BigQuery, Cloud Bigtable 등 Cloud Dataproc에서 사용하는 추가 리소스의 요금은 사용에 따라 청구됩니다. 자세한 가격 정보는 가격 책정 가이드를 참조하세요.

다음에 대한 의견 보내기...