Dataproc

Apache Spark 및 Apache Hadoop을 실행하는 빠르고 쉬우며 저렴한 방법

무료로 사용해 보기

클라우드 기반 Apache Hadoop 및 Apache Spark

Dataproc은 빠르고 사용하기 쉬운 완전 관리형 클라우드 서비스로서 Apache SparkApache Hadoop 클러스터를 더욱 간단하고 비용 효율적인 방식으로 실행합니다. 몇 시간이나 며칠씩 걸리던 작업이 몇 분이나 몇 초 만에 완료되고, 사용한 리소스에 대해서만 요금을 지불하면 됩니다(초당 청구). Dataproc은 다른 Google Cloud Platform(GCP) 서비스와도 쉽게 통합되어 데이터 처리, 분석, 머신러닝을 위한 강력하고도 완전한 플랫폼을 제공합니다.

관리형 Hadoop 및 Spark

빠르고 확장 가능한 데이터 처리

Dataproc 클러스터를 빠르게 생성함은 물론 3개에서 수백 개까지 언제든 노드 수를 조절할 수 있어 데이터 파이프라인이 클러스터의 용량을 넘지 않습니다. 각 클러스터 작업은 평균 소요 시간이 90초 미만이므로 인프라 관리에 많은 시간을 뺏기지 않고 유용한 정보를 얻는 데 집중할 수 있습니다.

빠르고 확장 가능한 데이터 처리

저렴한 가격 책정

Google Cloud Platform 가격 책정 원칙을 채택한 Dataproc은 저렴한 비용과 이해하기 쉬운 실제 사용에 따른 초 단위 가격 구조를 취하고 있습니다. 또한 Dataproc 클러스터에 더 저렴한 선점형 인스턴스, 약정 사용 할인, 지속 사용 할인이 포함되므로 총 비용은 더 낮추면서 강력한 클러스터를 얻을 수 있습니다.

저렴한 가격 책정

오픈소스 생태계

Dataproc에서 Spark 및 Hadoop 도구, 라이브러리, 문서를 사용할 수 있습니다. Dataproc은 Spark, Hadoop, Pig, Hive의 기본 버전을 자주 업데이트하므로 새로운 도구나 API를 배우지 않고도 시작할 수 있으며, 기존 프로젝트나 ETL 파이프라인을 다시 개발하지 않고 옮길 수 있습니다.

오픈소스 생태계

Dataproc 기능

Dataproc은 빠르고 사용이 간편하며 저렴한 관리형 Apache Spark 및 Apache Hadoop 서비스입니다.

자동화된 클러스터 관리
배포, 로깅, 모니터링이 관리되어 클러스터가 아닌 데이터에 집중할 수 있습니다. Dataproc 클러스터는 안정적이고 확장 가능하며 신속합니다.
크기 조절이 가능한 클러스터
다양한 가상 머신 유형, 디스크 크기, 노드 수, 네트워킹 옵션으로 클러스터를 만들고 빠르게 확장할 수 있습니다.
클러스터 자동 확장
Dataproc 자동 확장은 클러스터 리소스 관리를 자동화하는 메커니즘을 제공하고 클러스터 작업자(노드)를 자동으로 가감하는 기능을 지원합니다.
클라우드 통합
Cloud Storage, BigQuery, Bigtable, Cloud Logging, Cloud Monitoring, AI Hub와 기본적으로 통합되어 완전하고도 견고한 데이터 플랫폼을 제공합니다.
버전 관리
이미지 버전 관리 덕분에 다양한 버전의 Apache Spark, Apache Hadoop, 기타 도구로 전환할 수 있습니다.
고가용성
다수의 마스터 노드를 사용해 클러스터를 고가용성 모드로 실행하고 실패 시 다시 시작되도록 작업을 설정해 클러스터 및 작업의 고가용성을 보장할 수 있습니다.
엔터프라이즈 보안
Dataproc 클러스터를 만들 때 보안 구성을 추가하는 방법으로 Kerberos를 통해 Hadoop 보안 모드를 사용 설정할 수 있습니다. 또한 GCP와 Dataproc은 데이터 보호에 도움이 되는 보안 기능을 추가로 제공합니다. Dataproc과 함께 가장 일반적으로 사용되는 GCP만의 보안 기능으로는 기본 저장 데이터 암호화, OS 로그인, VPC 서비스 제어, 고객 관리 암호화 키(CMEK) 등이 있습니다.
클러스터 예약 삭제
비활성 클러스터에 대한 요금 부과를 피하기 위해 Dataproc의 예약 삭제를 사용할 수 있습니다. 이 기능은 지정한 클러스터 유휴 시간이나 지정한 기간이 지난 후 또는 지정한 시간에 클러스터를 삭제하는 옵션을 제공합니다.
자동 또는 수동 구성
Dataproc은 하드웨어와 소프트웨어를 자동으로 구성하는 것은 물론 수동 제어 기능도 제공합니다.
개발자 도구
사용하기 쉬운 웹 UI, Cloud SDK, RESTful API, SSH 액세스 등 다양한 방식으로 클러스터를 관리할 수 있습니다.
초기화 작업
클러스터를 만들 때 초기화 작업을 실행해 필요한 설정 및 라이브러리를 설치하거나 맞춤설정할 수 있습니다.
선택적 구성요소
선택적 구성요소를 사용하여 클러스터에 추가 구성요소를 설치하고 구성합니다. 선택적 구성요소는 Dataproc 구성요소와 통합되며 Zeppelin, Druid, Presto는 물론 Apache Hadoop 및 Apache Spark 생태계와 관련된 다른 오픈소스 소프트웨어 구성요소에도 완전히 구성된 환경을 제공합니다.
커스텀 이미지
Dataproc 클러스터는 사전 설치된 Linux 운영체제 패키지가 포함된 커스텀 이미지로 프로비저닝할 수 있습니다.
유연한 가상 머신
클러스터에서 커스텀 머신 유형선점형 가상 머신을 사용하여 사용자 니즈에 최적화된 규모로 만들 수 있습니다.
구성요소 게이트웨이 및 메모장 액세스
Dataproc 구성요소 게이트웨이는 클러스터에서 실행되는 Dataproc 기본 구성요소와 선택적 구성요소 웹 인터페이스에 안전하게 원클릭으로 액세스할 수 있는 환경을 제공합니다.
워크플로 템플릿
Dataproc 워크플로 템플릿은 워크플로 관리와 실행을 위한 간편하고 유연한 메커니즘을 제공합니다. 워크플로 템플릿은 재사용 가능한 워크플로 구성으로서 이러한 작업을 실행할 위치에 관한 정보와 함께 작업 그래프를 정의합니다.

Dataproc 가격 책정

Dataproc은 클러스터에서 사용하는 Compute Engine 인스턴스의 가상 CPU를 기준으로 소액의 수수료를 단계적으로 부과합니다1.

추천 블로그 글

클라우드상의 오픈소스 데이터 처리 방식에 대한 이해를 돕는 최신 블로그 글 읽기

Next ’19 하이라이트

고객이 Dataproc 사용을 통해 어떻게 조직에서 비용을 절감하고 데이터에 기반한 결정을 내리는지 살펴보세요.

Dataproc의 최신 기능
video_youtube
고객이 Hadoop을 Google Cloud Platform으로 마이그레이션하는 방식
video_youtube
Google Cloud

시작하기

학습 및 빌드

GCP를 처음 사용하시나요? $300 크레딧으로 모든 GCP 제품을 무료로 시작해 보세요.

도움이 더 필요하신가요?

니즈에 맞는 솔루션을 빌드하거나 파트너를 찾을 수 있도록 Google 전문가들이 도와 드립니다.

이 페이지에 나열된 제품은 알파, 베타 또는 사전 체험판 버전입니다. 제품 출시 단계에 대한 자세한 내용은 여기에서 확인하세요.

Cloud AI 제품은 여기에 명시된 SLA 정책을 준수하며 지연 시간이나 가용성 보장 측면에서 다른 Google Cloud 서비스와는 다를 수 있습니다.