Dataproc

Dataproc은 클라우드에서 빠르고 간단하면서도 안전하게 오픈소스 데이터와 분석을 처리합니다.

  • 커스텀 머신에서 90초 내에 자동 확장 클러스터 가동
  • 완전 관리형 Apache Spark, Apache Hadoop, Presto, 기타 오픈소스 소프트웨어(OSS) 클러스터 빌드
  • Kubernetes로 OSS 작업 컨테이너화
  • 사용한 리소스에 대해서만 결제하고 OSS 총 소유 비용을 절감
  • 모든 클러스터에 기본 제공되는 암호화와 통합 보안
  • Jupyter 메모장, Apache Spark, GPU가 있는 머신을 포함할 수 있도록 설계된 맞춤형 클러스터로 데이터 과학 실험의 가속화

커스텀 머신에 커스텀 OSS 클러스터를 더 빠르게 빌드

Presto용 추가 메모리와 Apache Spark 머신러닝용 GPU 중에서 무엇이 필요하든 Dataproc은 맞춤형 클러스터를 90초 이내에 가동해 데이터와 분석 처리를 가속화할 수 있습니다.

쉽고 저렴한 클러스터 관리

Dataproc은 자동 확장, 유휴 클러스터 삭제, 초당 가격 책정, 워크플로, 클러스터 크기 조절 등의 기능으로 첫날부터 OSS의 총 소유 비용을 절감하기 때문에 사용자는 시간과 리소스를 다른 곳에 집중할 수 있습니다.

보안 기능 기본 제공

기본 제공되는 암호화로 모든 데이터를 보호할 수 있습니다. JobsAPI와 구성요소 게이트웨이를 통해 네트워킹이나 게이트웨이 노드를 설정할 필요 없이 Cloud IAM이 있는 클러스터에 대한 사용자 권한을 정의할 수 있습니다.

주요 기능

자동화된 클러스터 관리

배포, 로깅, 모니터링이 관리되어 클러스터가 아닌 데이터에 집중할 수 있습니다. Dataproc 클러스터는 안정적이고 확장 가능하며 신속합니다.

OSS 작업 컨테이너화

OSS 작업(예: Apache Spark)을 Dataproc에서 빌드할 때는 Kubernetes로 빠르게 컨테이너화하고 GKE 클러스터가 있는 다른 곳에 배포할 수 있습니다.

엔터프라이즈 보안

Dataproc 클러스터를 만들 때 보안 구성을 추가하는 방법으로 Kerberos를 통해 Hadoop 보안 모드를 사용 설정할 수 있습니다. Jobs API와 구성요소 게이트웨이를 사용하면 복잡한 네트워킹이나 게이트웨이 노드를 설정할 필요 없이 Cloud IAM에 따라 클러스터에 특정 사용자 권한을 정의할 수 있습니다. 또한 Google Cloud와 Dataproc에서는 데이터 보호를 지원하는 추가 보안 기능을 제공합니다. Dataproc과 함께 가장 일반적으로 사용되는 Google Cloud만의 보안 기능으로는 기본 저장 데이터 암호화, OS 로그인, VPC 서비스 제어, 고객 관리 암호화 키(CMEK) 등이 있습니다.

모든 기능 보기

고객 사례

내용 요약

  • Google Cloud로 온프레미스 Apache Hadoop 마이그레이션

  • 프로덕션 환경에서 실행되는 226개 모델

  • 두 달 후 첫 번째 국가에서 Google Cloud 출시

업종

  • 전자통신

더 많은 고객 보기

문서

권장사항
Dataproc 안내 가이드

Dataproc 클러스터를 빌드하고 관리하는 방법을 알아보세요.

API 및 라이브러리
Dataproc 초기화 작업

사전 빌드된 초기화 작업으로 Dataproc 클러스터에 다른 OSS 프로젝트를 추가하세요.

API 및 라이브러리
오픈소스 커넥터

Hadoop 상호 운용성을 위한 라이브러리 및 도구

사용 사례

사용 사례
Hadoop과 Spark 클러스터를 클라우드로 이동

많은 기업에서 비용을 관리하고 확장성의 이점을 활용하기 위해 기존 온프레미스 Apache Hadoop과 Spark 클러스터에서 Dataproc으로 마이그레이션하고 있습니다. Dataproc을 통해 기업에서는 모든 데이터나 분석 처리 작업을 지원하도록 자동 확장할 수 있는 완전 관리형의 맞춤형 클러스터를 만들 수 있습니다.

사용 사례
Dataproc의 데이터 과학

목적에 맞게 구축된 Dataproc 클러스터를 가동해 이상적인 데이터 과학 환경을 조성하세요. Google Cloud AI 서비스와 GPU로 Apache Spark, NVIDIA RAPIDS, Juypter 메모장 등 오픈소스 소프트웨어를 통합해 머신러닝과 AI 개발을 가속화하세요.

모든 기능

크기 조절이 가능한 클러스터 다양한 가상 머신 유형, 디스크 크기, 노드 수, 네트워킹 옵션으로 클러스터를 만들고 빠르게 확장할 수 있습니다.
클러스터 자동 확장 Dataproc 자동 확장은 클러스터 리소스 관리를 자동화하는 메커니즘을 제공하고 클러스터 작업자(노드)를 자동으로 가감하는 기능을 지원합니다.
클라우드 통합 Cloud Storage, BigQuery, Cloud Bigtable, Cloud Logging, Cloud Monitoring, AI Hub와 기본적으로 통합되어 더욱 완전하고도 견고한 데이터 플랫폼을 제공합니다.
버전 관리 이미지 버전 관리 덕분에 다양한 버전의 Apache Spark, Apache Hadoop, 기타 도구로 전환할 수 있습니다.
고가용성 다수의 마스터 노드를 사용해 클러스터를 고가용성 모드로 실행하고 실패 시 다시 시작되도록 작업을 설정해 클러스터 및 작업의 고가용성을 보장할 수 있습니다.
클러스터 예약 삭제 비활성 클러스터에 대한 요금이 발생하지 않도록 Dataproc의 예약 삭제를 사용할 수 있습니다. 이 기능은 지정된 클러스터 유휴 기간 후, 지정된 향후 시점 또는 지정된 기간 후 클러스터를 삭제하는 옵션을 제공합니다.
자동 또는 수동 구성 Dataproc은 하드웨어와 소프트웨어를 자동으로 구성하는 것은 물론 수동 제어 기능도 제공합니다.
개발자 도구 사용하기 쉬운 웹 UI, Cloud SDK, RESTful API, SSH 액세스 등 다양한 방식으로 클러스터를 관리할 수 있습니다.
초기화 작업 클러스터를 만들 때 초기화 작업을 실행해 필요한 설정 및 라이브러리를 설치하거나 맞춤설정할 수 있습니다.
선택적 구성요소 선택적 구성요소를 사용하여 클러스터에 추가 구성요소를 설치하고 구성합니다. 선택적 구성요소는 Dataproc 구성요소와 통합되며 Zeppelin, Druid, Presto는 물론 Apache Hadoop 및 Apache Spark 생태계와 관련된 다른 오픈소스 소프트웨어 구성요소에도 완전히 구성된 환경을 제공합니다.
커스텀 이미지 Dataproc 클러스터는 사전 설치된 Linux 운영체제 패키지가 포함된 커스텀 이미지로 프로비저닝할 수 있습니다.
유연한 가상 머신 클러스터에서 커스텀 머신 유형선점형 가상 머신을 사용하여 사용자 니즈에 최적화된 규모로 만들 수 있습니다.
구성요소 게이트웨이 및 메모장 액세스 Dataproc 구성요소 게이트웨이는 클러스터에서 실행되는 Dataproc 기본 구성요소와 선택적 구성요소 웹 인터페이스에 안전하게 원클릭으로 액세스할 수 있는 환경을 제공합니다.
워크플로 템플릿 Dataproc 워크플로 템플릿은 워크플로 관리와 실행을 위한 간편하고 유연한 메커니즘을 제공합니다. 워크플로 템플릿은 재사용 가능한 워크플로 구성으로서 이러한 작업을 실행할 위치에 관한 정보와 함께 작업 그래프를 정의합니다.

가격 책정

Dataproc 가격은 Dataproc 클러스터의 크기와 실행 시간에 따라 책정됩니다. 가격 책정에는 시간 단위 요금이 나와 있지만 Google에서는 사용하는 것에 대해서만 결제할 수 있도록 초당 요금을 부과합니다. 자세한 내용은 가격 책정 페이지를 참조하세요.

가격 책정 세부정보 보기

파트너

Dataproc은 기존 투자와 역량을 보완하기 위해 주요 파트너와 통합합니다.

다음 단계 수행

최대 12개월 동안 Google Cloud 학습 및 빌드를 위한 $300의 크레딧을 받으세요.

시작하는 데 도움이 필요하신가요?
신뢰할 수 있는 파트너 지원
계속 탐색