Dataproc이란?

Dataproc은 일괄 처리, 쿼리, 스트리밍, 머신 러닝에 오픈소스 데이터 도구를 활용할 수 있는 관리형 Spark 및 Hadoop 서비스입니다. Dataproc 자동화를 통해 신속하게 클러스터를 만들고 손쉽게 관리하며 불필요한 클러스터를 사용 중지하여 비용을 절감할 수 있습니다. 관리 시간과 비용이 절감되므로 작업과 데이터에 집중할 수 있습니다.

Dataproc을 사용해야 하는 이유

기존의 온프레미스 제품 및 경쟁 클라우드 서비스와 비교할 때 Dataproc에는 3개에서 수백 개의 노드 클러스터에 대한 여러 가지 고유한 이점이 있습니다.

  • 저렴한 비용 — Dataproc은 사용 중인 다른 Cloud Platform 리소스 외에 시간당 클러스터의 가상 CPU당 1센트의 비용으로 가격이 책정됩니다. 이 저렴한 가격 외에도 Dataproc 클러스터에는 컴퓨팅 가격이 더 낮은 선점형 인스턴스를 포함하여 비용을 더 줄일 수 있습니다. 사용량을 가장 가까운 시간으로 반올림하는 대신 Dataproc에서는 초당 사용량 결제와 최저 1분 결제 기간을 사용하여 실제 사용량에 대해서만 비용을 청구합니다.
  • 매우 빠름 — Dataproc을 사용하지 않으면 사내에 또는 IaaS 제공업체를 통해 Spark 및 Hadoop 클러스터를 만드는 데 5분에서 30분까지 소요될 수 있습니다. 반대로 Dataproc 클러스터는 빠르게 시작하고 확장하며 종료할 수 있습니다. 각각의 작업을 수행하는 데는 평균 90초도 채 걸리지 않습니다. 따라서 클러스터를 기다리는 시간을 줄이고 대신 데이터 작업에 더 많은 시간을 할애할 수 있습니다.
  • 통합 - Dataproc은 BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging, Cloud Monitoring과 같은 다른 Google Cloud Platform 서비스와 기본적으로 통합되어 있으므로 Spark 또는 Hadoop 클러스터 이상의 완벽한 데이터 플랫폼을 사용할 수 있습니다. 예를 들어 Dataproc을 사용하면 비즈니스 보고서용 BigQuery에 직접 테라바이트 단위의 원시 로그 데이터를 손쉽게 ETL할 수 있습니다.
  • 관리형임 — 관리자의 지원을 받거나 특별한 소프트웨어를 사용하지 않고도 Spark 및 Hadoop 클러스터를 사용할 수 있습니다. Google Cloud Console, Cloud SDK, Dataproc REST API를 통해 클러스터 및 Spark 또는 Hadoop 작업과 쉽게 상호작용할 수 있습니다. 클러스터 사용이 끝나고 클러스터를 사용 중지하면 유휴 클러스터에 비용을 지출하지 않습니다. Dataproc은 Cloud Storage, BigQuery, Cloud Bigtable과 통합되므로 데이터 손실에 대해 걱정할 필요가 없습니다.
  • 간단하고 친숙함 - Dataproc을 사용하기 위해 새로운 도구나 API를 배울 필요가 없으므로 재개발하지 않고 기존 프로젝트를 Dataproc으로 쉽게 이동할 수 있습니다. Spark, Hadoop, Pig, Hive는 자주 업데이트되므로 보다 신속하게 생산성을 높일 수 있습니다.

Dataproc에는 무엇이 포함되어 있나요?

Dataproc에서 지원하는 오픈소스(Hadoop, Spark, Hive, Pixel) 및 Google Cloud Platform 커넥터 버전 목록은 Dataproc 버전 목록을 참조하세요.

Dataproc 시작하기

Dataproc을 빠르게 시작하려면 Dataproc 빠른 시작을 참조하세요. 다음과 같은 방법으로 Dataproc에 액세스할 수 있습니다.