Dataproc은 일괄 처리, 쿼리, 스트리밍, 머신러닝에 오픈소스 데이터 도구를 활용할 수 있는 관리형 Spark 및 Hadoop 서비스입니다.
Dataproc 자동화를 통해 신속하게 클러스터를 만들고 손쉽게 관리하며 불필요한 클러스터를 사용 중지하여 비용을 절감할 수 있습니다. 관리 시간과 비용이 절감되므로 작업과 데이터에 집중할 수 있습니다.
Dataproc의 이점
기존의 온프레미스 제품 및 경쟁 클라우드 서비스와 비교할 때 Dataproc에는 3개에서 수백 개의 노드 클러스터에 대한 여러 가지 고유한 이점이 있습니다.
저렴한 비용 — Dataproc은 사용 중인 다른 Cloud Platform 리소스 외에 시간당 클러스터의 가상 CPU당 1센트의 비용으로 가격이 책정됩니다. 이 저렴한 가격 외에도 Dataproc 클러스터에는 컴퓨팅 가격이 더 낮은 선점형 인스턴스를 포함하여 비용을 더 줄일 수 있습니다. 사용량을 가장 가까운 시간으로 반올림하는 대신 Dataproc에서는 초당 사용량 결제와 최저 1분 결제 기간을 사용하여 실제 사용량에 대해서만 비용을 청구합니다.
매우 빠름 — Dataproc을 사용하지 않으면 사내에 또는 IaaS 제공업체를 통해 Spark 및 Hadoop 클러스터를 만드는 데 5분에서 30분까지 소요될 수 있습니다. 반대로 Dataproc 클러스터는 빠르게 시작하고 확장하며 종료할 수 있습니다. 각각의 작업을 수행하는 데는 평균 90초도 채 걸리지 않습니다. 따라서 클러스터를 기다리는 시간을 줄이고 대신 데이터 작업에 더 많은 시간을 할애할 수 있습니다.
통합 - Dataproc은 BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging, Cloud Monitoring과 같은 다른 Google Cloud Platform 서비스와 기본적으로 통합되어 있으므로 Spark 또는 Hadoop 클러스터 이상의 완벽한 데이터 플랫폼을 사용할 수 있습니다. 예를 들어 Dataproc을 사용하면 비즈니스 보고서용 BigQuery에 직접 테라바이트 단위의 원시 로그 데이터를 손쉽게 ETL할 수 있습니다.
관리형임 — 관리자의 지원을 받거나 특별한 소프트웨어를 사용하지 않고도 Spark 및 Hadoop 클러스터를 사용할 수 있습니다. Google Cloud 콘솔, Cloud SDK 또는 Dataproc REST API를 통해 클러스터 및 Spark 또는 Hadoop 작업과 쉽게 상호작용할 수 있습니다. 클러스터 사용이 끝나고 클러스터를 사용 중지하면 유휴 클러스터에 비용을 지출하지 않습니다. Dataproc은 Cloud Storage, BigQuery, Cloud Bigtable과 통합되므로 데이터 손실에 대해 걱정할 필요가 없습니다.
간단하고 친숙함 - Dataproc을 사용하기 위해 새로운 도구나 API를 배울 필요가 없으므로 재개발하지 않고 기존 프로젝트를 Dataproc으로 쉽게 이동할 수 있습니다. Spark, Hadoop, Pig, Hive는 자주 업데이트되므로 보다 신속하게 생산성을 높일 수 있습니다.
Dataproc에는 무엇이 포함되나요?
Dataproc에서 지원하는 오픈소스(Hadoop, Spark, Hive, Pig) 및 Google Cloud커넥터 버전 목록은 Dataproc 버전 목록을 참조하세요.
Dataproc 시작하기
Dataproc을 빠르게 시작하려면 Dataproc 빠른 시작을 참조하세요. 다음과 같은 방법으로 Dataproc에 액세스할 수 있습니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-04(UTC)"],[[["\u003cp\u003eDataproc is a managed service for Spark and Hadoop that simplifies batch processing, querying, streaming, and machine learning with open-source tools.\u003c/p\u003e\n"],["\u003cp\u003eDataproc offers cost savings through low per-vCPU pricing, preemptible instances, and second-by-second billing, only charging for actual usage.\u003c/p\u003e\n"],["\u003cp\u003eClusters in Dataproc are created, scaled, and shut down quickly, often in 90 seconds or less, minimizing wait times and increasing efficiency.\u003c/p\u003e\n"],["\u003cp\u003eDataproc seamlessly integrates with other Google Cloud Platform services, forming a complete data platform that enables functionalities like ETL directly into BigQuery.\u003c/p\u003e\n"],["\u003cp\u003eDataproc provides a managed environment, eliminating the need for administrators or special software while offering easy interaction with clusters and jobs through the Google Cloud console, Cloud SDK, or REST API.\u003c/p\u003e\n"]]],[],null,["Dataproc is a managed Spark and Hadoop service that lets you take advantage of open\nsource data tools for batch processing, querying, streaming, and machine learning.\nDataproc automation helps you create clusters quickly, manage them easily, and save\nmoney by turning clusters off when you don't need them. With less time and money spent on\nadministration, you can focus on your jobs and your data. \n\nAdvantages of Dataproc\n\nWhen compared to traditional, on-premises products and competing cloud\nservices, Dataproc has a number of unique advantages for clusters of\nthree to hundreds of nodes:\n\n- **Low cost** --- Dataproc is [priced](/dataproc/docs/resources/pricing) at only 1 cent per virtual CPU in your cluster per hour, on top of the other Cloud Platform resources you use. In addition to this low price, Dataproc clusters can include [preemptible instances](/preemptible-vms) that have lower compute prices, reducing your costs even further. Instead of rounding your usage up to the nearest hour, Dataproc charges you only for what you really use with second-by-second billing and a low, one-minute-minimum billing period.\n- **Super fast** --- Without using Dataproc, it can take from five to 30 minutes to create Spark and Hadoop clusters on-premises or through IaaS providers. By comparison, Dataproc clusters are quick to start, scale, and shutdown, with each of these operations taking 90 seconds or less, on average. This means you can spend less time waiting for clusters and more hands-on time working with your data.\n- **Integrated** --- Dataproc has built-in integration with other Google Cloud Platform services, such as [BigQuery](/bigquery), [Cloud Storage](/storage), [Cloud Bigtable](/bigtable), [Cloud Logging](/logging), and [Cloud Monitoring](/monitoring), so you have more than just a Spark or Hadoop cluster---you have a complete data platform. For example, you can use Dataproc to effortlessly ETL terabytes of raw log data directly into BigQuery for business reporting.\n- **Managed** --- Use Spark and Hadoop clusters without the assistance of an administrator or special software. You can easily interact with clusters and Spark or Hadoop jobs through the Google Cloud console, the Cloud SDK, or the Dataproc REST API. When you're done with a cluster, you can simply turn it off, so you don't spend money on an idle cluster. You won't need to worry about losing data, because Dataproc is integrated with [Cloud Storage](/storage), [BigQuery](/bigquery), and [Cloud Bigtable](/bigtable).\n- **Simple and familiar** --- You don't need to learn new tools or APIs to use Dataproc, making it easy to move existing projects into Dataproc without redevelopment. Spark, Hadoop, Pig, and Hive are frequently updated, so you can be productive faster.\n\nWhat is included in Dataproc\n\nFor a list of the open source (Hadoop, Spark, Hive, and Pig) and Google Cloud\nconnector versions supported by\nDataproc, see the\n[Dataproc version list](/dataproc/docs/concepts/dataproc-versions).\n\nGetting Started with Dataproc\n\nTo quickly get started with Dataproc, see the Dataproc\nquickstarts. You can access Dataproc in the following ways:\n\n- Through the [REST API](/dataproc/docs/quickstarts/create-cluster-template)\n- Using the [Cloud SDK](/dataproc/docs/quickstarts/create-cluster-gcloud)\n- Using the [Dataproc UI](/dataproc/docs/quickstarts/create-cluster-console)\n- Through the [Cloud Client Libraries](/dataproc/docs/quickstarts/create-cluster-client-libraries)"]]