Dataproc 로고

Dataproc

Google Dataproc을 사용한 관리형 Apache Spark 및 Hadoop

관리형 서비스로 더 쉽게, Gemini로 더 스마트하게, Lightning Engine으로 더 빠르게 가장 까다로운 Spark 및 오픈소스 워크로드를 실행하세요.

Apache Spark는 Apache Software Foundation의 상표입니다.

기능

업계를 선도하는 성능

Lightning Engine으로 가장 까다로운 Spark 작업을 가속화하세요. Google Cloud의 차세대 엔진은 관리형 최적화를 통해 4.3배 이상 빠른 성능을 제공하고 TCO와 수동 튜닝을 줄여줍니다. 현재 Dataproc에서 프리뷰 버전으로 제공됩니다. 

AI 기반 개발 및 운영

Gemini로 전체 워크플로를 가속화하세요. AI 기반 어시스턴스를 활용하여 PySpark 코드를 작성하고 디버그하며, Gemini Cloud Assist를 사용하여 실패하거나 느리게 실행되는 작업에 대한 자동화된 근본 원인 분석을 수행하여 문제 해결 시간을 획기적으로 단축할 수 있습니다.

엔터프라이즈 AI/ML 지원

전체 머신러닝 수명 주기를 빌드하고 운영하세요. NVIDIA RAPIDS™로 구동되는 GPU 지원과 사전 구성된 ML 런타임으로 모델 학습 및 추론을 가속화합니다. 그런 다음 더 광범위한 Google Cloud AI 생태계와 통합하여 Vertex AI Pipelines로 엔드 투 엔드 MLOps를 조정합니다.

강력한 레이크하우스 통합

개방형 레이크하우스 아키텍처에 기본적으로 연결됩니다. BigQuery에서 직접 데이터를 처리하고, Vertex AI Pipelines로 MLOps를 조정하며, BigLakeDataplex Universal Catalog로 개방형 데이터에 대한 거버넌스를 통합할 수 있습니다.

탁월한 제어 및 맞춤설정

각 Dataproc 클러스터를 정확한 요구사항에 맞게 조정할 수 있습니다. Python, Scala 또는 Java로 개발하고, 다양한 머신 유형 중에서 선택하고, 초기화 작업을 사용하여 커스텀 소프트웨어를 설치하고, 최대의 이식성을 위해 자체 컨테이너 이미지를 가져올 수 있습니다.

최신 오픈소스 데이터 스택을 위해 빌드됨

공급업체 종속을 방지합니다. Dataproc은 Apache Spark에 최적화되어 있지만 Apache Hadoop, Flink, Trino, Presto와 같은 30개 이상의 오픈소스 도구를 지원합니다. Airflow와 같은 인기 있는 조정자와 원활하게 통합되며, Kubernetes 및 Docker로 확장하여 유연성을 극대화할 수 있습니다.

엔터프라이즈 수준의 보안

보안 상황과 원활하게 통합됩니다. IAM을 활용하여 세분화된 권한을 부여하고, VPC 서비스 제어로 네트워크 보안을 강화하며, Kerberos를 통해 Spark 클러스터에 강력한 인증을 적용할 수 있습니다.

작동 방식

커스텀 클러스터를 구성하고 Spark 작업을 제출하여 BigQuery 및 Cloud Storage의 데이터를 처리합니다. 통합 모니터링 및 보안으로 성능과 거버넌스를 관리합니다.

일반적인 용도

Cloud 마이그레이션

온프렘 Apache Hadoop 및 Spark 워크로드를 원활하게 리프트 앤 시프트합니다. 또한 자체 관리형 'DIY Spark'에서 완전 관리형 서비스로 이전하는 데도 이상적인 경로입니다. Dataproc은 기존 2.x를 포함한 광범위한 Spark 버전을 지원하므로 즉각적인 코드 리팩터링의 필요성을 줄여 마이그레이션을 간소화합니다. 이를 통해 팀의 기존 오픈소스 기술을 활용하여 클라우드로 더 빠르게 전환할 수 있습니다.

    Cloud 마이그레이션

    온프렘 Apache Hadoop 및 Spark 워크로드를 원활하게 리프트 앤 시프트합니다. 또한 자체 관리형 'DIY Spark'에서 완전 관리형 서비스로 이전하는 데도 이상적인 경로입니다. Dataproc은 기존 2.x를 포함한 광범위한 Spark 버전을 지원하므로 즉각적인 코드 리팩터링의 필요성을 줄여 마이그레이션을 간소화합니다. 이를 통해 팀의 기존 오픈소스 기술을 활용하여 클라우드로 더 빠르게 전환할 수 있습니다.

      레이크하우스 현대화

      Dataproc을 최신 데이터 레이크하우스를 위한 강력한 오픈소스 처리 엔진으로 사용하세요. 데이터 레이크에서 직접 Apache Iceberg와 같은 개방형 형식으로 데이터를 처리하여 데이터 사일로와 비용이 많이 드는 데이터 이동을 없앨 수 있습니다. BigQuery 및 Dataplex Universal Catalog와 원활하게 통합하여 진정한 통합 멀티 엔진 분석 및 거버넌스 플랫폼을 구축하세요.

        레이크하우스 현대화

        Dataproc을 최신 데이터 레이크하우스를 위한 강력한 오픈소스 처리 엔진으로 사용하세요. 데이터 레이크에서 직접 Apache Iceberg와 같은 개방형 형식으로 데이터를 처리하여 데이터 사일로와 비용이 많이 드는 데이터 이동을 없앨 수 있습니다. BigQuery 및 Dataplex Universal Catalog와 원활하게 통합하여 진정한 통합 멀티 엔진 분석 및 거버넌스 플랫폼을 구축하세요.

          데이터 엔지니어링

          엔터프라이즈급 안정성과 확장성을 갖춘 복잡하고 장기 실행되는 Spark ETL 파이프라인을 빌드하고 조정합니다. 자동 확장과 같은 강력한 기능을 활용하여 비용과 성능을 최적화하고, 워크플로 템플릿을 사용하여 가장 중요한 프로덕션 수준의 작업을 처음부터 끝까지 자동화하고 관리할 수 있습니다.

          Snap 인용

          데이터 엔지니어링

          엔터프라이즈급 안정성과 확장성을 갖춘 복잡하고 장기 실행되는 Spark ETL 파이프라인을 빌드하고 조정합니다. 자동 확장과 같은 강력한 기능을 활용하여 비용과 성능을 최적화하고, 워크플로 템플릿을 사용하여 가장 중요한 프로덕션 수준의 작업을 처음부터 끝까지 자동화하고 관리할 수 있습니다.

          Snap 인용

          대규모 데이터 과학

          데이터 과학팀에 대규모 모델 학습 및 일괄 추론을 위한 강력하고 맞춤 설정 가능한 Spark 클러스터 환경을 제공합니다. 사전 구성된 ML 런타임과 GPU 지원을 통해 전체 ML 수명 주기를 가속화하고 Vertex AI와 통합하여 엔드 투 엔드 MLOps 파이프라인을 빌드하고 운영할 수 있습니다.

          Spark 노트북 하이라이트

          대규모 데이터 과학

          데이터 과학팀에 대규모 모델 학습 및 일괄 추론을 위한 강력하고 맞춤 설정 가능한 Spark 클러스터 환경을 제공합니다. 사전 구성된 ML 런타임과 GPU 지원을 통해 전체 ML 수명 주기를 가속화하고 Vertex AI와 통합하여 엔드 투 엔드 MLOps 파이프라인을 빌드하고 운영할 수 있습니다.

          Spark 노트북 하이라이트

          유연한 OSS 분석 엔진

          운영 오버헤드를 추가하지 않고도 Spark 및 Hadoop을 넘어설 수 있습니다. 대화형 SQL을 위한 Trino, 고급 스트림 처리를 위한 Flink 또는 기타 특화된 오픈소스 엔진과 함께 전용 클러스터를 배포하세요. Dataproc은 관리형 서비스의 단순성을 바탕으로 이 다양한 생태계를 관리할 수 있는 통합 컨트롤 플레인을 제공합니다.

          OSS 지원

            유연한 OSS 분석 엔진

            운영 오버헤드를 추가하지 않고도 Spark 및 Hadoop을 넘어설 수 있습니다. 대화형 SQL을 위한 Trino, 고급 스트림 처리를 위한 Flink 또는 기타 특화된 오픈소스 엔진과 함께 전용 클러스터를 배포하세요. Dataproc은 관리형 서비스의 단순성을 바탕으로 이 다양한 생태계를 관리할 수 있는 통합 컨트롤 플레인을 제공합니다.

            OSS 지원

              가격 책정

              Dataproc 관리형 클러스터Dataproc은 사용한 만큼만 지불하는 방식의 가격 책정을 제공합니다. 자동 확장 및 선점형 VM으로 비용을 최적화하세요.

              주요 구성요소

              • Compute Engine 인스턴스(vCPU, 메모리)
              • Dataproc 서비스 요금(vCPU-시간당)
              • 영구 디스크


              각각 2시간 동안 실행된 CPU가 4개이고 노드(기본 1개 + 작업자 5개)가 6개인 클러스터의 비용은 $0.48입니다. Dataproc 요금 = vCPU 수 * 시간 * Dataproc 가격 = 24 * 2 * $0.01 = $0.48

              Dataproc 관리형 클러스터

              Dataproc은 사용한 만큼만 지불하는 방식의 가격 책정을 제공합니다. 자동 확장 및 선점형 VM으로 비용을 최적화하세요.

              주요 구성요소

              • Compute Engine 인스턴스(vCPU, 메모리)
              • Dataproc 서비스 요금(vCPU-시간당)
              • 영구 디스크


              각각 2시간 동안 실행된 CPU가 4개이고 노드(기본 1개 + 작업자 5개)가 6개인 클러스터의 비용은 $0.48입니다. Dataproc 요금 = vCPU 수 * 시간 * Dataproc 가격 = 24 * 2 * $0.01 = $0.48

              가격 계산기

              리전별 가격 및 수수료를 포함한 월별 Dataproc 비용을 예측해 볼 수 있습니다.

              커스텀 견적

              영업팀에 문의하여 조직에 대한 커스텀 견적을 받아 보세요.

              개념 증명 시작

              신규 고객을 위한 $300 크레딧

              대규모 프로젝트가 있나요?

              템플릿을 사용한 Spark 작업 제출

              튜토리얼: Dataproc Spark-BigQuery 커넥터

              자세한 내용은 Dataproc 문서를 참고하세요.

              비즈니스 사례

               Google Dataproc의 비즈니스 사례 구축


              Google Cloud Dataproc 및 서버리스 Spark와 대체 솔루션의 경제적 이점 비교

              Dataproc이 온프레미스 및 다른 클라우드 솔루션에 비해 상당한 TCO 절감 효과와 비즈니스 가치를 제공하는 방법을 알아보세요.

              보고서에는 다음과 같은 내용이 포함됩니다.

              Dataproc과 Apache Spark용 서버리스가 다른 클라우드 기반 Spark 대안과 비교하여 18~60%의 비용 절감 효과를 제공하는 방법을 알아보세요.

              Apache Spark용 Google Cloud 서버리스가 다른 서버리스 Spark 제품보다 21~55% 더 나은 가격 대비 성능을 제공하는 방법을 알아보세요.

              Dataproc과 Apache Spark용 Google Cloud 서버리스가 Spark 배포를 간소화하고 운영 복잡성을 줄이는 데 어떻게 도움이 되는지 알아보세요.

              FAQ

              Dataproc과 Apache Spark용 Google Cloud 서버리스 중 어떤 것을 선택해야 하나요?

              클러스터 환경을 세밀하게 제어해야 하거나, 기존 Hadoop/Spark 워크로드를 마이그레이션해야 하거나, 다양한 오픈소스 도구 세트를 갖춘 영구 클러스터가 필요한 경우 Dataproc을 선택하세요. 관리 모델, 이상적인 워크로드, 비용 구조의 차이점에 대한 자세한 분석을 확인하세요.

              전체 가이드 보기

              예. Dataproc은 최신 오픈소스 데이터 스택을 위한 통합 플랫폼입니다. 30개 이상의 구성요소를 지원하므로 스트림 처리를 위한 Flink 또는 대화형 SQL을 위한 Trino와 같은 도구에 전용 클러스터를 실행할 수 있으며, 이 모든 것이 단일 관리형 서비스로 제공됩니다.

              모든 선택적 구성요소 보기

               높은 수준의 제어를 제공합니다. Dataproc을 사용하면 머신 유형, 디스크 크기, 네트워크 구성을 맞춤설정할 수 있습니다. 또한 초기화 작업을 사용하여 커스텀 소프트웨어를 설치하고, 자체 컨테이너 이미지를 가져오고, 스팟 VM을 활용하여 비용을 최적화할 수 있습니다.

              클러스터를 맞춤설정하는 방법 알아보기

              Dataproc
              Google Cloud