Lightning Engine은 오픈소스 Spark보다 최대 4.9배 빠른 성능을 제공하며, 주요 고속 Spark 대안보다 최대 2배 높은 가격 대비 성능을 제공합니다.

Managed Service for Apache Spark(이전 명칭: Dataproc)

더 쉽고 스마트하며 빠르게 Spark를 실행하는 새로운 방법

제로 운영 서버리스 Spark 또는 관리형 클러스터로 Apache Spark 워크로드를 실행하세요. 에이전트 AI 워크플로로 개발을 가속화하고 Lightning Engine으로 성능을 향상하세요.

신규 고객에게는 Managed Service for Apache Spark 및 기타 Google Cloud 제품을 사용해 볼 수 있는 $300의 무료 크레딧이 제공됩니다.

Apache Spark는 Apache Software Foundation의 상표입니다.

기능

Lightning Engine으로 업계를 선도하는 성능

코드 변경 없이 오픈소스 Apache Spark보다 최대 4.9배 빠른 속도로 대규모 ETL 및 SQL 워크로드를 가속화하세요. Lightning Engine은 네이티브 C++ 벡터화 실행 엔진, 지능형 캐싱, 최적화된 열 형식 셔플링을 활용합니다. 이를 지능형 Spark 자동 조정과 결합하여 수동 조정 비용을 없애고 메모리를 최적화하며 OOM 오류를 자동으로 방지할 수 있습니다.

*쿼리는 TPC-DS 표준 및 TPC-H 표준에서 파생

기술 세부정보를 알아보고 Lowe's의 Lightning Engine 사용 경험을 들어보세요

유연한 레이크하우스 상호 운용성

엔진 독립성을 보장하는 개방형 레이크하우스 아키텍처를 빌드하세요. Google Cloud Storage에서 직접 Apache Iceberg와 같은 개방형 형식으로 데이터를 처리합니다. BigQuery 및 Knowledge Catalog(이전 명칭: Dataplex)와 원활하게 통합하여 통합 분석 및 거버넌스를 구현하고, 변환 계층 없이 진정한 멀티 엔진 상호 운용성을 보장합니다.

Google Cloud의 데이터 레이크하우스로 ROI 117% 실현 및 AI 혁신 가속화

연구 보고서 다운로드

통합된 AI 기반 개발자 환경

단순히 질문에 답하는 것이 아니라 조치를 취하는 데이터 에이전트를 통해 백로그를 정리하세요. 개발부터 프로덕션까지 Spark 워크로드의 생산성을 높이기 위해 VSCode 에이전트형 확장 프로그램에 내장된 Gemini를 사용하여 워크플로를 가속화하거나 원하는 IDE를 사용할 수 있습니다. 기본 제공되는 데이터 클라우드 에이전트로 데이터 랭글링과 PySpark 코딩을 자동화하거나 데이터 에이전트 키트를 사용하여 데이터 세트를 관리하고 IDE에서 직접 쿼리를 실행할 수 있습니다. Gemini Cloud Assist로 중단된 Spark 작업의 문제를 자동으로 해결할 수 있습니다. 단일 통합 AI 중심 노트북에서 SQL과 Spark를 결합하세요.

자율 에이전트: 데이터의 차세대 진화

안내서 읽기

엔터프라이즈 AI/ML 준비 완료

전체 머신러닝 수명 주기를 빌드하고 운영하세요. NVIDIA RAPIDS로 구동되는 GPU 지원과 PyTorch 및 XGBoost용으로 사전 구성된 ML 런타임으로 모델 학습 및 추론을 가속화합니다. Google Cloud AI 생태계와 통합하여 엔드 투 엔드 MLOps를 조정하고 Gemini Enterprise Agent Platform Model Registry 통합으로 애셋을 관리합니다.

Google Cloud를 사용한 데이터 과학 실무 가이드

eBook 받기

안전하고 확장 가능하며 원활한 마이그레이션

IAM, VPC 서비스 제어, Kerberos를 사용하여 보안 상황과 원활하게 통합하세요. Managed Service for Apache Spark 템플릿과 도구를 사용하여 클라우드 및 기존 Spark 워크로드를 손쉽게 마이그레이션할 수 있습니다. 즉각적인 코드 리팩터링 없이 Spark 2.x부터 Spark 4.0까지 지원되는 워크로드를 리프트 앤 시프트합니다.

데이터 레이크 마이그레이션을 위한 실용적인 가이드

데이터 레이크 현대화를 시작하세요

멀티 테넌트 효율성 및 FinOps 제어

리소스 사용률을 극대화하고 유휴 비용을 절감하세요. 최대 800명의 사용자가 컴퓨팅 리소스를 공유하면서도 엄격한 데이터 및 환경 격리를 유지할 수 있는 멀티테넌트 Spark 클러스터를 배포합니다. Scale-to-zero 기능, 초 단위 결제, 유연한 워크로드를 위한 스팟 VM 지원을 통해 비용을 관리하세요.

개방적이고 유연한 생태계

공급업체 종속을 방지합니다. Apache Spark에 최적화되어 있지만 관리형 클러스터는 Apache Hadoop, Flink, Trino와 같은 30개 이상의 오픈소스 도구를 지원합니다. Managed Service for Apache Airflow와 같은 조정자와 원활하게 통합되며, Kubernetes 및 Docker로 확장하여 유연성을 극대화할 수 있습니다.

배포 옵션

배포 옵션	워크로드에 가장 적합한 옵션을 위해 관리형 클러스터의 세분화된 제어 또는 서버리스 환경의 제로 운영 단순성 중에서 선택하세요.
배포 모드:	정의:	적합한 작업:	결제 항목:
서버리스	서비스형 Spark 작업 Managed Spark, 관리형 인프라	새로운 파이프라인, 대화형 분석, 제로 운영 및 작업당 비용 지불 모델이 선호되는 급증하는 워크로드	작업 실행 시간
클러스터	서비스형 Spark 클러스터 Managed Spark, 인프라	기존 Spark 또는 OSS 워크로드를 마이그레이션하거나, 영구 클러스터를 실행하거나, 심층적인 오픈소스 맞춤설정이 필요한 경우	클러스터 업타임

자세한 비교 참조

배포 옵션

워크로드에 가장 적합한 옵션을 위해 관리형 클러스터의 세분화된 제어 또는 서버리스 환경의 제로 운영 단순성 중에서 선택하세요.

서버리스

정의:

서비스형 Spark 작업

Managed Spark, 관리형 인프라

적합한 작업:

새로운 파이프라인, 대화형 분석, 제로 운영 및 작업당 비용 지불 모델이 선호되는 급증하는 워크로드

결제 항목:

작업 실행 시간

클러스터

정의:

서비스형 Spark 클러스터

Managed Spark, 인프라

적합한 작업:

기존 Spark 또는 OSS 워크로드를 마이그레이션하거나, 영구 클러스터를 실행하거나, 심층적인 오픈소스 맞춤설정이 필요한 경우

결제 항목:

클러스터 업타임

자세한 비교 참조

작동 방식

제로 운영 서버리스 또는 관리형 클러스터로 Spark를 더 쉽게 만드세요. 에이전트 AI를 사용하여 PySpark 개발을 가속화하면서 원하는 IDE에서 Gemini로 더 스마트하게 작업하세요. Lightning Engine으로 작업을 더 빠르게 실행하는 동시에 Knowledge Catalog를 통해 개방형 레이크하우스 전반에서 통합 거버넌스를 유지할 수 있습니다.

일반적인 용도

대규모 데이터 엔지니어링

자동화된 ETL 파이프라인

주문형으로 자동 확장되는 강력한 이벤트 기반 Spark ETL 파이프라인을 빌드합니다. 급증하는 워크로드에는 서버리스 실행을 활용하고, 지속적인 작업에는 관리형 클러스터를 활용하세요. 워크플로 템플릿을 사용하여 가장 중요한 프로덕션 수준의 데이터 처리 작업을 처음부터 끝까지 자동화할 수 있습니다.

데이터 레이크 파이프라인의 논리적 설계

튜토리얼, 빠른 시작, 실습

자동화된 ETL 파이프라인

주문형으로 자동 확장되는 강력한 이벤트 기반 Spark ETL 파이프라인을 빌드합니다. 급증하는 워크로드에는 서버리스 실행을 활용하고, 지속적인 작업에는 관리형 클러스터를 활용하세요. 워크플로 템플릿을 사용하여 가장 중요한 프로덕션 수준의 데이터 처리 작업을 처음부터 끝까지 자동화할 수 있습니다.

데이터 레이크 파이프라인의 논리적 설계

데이터 과학 및 머신러닝

대화형 데이터 과학

데이터 과학자가 데이터를 탐색하고 Spark ML 모델을 반복할 수 있도록 지원합니다. VSCode 에이전트형 확장 프로그램 또는 원하는 IDE와 함께 Gemini를 사용하여 SQL과 Spark를 통합하고, 서버리스 실행을 사용하여 데이터 탐색에서 PySpark를 사용한 모델 빌드로 원활하게 전환할 수 있습니다. 단일 명령어로 GPU를 연결합니다.

튜토리얼, 빠른 시작, 실습

대화형 데이터 과학

데이터 과학자가 데이터를 탐색하고 Spark ML 모델을 반복할 수 있도록 지원합니다. VSCode 에이전트형 확장 프로그램 또는 원하는 IDE와 함께 Gemini를 사용하여 SQL과 Spark를 통합하고, 서버리스 실행을 사용하여 데이터 탐색에서 PySpark를 사용한 모델 빌드로 원활하게 전환할 수 있습니다. 단일 명령어로 GPU를 연결합니다.

레이크하우스 현대화

개방형 데이터 레이크하우스

Managed Service for Apache Spark를 최신 데이터 레이크하우스를 위한 처리 엔진으로 사용하세요. 데이터 레이크에서 직접 Apache Iceberg와 같은 개방형 형식으로 데이터를 처리하여 데이터 사일로를 없앨 수 있습니다. BigQuery 및 Lakehouse for Apache Iceberg와 통합하여 통합 멀티 엔진 분석 플랫폼을 빌드하세요.

튜토리얼, 빠른 시작, 실습

개방형 데이터 레이크하우스

Managed Service for Apache Spark를 최신 데이터 레이크하우스를 위한 처리 엔진으로 사용하세요. 데이터 레이크에서 직접 Apache Iceberg와 같은 개방형 형식으로 데이터를 처리하여 데이터 사일로를 없앨 수 있습니다. BigQuery 및 Lakehouse for Apache Iceberg와 통합하여 통합 멀티 엔진 분석 플랫폼을 빌드하세요.

가격 책정

Managed Service for Apache Spark 가격 책정 방식	가격은 선택한 배포 모델에 따라 다릅니다. 서버리스는 작업 실행당 요금이 청구되는 반면 클러스터는 기본 컴퓨팅 및 업타임에 대해 요금이 청구됩니다.
배포 모드:	결제 대상:	지불 금액:
서버리스	사용한 만큼만 지불하세요. 컴퓨팅, GPU, 셔플 스토리지에 대해 초당 요금이 청구됩니다. Scale-to-zero를 사용하면 유휴 용량에 대한 비용을 지불할 필요가 없습니다.	시작 가격 DCU 시간당 $0.06
서버리스	프리미엄 등급 및 가속기: Lightning Engine에 액세스하여 최대 4.9배 빠른 성능을 경험하거나 AI/ML 워크로드에 NVIDIA GPU를 연결할 수 있습니다.	시작 가격 DCU 시간당 $0.089 서버리스 프리미엄 등급
클러스터	클러스터 업타임에 따라 비용을 지불합니다. 기본 Compute Engine 리소스에 대한 요금과 고정 관리 수수료가 청구됩니다. 스팟 VM과 Scale-to-zero를 활용하여 비용을 최적화합니다.	시작 가격 vCPU 시간당 $0.01 관리 수수료
클러스터	Lightning Engine 부가기능: 클러스터에 획기적인 성능을 제공합니다. 오픈소스 Spark보다 최대 4.9배 빠른 실행 속도를 경험하세요.	시작 가격 vCPU 시간당 $0.0025

Managed Service for Apache Kafka 가격 책정에 대해 자세히 알아보세요. 모든 가격 책정 세부정보 보기

Managed Service for Apache Spark 가격 책정 방식

가격은 선택한 배포 모델에 따라 다릅니다. 서버리스는 작업 실행당 요금이 청구되는 반면 클러스터는 기본 컴퓨팅 및 업타임에 대해 요금이 청구됩니다.

서버리스

결제 대상:

사용한 만큼만 지불하세요. 컴퓨팅, GPU, 셔플 스토리지에 대해 초당 요금이 청구됩니다. Scale-to-zero를 사용하면 유휴 용량에 대한 비용을 지불할 필요가 없습니다.

지불 금액:

Starting at

DCU 시간당 $0.06

프리미엄 등급 및 가속기:

Lightning Engine에 액세스하여 최대 4.9배 빠른 성능을 경험하거나 AI/ML 워크로드에 NVIDIA GPU를 연결할 수 있습니다.

결제 대상:

Starting at

DCU 시간당 $0.089

서버리스 프리미엄 등급

클러스터

결제 대상:

클러스터 업타임에 따라 비용을 지불합니다. 기본 Compute Engine 리소스에 대한 요금과 고정 관리 수수료가 청구됩니다. 스팟 VM과 Scale-to-zero를 활용하여 비용을 최적화합니다.

지불 금액:

Starting at

vCPU 시간당 $0.01

관리 수수료

Lightning Engine 부가기능:

클러스터에 획기적인 성능을 제공합니다. 오픈소스 Spark보다 최대 4.9배 빠른 실행 속도를 경험하세요.

결제 대상:

Starting at

vCPU 시간당 $0.0025

Managed Service for Apache Kafka 가격 책정에 대해 자세히 알아보세요. 모든 가격 책정 세부정보 보기

가격 계산기

리전별 가격 책정 및 수수료를 포함한 월별 비용을 추정하세요.

커스텀 견적

영업팀에 문의하여 조직에 대한 커스텀 견적을 받아 보세요.

개념 증명 시작

신규 고객을 위한 $300 크레딧

대규모 프로젝트가 있나요?

클러스터 만들기

서버리스 일괄 작업 실행

적절한 배포 선택

비즈니스 사례

고객 성공사례

"일부 품질 검사 시간이 11시간에서 몇 분으로 단축되었습니다."

Dun & Bradstreet 최고 기술 책임자 마이클 마노스

Google Cloud로 마이그레이션한 후 Dun & Bradstreet는 데이터 흐름 속도를 크게 높여 품질 검사 프로세스를 몇 시간에서 몇 분으로 단축하고 새로운 데이터를 게시하는 데 걸리는 시간을 절반으로 줄였습니다. 이러한 강력한 데이터 기반을 통해 Dun & Bradstreet는 최첨단 데이터 및 AI 기술을 포함한 Google Cloud 생태계의 모든 기능을 활용할 수 있습니다.

Managed Service for Apache Spark의 차별점

유연한 배포 옵션으로 제로 운영 생산성을 실현하세요. 서버리스 실행 또는 완전 관리형 클러스터를 선택하여 인프라 오버헤드와 수동 튜닝 부담을 없애세요.

에이전트 AI 개발. VSCode 에이전트형 확장 프로그램에 내장된 Gemini 또는 원하는 IDE와 함께 통합 노트북에서 PySpark 코딩, 데이터 랭글링, 작업 문제 해결을 자동화하는 데이터 에이전트를 사용하여 워크플로를 가속화하세요.

Lightning Engine으로 업계를 선도하는 성능을 구현합니다. 가장 까다로운 ETL 및 데이터 과학 워크로드의 속도를 최대 4.9배까지 높여 총소유비용을 크게 절감하세요.

추가 리소스:

FAQ

Dataproc과 서버리스 Spark는 어떻게 되었나요?

사용자 경험을 간소화하기 위해 Dataproc과 Apache Spark용 Google Cloud 서버리스를 Managed Service for Apache Spark라는 단일 제품으로 통합했습니다. 동일한 강력한 기능을 제공하지만 이제 단일 통합 인터페이스에서 제로 운영 서버리스 또는 완전 관리형 클러스터 중에서 선호하는 배포 모델을 선택하기만 하면 됩니다. 두 배포 모드를 더 자세히 비교합니다.

서버리스와 관리형 클러스터 중 어떤 것을 선택해야 하나요?

인프라 관리가 전혀 필요 없이 코드에만 집중하고 싶다면 서버리스를 선택하세요. 새로운 파이프라인과 임시 분석에 적합합니다. 세밀한 제어가 필요하거나, 기존 또는 클라우드 Spark 또는 기타 OSS 워크로드를 마이그레이션하거나, 다양한 오픈소스 도구를 갖춘 영구 클러스터가 필요한 경우 관리형 클러스터를 선택하세요.

Lightning Engine이란 무엇인가요?

Lightning Engine은 Google Cloud의 고도로 최적화된 네이티브 실행 엔진입니다. C++ 라이브러리로 빌드된 이 솔루션은 높은 처리량의 스토리지 커넥터부터 지능형 캐싱에 이르기까지 모든 레이어를 최적화합니다. 표준 Spark보다 최대 4.9배 더 나은 성능을 제공하고, 주요 고속 Spark 대안보다 2배 더 나은 가격 대비 성능을 제공하며, 코드 변경 없이 서버리스 또는 클러스터 배포에 원활하게 통합됩니다.

PyTorch와 같은 자체 ML 라이브러리를 설치해야 하나요?

아니요. AI/ML 워크로드를 실행하는 경우 사전 구성된 ML 런타임을 사용할 수 있습니다. 이러한 환경에는 PyTorch, XGBoost, scikit-learn과 같은 일반적인 라이브러리가 기본 제공되며 최적화된 NVIDIA GPU 드라이버가 함께 제공되므로 복잡한 설정이 필요하지 않습니다.

Managed Service for Apache Spark는 완전한 오픈소스 호환성을 제공하나요?

예. 100% 오픈소스 호환 Apache Spark 환경을 제공합니다. 기존 Spark 코드를 수정 없이 실행할 수 있어 워크로드의 완전한 이식성을 보장하고 공급업체 종속을 방지할 수 있습니다.

Gemini AI는 Spark 개발에 어떤 도움이 되나요?

Gemini AI를 원하는 IDE로 직접 가져와 AI 코파일럿으로 사용할 수 있습니다. 이를 통해 PySpark 코드를 더 빠르게 작성하고 디버그할 수 있으며, Gemini Cloud Assist는 실패한 작업에 대한 자동화된 근본 원인 분석과 문제 해결 권장사항을 제공합니다.

이 서비스를 사용하여 개방형 데이터 레이크하우스를 빌드할 수 있나요?

물론입니다. Managed Service for Apache Spark는 Google Cloud의 개방형 레이크하우스의 핵심 처리 엔진입니다. Cloud Storage에서 직접 Apache Iceberg와 같은 개방형 형식으로 데이터를 처리할 수 있으며, BigQuery 및 Apache Iceberg용 Knowledge Catalog와 원활하게 통합됩니다.

표준 및 프리미엄 가격 책정 등급은 어떻게 작동하나요?

표준 및 프리미엄 등급은 현재 서버리스 배포에만 적용됩니다. 표준은 비용 효율적인 범용 일괄 처리 및 ETL에 적합합니다. 프리미엄 등급은 가장 까다로운 워크로드를 위해 설계되었으며, Lightning Engine으로 오픈소스 Apache Spark 대비 4.9배의 성능 향상을 실현하고 GPU 가속 AI/ML 기능에 대한 액세스를 제공합니다.

Managed Service for Apache Spark(이전 명칭: Dataproc)

더 쉽고 스마트하며 빠르게 Spark를 실행하는 새로운 방법

제품 특징

Lightning Engine으로 업계를 선도하는 성능

유연한 레이크하우스 상호 운용성

통합된 AI 기반 개발자 환경

엔터프라이즈 AI/ML 준비 완료

안전하고 확장 가능하며 원활한 마이그레이션

멀티 테넌트 효율성 및 FinOps 제어

개방적이고 유연한 생태계

대규모 데이터 엔지니어링

자동화된 ETL 파이프라인

튜토리얼, 빠른 시작, 실습

자동화된 ETL 파이프라인

데이터 과학 및 머신러닝

대화형 데이터 과학

튜토리얼, 빠른 시작, 실습

대화형 데이터 과학

레이크하우스 현대화

개방형 데이터 레이크하우스

튜토리얼, 빠른 시작, 실습

개방형 데이터 레이크하우스

가격 계산기

커스텀 견적

개념 증명 시작

신규 고객을 위한 $300 크레딧

대규모 프로젝트가 있나요?

클러스터 만들기

서버리스 일괄 작업 실행

적절한 배포 선택

기타 성공사례:

추가 리소스:

Dataproc과 서버리스 Spark는 어떻게 되었나요?

서버리스와 관리형 클러스터 중 어떤 것을 선택해야 하나요?

Lightning Engine이란 무엇인가요?

PyTorch와 같은 자체 ML 라이브러리를 설치해야 하나요?

Managed Service for Apache Spark는 완전한 오픈소스 호환성을 제공하나요?

Gemini AI는 Spark 개발에 어떤 도움이 되나요?

이 서비스를 사용하여 개방형 데이터 레이크하우스를 빌드할 수 있나요?

표준 및 프리미엄 가격 책정 등급은 어떻게 작동하나요?