Apache Spark on Google Cloud

Google Cloud에서 Spark의 모든 잠재력을 활용하세요. 서버리스의 편리함 또는 클러스터 제어 중에서 선택하세요. 고속 처리, AI 지원, 원활한 개방형 레이크하우스 연결로 성능이 향상됩니다.

이점

개발자 생산성을 높이고 신속하게 데이터 인사이트 파악

모든 데이터 사용자를 위한 원활한 Spark

서버리스 또는 관리형 클러스터를 사용하는 BigQuery, Vertex AI 및 IDE로 Spark를 간편하게 실행할 수 있습니다. 코드 및 운영을 위한 Gemini를 사용해 커스텀 통합을 제거하고 ETL에서 ML 워크플로까지 간소화하며 생산성을 높입니다.


서버리스 Spark를 통한 운영 간소화

Apache Spark용 Google Cloud 서버리스는 즉각적인 자동 확장과 거의 제로에 가까운 구성을 제공합니다. Lightning Engine(프리뷰)으로 쿼리 성능을 3.6배 향상*하세요. Dataplex 범용 카탈로그는 메타데이터를 통합하여 작업을 간소화합니다.

원하는 방식으로 Spark 실행

하나의 기술로 모든 것을 이룰 수는 없습니다. Google Cloud를 사용하면 서버리스, 관리형 클러스터, 컴퓨팅 클러스터 중에서 Spark 워크로드에 맞는 클러스터를 유연하게 선택할 수 있습니다.

주요 특징

Google Cloud에서 Spark를 실행하는 강력한 방법

Apache Spark용 Google Cloud 서버리스

Apache Spark용 Google Cloud 서버리스를 사용하여 Lightning Engine* 및 Gemini로 생산성과 성능을 향상합니다. 이 환경은 BigQuery에서 Apache Spark 및 SQL 워크로드를 직접 실행할 수 있도록 긴밀하게 통합된 환경입니다. 통합 보안, BigLake metastore를 사용한 런타임 메타데이터, Dataplex 범용 카탈로그를 통한 거버넌스를 제공합니다. 통합된 CI/CD, 노트북의 Gemini를 통해 생산성을 극대화하고 Apache Spark 클러스터 관리를 없앱니다.

*쿼리는 TPC-DS 표준TPC-H 표준에서 파생되었으며, 이러한 실행은 TPC-DS 표준TPC-H 표준 사양의 모든 요구사항을 준수하지 않으므로 게시된 TPC-DS 표준TPC-H 표준 결과와 비교할 수 없습니다.

Dataproc을 사용하는 관리형 Spark, Hadoop, OSS 클러스터

Dataproc은 전용 Spark, Hadoop, 30개 이상의 오픈소스 도구로 구성된 광범위한 생태계를 배포하고 운영하기 위한 확장성이 뛰어난 완전 관리형 서비스입니다. Google Compute Engine 기반 Dataproc(프리미엄 등급)용 Lightning Engine을 비롯한 더 광범위한 Google Cloud 제품 및 서비스와 통합되어 데이터 레이크 현대화, 효율적인 ETL 파이프라인, 클러스터 제어가 무엇보다 중요한 대규모 데이터 과학 이니셔티브에 적합합니다.

Google Cloud에서 Apache Spark를 사용한 데이터 과학

Apache Spark용 Google Cloud 서버리스의 제로옵스 단순성을 선호하든 관리형 Dataproc 클러스터의 제어를 선호하든 전체 머신러닝 수명 주기를 가속화할 수 있습니다. 다음과 같은 이점을 누리세요.

  • 원활한 통합: 데이터 액세스를 위한 BigQuery와 MLOps를 위한 Vertex AI를 손쉽게 연결하여 엔드 투 엔드 데이터 과학 파이프라인을 빌드할 수 있습니다.
  • 개발자 생산성: Gemini를 활용하여 BigQuery StudioVertex AI Workbench와 같은 노트북 환경에서 코딩 인사이트와 지원을 받으세요.
  • AI/ML 준비: 까다로운 학습 및 추론 태스크를 위해 서버리스 Spark 및 Dataproc 클러스터 모두에서 사용할 수 있는 사전 패키징된 ML 라이브러리와 GPU 가속화를 활용합니다.
  • 더 빠른 반복: 무엇을 선택하든 개발과 실험에 집중할 수 있습니다.

Vertex AI를 통한 Spark

Vertex AI를 사용해 데이터 과학을 위한 Spark를 원활하게 개발하고 운영하세요. Vertex AI Workbench의 Spark를 사용하여 보안 기능이 기본 제공되며 Gemini의 지원을 받는 대화형 개발을 수행하세요. 강력한 MLOps를 위해 Spark 처리를 Vertex AI Pipelines에 통합합니다.

레이크하우스를 위한 오픈소스 테이블 형식 지원

Google Cloud의 Spark 제품은 Apache Iceberg, Delta Lake, Hudi와 같은 오픈소스 형식과 강력한 호환성을 제공합니다. BigLake Metastore 또는 Dataproc Metastore를 활용하여 형식 전반에서 통합된 메타데이터 관리를 지원하므로, 원하는 Spark 엔진으로 데이터를 처리할 수 있는 개방형 레이크하우스 아키텍처를 사용할 수 있습니다.


Apache Spark는 Apache Software Foundation의 상표입니다.

다음 단계 수행

해결해야 하는 문제를 알려주세요. 가장 적합한 솔루션을 찾을 수 있도록 Google Cloud 전문가가 도와드립니다.

Google Cloud