SQL과 함께 Apache Spark를 위한 기본 BigQuery 지원. 자세히 알아보기

Google Cloud 기반 Spark

업계 최초의 자동 확장 서버리스 Spark는 최고의 Google 기반 오픈소스 도구와 통합됩니다. ETL, 데이터 과학, 탐색 분석을 포함한 모든 사용 사례의 필요한 위치에서 Spark를 개발하고 실행하세요.

이점

개발자 생산성을 높이고 신속하게 데이터 인사이트 파악

서버리스 Spark를 통한 운영 간소화

수동 인프라 프로비저닝 또는 조정 없이 자동 확장되는 Spark 애플리케이션 및 파이프라인을 작성합니다.

모든 데이터 사용자를 위한 원활한 Spark

Spark는 BigQuery, Vertex AI, Dataplex와 통합되어 있으므로 커스텀 통합 없이 이러한 인터페이스에서 클릭 두 번으로 ETL, 데이터 탐색, 분석, ML을 위한 작업을 작성하고 실행할 수 있습니다.

유연한 사용

하나의 기술로 모든 것을 이룰 수는 없습니다. Spark 애플리케이션의 서버리스, Kubernetes 클러스터, 컴퓨팅 클러스터 중에서 선택할 수 있습니다.

주요 특징

두 번의 클릭으로 선택한 인터페이스에서 자동 확장되는 Spark 작업 실행

Apache Spark용 BigQuery 외부 절차

통합 SQL 및 Spark 환경: Python으로 작성된 Apache Spark 코드를 BigQuery에서 직접 만들고 실행합니다. 그런 다음 SQL 저장 프로시저를 실행하는 것과 비슷하게 Google 표준 SQL 쿼리를 사용하여 BigQuery에서 이러한 저장 프로시저를 실행하고 예약할 수 있습니다.

서버리스 Spark

개발자는 코드와 로직에 집중하고 선택한 인터페이스를 사용하여 자동 프로비저닝 및 자동 확장되는 Spark 작업을 제출할 수 있습니다. 서버리스 Spark 문서를 읽어보세요. 

Vertex AI를 통한 Spark

클릭 한 번으로 데이터 과학에 Spark 이용: 데이터 과학자가 보안이 기본 제공되는 Vertex AI Workbench를 통해 개발에 Spark를 원활하게 사용할 수 있습니다. Spark는 Vertex AI의 MLOps 기능과 통합되어 Vertex AI Pipelines와 통합된 노트북 실행자를 통해 Spark 코드를 실행할 수 있습니다.

Dataplex를 통한 Spark

클릭 한 번으로 SparkSQL, Notebooks 또는 PySpark에 액세스할 수 있는 단일 인터페이스에서 Google Cloud 전반의 데이터에 대해 자동 확장되는 Spark를 실행합니다. 또한 데이터 및 데이터 레이크에 기본 제공되는 거버넌스 기능과 함께 노트북 및 스크립트를 저장, 공유, 검색하는 기능과 간편한 공동작업 기능을 제공합니다. 

유연한 사용 옵션

노옵스(no-ops) 배포를 위한 서버리스 Spark 외에도 인프라 관리를 위해 Kubernetes에서 표준화한 고객은 Google Kubernetes Engine에서 Spark를 실행하여 리소스 활용을 개선하고 인프라 관리를 간소화할 수 있습니다. Hadoop 스타일의 인프라 관리를 원하는 고객은 Compute Engine에서 Spark를 실행할 수 있습니다.

시작할 준비가 되셨나요? 문의하기


Spark는 Apache Software Foundation의 상표입니다.

다음 단계 수행

해결해야 하는 문제를 알려주세요. 가장 적합한 솔루션을 찾을 수 있도록 Google Cloud 전문가가 도와드립니다.

Google Cloud