Apache Spark는 SQL, 스트리밍, 머신러닝 및 그래프 처리를 위한 기본 제공 모듈이 있는 대규모 데이터 처리용 통합 분석 엔진입니다. Spark는 클라우드의 Apache Hadoop, Kubernetes에서 자체적으로 실행될 수 있으며 다양한 데이터 소스에 대해 실행될 수 있습니다. Java, Scala, Python(PySpark), R의 풍부한 API를 제공하므로 다양한 개발자와 데이터 과학자가 이용할 수 있습니다.
Google Cloud에서 Apache Spark는 '데이터-AI' 플랫폼으로 전환됩니다. Google Cloud는 서버리스 옵션과 Lightning Engine과 같은 획기적인 성능 개선을 활용하여 기존 Spark 배포와 관련된 '튜닝 비용'을 해결합니다. 통합 데이터 및 AI 플랫폼에 대한 심층적인 통합을 통해 사용자는 그 어느 때보다 빠르게 원시 데이터에서 AI 기반 작업으로 이동할 수 있습니다.
한 가지 일반적인 질문은 Apache Spark와 Apache Hadoop을 언제 사용하느냐는 것입니다. Hadoop은 주로 디스크 사용량이 많고 맵리듀스 패러다임을 사용하는 작업에 사용되는 반면, Spark는 더 유연하지만 대체로 더 많은 비용이 드는 인메모리 처리 아키텍처입니다. Spark는 Hadoop 클러스터 또는 독립 실행형 모드로 배포할 수 있는 빠른 범용 클러스터 컴퓨팅 엔진입니다. 각 기능을 이해하고 있으면 워크로드의 지연 시간 및 메모리 요구사항에 따라 무엇을 구현할지 결정하는 데 도움이 됩니다.
Spark 생태계에는 5가지 주요 구성요소가 포함되어 있으며, 각 구성요소는 Google Cloud의 인프라로 강화됩니다.
Google Cloud는 데이터 전문가의 고유한 요구사항을 충족하는 특화된 환경을 제공합니다.