Apache Spark란?

Apache Spark는 SQL, 스트리밍, 머신러닝 및 그래프 처리를 위한 기본 제공 모듈이 있는 대규모 데이터 처리용 통합 분석 엔진입니다. Spark는 클라우드의 Apache Hadoop, Kubernetes에서 자체적으로 실행될 수 있으며 다양한 데이터 소스에 대해 실행될 수 있습니다. Java, Scala, Python(PySpark), R의 풍부한 API를 제공하므로 다양한 개발자와 데이터 과학자가 이용할 수 있습니다.

Google Cloud에서 Apache Spark는 '데이터-AI' 플랫폼으로 전환됩니다. Google Cloud는 서버리스 옵션과 Lightning Engine과 같은 획기적인 성능 개선을 활용하여 기존 Spark 배포와 관련된 '튜닝 비용'을 해결합니다. 통합 데이터 및 AI 플랫폼에 대한 심층적인 통합을 통해 사용자는 그 어느 때보다 빠르게 원시 데이터에서 AI 기반 작업으로 이동할 수 있습니다.

Apache Spark 및 Apache Hadoop 비교

한 가지 일반적인 질문은 Apache Spark와 Apache Hadoop을 언제 사용하느냐는 것입니다. Hadoop은 주로 디스크 사용량이 많고 맵리듀스 패러다임을 사용하는 작업에 사용되는 반면, Spark는 더 유연하지만 대체로 더 많은 비용이 드는 인메모리 처리 아키텍처입니다. Spark는 Hadoop 클러스터 또는 독립 실행형 모드로 배포할 수 있는 빠른 범용 클러스터 컴퓨팅 엔진입니다. 각 기능을 이해하고 있으면 워크로드의 지연 시간 및 메모리 요구사항에 따라 무엇을 구현할지 결정하는 데 도움이 됩니다.

Apache Spark 생태계 및 구성요소

Spark 생태계에는 5가지 주요 구성요소가 포함되어 있으며, 각 구성요소는 Google Cloud의 인프라로 강화됩니다.

  • Spark Core: 분산된 작업 디스패치 및 I/O를 관리하는 기본 실행 엔진입니다. Spark Core는 탄력적 분산 데이터 세트(RDD)라는 개념을 도입했습니다. RDD는 내결함성을 갖춘 병렬 처리되는 변경 불가능한 객체 분산 컬렉션입니다.
  • Spark SQL: DataFrames를 사용하여 정형 데이터를 처리하는 모듈입니다. Google Cloud는 Lightning Engine을 통해 이러한 작업을 더욱 가속화하여 수동 튜닝 없이도 속도를 크게 높일 수 있습니다.
  • Spark Streaming: 일괄 작업과 실시간 작업 모두에 확장 가능하고 내결함성 있는 스트리밍 솔루션을 지원합니다.
  • MLlib: 확장 가능한 머신러닝 라이브러리입니다. Vertex AI와 결합하면 MLlib 워크플로를 MLOps 파이프라인에 원활하게 통합할 수 있으며, Gemini를 통해 코딩 및 문제 해결을 위한 개발을 향상할 수 있습니다.
  • GraphX: 그래프와 그래프 병렬 계산을 위한 API입니다.

데이터 과학자와 엔지니어를 위한 고유한 가치

Google Cloud는 데이터 전문가의 고유한 요구사항을 충족하는 특화된 환경을 제공합니다.

  • BigQuery Studio의 통합 개발: 데이터 과학자는 BigQuery Studio 노트북에서 직접 Spark 코드를 작성하고 실행할 수 있습니다. 이를 통해 쿼리 가능한 단일 메타데이터 서비스를 사용하여 Spark와 BigQuery 전반에서 통합된 환경을 제공합니다.
  • Gemini를 통한 AI 지원 생산성: Gemini를 활용하여 개발 및 배포부터 복잡한 PySpark 작업의 모니터링 및 문제 해결에 이르는 전체 수명 주기를 지원합니다.
  • 제로 운영 서버리스 실행: 클러스터 관리의 운영 부담을 없앱니다. 서버리스 Spark를 사용하면 단일 명령어를 제출하고 Google이 나머지 작업을 처리하도록 할 수 있습니다. 클러스터를 만들거나 구성하거나 관리할 필요가 없습니다.
  • 통합 거버넌스: Dataplex Universal Catalog를 사용하여 데이터 및 AI 거버넌스를 관리하고, 에이전트에 대한 시맨틱스를 제공하며, 수집부터 AI 기반 인사이트에 이르기까지 일관된 데이터 수명 주기를 보장합니다.

추가 리소스

다음 단계 수행

$300의 무료 크레딧과 20여 개의 항상 무료 제품으로 Google Cloud에서 빌드하세요.

Google Cloud