분석 레이크하우스로 조직에서 새로운 데이터 경제를 준비하는 방법을 알아보세요. 여기에서 등록하기
바로 이동
Dataproc

Dataproc

Dataproc은 Apache Hadoop, Apache Spark, Apache Flink, Presto, 30개 이상의 오픈소스 도구 및 프레임워크를 실행하기 위한 확장성이 뛰어난 완전 관리형 서비스입니다. Dataproc을 규모에 맞춰 Google Cloud와 완벽하게 통합하여 비용 부담 없이 데이터 레이크 현대화, ETL, 안전한 데이터 과학에 사용할 수 있습니다.

  • 개방형: 엔터프라이즈 수준의 보안으로 대규모 오픈소스 데이터 분석 실행

  • 유연성: Google Compute 및 Kubernetes에서 서버리스 사용 또는 클러스터 관리 

  • 지능형: Vertex AI, BigQuery, Dataplex와의 통합을 통해 데이터 사용자 사용 설정 

  • 보안: Kerberos, Apache Ranger, 개인 인증과 같은 고급 보안 구성

  • 비용 효율성: 온프렘 데이터 레이크에 비해 초당 가격이 54% 더 낮은 TCO 실현

이점

오픈소스 데이터 처리 현대화

필요한 것이 VM 또는 Kubernetes든, Presto용 추가 메모리든, GPU든 Dataproc은 주문형의 특정 용도 또는 서버리스 환경을 통해 데이터와 분석 처리를 가속화할 수 있습니다.

데이터 과학을 위한 원활한 지능형 OSS

데이터 과학자와 데이터 분석가가 BigQuery, Dataplex, Vertex AI와의 기본 통합을 통해 데이터 과학 작업을 원활하게 수행할 수 있게 합니다.

고급 보안, 규정 준수, 거버넌스

Dataproc, BigLake, Dataplex에서 세분화된 행 및 열 수준 액세스 제어를 적용합니다. 기존 KerberosApache Ranger 정책을 사용하여 사용자 승인 및 인증을 관리하고 적용합니다. 

주요 특징

주요 특징

완전 관리형의 자동화된 빅데이터 오픈소스 소프트웨어

서버리스 배포, 로깅, 모니터링을 통해 인프라가 아닌 데이터 및 분석에 집중할 수 있습니다. Apache Spark 관리 TCO를 최대 54%까지 단축합니다. 데이터 과학자와 엔지니어가 Vertex AI Workbench와의 통합을 통해 기존 노트북보다 5배 더 빠른 속도로 모델을 빌드하고 학습시킬 수 있습니다. Dataproc Jobs API를 사용하면 빅데이터 처리를 커스텀 애플리케이션에 쉽게 통합할 수 있으며 Dataproc Metastore를 사용하면 자체 Hive 메타스토어 또는 카탈로그 서비스를 실행할 필요가 없습니다.

Kubernetes로 Apache Spark 작업 컨테이너화

Google Kubernetes Engine(GKE)에서 Dataproc을 사용하여 작업 이동성 및 격리를 제공할 수 있도록 Kubernetes의 Dataproc을 사용하여 Apache Spark 작업을 빌드합니다.

Google Cloud와 통합된 엔터프라이즈 보안

Dataproc 클러스터를 만들 때 보안 구성을 추가하는 방법으로 Kerberos를 통해 Hadoop 보안 모드를 사용 설정할 수 있습니다. 또한 Dataproc과 함께 가장 일반적으로 사용되는 Google Cloud만의 보안 기능으로는 기본 저장 데이터 암호화, OS 로그인, VPC 서비스 제어, 고객 관리 암호화 키(CMEK) 등이 있습니다.

Google Cloud의 최고의 기술을 갖춘 최고의 오픈소스

Dataproc으로 현재 사용하는 오픈소스 도구, 알고리즘, 프로그래밍 언어를 사용할 수 있지만 이들을 클라우드 규모의 데이터 세트에 쉽게 적용할 수 있습니다. 동시에 Dataproc은 즉시 사용 가능한 나머지 Google Cloud 분석, 데이터베이스, AI 생태계와 통합됩니다. 데이터 과학자와 엔지니어는 데이터에 빠르게 액세스하여 Dataproc을 BigQuery, Vertex AI, Cloud Spanner, Pub/Sub 또는 Data Fusion에 연결하는 데이터 애플리케이션을 빌드할 수 있습니다. 

모든 특징 보기

문서

문서

Google Cloud 기본사항

서버리스 Spark

자동 프로비저닝 및 자동 확장되는 Spark 작업을 제출할 수 있습니다. 자세한 내용은 아래의 빠른 시작 링크를 참조하세요. 
API 및 라이브러리

Dataproc 초기화 작업

사전 빌드된 초기화 작업으로 Dataproc 클러스터에 다른 OSS 프로젝트를 추가하세요.