Dataproc은 Apache Hadoop, Apache Spark, Apache Flink, Presto, 30개 이상의 오픈소스 도구 및 프레임워크를 실행하기 위한 확장성이 뛰어난 완전 관리형 서비스입니다. Dataproc을 규모에 맞춰 Google Cloud와 완벽하게 통합하여 비용 부담 없이 데이터 레이크 현대화, ETL, 안전한 데이터 과학에 사용할 수 있습니다.
이점
필요한 것이 VM 또는 Kubernetes든, Presto용 추가 메모리든, GPU든 Dataproc은 주문형의 특정 용도 또는 서버리스 환경을 통해 데이터와 분석 처리를 가속화할 수 있습니다.
Dataproc, BigLake, Dataplex에서 세분화된 행 및 열 수준 액세스 제어를 적용합니다. 기존 Kerberos 및 Apache Ranger 정책을 사용하여 사용자 승인 및 인증을 관리하고 적용합니다.
주요 특징
서버리스 배포, 로깅, 모니터링을 통해 인프라가 아닌 데이터 및 분석에 집중할 수 있습니다. Apache Spark 관리 TCO를 최대 54%까지 단축합니다. 데이터 과학자와 엔지니어가 Vertex AI Workbench와의 통합을 통해 기존 노트북보다 5배 더 빠른 속도로 모델을 빌드하고 학습시킬 수 있습니다. Dataproc Jobs API를 사용하면 빅데이터 처리를 커스텀 애플리케이션에 쉽게 통합할 수 있으며 Dataproc Metastore를 사용하면 자체 Hive 메타스토어 또는 카탈로그 서비스를 실행할 필요가 없습니다.
Google Kubernetes Engine(GKE)에서 Dataproc을 사용하여 작업 이동성 및 격리를 제공할 수 있도록 Kubernetes의 Dataproc을 사용하여 Apache Spark 작업을 빌드합니다.
Dataproc 클러스터를 만들 때 보안 구성을 추가하는 방법으로 Kerberos를 통해 Hadoop 보안 모드를 사용 설정할 수 있습니다. 또한 Dataproc과 함께 가장 일반적으로 사용되는 Google Cloud만의 보안 기능으로는 기본 저장 데이터 암호화, OS 로그인, VPC 서비스 제어, 고객 관리 암호화 키(CMEK) 등이 있습니다.
Dataproc으로 현재 사용하는 오픈소스 도구, 알고리즘, 프로그래밍 언어를 사용할 수 있지만 이들을 클라우드 규모의 데이터 세트에 쉽게 적용할 수 있습니다. 동시에 Dataproc은 즉시 사용 가능한 나머지 Google Cloud 분석, 데이터베이스, AI 생태계와 통합됩니다. 데이터 과학자와 엔지니어는 데이터에 빠르게 액세스하여 Dataproc을 BigQuery, Vertex AI, Cloud Spanner, Pub/Sub 또는 Data Fusion에 연결하는 데이터 애플리케이션을 빌드할 수 있습니다.
고객
새로운 소식
이제 서버리스 Spark가 정식 버전으로 출시됩니다. Google Cloud 서비스의 다른 Spark를 미리 보려면 가입하세요.
문서