Dataproc 문서
Dataproc은 일괄 처리, 쿼리, 스트리밍, 머신러닝에 오픈소스 데이터 도구를 사용할 수 있는 관리형 Apache Spark 및 Apache Hadoop 서비스입니다. Dataproc 자동화를 통해 신속하게 클러스터를 만들고 손쉽게 관리하며 불필요한 클러스터를 사용 중지하여 비용을 절감할 수 있습니다. 관리 시간과 비용이 절감되므로 작업과 데이터에 집중할 수 있습니다. 자세히 알아보기
무료 크레딧 $300로 개념 증명 시작
- Gemini 2.0 Flash Thinking 이용
- AI API 및 BigQuery를 포함하여 인기 제품 월별 무료 사용량
- 자동 청구, 약정 없음
20개가 넘는 항상 무료 제품을 계속 살펴보기
AI API, VM, 데이터 웨어하우스 등 일반적인 사용 사례에 20개가 넘는 무료 제품을 사용할 수 있습니다.
문서 리소스
관련 리소스
Google Kubernetes Engine에서 Spark 작업 실행
Dataproc Jobs API에서 실행 중인 Google Kubernetes Engine 클러스터에 Spark 작업을 제출합니다.
Cloud Dataproc 소개: Google Cloud 기반 Hadoop 및 Spark
이 과정에서는 강의, 데모, 실무형 실습을 결합하여 Dataproc 클러스터를 만들고 Spark 작업을 제출하고 클러스터를 종료합니다.
Dataproc의 Spark를 사용한 머신러닝
이 과정에서는 강의, 데모, 실무형 실습을 결합하여 Dataproc 클러스터에서 실행되는 Apache Spark용 머신 러닝 라이브러리를 사용하여 로지스틱 회귀를 구현해 다변수 데이터 세트의 데이터 모델을 개발합니다.
워크플로 예약 솔루션
Google Cloud에서 워크플로를 예약합니다.
온프레미스에서 Google Cloud로 HDFS 데이터 마이그레이션
온프레미스 Hadoop 분산 파일 시스템(HDFS)에서 Google Cloud로 데이터를 이전하는 방법.
Apache Spark용 자바 및 Scala 종속 항목 관리
Dataproc 클러스터에 Spark 작업을 제출할 때 종속 항목을 포함하는 경우 권장되는 방법입니다.
Python API 샘플
Python에서 Dataproc API를 호출합니다.
자바 API 샘플
자바에서 Dataproc API를 호출합니다.
Node.js API 샘플
Node.js에서 Dataproc API를 호출합니다.
Go API 샘플
Go에서 Dataproc API를 호출합니다.