Cloud Dataflow

신뢰성과 표현 능력은 그대로 유지하면서 스트림 및 일괄 데이터 처리를 단순화합니다.

무료로 사용해 보기

더 빠른 개발, 더욱 쉬운 관리

Cloud Dataflow는 신뢰성과 표현 능력은 그대로 유지하면서 스트림(실시간) 및 일괄(기록) 모드에서 데이터를 변환하고 강화하는 전체 관리형 서비스입니다. 더 이상 복잡한 해결 방법이나 타협이 필요하지 않습니다. 리소스 프로비저닝 및 관리에 대한 서버리스 접근 방식 덕분에 무제한에 가까운 용량을 이용해 대규모 데이터 처리 과제를 해결할 뿐만 아니라 요금은 사용한 리소스에 대해서만 지불하면 됩니다.

Cloud Dataflow는 다음과 같은 업계 전반의 혁신 사용 사례를 지원합니다.

  • check 소매 분야의 Clickstream, Point-of-Sale(판매 시점 관리), 분류 분석
  • check 금융 서비스 분야의 사기 행위 감지
  • check 게임 분야의 맞춤 사용자 환경
  • check 제조, 의료, 물류 분야의 IoT 분석
faster-development-easier-management

일괄 처리 및 스트리밍을 위한 개발 가속화

Cloud Dataflow는 Apache Beam SDK에서 표현식을 사용하는 자바 및 Python API를 통해 빠르고 단순한 파이프라인 개발을 지원합니다. 이 SDK는 다양한 기간 설정 및 세션 분석 기본 요소는 물론 소스 및 싱크 커넥터로 이루어진 생태계를 제공합니다. 또한 Beam의 고유한 통합 개발 모델을 통해 스트리밍 및 일괄 파이프라인에서 더 많은 코드를 재사용할 수 있습니다.

accelerate-development-with-no-compromises

운영 및 관리 간소화

GCP의 서버리스 접근 방식으로 성능, 확장, 가용성, 보안, 규정 준수를 자동으로 처리하여 사용자가 서버 클러스터를 관리하는 대신 프로그래밍에 전념할 수 있어 운영 간접비가 사라집니다. GCP의 통합 로그 기록 및 모니터링 솔루션인 Stackdriver 통합으로 실행 중에 파이프라인을 모니터링하고 문제를 해결할 수 있습니다. 다양한 시각화, 로그 기록, 고급 알림이 잠재적 문제를 식별하고 이에 대응하도록 도와줍니다.

simplify-operations-and-management

머신러닝 기반의 구축

TensorFlow 기반의 Cloud Machine Learning 모델 및 API를 데이터 처리 파이프라인에 추가하여 사기 행위 감지, 실시간 맞춤설정, 유사 사용 사례에 예측 분석을 적용하는 편리한 통합 지점으로 Cloud Dataflow를 활용하세요.

build-on-a-foundation-for-machine-learning

즐겨 사용하는 익숙한 도구 활용

Cloud Dataflow는 스트리밍 이벤트 내부 데이터화(Cloud Pub/Sub), 데이터 웨어하우스(BigQuery), 머신러닝(Cloud Machine Learning) 등 GCP 서비스와 원활하게 통합됩니다. Beam 기반 SDK를 사용하면 개발자가 맞춤 확장을 구축하고 Cloud Dataproc 또는 온프레미스 방식으로 Apache Spark 등의 대체 실행 엔진을 선택할 수도 있습니다. Apache Kafka 사용자가 Cloud Dataflow 커넥터를 사용하면 GCP 통합이 간편해집니다.

use-your-favorite-and-familiar-tools

Cloud Dataflow를 통한 데이터 변환

diagram-dataflow

Cloud Dataflow 기능

자동화된 리소스 관리
Cloud Dataflow는 처리 리소스의 프로비저닝 및 관리를 자동화하여 지연 시간을 최소화하고 사용률을 극대화합니다. 더 이상 인스턴스를 직접 가동하거나 예약할 필요가 없습니다.
동적 작업 재균등화
작업 분할이 자동화 및 최적화되어 지연 작업의 부하를 동적으로 분산할 수 있습니다. '핫 키'에 집착하거나 입력 데이터를 사전 처리할 필요가 없습니다.
안정적이고 일관된 단 1회 처리
데이터 크기, 클러스터 크기, 처리 패턴 또는 파이프라인의 복잡성에 상관없이 일관되고 정확한 내결함성 실행을 기본적으로 지원합니다.
수평식 자동 확장
최적의 처리량을 위한 작업자 리소스의 수평식 자동 확장으로 전반적인 가격 대비 성능이 개선됩니다.
통합 프로그래밍 모델
Apache Beam SDK는 스트리밍 및 일괄 데이터 모두에 다양한 MapReduce 유사 작업, 강력한 기간 설정, 세밀한 수정 제어를 제공합니다.
커뮤니티 주도 혁신
Cloud Dataflow 프로그래밍 모델의 확장을 원하는 개발자는 Apache Beam에서 퍼오거나 참여하면 됩니다.

Cloud Dataflow와 Cloud Dataproc 비교: 용도

Cloud Dataproc과 Cloud Dataflow 모두 데이터 처리에 사용할 수 있으며 똑같이 일괄 기능 및 스트리밍 기능을 지원합니다. 그렇다면 자신의 환경에 적합한 제품을 어떻게 결정할 수 있을까요?
Dataproc과 Dataflow 비교

Cloud Dataproc

Cloud Dataproc은 Apache 빅데이터 생태계의 특정 구성요소를 사용하는 환경에 적합합니다.

  • check 도구/패키지
  • check 파이프라인
  • check 기존 리소스 기술 모음

Cloud Dataflow

Cloud Dataflow는 일반적으로 개발 가능성이 있는 환경에서 선호하는 옵션입니다.

  • check 운영 오버헤드가 적음
  • check 일괄 또는 스트리밍 파이프라인 개발에 대한 통합 접근 방식
  • check Apache Beam 사용
  • check Cloud Dataflow, Apache Spark, Apache Flink에서 런타임으로 파이프라인 이식 지원

권장 작업

작업 Cloud Dataproc Cloud Dataflow
스트림 처리(ETL) check
일괄 처리(ETL) check check
반복 처리 및 노트북 check
Spark ML을 사용한 머신러닝 check
머신러닝 사전 처리 check(Cloud ML Engine 사용)

파트너 관계 및 통합

Google Cloud Platform 파트너 및 타사 개발업체가 규모를 불문한 강력한 데이터 처리 작업을 쉽고 빠르게 지원하는 Dataflow 통합 기술을 개발하였습니다.

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

“Cloud Dataflow에서 파이프라인을 실행한 결과, 코드를 실행하는 인스턴스의 배포 및 유지 관리를 걱정할 필요 없이 프로그래밍에 전념할 수 있게 되었습니다(GCP 전반적인 특징).”

- Jibran Saithi Qubit 리드 설계자

사용자에게 부담 없는 가격 책정

Cloud Dataflow 작업의 요금은 Cloud Dataflow 일괄 또는 스트리밍 작업자의 실제 사용을 토대로 초 단위로 청구됩니다. Cloud Storage 또는 Cloud Pub/Sub 등 추가 GCP 리소스를 사용하는 작업의 요금은 해당 서비스 가격에 따라 각각 청구됩니다.

아이오와 오리건 북 버지니아 사우스캐롤라이나 몬트리올 상파울루 벨기에 핀란드 프랑크푸르트 런던 네덜란드 뭄바이 싱가포르 시드니 타이완 도쿄
Cloud Dataflow 작업자 유형 vCPU
$/시간
메모리
$ GB/시간
저장소 - 표준 영구 디스크
$ GB/시간
저장소 - SSD 영구 디스크
$ GB/시간
처리된 데이터3,4
$ GB5
일괄 1
스트리밍 2
USD 외의 통화로 지불하면 Cloud Platform SKU에 해당 통화로 표기된 가격이 적용됩니다.

1 일괄 작업자 기본값: vCPU 1개, 메모리 3.75GB, 영구 디스크 250GB

2 스트리밍 작업자 기본값: vCPU 4개, 메모리 15GB, 영구 디스크 420GB

3 Cloud Dataflow Shuffle은 현재 us-central1(아이오와) 및 europe-west1(벨기에) 지역에 한해 일괄 파이프라인을 위한 베타 버전으로 제공됩니다. 향후 다른 지역에서도 출시될 예정입니다.

4 Cloud Dataflow Streaming Engine은 처리된 스트리밍 데이터의 가격 책정 단위를 사용합니다. Streaming Engine은 현재 us-central1(아이오와) 및 europe-west1(벨기에) 지역에 한해 스트리밍 파이프라인에 대한 베타 버전으로 사용할 수 있습니다. 향후 다른 지역에서도 출시될 예정입니다.

5 처리된 데이터에 대한 자세한 내용은 Cloud Dataflow 가격을 참조하세요.