Cloud Dataflow

동일한 신뢰성과 표현 능력을 발휘하면서 스트림 및 일괄 데이터 처리를 단순화

무료로 사용해 보기

더 빠른 개발, 더욱 쉬운 관리

Cloud Dataflow는 동일한 신뢰성과 표현 능력을 발휘하면서 스트림(실시간) 및 일괄(기록) 모드에서 데이터를 변환하고 강화하는 전체 관리형 서비스입니다. 더 이상 복잡한 해결 방법이나 타협이 필요하지 않습니다. 리소스 프로비저닝 및 관리에 대한 서버리스 접근 방식 덕분에 무제한에 가까운 용량을 이용해 대규모 데이터 처리 과제를 해결할 뿐만 아니라 요금은 사용한 리소스에 대해서만 지불하면 됩니다.

Cloud Dataflow는 다음과 같은 업계 전반의 혁신 사용 사례를 지원합니다.

  • check 소매 분야의 Clickstream, Point-of-Sale(판매 시점 관리), 분류 분석
  • check 금융 서비스 분야의 사기 행위 감지
  • check 게임 분야의 맞춤 사용자 환경
  • check 제조, 의료, 물류 분야의 IoT 분석
faster-development-easier-management

일괄 처리 및 스트리밍을 위한 개발 가속화

Cloud Dataflow는 다양한 기간 설정 및 세션 분석 기본 요소는 물론 소스 및 싱크 커넥터로 이루어진 생태계를 제공하는 Apache Beam SDK에서 표현식을 사용하는 자바 및 Python API를 통해 빠르고 단순한 파이프라인 개발을 지원합니다. 또한 Beam의 고유한 통합 개발 모델을 통해 스트리밍 및 일괄 파이프라인에서 더 많은 코드를 재사용할 수 있습니다.

accelerate-development-with-no-compromises

운영 및 관리 간소화

GCP의 서버리스 접근 방식으로 성능, 확장, 가용성, 보안, 규정 준수를 자동으로 처리하여 사용자가 서버 클러스터를 관리하는 대신 프로그래밍에 전념할 수 있어 운영 간접비가 사라집니다. GCP의 통합 로그 기록 및 모니터링 솔루션인 Stackdriver 통합으로 실행 중에 파이프라인을 모니터링하고 문제를 해결할 수 있습니다. 다양한 시각화, 로그 기록, 고급 알림이 잠재적 문제를 식별하고 이에 대응하도록 도와줍니다.

simplify-operations-and-management

머신 러닝 기반의 구축

TensorFlow 기반의 Cloud Machine Learning 모델 및 API를 데이터 처리 파이프라인에 추가하여 사기 행위 감지, 실시간 맞춤설정, 유사 사용 사례에 예측 분석을 적용하는 편리한 통합 지점으로 Cloud Dataflow를 활용하세요.

build-on-a-foundation-for-machine-learning

즐겨 사용하는 익숙한 도구 활용

Cloud Dataflow는 스트리밍 이벤트 내부 데이터화(Cloud Pub/Sub), 데이터 웨어하우스(BigQuery), 머신 러닝(Cloud Machine Learning) 등 GCP 서비스와 원활하게 통합됩니다. Beam 기반 SDK를 사용하면 개발자가 맞춤 확장을 구축하고 Cloud Dataproc 또는 온프레미스 방식으로 Apache Spark 등의 대체 실행 엔진을 선택할 수도 있습니다. Apache Kafka 사용자가 Cloud Dataflow 커넥터를 사용하면 GCP 통합이 간편해집니다.

use-your-favorite-and-familiar-tools

Cloud Dataflow를 통한 데이터 변환

diagram-dataflow

Cloud Dataflow 기능

자동화된 리소스 관리
Cloud Dataflow는 처리 리소스의 프로비저닝 및 관리를 자동화하여 지연 시간을 최소화하고 사용률을 극대화합니다. 더 이상 인스턴스를 직접 가동하거나 예약할 필요가 없습니다.
동적 작업 재균등화
작업 분할이 자동화 및 최적화되어 지연 작업의 부하를 동적으로 분산할 수 있습니다. '핫 키'에 집착하거나 입력 데이터를 사전 처리할 필요가 없습니다.
안정적이고 일관된 단 1회 처리
데이터 크기, 클러스터 크기, 처리 패턴 또는 파이프라인의 복잡성에 상관없이 일관되고 정확한 내결함성 실행을 기본적으로 지원합니다.
수평식 자동 확장
최적의 처리량을 위한 작업자 리소스의 수평식 자동 확장으로 전반적인 가격 대비 성능이 개선됩니다.
통합 프로그래밍 모델
Apache Beam SDK는 스트리밍 및 일괄 데이터 모두에 다양한 MapReduce 유사 작업, 강력한 기간 설정, 세밀한 수정 제어를 제공합니다.
커뮤니티 주도 혁신
Cloud Dataflow 프로그래밍 모델의 확장을 원하는 개발자는 Apache Beam에서 퍼오거나 참여하면 됩니다.

파트너 관계 및 통합

Google Cloud Platform 파트너 및 타사 개발업체가 규모를 불문한 강력한 데이터 처리 작업을 쉽고 빠르게 지원하는 Dataflow 통합 기술을 개발하였습니다.

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

“Cloud Dataflow에서 파이프라인을 실행한 결과, 코드를 실행하는 인스턴스의 배포 및 유지 관리를 걱정할 필요 없이 프로그래밍에 전념할 수 있게 되었습니다(GCP 전반적인 특징).”

- Jibran Saithi Qubit 리드 설계자

사용자 친화적 가격

Cloud Dataflow 작업의 요금은 Cloud Dataflow 일괄 또는 스트리밍 작업자의 실제 사용을 토대로 분 단위로 청구됩니다. Cloud Storage 또는 Cloud Pub/Sub 등 추가 GCP 리소스를 사용하는 작업의 요금은 해당 서비스 가격에 따라 각각 청구됩니다.

아이오와 오리건 북 버지니아 사우스캐롤라이나 상파울루 벨기에 런던 프랑크푸르트 싱가포르 시드니 타이완 도쿄
Dataflow 작업자 유형 vCPU
$/시간
메모리
$ GB/시간
로컬 저장소 - 영구 디스크
$ GB/시간
로컬 저장소 - SSD 기반
$ GB/시간
Dataflow 셔플3
$ GB/시간
일괄1
스트리밍2
USD 외의 통화로 지불하는 경우 Cloud Platform SKU에 해당 통화로 표기된 가격이 적용됩니다.

1 일괄 작업자 기본값: vCPU 1개, 메모리 3.75GB, PD 250GB

2 스트리밍 작업자 기본값: vCPU 4개, 메모리 15GB, PD 420GB

3 서비스 기반 Dataflow 셔플은 현재 us-central1(아이오와) 지역에 한해 일괄 파이프라인에 대한 베타 버전으로 사용할 수 있습니다. 향후 다른 지역에서도 출시될 예정입니다.