Cloud Dataflow

탁월한 신뢰성과 코딩 기능을 제공하면서 스트림 및 일괄 데이터 처리를 단순화

무료로 사용해 보기

더 빠른 개발, 더욱 쉬운 관리

Cloud Dataflow는 탁월한 신뢰성과 코딩 기능을 제공하면서 스트림(실시간) 및 일괄(기록) 모드에서 데이터를 변환하고 강화할 수 있도록 지원하는 완전 관리형 서비스입니다. 더 이상 복잡한 해결 방법이나 타협이 필요하지 않습니다. 리소스 프로비저닝 및 관리에 대한 서버리스 접근 방식 덕분에 무제한에 가까운 용량으로 가장 중요한 데이터 처리 문제를 해결할 수 있을 뿐만 아니라 요금은 사용한 리소스에 대해서만 지불하면 됩니다.

Cloud Dataflow는 업계 전반에서 혁신적 사용 사례를 다음과 같이 지원합니다.

  • 소매 분야의 Clickstream, Point-of-Sale(판매 시점 관리), 분류 분석
  • 금융 서비스 분야의 사기 행위 감지
  • 게임 분야의 맞춤 사용자 환경
  • 제조, 의료, 물류 분야의 IoT 분석
faster-development-easier-management

일괄 처리 및 스트리밍을 위한 개발 가속화

Cloud Dataflow는 Apache Beam SDK의 코드 표현력이 뛰어난 SQL, 자바, Python API로 빠르고 간단하게 파이프라인을 개발할 수 있도록 지원합니다. 이 SDK는 다양한 기간 설정과 세션 분석 기본 도구는 물론 소스 및 싱크 커넥터로 이루어진 생태계를 제공합니다. 또한 Beam의 고유한 통합 개발 모델을 통해 스트리밍 및 일괄 파이프라인에서 더 많은 코드를 재사용할 수 있습니다.

곧 출시될 Dataflow SQL 알파 버전에 관한 알림을 신청하려면 이 양식을 기입하세요. 알파 버전이 출시되면 연락을 드리겠습니다.

accelerate-development-with-no-compromises

운영 및 관리 간소화

GCP의 서버리스 접근 방식으로 성능, 확장, 가용성, 보안, 규정 준수가 자동으로 처리되므로 서버 클러스터를 관리하는 대신 프로그래밍에 전념할 수 있어 운영 오버헤드가 사라집니다. GCP의 통합 로그 기록 및 모니터링 솔루션인 Stackdriver 통합으로 실행 중에 파이프라인을 모니터링하고 문제를 해결할 수 있습니다. 다양한 시각화, 로그 기록, 고급 알림 기능이 잠재적 문제를 식별하고 이에 대응하도록 도와줍니다.

simplify-operations-and-management

머신러닝을 위한 기반으로 활용

TensorFlow 기반의 Cloud Machine Learning 모델 및 API를 데이터 처리 파이프라인에 추가하여 사기 행위 감지, 실시간 맞춤설정, 유사 사용 사례에 예측 분석을 제공하는 편리한 통합 지점으로 Cloud Dataflow를 활용하세요.

build-on-a-foundation-for-machine-learning

즐겨 사용하는 익숙한 도구 활용

Cloud Dataflow는 스트리밍 이벤트 수집(Cloud Pub/Sub), 데이터 웨어하우징(BigQuery), 머신러닝(Cloud Machine Learning) 등을 지원하는 GCP 서비스와 원활하게 통합됩니다. Beam 기반 SDK를 사용하면 개발자가 맞춤 확장을 빌드하고 Cloud Dataproc 또는 온프레미스 방식으로 Apache Spark 등의 대체 실행 엔진을 선택할 수도 있습니다. Apache Kafka 사용자가 Cloud Dataflow 커넥터를 사용하면 GCP 통합이 간편해집니다.

use-your-favorite-and-familiar-tools

Cloud Dataflow를 통한 데이터 변환

diagram-dataflow

Cloud Dataflow 기능

자동화된 리소스 관리
Cloud Dataflow는 처리 리소스의 프로비저닝 및 관리를 자동화하여 지연 시간을 최소화하고 사용률을 극대화합니다. 더 이상 인스턴스를 직접 가동하거나 예약할 필요가 없습니다.
동적 작업 재균등화
작업 분할이 자동화 및 최적화되어 지연 작업의 부하를 동적으로 분산할 수 있습니다. '핫 키'를 찾거나 입력 데이터를 사전 처리할 필요가 없습니다.
안정적이고 일관된 단 1회 처리
데이터 크기, 클러스터 크기, 처리 패턴 또는 파이프라인의 복잡성에 상관없이 일관되고 정확한 내결함성 실행을 기본적으로 지원합니다.
수평식 자동 확장
작업자 리소스가 수평식으로 자동 확장되어 전반적인 가격 대비 성능이 개선되고 처리량이 최적화됩니다.
통합 프로그래밍 모델
Apache Beam SDK는 스트리밍 및 일괄 데이터 모두에 다양한 MapReduce 유사 작업, 강력한 기간 설정, 세밀한 수정 제어를 제공합니다.
커뮤니티 주도 혁신
Cloud Dataflow 프로그래밍 모델의 확장을 원하는 개발자는 Apache Beam에서 퍼오거나 참여하면 됩니다.
일괄 처리 시 유연한 리소스 예약 가격 책정
심야 근무와 같이 작업 예약 시간을 유연하게 처리해야 하는 경우 유연한 리소스 예약으로 일괄 처리 비용을 낮춰줍니다. 이러한 유연한 작업은 큐에 배치되며 6시간 내에 실행 대상으로 검색됩니다.

Cloud Dataflow와 Cloud Dataproc 비교: 용도

Cloud Dataproc과 Cloud Dataflow 모두 데이터 처리에 사용할 수 있으며 똑같이 일괄 기능 및 스트리밍 기능을 지원합니다. 그렇다면 자신의 환경에 적합한 제품을 어떻게 결정할 수 있을까요?
Dataproc과 Dataflow 비교

Cloud Dataproc

Cloud Dataproc은 Apache 빅데이터 생태계의 특정 구성요소를 사용하는 환경에 적합합니다.

  • 도구/패키지
  • 파이프라인
  • 기존 리소스 기술 모음

Cloud Dataflow

Cloud Dataflow는 일반적으로 새로운 개발 환경에서 선호하는 옵션입니다.

  • 운영 오버헤드가 적음
  • 일괄 또는 스트리밍 파이프라인 개발을 일관성 있게 처리
  • Apache Beam 사용
  • Cloud Dataflow, Apache Spark, Apache Flink에서 런타임으로 파이프라인 이식 지원

권장 작업

작업 Cloud Dataproc Cloud Dataflow
스트림 처리(ETL)
일괄 처리(ETL)
반복 처리 및 노트북
Spark ML을 사용한 머신러닝
머신러닝 사전 처리 (Cloud ML Engine 사용)

파트너 관계 및 통합

모든 규모의 데이터 처리 작업을 강력하고 쉽고 빠르게 수행할 수 있도록 Google Cloud Platform 파트너 및 타사 개발업체가 Dataflow에 통합되는 기술을 개발하였습니다.

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

“Cloud Dataflow에서 파이프라인을 실행한 결과, 코드를 실행하는 인스턴스의 배포 및 유지관리를 걱정할 필요 없이 프로그래밍에 전념할 수 있게 되었습니다(GCP 전반적인 특징).”

- 지브란 세이티 Qubit 설계 책임자

사용자에게 부담 없는 가격 책정

Cloud Dataflow 작업의 요금은 Cloud Dataflow 일괄 또는 스트리밍 작업자가 실제 사용한 리소스를 토대로 초 단위로 청구됩니다. Cloud Storage 또는 Cloud Pub/Sub 등 추가 GCP 리소스를 사용하는 작업의 요금은 해당 서비스 가격에 따라 각각 청구됩니다.

아이오와(us-central1) 로스앤젤레스(us-west2) 오리건(us-west1) 북 버지니아(us-east4) 사우스캐롤라이나(us-east1) 몬트리올(northamerica-northeast1) 상파울루(southamerica-east1) 벨기에(europe-west1) 핀란드(europe-north1) 프랑크푸르트(europe-west3) 런던(europe-west2) 네덜란드(europe-west4) 취리히(europe-west6) 뭄바이(asia-south1) 싱가포르(asia-southeast1) 시드니(australia-southeast1) 홍콩(asia-east2) 타이완(asia-east1) 도쿄(asia-northeast1) 오사카(asia-northeast2)
Cloud Dataflow 작업자 유형 vCPU
$/시간
메모리
$ GB/시간
저장소 - 표준 Persistent Disk
$ GB/시간
저장소 - SSD Persistent Disk
$ GB/시간
처리된 데이터4,5
$ GB6
일괄 1
FlexRS 2
스트리밍 3
USD 외의 통화로 지불하면 Cloud Platform SKU에 해당 통화로 표기된 가격이 적용됩니다.

1 일괄 작업자 기본값: vCPU 1개, 메모리 3.75GB, Persistent Disk 250GB

2 FlexRS 작업자 기본값: vCPU 2개, 메모리 7.50GB, 작업자당 Persistent Disk 25GB, 최소 작업자 2개

3 스트리밍 작업자 기본값: vCPU 4개, 메모리 15GB, Persistent Disk 420GB

4Cloud Dataflow Shuffle은 현재 다음 리전의 일괄 파이프라인에 사용할 수 있습니다.

  • us-central1(아이오와)
  • europe-west1(벨기에)
  • europe-west4(네덜란드)
  • asia-northeast1(도쿄)

향후 다른 리전에서도 출시될 예정입니다.

5 Cloud Dataflow Streaming Engine은 처리된 스트리밍 데이터의 가격 책정 단위를 사용합니다. Streaming Engine은 현재 다음 리전에서 사용할 수 있습니다.

  • us-central1(아이오와)
  • europe-west1(벨기에)
  • europe-west4(네덜란드)
  • asia-northeast1(도쿄)
향후 다른 리전에서도 출시될 예정입니다.

6 처리된 데이터에 관한 자세한 내용은 Cloud Dataflow 가격 책정을 참조하세요.

Cloud AI 제품은 여기에 명시된 SLA 정책을 준수합니다. 이 제품이 다른 Google Cloud 서비스에서 보장하는 지연 시간이나 가용성은 다를 수 있습니다.

다음에 대한 의견 보내기...

도움이 필요하시나요? 지원 페이지를 방문하세요.