Google Cloud가 2023년 Forrester Wave 스트리밍 데이터 플랫폼 부문 리더로 선정되었습니다. 자세히 알아보기

바로 이동
Dataflow

Dataflow

빠르고 경제적이며 서버리스 방식인 통합 스트리밍 및 일괄 데이터 처리를 제공합니다.

신규 고객에게는 Dataflow에 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.

  • 데이터 스트리밍 및 머신러닝을 통한 실시간 통계 및 활성화

  • 완전 관리형 데이터 처리 서비스

  • 처리 리소스의 프로비저닝 및 관리 자동화

  • 작업자 리소스가 수평 및 수직으로 자동 확장되어 리소스 사용률 극대화

  • Apache Beam SDK를 통한 OSS 커뮤니티 기반의 혁신

이점

신속한 스트리밍 데이터 분석

Dataflow를 사용하면 데이터 지연 시간을 줄이면서 스트리밍 데이터 파이프라인을 빠르고 간편하게 개발할 수 있습니다.

운영 및 관리 간소화

Dataflow는 서버리스 방식으로 데이터 엔지니어링 워크로드에서 운영 오버헤드를 제거하므로 팀이 서버 클러스터를 관리하는 대신 프로그래밍에 집중할 수 있습니다.

총 소유 비용 절감

Dataflow는 리소스 자동 확장과 비용 최적화된 일괄 처리 기능의 결합으로 무제한에 가까운 용량을 제공하므로 시기에 따라 변동하거나 급증하는 워크로드도 과다한 지출 없이 관리할 수 있습니다.

주요 특징

주요 특징

즉시 사용 가능한 실시간 AI

NVIDIA GPU 및 즉시 사용 가능한 패턴을 포함한 즉시 사용 가능한 ML 기능을 통해 지원되는 Dataflow의 실시간 AI 기능은 인간에 가까운 지능으로 대규모 이벤트에 대해 실시간 대응이 가능합니다.

고객은 예측 분석 및 이상 감지부터 실시간 맞춤설정 및 기타 고급 분석 사용 사례에 이르는 지능형 솔루션을 빌드할 수 있습니다.

일괄 및 스트리밍 파이프라인을 사용한 로컬 및 원격 추론을 포함한 전체 머신러닝(ML) 파이프라인을 학습, 배포, 관리합니다. 

리소스 자동 확장 및 동적 작업 재균등화

데이터 인식 리소스 자동 확장을 통해 파이프라인 지연 시간을 최소화하고 리소스 사용률을 극대화하며 데이터 레코드당 처리 비용을 줄입니다. 데이터 입력은 작업자 리소스 사용률을 균등화하기 위해 자동으로 파티션이 나누어지며 지속적으로 다시 분산되고, '핫 키'가 파이프라인 성능에 미치는 영향을 줄입니다.

모니터링 및 관측 가능성

Dataflow 파이프라인의 각 단계에서 데이터를 관찰합니다. 실제 데이터 샘플을 사용하여 문제를 진단하고 효과적으로 문제를 해결합니다. 문제를 쉽게 식별할 수 있도록 여러 작업 실행을 비교합니다.

모든 특징 보기

문서

문서

Tutorial

Dataflow를 사용한 서버리스 데이터 처리: 기초

Dataflow에 대해 알아야 할 모든 것에 대한 기초 학습.
Tutorial

Dataflow 빠른 시작: Python 사용

Google Cloud 프로젝트와 Python 개발 환경을 설정하고, Apache Beam Python SDK를 설치하고, Dataflow 서비스에서 WordCount 예시를 실행하고 수정합니다.
Tutorial

Dataflow SQL 사용

Dataflow SQL UI에서 쿼리를 실행할 수 있도록 SQL 쿼리를 생성하고 Dataflow 작업을 배포합니다.
Tutorial

Apache Beam SDK 설치

Dataflow 서비스에서 파이프라인을 실행할 수 있도록 Apache Beam SDK를 설치합니다.
Tutorial

Apache Beam과 TensorFlow를 사용한 머신러닝

Apache Beam, Dataflow, TensorFlow를 사용하여 분자 에너지 머신러닝 모델을 사전 처리하고, 학습시키고, 예측합니다.
Tutorial

자바를 사용한 Dataflow 단어 수 가이드

이 가이드에서는 Apache Beam 자바 SDK를 사용하여 간단한 예시 파이프라인을 실행하여 Cloud Dataflow 서비스의 기본사항을 알아봅니다.
Tutorial

실무형 실습: Google Cloud Dataflow를 사용한 데이터 처리

Python 및 Dataflow를 사용하여 실시간 텍스트 기반 데이터 세트를 처리한 후 BigQuery에 저장하는 방법을 알아보세요.
Tutorial

실무형 실습: Pub/Sub 및 Dataflow를 사용한 스트림 처리

Dataflow를 사용하여 Pub/Sub 주제에 게시된 메시지를 읽고, 타임스탬프로 메시지의 기간을 설정하고, Cloud Storage에 메시지를 작성하는 방법을 알아보세요.
Google Cloud Basics

Dataflow 리소스

가격 책정, 리소스 할당량, FAQ 등에 대한 정보를 찾아보세요.

원하는 내용을 찾을 수 없으신가요?

사용 사례

사용 사례

사용 사례
스트림 분석

Google의 스트림 분석을 사용하면 데이터를 체계적으로 정리하여 유용하게 사용할 수 있을 뿐만 아니라 데이터가 생성되는 즉시 활용할 수 있습니다. Pub/Sub 및 BigQuery와 함께 Dataflow를 기반으로 한 이 스트리밍 솔루션은 실시간 비즈니스 분석 정보를 위해 볼륨 변동이 심한 실시간 데이터를 수집, 처리, 분석하는 데 필요한 리소스를 프로비저닝합니다. 이렇게 추상화된 프로비저닝 덕분에 복잡성이 줄어들고 데이터 분석가와 데이터 엔지니어가 모두 스트림 분석을 이용할 수 있습니다.

트리거에서 수집, 보강, 분석 및 활성화까지 5개의 열 전반에 걸쳐 흐름을 수행합니다. 각 열에는 상단 및 하단 섹션이 있습니다. 트리거열 상단의 에지 기기(모바일, 웹, 데이터 저장소, IoT)는 수집 열의 Pub/Sub로 흘러 보강 열, Apache Beam/Dataflow Streaming으로 이동하고, 분석으로 내려와 활성화 박스로 이동한 다음 다시 1열의 에지 기기로 흐릅니다. 3열의 Apache Beam부터 분석 열까지 앞뒤로 흐르며 BigQuery, AI Platform, Bigtable로 유입됩니다. 세 가지 모두 Backfill/ Reprocess - Dataflow Batch에 의해 이동합니다. 흐름은 BigQuery에서 활성화열, 즉 데이터 스튜디오, 타사 BI, Cloud Functions로 이동하며, 1열에 있는 에지 기기로 다시 흐릅니다. 열의 하단 섹션에는 생성 흐름이라고 표시되어 있습니다. 트리거에는 'Pub/Sub 주제로 이벤트 메시지를 푸시하기 위한 소스 구성'이 표시됩니다. 'Pub/Sub 주제 및 구독 생성'을 수집하기 위한 흐름입니다. 강화하려면 '스트리밍을 배포하거나 템플릿, CLI 또는 노트북을 사용해 Dataflow 작업을 배치'합니다. 분석하려면 '데이터 세트, 테이블 및 모델을 생성하여 스트림을 수신'합니다. 활성화하려면 '실시간 대시보드를 빌드하고 외부 API를 호출'합니다.
사용 사례
실시간 AI

Dataflow는 Google Cloud의 Vertex AITensorFlow Extended(TFX)에 스트리밍 이벤트를 제공하여 예측 분석, 사기 감지, 실시간 맞춤설정과 기타 고급 분석 사용 사례를 가능하게 합니다. TFX는 Dataflow와 Apache Beam을 분산 데이터 처리 엔진으로 사용하여 ML 수명 주기의 여러 부분을 가능하게 하며, 이는 모두 Kubeflow 파이프라인을 통해 ML을 위한 CI/CD로 지원됩니다.

사용 사례
센서 및 로그 데이터 처리

지능형 IoT 플랫폼으로 글로벌 기기 네트워크에서 유용한 비즈니스 분석 정보를 얻으세요.

모든 특징

모든 기능

Dataflow ML
머신러닝(ML) 파이프라인을 간편하게 배포하고 관리하세요. ML 모델을 사용하여 일괄 및 스트리밍 파이프라인으로 로컬 및 원격 추론을 수행하세요. 데이터 처리 도구를 사용하여 모델 학습용 데이터를 준비하고 모델 결과를 처리합니다.
Dataflow GPU
GPU 사용 성능과 비용에 최적화된 데이터 처리 시스템입니다. 다양한 NVIDIA GPU를 지원합니다.
수직 자동 확장
사용률에 따라 각 작업자에 할당되는 컴퓨팅 용량을 동적으로 조정합니다. 수직 자동 확장은 수평 자동 확장과 함께 작동하여 파이프라인 내 요구사항에 가장 잘 맞도록 작업자를 원활하게 확장합니다.
수평식 자동 확장
Dataflow 서비스는 수평식 자동 확장을 통해 작업을 실행하는 데 필요한 적절한 수의 작업자 인스턴스를 자동으로 선택할 수 있습니다. Dataflow 서비스는 작업 특성을 고려하여 런타임 중에 더 많은 작업자 또는 더 적은 작업자를 동적으로 다시 할당할 수도 있습니다.
적합 맞춤
오른쪽 맞춤은 각 단계에 최적화된 리소스의 단계별 풀을 만들어 리소스 낭비를 줄입니다.
스마트 진단
1) SLO 기반 데이터 파이프라인 관리, 2) 작업 그래프를 검사하고 병목 현상을 식별할 수 있는 시각적 방법을 사용자에게 제공하는 작업 시각화 기능, 3) 성능 및 가용성 문제를 식별하고 조정하기 위한 자동 추천 등의 기능 모음
스트리밍 엔진
스트리밍 엔진은 컴퓨팅을 상태 스토리지에서 분리하고 파이프라인 실행의 일부를 작업자 VM에서 Dataflow 서비스 백엔드로 이동하여 자동 확장과 데이터 지연 시간을 크게 개선합니다.
Dataflow Shuffle
서비스 기반 Dataflow Shuffle은 데이터를 그룹화하고 조인하는 데 사용되는 Shuffle 작업을 작업자 VM에서 일괄 파이프라인의 Dataflow 서비스 백엔드로 이동합니다. 일괄 파이프라인은 미세 조정 없이도 수백 테라바이트로 원활하게 확장됩니다.
Dataflow SQL
Dataflow SQL을 사용하면 SQL 기술로 스트리밍 Dataflow 파이프라인을 BigQuery 웹 UI에서 바로 개발할 수 있습니다. Pub/Sub의 스트리밍 데이터를 Cloud Storage의 파일 또는 BigQuery의 테이블과 조인하고, 결과를 BigQuery에 쓰고, Google 스프레드시트 또는 기타 BI 도구를 사용하여 실시간 대시보드를 빌드할 수 있습니다.
유연한 리소스 예약(FlexRS)
Dataflow FlexRS는 고급 예약 기술, Dataflow Shuffle 서비스, 선점형 가상 머신(VM) 인스턴스와 일반 VM의 조합을 사용하여 일괄 처리 비용을 줄입니다.
Dataflow 템플릿
Dataflow 템플릿을 사용하면 팀원 및 조직 전체와 파이프라인을 손쉽게 공유하거나, Google에서 제공하는 여러 템플릿을 활용하여 간단하지만 유용한 데이터 처리 태스크를 구현할 수 있습니다. 여기에는 스트리밍 분석 사용 사례의 변경 데이터 캡처 템플릿이 포함됩니다. Flex 템플릿을 사용하면 모든 Dataflow 파이프라인에서 템플릿을 만들 수 있습니다.
Notebooks 통합
Vertex AI Notebooks로 파이프라인을 처음부터 반복적으로 빌드하고 Dataflow 실행기를 사용해 배포할 수 있습니다. REPL(read-eval-print-loop) 워크플로에서 파이프라인 그래프를 검사하여 Apache Beam 파이프라인을 단계별로 작성할 수 있습니다. Google의 Vertex AI를 통해 제공되는 Notebooks로 최신 데이터 과학 및 머신러닝 프레임워크를 사용해 직관적인 환경에서 파이프라인을 작성할 수 있습니다.
실시간 변경 데이터 캡처
이기종 데이터 소스에서 최소한의 지연 시간으로 데이터를 안정적으로 동기화하거나 복제하여 스트리밍 분석을 지원합니다. 확장 가능한 Dataflow 템플릿Datastream과 통합되어 Cloud Storage의 데이터를 BigQuery, PostgreSQL 또는 Cloud Spanner로 복제합니다. Apache Beam의 Debezium 커넥터는 MySQL, PostgreSQL, SQL Server, Db2에서 데이터 변경사항을 수집할 수 있는 오픈소스 옵션을 제공합니다.
인라인 모니터링
Dataflow 인라인 모니터링을 사용하면 일괄 및 스트리밍 파이프라인의 문제 해결을 도와줄 작업 측정항목에 직접 액세스할 수 있습니다. 단계 및 작업자 수준의 가시성을 갖고 모니터링 차트에 액세스할 수 있으며 비활성 데이터 및 높은 시스템 지연 시간 등의 조건에 대한 알림을 설정할 수 있습니다.
고객 관리 암호화 키
고객 관리 암호화 키(CMEK)로 보호되는 일괄 또는 스트리밍 파이프라인을 만들거나, 소스와 싱크에서 CMEK로 보호되는 데이터에 액세스할 수 있습니다.
Dataflow VPC 서비스 제어
Dataflow와 VPC 서비스 제어의 통합은 데이터 유출 위험을 완화하는 기능을 개선하여 데이터 처리 환경에 추가 보안을 제공합니다.
비공개 IP
공개 IP를 사용 중지하면 데이터 처리 인프라의 보안을 강화할 수 있습니다. Dataflow 작업자에 공개 IP 주소를 사용하지 않으면 Google Cloud 프로젝트 할당량에서 사용되는 공개 IP 주소의 수가 줄어듭니다.

가격 책정

가격 책정

Dataflow 작업의 요금은 Dataflow 일괄 또는 스트리밍 작업자가 실제 사용한 리소스에 따라 초 단위로 청구됩니다. Cloud Storage 또는 Pub/Sub과 같은 추가 리소스의 요금은 해당 서비스의 가격 책정에 따라 각각 청구됩니다.

파트너

파트너 솔루션 탐색

모든 규모의 데이터 처리 작업을 강력하고 쉽고 빠르게 수행할 수 있도록 Google Cloud 파트너가 Dataflow와의 통합 기술을 개발했습니다.


Cloud AI 제품은 SLA 정책을 준수하며 지연 시간이나 가용성 보장 측면에서 여타 Google Cloud 서비스와는 차이가 있을 수 있습니다.

다음 단계 수행

$300의 무료 크레딧과 20여 개의 항상 무료 제품으로 Google Cloud에서 빌드하세요.

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
콘솔
  • 투명한 가격 책정 방식으로 비용 절감
  • Google Cloud는 사용한 만큼만 지불하는 가격 책정 방식으로 월별 사용량과 선불 리소스의 할인율을 기준으로 자동 할인을 제공합니다. 지금 Google에 문의하여 견적을 받아보세요.
Google Cloud