Dataflow

빠르고 경제적이며 서버리스 방식인 통합 스트리밍 및 일괄 데이터 처리를 제공합니다.

Dataflow 무료로 사용해 보기
  • action/check_circle_24px Sketch로 생성되었습니다.

    완전 관리형 데이터 처리 서비스

  • action/check_circle_24px Sketch로 생성되었습니다.

    처리 리소스의 프로비저닝 및 관리 자동화

  • action/check_circle_24px Sketch로 생성되었습니다.

    작업자 리소스가 수평식으로 자동 확장되어 리소스 활용률 극대화

  • action/check_circle_24px Sketch로 생성되었습니다.

    Apache Beam SDK를 통한 OSS 커뮤니티 기반의 혁신

  • action/check_circle_24px Sketch로 생성되었습니다.

    안정적이고 일관성 있는 단 한 번의 처리

신속한 스트리밍 데이터 분석

Dataflow를 사용하면 데이터 지연 시간을 줄이면서 스트리밍 데이터 파이프라인을 빠르고 간편하게 개발할 수 있습니다.

운영 및 관리 간소화

Dataflow는 서버리스 방식으로 데이터 엔지니어링 워크로드에서 운영 오버헤드를 제거하므로 팀이 서버 클러스터를 관리하는 대신 프로그래밍에 집중할 수 있습니다.

총 소유 비용 절감

Dataflow는 리소스 자동 확장과 비용 최적화된 일괄 처리 기능의 결합으로 무제한에 가까운 용량을 제공하므로 시기에 따라 변동하거나 급증하는 워크로드도 과다한 지출 없이 관리할 수 있습니다.

주요 특징

자동화된 리소스 관리 및 동적 작업 재균등화

Dataflow는 처리 리소스의 프로비저닝 및 관리를 자동화하여 대기 시간을 최소화하고 사용률을 극대화하므로 인스턴스를 수동으로 실행하거나 예약할 필요가 없습니다. 작업 파티션 나누기도 자동화 및 최적화되어 지연 작업이 동적으로 재균등화됩니다. '핫 키'를 찾거나 입력 데이터를 사전 처리할 필요가 없습니다.

수평식 자동 확장

처리량의 최적화를 위해 작업자 리소스가 수평식으로 자동 확장되어 전반적인 가격 대비 성능이 개선됩니다.

일괄 처리 시 가변형 리소스 예약 가격 책정

심야 근무와 같이 작업 예약 시간을 유연하게 처리해야 하는 경우 유연한 리소스 예약(FlexRS)으로 일괄 처리 비용을 낮춰줍니다. 이러한 유연한 작업은 6시간 안에 실행 대상으로 검색되도록 보장되어 큐에 배치됩니다.

모든 특징 보기

고객

Dow Jones
Dow Jones에서는 Dataflow를 통해 주요 과거 이벤트 데이터세트를 활용하고 있습니다.
전문 보기

내용 요약

  • 30년 이상의 뉴스 데이터를 통합하여 비즈니스 영향 평가

  • 숨겨진 데이터 관계와 유용한 정보 발견

  • 프로토타입 지식 정보를 10주 만에 손쉽게 제공

파트너

문서

빠른 시작
Dataflow 빠른 시작: Python 사용

Google Cloud 프로젝트와 Python 개발 환경을 설정하고, Apache Beam SDK를 설치하고, Dataflow 서비스에서 WordCount 예시를 실행하고 수정합니다.

가이드
Dataflow SQL 사용

Dataflow SQL UI에서 쿼리를 실행할 수 있도록 SQL 쿼리를 생성하고 Dataflow 작업을 배포합니다.

가이드
Apache Beam SDK 설치

Dataflow 서비스에서 파이프라인을 실행할 수 있도록 Apache Beam SDK를 설치합니다.

가이드
Apache Beam과 TensorFlow를 사용한 머신러닝

Apache Beam, Dataflow, TensorFlow를 사용하여 분자 에너지 머신러닝 모델을 사전 처리하고, 학습시키고, 예측합니다.

가이드
Qwiklab: Google Cloud 빅데이터 및 머신러닝 기초

이 1주 VOD 과정에서는 Dataflow를 사용한 파이프라인 만들기를 포함해 Google Cloud의 데이터 분석 및 ML 기능을 소개합니다.

Google Cloud 기본사항
Dataflow 리소스

가격 책정, 리소스 할당량, FAQ 등에 대한 정보를 찾아보세요.

가이드
Google Cloud에 빌드 가능한 솔루션 살펴보기

Dataflow와 관련된 Google Cloud 기술 리소스 가이드를 확인하세요.

사용 사례

사용 사례
스트림 분석

Google의 스트림 분석을 사용하면 데이터를 체계적으로 정리하여 유용하게 사용할 수 있을 뿐만 아니라 데이터가 생성되는 즉시 활용할 수 있습니다. Pub/Sub 및 BigQuery와 함께 Dataflow를 기반으로 한 이 스트리밍 솔루션은 실시간 비즈니스 분석 정보를 위해 볼륨 변동이 심한 실시간 데이터를 수집, 처리, 분석하는 데 필요한 리소스를 프로비저닝합니다. 이렇게 추상화된 프로비저닝 덕분에 복잡성이 줄어들고 데이터 분석가와 데이터 엔지니어가 모두 스트림 분석을 이용할 수 있습니다.

Dataflow 스트림 분석 다이어그램
사용 사례
실시간 AI

Dataflow는 Google Cloud의 AI PlatformTensorFlow Extended(TFX)에 스트리밍 이벤트를 제공하여 예측 분석, 사기 감지, 실시간 개인 맞춤설정과 기타 고급 분석 사용 사례를 가능하게 합니다. TFX는 Dataflow와 Apache Beam을 분산 데이터 처리 엔진으로 사용하여 ML 수명 주기의 여러 부분을 가능하게 하며, 이는 모두 Kubeflow 파이프라인을 통해 ML을 위한 CI/CD로 지원됩니다.

사용 사례
센서 및 로그 데이터 처리

지능형 IoT 플랫폼으로 글로벌 기기 네트워크에서 유용한 비즈니스 분석 정보를 얻으세요.

모든 특징

스트리밍 엔진 스트리밍 엔진은 컴퓨팅을 상태 스토리지에서 분리하고 파이프라인 실행의 일부를 작업자 VM에서 Dataflow 서비스 백엔드로 이동하여 자동 확장과 데이터 지연 시간을 크게 개선합니다.
자동 확장 Dataflow 서비스는 자동 확장을 통해 작업을 실행하는 데 필요한 적절한 수의 작업자 인스턴스를 자동으로 선택할 수 있습니다. Dataflow 서비스는 작업 특성을 고려하여 런타임 중에 더 많은 작업자 또는 더 적은 작업자를 동적으로 다시 할당할 수도 있습니다.
Dataflow Shuffle 서비스 기반 Dataflow Shuffle은 데이터를 그룹화하고 조인하는 데 사용되는 Shuffle 작업을 작업자 VM에서 일괄 파이프라인의 Dataflow 서비스 백엔드로 이동합니다. 일괄 파이프라인은 미세 조정 없이도 수백 테라바이트로 원활하게 확장됩니다.
Dataflow SQL Dataflow SQL을 사용하면 SQL 기술로 스트리밍 Dataflow 파이프라인을 BigQuery 웹 UI에서 바로 개발할 수 있습니다. Pub/Sub의 스트리밍 데이터를 Cloud Storage의 파일 또는 BigQuery의 테이블과 조인하고, 결과를 BigQuery에 쓰고, Google 스프레드시트 또는 기타 BI 도구를 사용하여 실시간 대시보드를 빌드할 수 있습니다.
가변형 리소스 예약(FlexRS) Dataflow FlexRS는 고급 예약 기술, Dataflow Shuffle 서비스, 선점형 가상 머신(VM) 인스턴스와 일반 VM의 조합을 사용하여 일괄 처리 비용을 줄입니다. 
Dataflow 템플릿 Dataflow 템플릿을 사용하면 팀원 및 조직 전체와 파이프라인을 손쉽게 공유하거나, Google에서 제공하는 여러 템플릿을 활용하여 간단하지만 유용한 데이터 처리 작업을 구현할 수 있습니다. Flex 템플릿을 사용하면 모든 Dataflow 파이프라인에서 템플릿을 만들 수 있습니다.
Notebooks 통합 AI Platform Notebooks로 파이프라인을 처음부터 반복적으로 빌드하고 Dataflow 실행기를 사용해 배포할 수 있습니다. REPL(read-eval-print-loop) 워크플로에서 파이프라인 그래프를 검사하여 Apache Beam 파이프라인을 단계별로 작성할 수 있습니다. Google AI Platform을 통해 제공되는 Notebooks로 최신 데이터 과학 및 머신러닝 프레임워크를 사용해 직관적인 환경에서 파이프라인을 작성할 수 있습니다.
인라인 모니터링 Dataflow 인라인 모니터링을 사용하면 일괄 및 스트리밍 파이프라인의 문제해결을 도와줄 작업 측정항목에 직접 액세스할 수 있습니다. 단계 및 작업자 수준의 가시성을 갖고 모니터링 차트에 액세스할 수 있으며 비활성 데이터 및 높은 지연 시간 등의 조건에 대한 알림을 설정할 수 있습니다.
고객 관리 암호화 키 고객 관리 암호화 키(CMEK)로 보호되는 일괄 또는 스트리밍 파이프라인을 만들거나, 소스와 싱크에서 CMEK로 보호되는 데이터에 액세스할 수 있습니다.
Dataflow VPC 서비스 제어 Dataflow와 VPC 서비스 제어의 통합은 데이터 유출 위험을 완화하는 기능을 개선하여 데이터 처리 환경에 추가 보안을 제공합니다.
비공개 IP 공개 IP를 사용 중지하면 데이터 처리 인프라의 보안을 강화할 수 있습니다. Dataflow 작업자에 공개 IP 주소를 사용하지 않으면 Google Cloud 프로젝트 할당량에서 사용되는 공개 IP 주소의 수가 줄어듭니다.

가격 책정

Dataflow 작업의 요금은 Dataflow 일괄 또는 스트리밍 작업자가 실제 사용한 리소스에 따라 초 단위로 청구됩니다. Cloud Storage 또는 Pub/Sub과 같은 추가 리소스의 요금은 해당 서비스의 가격 책정에 따라 각각 청구됩니다.

파트너

모든 규모의 데이터 처리 작업을 강력하고 쉽고 빠르게 수행할 수 있도록 Google Cloud 파트너가 Dataflow와의 통합 기술을 개발했습니다.