확장 가능한 고성능 VM
빠른 통합 스트림 및 일괄 데이터 처리

Dataflow는 자동 확장 및 일괄 처리를 통해 지연 시간, 처리 시간, 비용을 최소화하는 완전 관리형 스트리밍 분석 서비스입니다. 서버리스 방식의 리소스 프로비저닝과 관리 덕분에 무제한에 가까운 용량으로 가장 큰 규모의 데이터 처리 문제를 해결할 수 있을 뿐만 아니라 요금은 사용한 만큼만 지불하면 됩니다.

  • 처리 리소스의 프로비저닝 및 관리 자동화
  • 작업자 리소스가 수평식으로 자동 확장되어 리소스 활용률 극대화
  • 통합 스트리밍 및 일괄 프로그래밍 모델
  • Apache Beam SDK를 통한 OSS 커뮤니티 기반의 혁신
  • 안정적이고 일관성 있는 단 한 번의 처리

빠른 스트리밍 데이터 분석

Dataflow를 사용하면 데이터 지연 시간을 줄이면서 스트리밍 데이터 파이프라인을 빠르고 간편하게 개발할 수 있습니다.

운영 및 관리 간소화

Dataflow는 서버리스 방식으로 데이터 엔지니어링 워크로드에서 운영 오버헤드를 제거하므로 팀이 서버 클러스터를 관리하는 대신 프로그래밍에 집중할 수 있습니다.

총 소유 비용 절감

Dataflow는 리소스 자동 확장과 비용 최적화된 일괄 처리 기능의 결합으로 무제한에 가까운 용량을 제공하므로 시기에 따라 변동하거나 급증하는 워크로드도 과다한 지출 없이 관리할 수 있습니다.

주요 기능

자동화된 리소스 관리 및 동적 작업 재균등화

Dataflow는 처리 리소스의 프로비저닝 및 관리를 자동화하여 대기 시간을 최소화하고 사용률을 극대화하므로 인스턴스를 수동으로 실행하거나 예약할 필요가 없습니다. 작업 파티션 나누기도 자동화 및 최적화되어 지연 작업이 동적으로 재균등화됩니다. '핫 키'를 찾거나 입력 데이터를 사전 처리할 필요가 없습니다.

수평식 자동 확장

처리량의 최적화를 위해 작업자 리소스가 수평식으로 자동 확장되어 전반적인 가격 대비 성능이 개선됩니다.

일괄 처리 시 가변형 리소스 예약 가격 책정

심야 근무와 같이 작업 예약 시간을 유연하게 처리해야 하는 경우 유연한 리소스 예약(FlexRS)으로 일괄 처리 비용을 낮춰줍니다. 이러한 유연한 작업은 6시간 안에 실행 대상으로 검색되도록 보장되어 큐에 배치됩니다.

모든 기능 보기

고객 사례

주요 특징

  • 30년 이상의 구조화되지 않은 뉴스 데이터를 통합하여 주요 사건의 질적인 비즈니스 영향 평가

  • 복잡한 네트워크 작용을 정의하여 숨겨진 관계와 유용한 정보 발견

  • 프로토타입 지식 정보를 10주 만에 손쉽게 제공

파트너

더 많은 고객 보기

새로운 소식

문서

가이드
Dataflow 빠른 시작: Python 사용

Google Cloud 프로젝트와 Python 개발 환경을 설정하고, Apache Beam SDK를 설치하고, Dataflow 서비스에서 WordCount 예시를 실행하고 수정합니다.

가이드
Dataflow SQL 사용

Dataflow SQL UI에서 SQL 쿼리를 실행할 수 있도록 SQL 쿼리를 생성하고 Dataflow 작업을 배포합니다.

가이드
Apache Beam SDK 설치

Dataflow 서비스에서 파이프라인을 실행할 수 있도록 Apache Beam SDK를 설치합니다.

가이드
Apache Beam과 TensorFlow를 사용한 머신러닝

Apache Beam, Dataflow, TensorFlow를 사용하여 분자 에너지 머신러닝 모델을 사전 처리하고, 학습시키고, 예측합니다.

일반적인 사용 사례

스트림 분석

Google Cloud의 Stream Analytics 솔루션을 사용하면 데이터를 체계적으로 정리하여 유용하게 사용할 수 있을 뿐만 아니라 데이터가 생성되는 즉시 활용할 수 있습니다. Pub/Sub, BigQuery와 함께 Dataflow의 자동 확장 인프라를 기반으로 하는 이 스트리밍 솔루션은 실시간 비즈니스 분석 정보를 위해 볼륨 변동이 심한 실시간 데이터를 수집, 처리, 분석하는 데 필요한 리소스를 프로비저닝합니다. 이렇게 추상화된 프로비저닝 덕분에 복잡성이 줄어들고 데이터 분석가와 데이터 엔지니어가 스트림 분석에 액세스할 수 있습니다.

스트림 분석을 보여주는 아키텍처TriggerAnalyzeActivateData StudioThird-party BlCreation FlowConfigure source to push event message to Pub/Sub Topic Create Pub/Sub Topic and Subscription Deploy streaming or batch Dataflow job using templates, CLI, or notebooksCreate dataset, tables, and models to receive streamBuild real-time dashboards and call external APIs IngestEnrichAnalyzeActivateEdgeMobileWebData StoreIoTPub/SubBigQueryAl PlatformBigtable Cloud FunctionsDataflow StreamingApache Beam (SDK)Dataflow BatchBackfill/ReprocessArchitecture
센서 및 로그 데이터 처리

지능형 IoT 플랫폼으로 글로벌 기기 네트워크에서 유용한 비즈니스 정보를 얻으세요.

실시간 AI

Dataflow는 Google Cloud의 AI PlatformTensorFlow Extended(TFX)에 스트리밍 이벤트를 제공하여 예측 분석, 사기 감지, 실시간 개인 맞춤설정과 기타 고급 분석 사용 사례를 가능하게 합니다. TFX는 Dataflow와 Apache Beam을 분산 데이터 처리 엔진으로 사용하여 ML 수명 주기의 여러 부분을 가능하게 하며, 이는 모두 Kubeflow 파이프라인을 통해 ML을 위한 CI/CD로 지원됩니다.

모든 기능

자동 확장 Dataflow 서비스는 자동 확장을 통해 작업을 실행하는 데 필요한 적절한 수의 작업자 인스턴스를 자동으로 선택할 수 있습니다. Dataflow 서비스는 작업 특성을 고려하여 런타임 중에 더 많은 작업자 또는 더 적은 작업자를 동적으로 다시 할당할 수도 있습니다.
스트리밍 엔진 스트리밍 엔진은 컴퓨팅을 상태 스토리지에서 분리하고 파이프라인 실행의 일부를 작업자 VM에서 Dataflow 서비스 백엔드로 이동하여 자동 확장과 데이터 지연 시간을 크게 개선합니다.
Dataflow Shuffle 서비스 기반 Dataflow Shuffle은 데이터를 그룹화하고 조인하는 데 사용되는 Shuffle 작업을 작업자 VM에서 일괄 파이프라인의 Dataflow 서비스 백엔드로 이동합니다. 배치 파이프라인은 미세 조정 없이도 수백 테라바이트로 원활하게 확장됩니다.
Dataflow SQL Dataflow SQL을 사용하면 SQL 기술로 스트리밍 Dataflow 파이프라인을 BigQuery 웹 UI에서 바로 개발할 수 있습니다. Pub/Sub의 스트리밍 데이터를 Cloud Storage의 파일 또는 BigQuery의 테이블과 조인하고, 결과를 BigQuery에 쓰고, Google 스프레드시트 또는 기타 BI 도구를 사용하여 실시간 대시보드를 빌드할 수 있습니다.
가변형 리소스 예약(FlexRS) Dataflow FlexRS는 고급 예약 기술, Dataflow Shuffle 서비스, 선점형 가상 머신(VM) 인스턴스와 일반 VM의 조합을 사용하여 일괄 처리 비용을 줄입니다.
Dataflow 템플릿 Dataflow 템플릿을 사용하면 팀원 및 조직 전체와 파이프라인을 손쉽게 공유하거나, Google에서 제공하는 여러 템플릿을 활용하여 간단하지만 유용한 데이터 처리 작업을 구현할 수 있습니다.
인라인 모니터링 Dataflow 인라인 모니터링을 사용하면 작업과 상호 작용하고 작업 측정항목에 바로 액세스할 수 있습니다. 또한 비활성 데이터와 높은 시스템 지연 시간에 대한 알림을 설정할 수도 있습니다.
고객 관리 암호화 키 고객 관리 암호화 키(CMEK)로 보호되는 배치 또는 스트리밍 파이프라인을 만들거나, 소스와 싱크에서 CMEK로 보호되는 데이터에 액세스할 수 있습니다.
Dataflow VPC 서비스 제어 Dataflow와 VPC 서비스 제어의 통합은 데이터 유출 위험을 완화하는 기능을 개선하여 데이터 처리 환경에 추가 보안을 제공합니다.
비공개 IP 공개 IP를 사용 중지하면 데이터 처리 인프라의 보안을 강화할 수 있습니다. Dataflow 작업자에 공개 IP 주소를 사용하지 않으면 Google Cloud 프로젝트 할당량에서 사용되는 공개 IP 주소의 수가 줄어듭니다.

가격 책정

Dataflow 작업의 요금은 Dataflow 일괄 또는 스트리밍 작업자가 실제 사용한 리소스에 따라 초 단위로 청구됩니다. Cloud Storage 또는 Pub/Sub과 같은 추가 Google Cloud 리소스를 사용하는 작업은 해당 서비스의 가격 책정에 따라 각각 청구됩니다.

가격 책정 세부정보 보기

파트너

모든 규모의 데이터 처리 작업을 강력하고 쉽고 빠르게 수행할 수 있도록 Google Cloud 파트너 및 타사 개발업체가 Dataflow와의 통합 기술을 개발했습니다.

다음 단계 수행

최대 12개월 동안 Google Cloud 학습 및 빌드를 위한 $300의 무료 크레딧을 받으세요.

시작하는 데 도움이 필요하신가요?
신뢰할 수 있는 파트너 지원
계속 탐색