Dataflow 마스터: 실제 애플리케이션에 대한 5가지 심층 가이드
Jeff Nelson
Developer Relations Engineer
Debi Cabrera
Developer Relations Engineer
* 본 아티클의 원문은 2024년 10월 1일 Google Cloud 블로그(영문)에 게재되었습니다.
효과적인 실시간 데이터 솔루션을 빌드하기란 어려울 수 있으며 이를 위해서는 전문 도구와 스트리밍 데이터에 대한 깊은 이해가 필요합니다. Dataflow는 다양한 사용 사례를 처리할 수 있는 성능과 유연성을 제공합니다. 때로는 Dataflow의 사용 방법에 대한 간단한 안내가 큰 도움이 될 수 있습니다. 그래서 Google Cloud는 개발자들이 실제로 겪는 시나리오를 바탕으로 5가지의 샘플 Dataflow 솔루션 아키텍처를 제작했습니다.
Dataflow 솔루션 가이드는 머신러닝 및 생성형 AI, ETL 및 통합부터 마케팅 인텔리전스 등을 아우르는 일반적인 사용 사례를 해결하는 데 실용적이고 처방적인 안내를 제공합니다. 아래에서 각 솔루션에 대한 개요, 자세한 설명, 자세한 가이드 링크를 확인하여 필요에 맞는 솔루션을 자세히 살펴보고 구현해 보세요.
실시간 ML 및 생성형 AI를 위한 Dataflow


예측을 생성합니다. 사용자는 Vertex AI 및 Hugging Face와 같은 소스에서 선행 학습된 모델이나 커스텀 모델을 활용하고, Apache Beam의 MLTransform
, Enrichment
또는 RunInference
와 같은 턴키 변환이나 Dataflow의 GPU 가속 지원 및 커스텀 컨테이너를 활용할 수 있습니다. 이를 통해 까다로운 워크로드에서 개발을 간소화하여 실시간 맞춤설정, 사기 감지, 기타 시간에 민감한 애플리케이션을 위해 더 빠른 피드백 루프와 동적 조정이 가능합니다. Spotify와 같은 회사에서 구현한 혁신적인 팟캐스트 미리보기 생성이 그 사례입니다.
여기를 클릭하여 실시간 ML 및 생성형 AI를 위한 Dataflow의 자세한 솔루션 가이드를 확인하세요.
실시간 ETL을 위한 Dataflow


Dataflow는 실시간 ETL 및 통합을 위한 통합 플랫폼을 제공하여 배치와 스트리밍 시스템을 별도로 관리하는 복잡함을 최소화합니다. Dataflow를 사용하여 메시지 큐나 데이터베이스와 같은 소스에서 데이터를 수집합니다. Apache Beam의 유연한 프로그래밍 모델과 Dataflow의 뛰어난 실행 엔진을 사용하여 실시간으로 데이터를 보강하고 변환합니다. 사용자는 분석용 BigQuery 또는 Cloud SQL, 트랜잭션 워크로드를 위한 AlloyDB와 같은 대상으로 이 데이터를 전달하여 인벤토리를 즉시 업데이트하거나 추천을 개인화하거나 허위 거래를 감지할 수 있습니다. Dataflow의 자동 확장 기능과 기본 제공되는 내결함성은 효율적인 리소스 활용과 신뢰할 수 있는 파이프라인 작업을 보장합니다.
여기를 클릭하여 실시간 ETL 및 통합을 위한 Dataflow의 자세한 솔루션 가이드를 확인하세요.
실시간 로그 복제 및 분석을 위한 Dataflow


실시간 로그 분석은 보안 모니터링, 문제 해결, 규정 준수에 중요한 역할을 합니다. Dataflow는 이 복잡한 프로세스를 간소화하며, 애플리케이션 로그나 시스템 이벤트와 같은 여러 소스에서 다양한 데이터 스트리밍을 처리할 수 있도록 확장됩니다. 로그 형식을 표준화하고 이를 컨텍스트 데이터로 보강하고 BigQuery로 전송하여 거의 무제한의 규모로 분석할 수 있습니다. 이를 Splunk, Datadog 또는 Elasticsearch와 같은 로그 분석 플랫폼으로 라우팅할 수도 있습니다. 따라서 의심스러운 로그인 시도나 비정상적인 API 호출과 같은 이상치를 탐지하고 중요한 이벤트에 선제적으로 대응할 수 있습니다.
여기를 클릭하여 실시간 로그 복제 및 분석을 위한 Dataflow의 자세한 솔루션 가이드를 확인하세요.
실시간 마케팅 인텔리전스를 위한 Dataflow


Dataflow는 실시간 마케팅 인텔리전스를 지원하여 다양한 플랫폼에서 들어오는 데이터를 도착하는 즉시 처리해 느린 서드 파티 업데이트에 의존하지 않아도 됩니다. Apache Beam의 사전 빌드된 I/O 커넥터와 변환을 활용하여 데이터를 통합, 보강, 분석하고 Vertex AI를 통합하여 실시간 ML 추론을 수행합니다. 변환된 데이터를 마케팅 플랫폼에 라우팅하여 즉시 활성화하고 타겟 캠페인 및 맞춤형 사용자 경험을 제공합니다. 이를 통해 유동 가격 책정 및 예측 고객 세분화와 같은 사용 사례를 최소한의 지연 시간으로 실현할 수 있습니다.
여기를 클릭하여 실시간 마케팅 인텔리전스를 위한 Dataflow의 자세한 솔루션 가이드를 확인하세요.
실시간 클릭스트림 분석을 위한 Dataflow


Dataflow는 실시간 클릭스트림 분석을 지원하여 대용량의 사용자 상호작용을 처리하고 즉각적인 인사이트와 맞춤형 경험을 제공합니다. 서드 파티 도구의 한계를 우회하여 모든 소스에서 데이터를 캡처하고 원하는 방식으로 분석을 실행합니다. 또한 턴키 변환과 실시간 AI/ML로 데이터를 보강합니다. Dataflow의 확장 가능한 아키텍처는 변동하는 워크로드를 손쉽게 처리하고 수요에 맞춰 확장합니다. 이를 통해 A/B 테스트 및 이탈 감소와 같은 까다로운 애플리케이션을 간소화합니다.
여기를 클릭하여 실시간 클릭스트림 분석을 위한 Dataflow의 자세한 솔루션 가이드를 확인하세요.
결론
주요 스트리밍 사용 사례에 대한 자세한 솔루션 가이드를 참고하면 Dataflow를 활용한 실시간 솔루션 빌드가 더 간편해집니다. 실시간 ML 및 생성형 AI를 통한 애플리케이션 개발, 실시간 ETL을 통한 데이터 파이프라인 현대화, 즉각적인 인사이트 확보를 위한 로그 분석, 맞춤형 마케팅 캠페인, 클릭스트림 분석을 통한 사용자 행동의 심도 있는 이해까지 Dataflow는 필요한 확장성, 유연성, 신뢰성을 사용자에게 제공합니다.
코드 샘플과 권장사항이 포함된 각 아키텍처에 대한 자세한 솔루션 가이드를 살펴보고 개발 여정을 가속화하세요. Google Cloud에서 앞으로도 새로운 실시간 과제를 해결하기 위한 솔루션 아키텍처를 계속해서 발표할 예정이므로 계속 지켜봐 주시기 바랍니다. 시각적인 학습 경험을 원하는 경우 YouTube 재생목록에서 이러한 솔루션을 다룬 종합적인 동영상을 확인해 보세요.