스트리밍 분석은 데이터 레코드를 일괄 처리하지 않고 연속적으로 처리하고 분석하는 것입니다. 일반적으로 스트리밍 분석은 데이터 생성 시 데이터를 작은 크기(대개 킬로바이트 단위)로 나눠 연속해서 전송하는 유형의 데이터 소스에 유용합니다.
Google Cloud의 통합 스트림 및 일괄 데이터 처리 서비스인 Dataflow에 대해 알아보세요.
스트리밍 분석에는 연결된 기기의 원격 분석, 웹 애플리케이션을 사용하는 고객이 생성한 로그 파일, 전자상거래 트랜잭션, 소셜 네트워크 또는 지리 공간 서비스의 정보와 같은 다양한 데이터 소스가 포함될 수 있습니다. 스트리밍 분석은 실시간 집계 및 상관 관계 분석, 필터링, 샘플링 등에 종종 사용됩니다.
데이터는 일반적으로 일괄 이동됩니다. 일괄 처리 방식은 많은 양의 데이터를 처리할 수 있지만 동시에 지연 시간이 깁니다. 예를 들어 24시간 간격으로 프로세스가 실행될 수 있습니다. 이 방식을 사용하면 대량의 데이터를 효율적으로 처리할 수 있지만 애초에 스트리밍용으로 만들어진 시간에 민감한 데이터에는 이 방식이 효과적이지 않습니다. 데이터를 처리할 때엔 이미 데이터가 비활성 상태일 수 있기 때문입니다.
기업에서 초당 이벤트 수 수십만 개 또는 수백만 개에 달하는 속도로 데이터를 수집하면 매우 방대한 데이터 세트가 생성됩니다. 기존 시스템은 이 정도 크기의 데이터에서 유용한 정보를 도출하는 데 며칠이 걸릴 수 있습니다.
실시간 작업을 생성하려면 실시간 데이터 처리 및 분석이 필요한데, 적절한 데이터 스트리밍 플랫폼과 인프라로 이를 달성할 수 있습니다. 예를 들어 Google Cloud 제품 및 서비스를 기반으로 하는 스트림 분석을 통해 기업은 데이터 스트림을 실시간으로 수집, 처리, 분석할 수 있습니다.
기업에서는 스트리밍 분석을 사용하여 실시간으로 데이터를 분석하고 측정, 서버 활동, 기기의 위치정보, 웹사이트 클릭과 같은 광범위한 활동에 대한 유용한 정보를 제공합니다. 가능한 사용 사례는 다음과 같습니다.
전자상거래
사용자 클릭 스트림을 분석해 실시간 가격, 프로모션 및 재고 관리 기능으로 쇼핑 경험을 최적화합니다.
금융 서비스
계정 활동 기록을 분석해 데이터 스트림에서 비정상적인 동작을 감지하고 비정상적 동작에 대한 보안 알림을 생성합니다.
투자 서비스
시장 변화를 추적하고 주가가 일정 가치에 도달했을 때 주식을 매도하는 등의 구성된 제약조건에 따라 고객 포트폴리오에 대한 설정을 조정합니다.
뉴스 미디어
다양한 뉴스 매체 플랫폼의 사용자 클릭 레코드를 스트리밍하고 인구통계 정보로 데이터를 보강하여 공유 대상 그룹과 관련성이 높은 기사를 보다 효율적으로 제공합니다.
유틸리티
전력망에서 처리량을 모니터링하고 설정된 임계값에 도달하면 알림을 생성하거나 워크플로를 시작합니다.