콘텐츠로 이동하기
데이터 분석

Cloud Data Fusion을 사용한 BigQuery 실시간 데이터 통합 소개

2021년 3월 5일
Bhooshan Mogal

Senior Product Manager

  * 본 아티클의 원문은 2021년 1월 23일 Google Cloud 블로그(영문)에 게재되었습니다.  

오늘날 기업에서는 실시간 데이터 통합, 분석, 작업에 대한 수요가 증가하고 있습니다. 작업에 사용되는 트랜잭션 및 운영 데이터와 같은 유용한 데이터가 지속적인 분석에 적합하지 않은 기존 관계형 데이터베이스의 온프렘 또는 퍼블릭 클라우드에 저장되는 경우가 많습니다. 전통적인 마이그레이션 또는 일괄 ETL 로드로도 데이터를 데이터 웨어하우스에 로드하는 목표를 달성할 수 있지만 이처럼 지연 시간이 긴 접근 방식은 최신 통계를 바탕으로 정확한 결정을 내릴 때는 적합하지 않습니다. 

Cloud Data Fusion은 개발자, 데이터 엔지니어, 비즈니스 분석가가 ETL/ELT 작업을 효율적으로 빌드하고 관리할 수 있도록 돕는 클라우드 기반의 완전 관리형 데이터 통합 및 처리 서비스입니다. 오늘 Google에서는 지연 시간이 짧은 실시간 데이터가 SQL Server, MySQL 같은 트랜잭션 및 운영 데이터베이스에서 BigQuery로 직접 복제되도록 지원하는 Data Fusion 복제 애플리케이션 퍼블릭 프리뷰 버전의 출시를 발표합니다. 

Data Fusion 복제의 이점을 자세히 살펴보겠습니다.

일반인 개발자도 손쉽게 복제를 설정할 수 있도록 기술 병목 현상 제거

Cloud Data Fusion은 ETL 개발자와 데이터 분석가 같은 일반인 개발자도 손쉽게 데이터 복제를 설정할 수 있게 도와주는 단순한 마법사 중심의 인터페이스를 갖추고 습니다. 사용하기 쉬운 표준 인터페이스 덕분에 운영 데이터베이스 유형별로 복잡한 맞춤 도구를 개발할 필요성이 사라져 셀프서비스 방식으로 데이터를 BigQuery에 지속적으로 복제할 수 있습니다.

타당성 평가 및 실용적인 권장사항

복제를 시작하기 전에 스키마 비호환성, 연결 문제, 기능 누락을 식별할 수 있는 평가 도구도 포함되어 있으며 평가 후 수정 조치도 제공됩니다. 덕분에 사용자가 복제 중에 발생할 수 있는 잠재적 문제를 사전에 파악하여 개발 및 반복 작업을 보다 빠르게 수행할 수 있습니다. 

BigQuery 내 분석을 위한 최신 운영 데이터에 대한 간편한 실시간 액세스

변경 데이터 캡처(CDC)가 스트림에서 변경된 데이터의 데이터 표현을 제공하여 최근에 변경된 레코드에만 초점을 맞춘 계산과 처리가 가능하기 때문에 민감한 프로덕션 시스템의 이그레스 비용을 최소화할 수 있습니다. 이번 출시 버전에서는 Data Fusion에서 직접 BigQuery로의 로그 기반 복제를 제공합니다. 공통 형식으로 제공되는 다양한 데이터베이스의 CDC 로그를 만들기 위한 변경 제공자로 Debezium을 통합합니다. 현재 Microsoft SQL Server(SQL Server CDC 사용)와 MySQL(MySQL 바이너리 로그 사용)에 대한 지원이 포함되어 있습니다. CDC 스트림 지원으로 Google Cloud 사용자가 분석과 작업을 위해 BigQuery에서 최신 데이터에 액세스할 수 있습니다.               

대용량 트랜잭션 데이터베이스 지원을 위한 엔터프라이즈급 확장성

BigQuery로 처음 로드되는 데이터에는 다운타임 없는 스냅샷 복제가 지원되어 데이터 웨어하우스에서 지속적으로 변경사항을 사용할 수 있습니다. 초기 스냅샷이 완료되면 처리량이 많은 지속적인 변경사항 복제가 실시간으로 시작됩니다. 

엔드 투 엔드 운영 가시성

Data Fusion은 복제 작업의 처리량, 지연 시간, 오류를 모니터링할 수 있는 운영 대시보드도 제공합니다. 이 대시보드는 복제 성능에 대한 실시간 통계를 제공합니다. 이를 통해 사용자가 잠재적 병목 현상을 사전에 파악하고 데이터 전송 SLA를 모니터링할 수 있습니다. 

https://storage.googleapis.com/gweb-cloudblog-publish/images/Data_Fusion_dashboard.max-1500x1500.jpg

주요 Google Cloud 기능 및 통합 활용

현재 Data Fusion이 지원되는 모든 Google Cloud 리전에서 복제를 사용할 수 있습니다. 이번 출시 버전에는 고객 관리 암호화 키(CMEK)VPC-SC에 대한 지원도 포함되어 있습니다. Google Cloud Platform에서의 Cloud Data Fusion 통합으로 최고 수준의 기업 보안과 개인정보 보호가 보장되는 한편 데이터 웨어하우스에서 최신 데이터를 분석에 사용할 수 있습니다.

복제를 사용할 준비가 되셨나요? 새로운 Data Fusion 인스턴스를 만들고 복제 앱을 추가하세요. 시작 가이드도 잊지 말고 확인하세요.

게시 위치