BigQuery Omni로 데이터에 멀티 클라우드 분석 적용하기
Debanjan Saha
General Manager and Vice President of Engineering, Data Analytics
* 본 아티클의 원문은 2020년 7월 14일 Google Cloud 블로그(영문)에 게재되었습니다.
이제 Google Cloud, Amazon Web Services(AWS), Azure(지원 예정)에서 익숙한 BigQuery 사용자 인터페이스(UI)를 그대로 사용하면서 데이터에 경제적으로 액세스하고 데이터를 안전하게 분석할 수 있는 유연한 멀티 클라우드 분석 솔루션인 BigQuery Onmi가 출시됩니다. 표준 SQL과 고객의 선호도가 높은 동일한 BigQuery API를 사용하면 데이터 사일로를 제거하고 단일 창에서 중요한 비즈니스 통찰력을 얻을 수 있습니다. 또한 BigQuery Omni는 Anthos를 기반으로 하므로 기본 인프라를 관리하지 않고도 데이터를 쿼리할 수 있습니다.
클라우드 도입에 관한 Gartner의 최근 설문조사에 따르면 퍼블릭 클라우드를 사용하는 응답자의 80% 이상이 둘 이상의 클라우드 서비스 제공업체(CSP)를 이용하고 있는 것으로 나타났습니다1. 데이터는 조직 전반의 의사 결정에서 중요한 요소지만 대다수의 조직에서 이러한 데이터는 여러 퍼블릭 클라우드에 분산되어 있습니다. BigQuery Omni는 멀티 클라우드에 대한 Google의 지속적인 혁신과 노력의 일환으로, 데이터가 저장된 위치와 상관없이 최고의 분석 기능과 데이터 웨어하우스 기술을 제공합니다.
BigQuery Omni 작동 방식
클라우드 제공업체 간에 데이터를 옮기는데 드는 비용은 많은 비즈니스에서 지속적으로 감당하기 힘들고 클라우드 간에 원활히 작업하는 것도 여전히 어려운 부분입니다. BigQuery Omni는 BigQuery의 컴퓨팅 및 스토리지 분리를 통해 여러 퍼블릭 클라우드에 저장된 데이터를 분석하는 새로운 방법을 제시합니다. BigQuery는 이러한 두 요소를 분리함으로써 Google Cloud나 다른 퍼블릭 클라우드에 상주할 수 있는 확장 가능한 스토리지와 표준 SQL 쿼리를 실행하는 우수한 복원력을 가진 스테이트리스(Stateless) 컴퓨팅 기능을 제공합니다. 하지만 지금까지는 BigQuery를 사용하려면 Google Cloud에 데이터를 저장해야 했습니다.
경쟁업체를 이용하면 퍼블릭 클라우드 간에 데이터를 이동하거나 복사해야 하며 이에 따른 이그레스 비용이 청구될 수 있지만 BigQuery Omni를 사용하면 비용이 발생하지 않습니다. Google Cloud의 동일한 BigQuery 인터페이스를 통해 클라우드 간에 데이터를 이동하거나 복사하지 않고도 Google Cloud, AWS, Azure에 저장한 데이터를 쿼리할 수 있습니다. BigQuery Omni의 쿼리 엔진은 데이터가 있는 동일한 리전의 클러스터에서 필요한 컴퓨팅을 실행합니다. 예를 들어 BigQuery Omni를 사용하여 Google Cloud에 저장된 Google Analytics 360 광고 데이터를 쿼리하고 전자상거래 플랫폼 및 AWS S3에 저장된 애플리케이션의 로그 데이터를 쿼리할 수도 있습니다. 그런 다음 Looker를 사용하여 광고 비용과 함께 잠재고객의 행동 및 구매를 시각적으로 보여주는 대시보드를 빌드할 수 있습니다.
BigQuery Omni는 Google Cloud에서 완전하게 관리하는 Anthos 클러스터에서 실행되므로 다른 퍼블릭 클라우드에서 안전하게 쿼리를 실행할 수 있습니다. Anthos 하이브리드 및 멀티 클라우드 애플리케이션 플랫폼을 통해 여러 클라우드에서 BigQuery 쿼리 엔진(Dremel)을 빌드하고 배포하며 관리할 수 있습니다. Google에서는 BigQuery Omni를 개발하면서 일관되고 통합된 운영 환경이 고객을 지원하는 데 얼마나 중요한지를 알게 되었습니다. 아키텍처 구조는 다음과 같습니다.

BigQuery Omni를 사용하면 다음과 같은 작업이 가능합니다.
사일로를 제거하고 데이터에서 유용한 정보를 확보합니다. 유연한 멀티 클라우드 분석 솔루션을 통해 클라우드 전반에서 비즈니스의 역량을 강화합니다. 분석을 위해 다른 퍼블릭 클라우드에서 Google Cloud로 데이터를 이동하거나 복사할 필요가 없습니다. BigQuery의 기능을 활용하여 경제적으로 사일로를 제거하고 분석을 통해 유용한 정보를 확보하세요.
클라우드 전반에서 일관된 데이터 환경을 제공합니다. Google Cloud, AWS, Azure(지원 예정)의 데이터 세트 전반에서 통합된 분석 환경을 활용하세요. 표준 SQL과 BigQuery의 익숙한 인터페이스를 사용하여 쿼리를 작성하고 데이터를 토대로 대시보드를 빌드할 수 있습니다. 단일 인터페이스로 질문에 신속하게 답변하고 결과를 공유해 보세요.
Anthos를 기반으로 하여 유연성을 확보할 수 있습니다. Anthos 기반의 완전 관리형 인프라로 다른 퍼블릭 클라우드에서 안전하게 분석을 실행합니다. 즉, 기본 인프라에 대한 걱정 없이 데이터를 쿼리할 수 있습니다. 컴퓨팅 리소스는 데이터가 저장된 동일한 클라우드 리전에서 실행되므로 완벽하게 원활한 데이터 분석 경험을 제공할 수 있습니다.
BigQuery Omni에서 익숙한 인터페이스로 시작하기
Google Cloud의 BigQuery UI로 시작하여 데이터가 있는 퍼블릭 클라우드 리전을 선택한 다음 쿼리를 실행하세요. BigQuery Omni에서 Avro, CSV, JSON, ORC, Parquet을 지원하므로 데이터 형식을 지정하거나 변환할 필요가 없습니다. 다른 퍼블릭 클라우드에서 원시 데이터를 이동 또는 복사하거나, 클러스터를 관리하거나, 리소스를 프로비저닝하지 않아도 됩니다. 컴퓨팅은 현재 데이터가 위치한 AWS 리전에서 실행되는 BigQuery의 멀티 테넌트 서비스 내에서 수행됩니다.


내부적으로 BigQuery의 쿼리 엔진은 BigQuery 관리형 서비스 내의 Anthos 클러스터에서 실행됩니다. BigQuery는 다른 퍼블릭 클라우드의 IAM 역할을 통해 권한이 승인되면 해당 계정에 있는 데이터 스토리지에서 데이터를 가져옵니다. 쿼리 실행을 위해 AWS 내의 데이터가 데이터 스토리지에서 BigQuery 클러스터(Anthos에서 실행)로 임시로 이동됩니다.


쿼리 결과를 Google Cloud로 반환하고 BigQuery UI에서 이를 확인할 수 있습니다.


또는 결과나 데이터를 클라우드 간에 이동할 필요 없이 쿼리 결과를 데이터 스토리지로 직접 내보낼 수도 있습니다.


BigQuery Omni는 현재 비공개 알파 버전입니다. 사용해 보고 싶다면 이 양식을 작성해 주세요. 그리고 8월에 열리는 Google Cloud Next ‘20 OnAir 세션인 멀티 클라우드 환경에서의 분석에 참여해 보시기 바랍니다.
1. Gartner, 멀티 클라우드가 클라우드 데이터 관리의 미래, 2019년 12월