데이터 분석

가장 개방적인 데이터 클라우드 생태계 구축하기: 여러 소스와 플랫폼의 데이터 통합

2022년 10월 25일

https://storage.googleapis.com/gweb-cloudblog-publish/images/open_data_cloud_ecosystem_1.max-2600x2600.jpg

Gerrit Kazmaier

VP & GM of Data Analytics, Google Cloud

* 본 아티클의 원문은 2022년 10월 12일 Google Cloud 블로그(영문)에 게재되었습니다.

데이터는 모든 디지털 혁신에서 가장 귀중한 자산입니다. 그러나 데이터에 대한 제약은 여전히 보편적으로 존재하며, 조직에서 새로운 디지털 비즈니스 출범, 고객 행동의 변화 파악, 나아가 공중 보건 위기에 대응하기 위한 데이터 활용과 같은 중요한 진전을 이루지 못하도록 가로막고 있습니다. 데이터 복잡성이 어느 때보다 높고, 데이터 볼륨이 증가하며, 데이터가 여러 클라우드에 분산되는 한편 더 많은 워크로드에 사용되고 있고, 그 어느 때보다 많은 사람들이 데이터에 액세스하고 있습니다. 오직 개방형 데이터 클라우드 생태계에서만 데이터의 잠재력을 최대한 활용하고 디지털 혁신을 가로막는 장벽을 없앨 수 있습니다.

이미 800개 이상의 소프트웨어 기업이 Google 데이터 클라우드를 사용하여 제품을 구축하고 있으며 40개가 넘는 데이터 플랫폼 파트너가 Google Cloud Ready - BigQuery 이니셔티브를 통해 검증된 통합을 제공하고 있습니다. 올해 초 Google은 데이터 클라우드 제휴를 출범했으며, 현재 데이터 분야의 17개 선도 기업이 널리 사용되는 데이터 애플리케이션 간의 상호 운용성과 개방형 표준을 촉진하기 위해 협력하면서 데이터 클라우드 제휴를 지원하고 있습니다.

이번 주 개최되는 Next에서 Google은 가장 개방적이고 확장 가능한 데이터 클라우드를 제공한다는 사명에 한 걸음 더 다가가는 중대한 진전 사항을 발표합니다. Google의 사명이 실현되면 고객은 원하는 모든 클라우드 제공업체와 플랫폼에서 스토리지 형식과 분석 스타일에 상관없이 모든 소스의 모든 데이터를 활용할 수 있게 됩니다. Next에서는 다음과 같은 내용이 발표됩니다.

BigQuery에서 비정형 데이터 및 스트리밍 데이터를 분석하기 위한 새로운 기능 출시
Apache Iceberg를 포함한 업계의 주요 데이터 형식에 대한 지원과 향후 Linux Foundation Delta Lake, Apache Hudi에 대한 지원
Apache Spark를 위한 BigQuery의 새로운 통합 환경
자동화된 데이터 품질 및 데이터 계보를 위한 Dataplex 기능 확장으로 고객이 데이터를 더욱 신뢰할 수 있도록 지원
Looker 브랜드 아래에 비즈니스 인텔리전스 포트폴리오를 통합하여 Looker, 데이터 스튜디오, AI 및 머신러닝(ML)과 같은 Google 핵심 기술의 긴밀한 통합을 시작
데이터 실무자들이 강력한 컴퓨터 비전 및 이미지 인식 AI에 보다 쉽게 접근할 수 있도록 지원하는 새로운 서비스인 Vertex AI Vision 출시
Collibra, Elastic, MongoDB, Palantir Foundry, ServiceNow를 포함해 널리 사용되는 여러 엔터프라이즈 데이터 플랫폼과의 통합을 확대하여 데이터 간의 장벽을 없애고 고객에게 더 많은 선택권을 제공하며 데이터 종속을 방지

이와 같은 흥미로운 소식 각각에 대한 자세한 내용은 아래에서 확인할 수 있습니다.

여러 소스 시스템에 걸친 주요 형식의 데이터 통합

데이터 클라우드는 사용자가 스토리지 형식이나 위치에 관계없이 모든 종류의 데이터를 사용해 작업할 수 있도록 지원해야 합니다. 이를 위해 Google은 Google의 데이터 클라우드에 여러 가지 흥미로운 새로운 기능을 추가하고 있습니다.

첫째, 사용자가 모든 유형의 데이터를 사용할 수 있도록 기능을 대폭 확대하기 위해 BigQuery에 비정형 데이터에 대한 지원을 추가하고 있습니다. 일반적으로 데이터팀은 운영 데이터베이스와 Adobe, SAP, ServiceNow, Workday 같은 SaaS 애플리케이션의 데이터를 분석하기 위해 BigQuery를 사용해 정형 데이터를 처리하는 한편 JSON 로그 파일과 같은 반정형 데이터도 처리해왔습니다.

그러나 이는 조직이 보유한 정보 중 일부분에 불과합니다. 텔레비전 보관 파일의 동영상, 콜센터와 라디오의 오디오, 다양한 형식의 문서 등의 비정형 데이터는 오늘날 전체 데이터에서 최대 90%를 차지합니다. 이제 데이터팀은 BigQuery에서 익숙한 SQL 인터페이스를 통해 ML, 음성 인식, 컴퓨터 비전, 번역, 텍스트 처리 분야의 여러 Google Cloud 기능을 손쉽게 사용하여 정형 데이터와 비정형 데이터를 관리, 보호, 분석할 수 있습니다.

둘째, Google은 현재 사용되고 있는 주요 데이터 형식에 대한 지원을 추가하고 있습니다. Google의 스토리지 엔진인 BigLake는 Apache Iceberg에 대한 지원과 Linux Foundation Delta Lake에 대한 지원을 추가하며, 향후 Apache Hudi에 대한 지원도 추가할 계획입니다. 널리 채택된 데이터 형식을 지원함으로써 Google은 조직이 자체 데이터에서 가치를 최대한 도출할 수 있도록 돕고 있습니다.

"Google Cloud의 Delta 지원은 고객이 데이터 위치에 관계없이 모든 데이터를 활용하는 유연성을 얻을 수 있는 개방형 멀티 클라우드 레이크 하우스에 대한 수요가 얼마나 큰지를 잘 보여줍니다."라고 Databricks의 제품 담당 수석 부사장인 데이비드 메이어는 말했습니다. "이 파트너십은 개방형 데이터 공유에 대한 양사의 노력과 더불어 여러 팀과 조직 간에 데이터의 접근성, 이동성, 협업을 촉진하는 Delta Lake와 같은 개방형 표준의 발전을 분명하게 보여주는 사례입니다."

셋째, Google은 대규모 데이터 처리를 위한 선도적인 오픈소스 분석 엔진인 Apache Spark를 지원하는 BigQuery의 새로운 통합 환경을 발표합니다. 오늘 미리보기 버전으로 출시되는 이 새로운 Spark 통합은 데이터 실무자가 Apache Spark를 사용하여 BigQuery에서 SQL 파이프라인과 통합되는 프로시저를 만들 수 있도록 지원합니다. Walmart와 같은 조직은 Google Cloud를 사용하여 Spark 처리 시간을 23% 개선하고 회계 장부 마감 시간을 5일에서 3일로 단축했습니다.

또한 Google이 출시한 BigQuery용 Datastream을 통해 조직은 AlloyDB, PostgreSQL, MySQL과 더불어 Oracle과 같은 서드 파티 데이터베이스 소스에서 직접 BigQuery로 데이터를 실시간 복제하는 작업을 보다 효과적으로 수행할 수 있습니다. 일련의 소스에서 BigQuery로 데이터를 더욱 빠르게 가져올 수 있게 되면서 사용자는 자체 데이터에서 더 많은 통계를 실시간으로 도출할 수 있습니다. 오늘 발표될 내용을 자세히 알아보려면 Google 데이터베이스를 사용한 주요 혁신에 관한 전용 게시물을 참조하세요.

마지막으로, 데이터 클라우드는 조직이 데이터를 관리, 보호, 관찰하여 데이터의 높은 품질을 보장하고 강력하고 유연한 데이터 관리와 거버넌스 역량을 갖출 수 있도록 지원해야 합니다. 데이터 관리를 지원하기 위해 Google은 데이터 품질과 관련된 일반적인 프로세스를 자동화하는 Dataplex의 업데이트를 발표합니다. 예를 들어 사용자는 데이터가 어디에서 유래되고 시간이 흐름에 따라 어떻게 변화하고 이전되는지에 대한 데이터 계보를 간편하게 파악할 수 있게 되므로 시간이 많이 드는 수동 작업을 수행할 필요성이 줄어듭니다.

고객이 모든 종류의 데이터를 원하는 형식으로 처리할 수 있다는 점은 개방형 데이터 클라우드의 대표적인 특징입니다. Google은 고객이 데이터의 제약을 없애고 클라우드에서 데이터 종속을 피하는 데 필요한 지원과 통합을 제공하기 위해 최선을 다하고 있습니다.

모든 스타일의 분석을 지원하고 AI로 분석가의 역량을 강화

매달 1,000만 명 이상의 사용자가 Looker와 Google 데이터 스튜디오를 포함한 Google Cloud 비즈니스 인텔리전스 솔루션에 액세스합니다. 현재 Google은 이 두 가지 인기 있는 도구를 Looker 브랜드로 통합하여 Looker, 데이터 스튜디오, AI 및 ML과 같은 Google 핵심 기술의 긴밀한 통합을 진행 중입니다. 이번 통합에 따라 데이터 스튜디오의 이름이 Looker Studio로 변경됩니다. 사용자는 이 솔루션을 통해 대시보드를 넘어 데이터 기반 의사 결정에 필요한 인텔리전스를 워크플로와 애플리케이션에 적용할 수 있게 됩니다. 향후 Looker와 비즈니스 인텔리전스에 도입될 혁신 기술에 대한 자세한 내용은 Looker의 미래에 대한 전용 게시물을 참고하세요.

Google은 고객이 원하는 비즈니스 인텔리전스 도구를 사용하여 작업할 수 있도록 노력을 다하고 있습니다. 앞서 Looker와 Tableau의 통합을 발표한 데 이어 오늘은 Microsoft Power BI를 사용한 Looker 및 BigQuery 개선을 발표합니다. 이는 고객에게 가장 개방적인 데이터 클라우드를 제공하기 위한 또 다른 도약입니다. 이번 출시로 Tableau와 Microsoft 고객은 Looker의 신뢰할 수 있는 데이터를 손쉽게 분석하고 간편히 BigQuery에 연결할 수 있게 됩니다.

AI와 ML은 데이터 모델링과 관리를 위한 도구로서 갈수록 그 중요성을 인정받고 있습니다. 특히 조직에서 데이터 모델링과 관리를 사용자에게 맡길 방법을 모색하면서 이러한 추세가 두드러지고 있습니다. 이미 Vertex AI는 데이터 액세스와 수집을 간소화하고, 모델 조정을 실현하고, 프로덕션에 ML 모델을 배포함으로써 더 신속하게 데이터에서 가치를 얻도록 도와주고 있습니다.

Google은 Vertex AI의 기능을 확장해 데이터 실무자와 개발자가 보다 쉽게 접근할 수 있도록 Vertex AI Vision을 출시합니다. 이 새로운 엔드 투 엔드 애플리케이션 개발 환경에서는 시각적 데이터를 수집, 분석, 저장할 수 있습니다. 예를 들어 제조 시설에서는 보안을 위해 동영상을 스트리밍하거나 재고 분석을 개선하기 위해 매장 선반을 스트리밍할 수 있으며 번잡한 교차로 관리를 위한 신호등 추적도 가능해집니다. Vertex AI Vision을 사용하면 이러한 데이터를 이해하고 활용하기 위한 컴퓨터 비전 애플리케이션을 손쉽게 빌드하고 배포할 수 있습니다.

Vertex AI Vision은 컴퓨터 비전 애플리케이션을 만드는 데 드는 시간을 몇 주에서 몇 시간으로 단축할 수 있으며 비용은 현재 사용되는 솔루션의 10분의 1에 불과합니다. 이러한 효율성을 달성할 수 있도록 Vertex AI Vision는 사용하기 쉬운 드래그 앤 드롭 인터페이스와 함께 인원 계산, 제품 인식, 사물 탐지와 같은 일반적인 작업을 수행하도록 선행 학습된 ML 모델 라이브러리를 제공합니다. 또한 Vertex AI의 기존 AutoML 또는 커스텀 ML 모델을 Vertex AI Vision 애플리케이션으로 가져올 수 있는 옵션도 제공합니다. 항상 그렇듯이 Google의 새로운 AI 제품 역시 Google AI 원칙을 준수합니다.

컴퓨터 비전 솔루션을 제공하는 대표적인 기업인 Plainsight는 Google Cloud를 사용하여 속도와 비용 효율성을 높이고 있습니다. "Vertex AI Vision은 Plainsight가 이전에는 대규모로 구현할 수 없었던 사용 사례를 위한 획기적인 솔루션입니다.”라고 Plainsight의 공동 창업자이자 최고 제품 책임자인 엘리자베스 스피어스는 말했습니다. “최대 100배 절감된 비용으로 스트리밍 동영상에서 컴퓨터 비전 모델을 실행할 수 있는 역량을 확보하면서 Plainsight는 고객을 위한 완전히 새로운 비즈니스 기회를 맞이하고 있습니다."

개방형 데이터 생태계 지원

데이터 종속을 방지하는 데 있어 핵심은 고객이 선택한 데이터 플랫폼에서 작업할 수 있는 유연성을 제공하는 것입니다. Google은 데이터 클라우드를 개방적으로 유지하기 위해 Collibra, Databricks, Elastic, Fivetran, MongoDB, Sisu Data, Reltio, Striim 등을 포함한 주요 개방형 데이터 플랫폼과 적극적으로 협력하여 공동의 고객이 Google 데이터 클라우드에서 이러한 제품을 사용할 수 있도록 지원하고 있습니다. 또한 데이터 클라우드 제휴의 17개 회원사와 협력하여 데이터 업계의 개방형 표준과 상호 운용성을 촉진하는 한편 PostgreSQL용 AlloyDB, Cloud Bigtable, Firestore, Cloud Spanner와 같은 Google Cloud 데이터베이스는 물론 MongoDB, MySQL, PostgreSQL, Redis와 같은 오픈소스 데이터베이스 엔진도 지속적으로 지원하고 있습니다.

Google은 고객이 선택한 플랫폼 간에 보다 쉽게 데이터를 이전하도록 지원하고 더 많은 Google 데이터 클라우드 기능을 파트너 플랫폼에 제공하기 위해 Next에서 중요한 새 소식과 여러 파트너 제품과의 통합을 발표합니다.

Collibra는 Dataplex와 통합되어 고객이 비즈니스 컨텍스트에서 보다 쉽게 데이터를 탐색하고, 데이터 계보를 이해하며, 주요 클라우드와 온프레미스 환경에 저장된 데이터를 일관적으로 제어할 수 있도록 지원합니다.
Elastic은 Elasticsearch 기능을 Google의 데이터 클라우드에 구현하여 고객에게 검색어를 Google Cloud의 데이터 레이크에 연결할 수 있는 기능을 제공합니다. 이는 이미 지원되고 있는 기존의 통합을 보다 확장한 것으로, 검색 사용 사례를 위해 BigQuery에서 Elastic으로 직접 데이터를 수집할 수 있게 됩니다. 또한 Google은 Elastic 플랫폼에 대한 Looker 지원을 확대하여 검색 통계를 데이터 기반 애플리케이션에 손쉽게 내장할 수 있도록 지원합니다.
MongoDB는 고객이 Atlas와 BigQuery 간의 데이터 이전 속도를 크게 높일 수 있게 해주는 새로운 템플릿을 출시합니다. 이는 고객이 Vertex AI를 사용하여 Google Cloud AI와 ML 기능을 MongoDB에 적용하는 새로운 사용 사례로 이어질 것입니다.
Palantir는 BigQuery를 Foundry Ontology를 위한 엔진으로 인증합니다. Foundry Ontology는 비즈니스 목표, 예측 모델, 작업에 기본 데이터 모델을 연결하여 고객이 데이터를 지능적인 작업으로 전환할 수 있도록 도와줍니다.
ServiceNow는 공동의 고객과 협력하고 사용 사례별 BigQuery 통합을 구축해 고객이 다양한 외부 데이터를 ServiceNow 인스턴스에 상주하는 데이터와 합산할 수 있도록 지원할 계획입니다. 이 통합은 고객이 IT 서비스 관리 데이터, 고객 서비스 기록 또는 기타 주문 관리 데이터와 같이 ServiceNow 인스턴스에 상주하는 데이터에서 더 많은 분석 정보를 얻는 한편 BigQuery로 데이터를 옮겨 Google의 분석 기능을 사용해 다양한 소스의 데이터를 처리하고 분석할 수 있게 해줍니다.
Sisu Data는 Google Cloud의 비즈니스 인텔리전스 솔루션과 협력하여 기존 접근법에 비해 80% 더 빠른 근본 원인 찾기를 자동화해서 더 많은 고객을 위한 증강된 분석을 제공합니다.
Reltio의 BigQuery 통합은 마스터 데이터 관리 기능으로 데이터를 실시간으로 통합, 정리 및 보강하여 고객 환경을 개선하고 Vertex AI를 통해 지능적인 작업을 실현할 수 있습니다.
Striim의 BigQuery를 위한 관리형 서비스는 분석 정보 도출 시간을 줄여 고객이 자동 스키마 생성, 조정된 초기 로드 및 1초 미만의 지연을 위한 기본 제공 병렬 처리로 다양한 운영 소스의 데이터를 복제할 수 있게 해줍니다. 분석 정보를 더 빠르게 도출하면 조직 전반의 의사 결정 속도를 높일 수 있습니다.

혁신적인 최신 기술을 사용하여 데이터를 가치로 전환하는 방법을 자세히 알아보려면 Google Cloud Next ‘22 방송을 시청하거나 온디맨드 세션에 참여하세요.

게시 위치