대규모 분석을 위한 지능형 데이터 패브릭 Dataplex 소개
Irina Farooq
Sr. Director, Product Management
Prajakta Damle
Sr. Product Manager, Google Cloud
* 본 아티클의 원문은 2021년 5월 26일 Google Cloud 블로그(영문)에 게재되었습니다.
기업에서는 계속 늘어나는 조직 내 많은 인력과 도구에 제공하기 위하여 여러 사일로에 있는 고품질 데이터를 손쉽게 검색하고 분석을 위해 액세스할 수 있도록 만들고자 노력하고 있습니다. 이때 사일로 간에 데이터를 이동 및 중복시켜 다양한 분석 사용 사례를 지원하는 방안과 데이터를 분산된 채로 두고 의사결정의 민첩성 저하를 감내하는 방안 중에서 선택해야 하는 경우가 많습니다.
오늘, 데이터 레이크, 데이터 웨어하우스, 데이터 마트의 데이터를 중앙에서 관리, 모니터링, 제어하고 이 데이터를 다양한 분석 및 데이터 과학 도구에 안전하게 제공할 수 있는 지능형 데이터 패브릭인 Dataplex를 발표하게 되어 기쁩니다.
Dataplex는 Google Cloud 및 오픈소스 도구의 정수를 한데 모은 통합 분석 환경을 제공하여 사용자가 대규모 데이터를 빠르게 선별, 보호, 통합, 분석할 수 있습니다. Google 인공지능(AI) 및 머신러닝(ML) 기능을 사용한 데이터 인텔리전스가 기본 제공되고 유연한 소비 모델이 지원되어 인프라 관리에 쓰는 시간을 줄이는 동시에 비즈니스 성과를 얻는 데 더 많은 시간을 투자할 수 있습니다.
Dataplex는 다음과 같은 이점을 제공합니다.
- 적정한 가격 대비 성능으로 원하는 위치에 데이터를 저장할 수 있는 선택의 자유를 누리고 Google Cloud와 Apache Spark 및 Presto 같은 오픈소스 분석 기술 등 작업에 가장 적합한 분석 도구를 선택할 수 있습니다.
- 데이터에 일관된 제어를 적용하여 통합 보안 및 거버넌스를 보장할 수 있습니다.
- 동급 최고의 Google AI/ML 기능을 사용하는 기본 제공 데이터 인텔리전스를 활용해 데이터 관리 수작업의 대부분을 자동화하고 고품질 데이터를 이용할 수 있습니다.
Equifax, Loblaw, ANZ와 같은 초기 고객은 Dataplex를 사용해 데이터 관리 복잡성을 해소할 수 있다는 점에서 만족을 표하고 있습니다.
“Dataplex는 Equifax의 모든 분석 데이터 전반에 정책 관리 및 거버넌스를 위한 통합 데이터 패브릭과 단일 인터페이스를 제공하여 당사의 기존 분석 워크플로를 크게 간소화할 전망입니다. 기본 제공되는 데이터 검색 및 데이터 품질 기능 덕분에 데이터 과학자와 분석가가 항상 신뢰할 수 있는 고품질 데이터를 이용할 수 있습니다. Dataplex는 Equifax의 엔터프라이즈 데이터 전략에 부합하며 이와 관련해 Google Cloud와 협력하게 되어 매우 기쁩니다.”
-쿠마르 메논, Equifax 데이터 패브릭 및 의사결정 과학 기술 부문 SVP
“Loblaw는 캐나다의 선도적인 식품 및 제약 업체로, Dataplex의 얼리 어답터가 된 것을 기쁘게 생각합니다. Dataplex는 한곳에서 엔드 투 엔드 데이터 관리 및 거버넌스를 제공하기 때문에 상당한 이점을 누릴 수 있습니다. 특히 Dataplex를 사용해 데이터 파이프라인에서 이상치를 가능한 한 신속하게 감지하여 플랫폼 복원력과 데이터 품질을 개선하기를 바랍니다.”
-엘튼 마틴스, Loblaw 데이터 통계 및 분석 부문 전무이사
“ANZ에서는 다양한 데이터 애셋을 통합하고 고객에게 유익한 일관된 데이터 생태계를 구축하는 등 대대적인 데이터 변환을 진행하고 있습니다. Dataplex의 비전과 기능은 모든 분석 및 AI/ML 사용 사례에 맞는 통합 데이터 패브릭을 구축한다는 ANZ의 현재 데이터 전략에 잘 부합합니다. Dataplex를 통해 GCP와 파트너십을 맺고 비공개 미리보기 버전의 제품을 테스트할 수 있게 되어 기쁩니다.”
-아쉬시 샤카르, ANZ 엔터프라이즈 분석 및 응용 AI 기술 부문 책임자
Dataplex는 분산 데이터를 위해 설계되었습니다. 우선 Google Cloud Storage 및 BigQuery에 저장된 데이터를 대상으로 하며 기타 데이터 소스에 대한 지원도 곧 제공될 예정입니다. 워크플로 기반 환경을 제공하여 개방형 데이터 플랫폼을 구축하고 최종 사용자가 손쉽게 데이터에 액세스할 수 있도록 돕는 한편 정책과 권장사항을 일관되게 적용할 수 있도록 지원합니다.
데이터 정리 및 선별
Dataplex의 주요 이점 중 하나는 데이터 이동이나 중복 없이 비즈니스에 맞게 데이터를 정리하고 관리할 수 있다는 것입니다. 이를 위해 Google Cloud에서는 레이크, 데이터 영역, 애셋과 같은 논리적 구조를 제공합니다. 이러한 구조를 통해 사용자는 기본 스토리지 시스템을 추상화하고 데이터 액세스, 보안, 수명 주기 관리 등에 대한 정책을 설정하기 위한 기반을 마련할 수 있습니다.
예를 들어 조직 내에서 부서별 레이크(소매, 영업, 재무 등)를 생성하고 데이터 준비 및 사용에 매핑하는 데이터 영역(시작, 원시, curated_data_analytics, curated_data_science 등)을 만들 수 있습니다.
레이크와 영역을 설정하면 해당 영역에 데이터를 애셋으로 연결할 수 있습니다. 동일 영역에 다양한 스토리지 유형(예: GCS 버킷 및 BigQuery 데이터 세트)의 데이터를 추가할 수 있습니다. 동일 영역에 여러 프로젝트의 데이터를 연결할 수도 있습니다.
Dataflow, Data Fusion, Dataproc, Pub/Sub 등의 서비스를 포함해 원하는 도구를 사용하여 레이크 및 영역에 데이터를 수집하거나 파트너 제품 중 하나를 선택할 수 있습니다. Dataplex는 일반적인 데이터 관리 작업을 클릭 한 번으로 처리할 수 있는 템플릿을 기본적으로 제공합니다.
데이터 보안
Dataplex에서는 정책을 정의해 데이터의 실제 위치에 상관없이 일관된 정책을 시행할 수 있습니다. 데이터 소유자는 데이터가 저장된 위치를 고려하지 않고도 비즈니스 니즈에 따라 특정 데이터 도메인의 정책을 쉽게 설정할 수 있으며 데이터 관리자는 데이터 거버넌스 정책 및 권한에 대한 전역적인 가시성을 얻을 수 있습니다.
전체 레이크, 특정 영역 또는 단일 애셋에 보안 및 거버넌스 정책을 적용할 수 있습니다. Dataplex는 정책을 기본 스토리지에 매핑하며 권한을 스토리지 레이어에 푸시하여 엔드 투 엔드 보안 데이터 액세스를 제공합니다. 또한 동일한 액세스 정책 집합을 사용해 데이터는 물론 노트북, 스크립트, 모델 같은 관련 아티팩트도 보호할 수 있습니다.
분석 및 데이터 과학에 고품질 데이터 제공
Dataplex의 가장 큰 차별화 요소는 동급 최고의 Google AI/ML 기술을 사용하는 데이터 인텔리전스 기능입니다. 관리할 데이터를 지정하면 Dataplex에서 기본 제공되는 데이터 품질 검사를 통해 구조화된 데이터와 구조화되지 않은 데이터 모두의 메타데이터를 자동으로 수집합니다. 모든 메타데이터는 통합 Metastore에 자동으로 등록되어 검색 및 탐색 시에 제공됩니다. 또한 BigQuery, Dataproc Metastore, Data Catalog에도 게시되어 도구 전체에서 일관된 데이터 컨텍스트 및 액세스를 똑같이 사용할 수 있습니다.
예를 들어 Google Cloud Storage 버킷에 Parquet 파일을 쓰는 경우 Dataplex에서는 이 파일의 메타데이터를 자동으로 추출하여, Hive 스타일 파티션을 포함한 테이블 형식 스키마를 감지하고, 데이터 품질 검사를 실행한 후, 논리적 데이터 영역에서 정의된 일관된 동일한 보안 및 액세스 정책에 따라 이 데이터를 BigQuery에서 외부 테이블로 쿼리하거나 오픈소스 또는 파트너 애플리케이션에서 쿼리할 수 있도록 만듭니다.
데이터 과학자와 분석가는 추가 처리 없이 원하는 도구로 품질 기준 및 거버넌스 규정을 충족하는 데이터에 안전하게 액세스할 수 있습니다.
클릭 한 번으로 협동 분석 액세스
Dataplex는 클릭 한 번으로 이용할 수 있는 완전 관리형 분석 환경을 제공하여 Apache Spark 및 BigQuery의 기능을 사용할 수 있으며 이후 다른 엔진도 지원될 예정입니다.
데이터 관리자는 환경 구동에 필요한 인프라를 관리 및 유지보수하는 데 따르는 오버헤드 없이 적절한 비용 및 재무 거버넌스 조치로 환경을 사전에 구성할 수 있는 유연성을 얻게 됩니다. 여러 유형의 워크로드에 맞는 다양한 환경을 쉽게 구성하고 IAM 사용자 인증 정보를 사용해 여러 사용자와 이를 공유할 수 있습니다. Dataplex에서 환경의 프로비저닝, 모니터링, 확장, 종료를 관리해 줍니다.
이제 데이터 과학자, 분석가, 엔지니어에게 노트북과 SQL 워크벤치를 사용해 분석을 실행할 수 있는 턴키 환경이 제공됩니다. 데이터는 물론 노트북 및 스크립트를 검색하고, 작업을 저장하여 다른 사용자와 공유하고, 반복되는 워크로드의 노트북 또는 스크립트를 예약할 수 있습니다. 이 모든 작업을 Dataplex 내에서 동일한 통합 환경을 사용해 수행할 수 있습니다.
업계 선두업체와 함께 개방형 플랫폼 구축
Google Cloud는 Accenture, Collibra, Confluent, Informatica, HCL, Starburst, NVIDIA, Trifacta 등의 업계 선두업체와 협력하여 대규모 분석을 지원하는 개방형 플랫폼을 구축하고 있습니다. Google Cloud 파트너들은 Dataplex가 제공하는 기능에 큰 기대를 걸고 있습니다.
“Collibra는 Dataplex와 협력하여 분산된 데이터를 일관되게 제어하는 데이터 거버넌스 및 데이터 품질을 제공하게 된 것을 기쁘게 생각합니다. Collibra의 멀티 클라우드 및 하이브리드 솔루션을 Dataplex와 함께 사용하면 기업이 단일 통합 뷰를 사용해 더 많은 고품질 데이터에 대한 액세스를 사용자와 분석에 안전하게 제공할 수 있습니다.”
-짐 쿠쉬맨, Collibra 최고 제품 책임자
"Dataplex는 오픈소스에 대한 Google Cloud의 노력을 기반으로 하며 이벤트 스트리밍을 위한 최고의 오픈소스 플랫폼인 Apache Kafka®를 통합했습니다. Apache Kafka®를 기업에서 사용할 수 있도록 전송 중 데이터를 지원하는 플랫폼인 Confluent는 고객이 분산된 실시간 데이터를 통합하고 엔드 투 엔드 분석을 위한 통합 데이터 패브릭을 구축할 수 있도록 Dataplex와 협력하게 된 것을 기쁘게 생각합니다."
-폴 맥 팔랜드, Confluent VP 겸 고객 솔루션 및 혁신 책임자
"공동의 고객에게 대규모 분석을 위한 통합된 개방형 데이터 패브릭을 제공하고자 노력 중인 가운데 Google Cloud의 Dataplex팀과 협력하게 되어 기쁩니다. Starburst Enterprise를 통해 Dataplex의 데이터 관리 및 데이터 품질 기능을 확장하면 데이터를 이동하지 않고도 분산 데이터를 연결하여 가치 실현 시간을 단축할 수 있습니다."
-저스틴 보그만, Starburst CEO 겸 공동 설립자