BigQuery 메타스토어 소개

BigQuery 메타스토어는 Google Cloud의 데이터 분석 제품을 위한 완전 관리형 메타스토어입니다. 여러 소스의 메타데이터를 관리하기 위한 단일 정보 소스를 제공합니다. 메타스토어는 BigQuery 및 다양한 개방형 데이터 처리 엔진에서 액세스할 수 있으므로 데이터 분석가 및 엔지니어에게 유용한 도구입니다.

예를 들어 Apache Spark와 같은 오픈소스 쿼리 엔진에서 BigQuery 메타스토어를 카탈로그로 사용할 수 있습니다. Spark를 사용하여 만든 테이블은 메타데이터를 동기화하지 않고도 BigQuery를 사용하여 쿼리할 수 있습니다.

이점

BigQuery 메타스토어는 데이터 관리 및 분석에 여러 가지 이점을 제공합니다.

  • 서버리스 아키텍처. BigQuery 메타스토어는 서버리스 아키텍처를 제공하므로 서버 또는 클러스터 관리가 필요하지 않습니다. 이렇게 하면 운영 오버헤드를 줄이고, 배포를 간소화하며, 수요에 따라 자동 확장이 가능합니다.
  • 엔진 상호 운용성 BigQuery 메타스토어는 BigQuery에서 직접 테이블에 액세스할 수 있도록 지원하므로 추가 구성 없이 BigQuery에 저장된 개방형 형식 테이블을 쿼리할 수 있습니다. 예를 들어 Spark에서 테이블을 만든 후 BigQuery에서 직접 쿼리할 수 있습니다. 이렇게 하면 분석 워크플로를 간소화하고 복잡한 데이터 이동 또는 ETL 프로세스의 필요성을 줄일 수 있습니다.
  • 통합된 사용자 환경 BigQuery metastore는 BigQuery와 BigQuery Studio 전반에서 통합된 워크플로를 제공합니다. 이렇게 하면 BigQuery 및 BigQuery 스튜디오에서 Spark를 직접 사용할 수 있습니다. 예를 들면 다음과 같습니다.

    먼저 BigQuery 스튜디오 노트북을 사용하여 Spark에서 테이블을 만들 수 있습니다.

    BQMS에서 테이블 만들기

    그런 다음Google Cloud 콘솔에서 동일한 Spark 테이블을 쿼리할 수 있습니다.

    BQMS에서 테이블 쿼리

지원되는 통합

Google Cloud 콘솔, gcloud CLI 또는 BigQuery REST API와 함께 BigQuery 메타스토어를 사용할 수 있습니다.

BigQuery 메타스토어는 다음 통합을 지원합니다.

BigLake Metastore와의 차이점

BigQuery 메타스토어는 Google Cloud에서 권장되는 메타스토어입니다.

BigQuery 메타스토어와 BigLake 메타스토어의 핵심적인 차이점은 다음과 같습니다.

  • BigLake Metastore는 BigQuery와는 별개인 독립형 메타스토어 서비스로, Iceberg 테이블만 지원합니다. 리소스 모델은 세 부분으로 구성됩니다. BigLake의 테이블은 BigQuery에서 자동으로 검색되지 않습니다.

  • BigQuery 메타스토어는 BigQuery 카탈로그를 기반으로 하며 BigQuery와 직접 통합됩니다. BigQuery 메타스토어의 테이블은 여러 오픈소스 엔진에서 변경할 수 있으며 동일한 테이블을 BigQuery에서 쿼리할 수 있습니다. BigQuery를 사용하면 메타데이터의 정보 소스가 하나만 있습니다. 예를 들어 BigQuery 메타스토어는 Spark와의 직접 통합을 지원합니다. 이 통합은 더 원활한 워크플로를 제공하고 메타데이터를 저장하고 작업을 실행할 때 중복을 줄이는 데 도움이 됩니다.

다음 단계