Dataproc Metastore から Data Catalog への同期

Dataproc Metastore サービスと Data Catalog の同期を有効にすると、メタデータの検出と管理を利用できます。有効にすると、データベースとテーブルのメタデータが Dataproc Metastore から Data Catalog に自動的に同期されます。

Data Catalog によって、データベースやテーブルなどのサービス固有のリソースにタグ付けして検索できます。

Data Catalog とは

Data Catalog は、Google Cloud のデータ分析プロダクト ファミリーに含まれる、フルマネージドのスケーラブルなメタデータ管理サービスです。技術とビジネス関連のメタデータの統合ビューとタグ付けメカニズムを備えています。

詳細については、次の Data Catalog 機能ガイドをご覧ください。

権限

Data Catalog は、Dataproc Metastore レベルの権限に従いますDataproc Metastore から Data Catalog に同期されるメタデータについては、Dataproc Metastore で指定された IAM 権限は、Data Catalog のメタデータにも適用されます。

Data Catalog はアクセス時に各メタストア データベース / テーブルの権限をチェックし、Dataproc Metastore サービスにアクセスできるユーザーのみが、同期されたサービス リソースを Data Catalog のエントリとして表示できるようにします。

Data Catalog の同期を有効にする

Data Catalog の同期を有効にすると、Data Catalog は Dataproc Metastore サービスのライブでの完全な同期を実行します。

{data_catalog_name_short}} は次のメタデータを同期します。

  • インスタンス
  • データベース(名前と説明を含む)
  • 名前、説明、スキーマ(説明付きの列)を含むテーブル
  • データベースのプロパティ
  • テーブルのプロパティ

次の表に、Dataproc Metastore と Data Catalog の間のリソース マッピングを示しています。

Dataproc Metastore リソース Data Catalog リソース
インスタンス エントリ グループ
エントリ
データベース エントリ
テーブル エントリ
スキーマ

Google Cloud Console を使用して Dataproc Metastore サービスを作成または更新する際に、Dataproc Metastore サービスから Data Catalog への同期を有効にできます。 同じ方法で同期を無効にできます。

Data Catalog の同期を有効にしたサービスを作成する

Data Catalog の同期はデフォルトで無効になっています。

新しいサービスの Data Catalog の同期を有効にするには次のようにします。

Console

  1. Cloud Console で、Dataproc Metastore ページを開きます。

    Cloud Console で Dataproc Metastore を開く

  2. Dataproc Metastore ページの上部にある [作成] ボタンをクリックします。[Create service] ページが開きます。

  3. 必要に応じてサービスを構成します。

  4. [メタデータの統合] で [Data Catalog の同期] を有効にして、Dataproc Metastore サービスを Data Catalog に同期します。

  5. [送信] をクリックします。

既存のサービスの Data Catalog の同期を有効または無効にする

既存のサービスの Data Catalog の同期を有効または無効にするには:

Console

  1. Cloud Console で、Dataproc Metastore ページを開きます。

    Cloud Console で Dataproc Metastore を開く

  2. [Dataproc Metastore] ページで、更新するサービスのサービス名をクリックします。対象サービスの [サービスの詳細] ページが開きます。

  3. [CONFIGURATION] タブで [編集] ボタンをクリックします。[Edit service] ページが開きます。

  4. [メタデータの統合] セクションで、[Data Catalog の同期] の [有効にする] をクリックして、オンまたはオフに切り替えます。

  5. [送信] ボタンをクリックしてサービスを更新します。

Data Catalog での検索

Data Catalog を使用して、同期された Dataproc Metastore のメタデータを検索できます。

Dataproc Metastore のカスタム検索オプションは存在しませんが、異なる Dataproc Metastore リソースを検索するには複数の方法があります。

  • Dataproc Metastore インスタンス
    • 表示名を使用する
    • 標準 Data Catalog の手法 - タグを使用するなど
  • データベース
    • 表示名を使用する
    • 説明文を使用する
    • Dataproc Metastore インスタンスを使用する
    • 標準 Data Catalog の手法 - タグを使用するなど
  • 表:
    • 表示名を使用する
    • 説明文を使用する
    • 列名を使用する
    • 列の説明文を使用する
    • データベースを使用する
    • Dataproc Metastore インスタンスを使用する
    • 標準 Data Catalog の手法 - タグを使用するなど

よくある質問

  • Data Catalog でメタデータ同期の完全性と正確性を確認する前に 6 時間待機します。

  • Dataproc Metastore と Data Catalog の同期に問題があると思われる場合は、フィルタ textPayload=~".*Publish.*" を使用して Dataproc Metastore Cloud Logging のメタデータ公開ログを確認します。ログへのアクセスの詳細については、Logging のジョブログへのアクセスをご覧ください。

  • Data Catalog の同期を無効にすると、Dataproc Metastore から Data Catalog にメタデータが同期されなくなります。ただし、すでに同期されているメタデータは Data Catalog に残ります。

  • Dataproc Metastore インスタンスを削除すると、対応するインスタンス、データベース、テーブルのエントリも Data Catalog から削除されます。

  • Data Catalog は標準の Google Cloud 保持期間に準拠しています。

  • Dataproc Metastore から Data Catalog への同期を有効にするための追加費用は発生しません。

次のステップ