データソースを Data Catalog と統合する

Data Catalog は、いくつかの Google Cloud データソースや、多くの一般的なオンプレミスのデータソースから、最新のメタデータをインポートして保持できます。

メタデータを取り込むと、Data Catalog は次の処理を行います。

  • 検索で既存のメタデータを検出できるようになります。詳細については、検索方法をご覧ください。
  • 組織のメンバーがタグを使用して追加のビジネス メタデータでデータを拡充できるようになります。詳細については、タグとタグ テンプレートをご覧ください。

Google Cloud ソースとの統合は自動で行われますが、組織で使用するカスタム オンプレミス ソースとの統合には、次のいずれかを行います。

始める前に

Data Catalog をすでに使用している場合は、Data Catalog API が有効になっているプロジェクトがすでに存在している必要があります。Data Catalog で複数のプロジェクトを使用する場合の推奨方法については、複数のプロジェクトでタグ テンプレートを使用するをご覧ください。

Data Catalog を初めて操作する場合は、次のことを行います。

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Data Catalog API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Data Catalog API.

    Enable the API

Google Cloud データソースを統合する

Analytics Hub

Analytics Hub のリスティングに登録すると、リンクされたデータセットがプロジェクトに作成されます。Data Catalog は、リンクされたデータセットとそれに含まれるすべてのテーブルのメタデータ エントリを自動的に生成します。リンクされたデータセットや Analytics Hub のその他の機能について詳しくは、Analytics Hub の概要をご覧ください。

Data Catalog 検索では、リンクされたデータセットは標準の BigQuery データセットとして表示されますが、type=dataset.linked 述語を使用してフィルタリングできます。詳細については、データアセットを検索するをご覧ください。

BigQuery と Pub/Sub

組織ですでに BigQuery と Pub/Sub を使用している場合は、権限に応じて、直ちにそれらのソースからメタデータを検索できます。対応するエントリが検索結果で表示されない場合は、Identity and Access Management で、自分やプロジェクト ユーザーに必要な IAM ロールを確認してください。

Bigtable

Bigtable にデータを保存すると、次の Bigtable リソースのメタデータが自動的に Data Catalog に同期されます。

  • インスタンス
  • テーブル(列ファミリーの詳細を含む)

データの検出とタグ付けに Data Catalog を使用する方法については、Bigtable ドキュメントの Data Catalog を使用してデータアセットを管理するをご覧ください。

Cloud SQL

Cloud SQL は Data Catalog と統合されませんが、Dataplex Catalog と統合されます。詳細については、データソースを Dataplex Catalog と統合するをご覧ください。

Dataproc Metastore

Dataproc Metastore と統合するには、Data Catalog 同期を有効にするの説明に従って、新しいサービスまたは既存のサービスに対する Data Catalog への同期を有効にします。

Sensitive Data Protection

さらに、Data Catalog はセンシティブ データの保護と統合されているため、特定の Google Cloud リソースに含まれるセンシティブ データをスキャンし、タグの形式で Data Catalog に結果を送信できます。

詳細については、機密データの保護のスキャン結果を Data Catalog に送信するをご覧ください。

Spanner

Spanner にデータを保存すると、次の Spanner リソースのメタデータが Data Catalog に同期されます。

  • インスタンス
  • データベース
  • 列スキーマを含むテーブルとビュー

データの検出とタグ付けに Data Catalog を使用する方法については、Data Catalog を使用してデータアセットを管理するをご覧ください。

Vertex AI

Vertex AI は、次のリソースのメタデータを Data Catalog に同期します。

オンプレミスのデータソースを統合する

オンプレミス データソースを統合するには、コミュニティから提供された Python 対応コネクタを使用します。

  1. 次の表でデータソースを探してください。
  2. GitHub リポジトリを開きます。
  3. readme ファイルの設定手順に従ってください。
カテゴリ コンポーネント 説明 リポジトリ
RDBMS mysql-connector MySQL データソースのサンプルコード。 google-datacatalog-mysql-connector
postgresql-connector PostgreSQL データソースのサンプルコード。 google-datacatalog-postgresql-connector
sqlserver-connector SQLServer データソースのサンプルコード。 google-datacatalog-sqlserver-connector
redshift-connector Redshift データソースのサンプルコード。 google-datacatalog-redshift-connector
oracle-connector Oracle データソースのサンプルコード。 google-datacatalog-oracle-connector
teradata-connector Teradata データソースのサンプルコード。 google-datacatalog-teradata-connector
vertica-connector Vertica データソースのサンプルコード。 google-datacatalog-vertica-connector
greenplum-connector Greenplum データソースのサンプルコード。 google-datacatalog-greenplum-connector
rdbmscsv-connector 一般的な RDBMS CSV 取り込みのサンプルコード。 google-datacatalog-rdbmscsv-connector
saphana-connector Sap Hana データソースのサンプルコード。 google-datacatalog-saphana-connector
BI looker-connector Looker データソースのサンプルコード。 google-datacatalog-looker-connector
qlik-connector Qlik Sense データソースのサンプルコード。 google-datacatalog-qlik-connector
tableau-connector Tableau データソースのサンプルコード。 google-datacatalog-tableau-connector
Hive hive-connector Hive データソースのサンプルコード。 google-datacatalog-hive-connector
apache-atlas-connector Apache Atlas データソースのサンプルコード。 google-datacatalog-apache-atlas-connector

サポートされていないデータソースを統合する

データソースのコネクタが見つからなくても、エントリ グループとカスタム エントリを作成して手動で統合できます。その方法は次のとおりです。

ソースを統合するには、まずエントリとエントリ グループを学習してから、データソースにカスタム Data Catalog エントリを作成するの手順に従います。

次のステップ