データソースを Data Catalog と統合する

Data Catalog は、いくつかの Google Cloud データソースや、多くの一般的なオンプレミスのデータソースから、最新のメタデータを取り込んで保持できます。

メタデータを取り込むと、Data Catalog は次の処理を行います。

  • 検索で既存のメタデータを検出できるようになります。詳細については、検索方法をご覧ください。
  • 組織のメンバーがタグを使用して追加のビジネス メタデータでデータを拡充できるようになります。詳細については、タグとタグ テンプレートをご覧ください。

Google Cloud ソースとの統合は自動で行われますが、組織で使用するカスタム オンプレミス ソースとの統合には、次の方法があります。

始める前に

Data Catalog をすでに使用している場合は、Data Catalog API が有効になっているプロジェクトがすでに存在している必要があります。Data Catalog で複数のプロジェクトを使用する場合の推奨方法については、複数のプロジェクトでタグ テンプレートを使用するをご覧ください。

Data Catalog を初めて操作する場合は、次のことを行います。

  1. Google Cloud アカウントにログインします。Google Cloud を初めて使用する場合は、アカウントを作成して、実際のシナリオでの Google プロダクトのパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。
  2. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  3. Cloud プロジェクトに対して課金が有効になっていることを確認します。詳しくは、プロジェクトで課金が有効になっているかどうかを確認する方法をご覧ください。

  4. Data Catalog API を有効にします。

    API を有効にする

  5. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  6. Cloud プロジェクトに対して課金が有効になっていることを確認します。詳しくは、プロジェクトで課金が有効になっているかどうかを確認する方法をご覧ください。

  7. Data Catalog API を有効にします。

    API を有効にする

Google Cloud データソースを統合する

BigQuery と Pub/Sub

組織ですでに BigQuery と Pub/Sub を使用している場合は、権限に応じて、直ちにそれらのソースからメタデータを検索できます。対応するエントリが検索結果で表示されない場合は、Identity and Access Management で、自分やプロジェクト ユーザーに必要な IAM ロールを確認してください。

Dataproc Metastore(プレビュー)

Dataproc Metastore と統合するには、Data Catalog 同期を有効にするの説明に従って、新しいサービスまたは既存のサービスに対する Data Catalog への同期を有効にします。

Cloud Data Loss Prevention(Cloud DLP)

さらに、Data Catalog は Cloud Data Loss Prevention と統合されているため、特定の Google Cloud リソースに含まれる機密データをスキャンし、タグの形式で Data Catalog に結果を送信できます。

詳細については、Cloud DLP スキャンの結果を Data Catalog に送信するをご覧ください。

オンプレミスのデータソースを統合する

オンプレミス データソースを統合するには、コミュニティから提供された Python 対応コネクタを使用します。

  1. 次の表でデータソースを探してください。
  2. GitHub リポジトリを開きます。
  3. readme ファイルの設定手順に従ってください。

カテゴリ コンポーネント 説明 リポジトリ
RDBMS mysql-connector MySQL データソースのサンプルコード。 google-datacatalog-mysql-connector
postgresql-connector PostgreSQL データソースのサンプルコード。 google-datacatalog-postgresql-connector
sqlserver-connector SQLServer データソースのサンプルコード。 google-datacatalog-sqlserver-connector
redshift-connector Redshift データソースのサンプルコード。 google-datacatalog-redshift-connector
oracle-connector Oracle データソースのサンプルコード。 google-datacatalog-oracle-connector
teradata-connector Teradata データソースのサンプルコード。 google-datacatalog-teradata-connector
vertica-connector Vertica データソースのサンプルコード。 google-datacatalog-vertica-connector
greenplum-connector Greenplum データソースのサンプルコード。 google-datacatalog-greenplum-connector
rdbmscsv-connector 一般的な RDBMS CSV 取り込みのサンプルコード。 google-datacatalog-rdbmscsv-connector
saphana-connector Sap Hana データソースのサンプルコード。 google-datacatalog-saphana-connector
BI looker-connector Looker データソースのサンプルコード。 google-datacatalog-looker-connector
qlik-connector Qlik Sense データソースのサンプルコード。 google-datacatalog-qlik-connector
tableau-connector Tableau データソースのサンプルコード。 google-datacatalog-tableau-connector
Hive hive-connector Hive データソースのサンプルコード。 google-datacatalog-hive-connector
apache-atlas-connector Apache Atlas データソースのサンプルコード。 google-datacatalog-apache-atlas-connector

サポートされていないデータソースを統合する

データソースのコネクタが見つからなくても、エントリ グループとカスタム エントリを作成して手動で統合できます。その方法は次のとおりです。

ソースを統合するには、まずエントリとエントリ グループを学習してから、データソースにカスタム Data Catalog エントリを作成するの手順に従います。

次のステップ