Data Catalog は、いくつかの Google Cloud データソースや、多くの一般的なオンプレミスのデータソースから、最新のメタデータを取り込んで保持できます。
メタデータを取り込むと、Data Catalog は次の処理を行います。
- 検索で既存のメタデータを検出できるようになります。詳細については、検索方法をご覧ください。
- 組織のメンバーがタグを使用して追加のビジネス メタデータでデータを拡充できるようになります。詳細については、タグとタグ テンプレートをご覧ください。
Google Cloud ソースとの統合は自動で行われますが、組織で使用するカスタム オンプレミス ソースとの統合には、次の方法があります。
- コミュニティから提供された対応コネクタをセットアップして実行します。
- または、カスタム エントリ用の Data Catalog API を活用します。
始める前に
Data Catalog をすでに使用している場合は、Data Catalog API が有効になっているプロジェクトがすでに存在している必要があります。Data Catalog で複数のプロジェクトを使用する場合の推奨方法については、複数のプロジェクトでタグ テンプレートを使用するをご覧ください。
Data Catalog を初めて操作する場合は、次のことを行います。
- Google Cloud アカウントにログインします。Google Cloud を初めて使用する場合は、アカウントを作成して、実際のシナリオでの Google プロダクトのパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。
-
Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。
-
Cloud プロジェクトに対して課金が有効になっていることを確認します。詳しくは、プロジェクトで課金が有効になっているかどうかを確認する方法をご覧ください。
-
Data Catalog API を有効にします。
-
Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。
-
Cloud プロジェクトに対して課金が有効になっていることを確認します。詳しくは、プロジェクトで課金が有効になっているかどうかを確認する方法をご覧ください。
-
Data Catalog API を有効にします。
Google Cloud データソースを統合する
BigQuery と Pub/Sub
組織ですでに BigQuery と Pub/Sub を使用している場合は、権限に応じて、直ちにそれらのソースからメタデータを検索できます。対応するエントリが検索結果で表示されない場合は、Identity and Access Management で、自分やプロジェクト ユーザーに必要な IAM ロールを確認してください。
Dataproc Metastore(プレビュー)
Dataproc Metastore と統合するには、Data Catalog 同期を有効にするの説明に従って、新しいサービスまたは既存のサービスに対する Data Catalog への同期を有効にします。
Cloud Data Loss Prevention(Cloud DLP)
さらに、Data Catalog は Cloud Data Loss Prevention と統合されているため、特定の Google Cloud リソースに含まれる機密データをスキャンし、タグの形式で Data Catalog に結果を送信できます。
詳細については、Cloud DLP スキャンの結果を Data Catalog に送信するをご覧ください。
オンプレミスのデータソースを統合する
オンプレミス データソースを統合するには、コミュニティから提供された Python 対応コネクタを使用します。
- 次の表でデータソースを探してください。
- GitHub リポジトリを開きます。
- readme ファイルの設定手順に従ってください。
カテゴリ | コンポーネント | 説明 | リポジトリ |
---|---|---|---|
RDBMS | mysql-connector | MySQL データソースのサンプルコード。 | google-datacatalog-mysql-connector |
postgresql-connector | PostgreSQL データソースのサンプルコード。 | google-datacatalog-postgresql-connector | |
sqlserver-connector | SQLServer データソースのサンプルコード。 | google-datacatalog-sqlserver-connector | |
redshift-connector | Redshift データソースのサンプルコード。 | google-datacatalog-redshift-connector | |
oracle-connector | Oracle データソースのサンプルコード。 | google-datacatalog-oracle-connector | |
teradata-connector | Teradata データソースのサンプルコード。 | google-datacatalog-teradata-connector | |
vertica-connector | Vertica データソースのサンプルコード。 | google-datacatalog-vertica-connector | |
greenplum-connector | Greenplum データソースのサンプルコード。 | google-datacatalog-greenplum-connector | |
rdbmscsv-connector | 一般的な RDBMS CSV 取り込みのサンプルコード。 | google-datacatalog-rdbmscsv-connector | |
saphana-connector | Sap Hana データソースのサンプルコード。 | google-datacatalog-saphana-connector | |
BI | looker-connector | Looker データソースのサンプルコード。 | google-datacatalog-looker-connector |
qlik-connector | Qlik Sense データソースのサンプルコード。 | google-datacatalog-qlik-connector | |
tableau-connector | Tableau データソースのサンプルコード。 | google-datacatalog-tableau-connector | |
Hive | hive-connector | Hive データソースのサンプルコード。 | google-datacatalog-hive-connector |
apache-atlas-connector | Apache Atlas データソースのサンプルコード。 | google-datacatalog-apache-atlas-connector |
サポートされていないデータソースを統合する
データソースのコネクタが見つからなくても、エントリ グループとカスタム エントリを作成して手動で統合できます。その方法は次のとおりです。
- C#、Go、Java、Node.js、PHP、Python、Ruby のいずれかの言語で、Data Catalog クライアント ライブラリのいずれかを使用します。
- または、Data Catalog API を手動で利用します。
ソースを統合するには、まずエントリとエントリ グループを学習してから、データソースにカスタム Data Catalog エントリを作成するの手順に従います。
次のステップ
- Identity and Access Management の詳細を確認する。
- 検索方法をご覧ください。
- テーブルへのタグ付けのクイックスタートをご覧ください。