データメッシュを構築する


Dataplex を使用してデータメッシュ アーキテクチャを構築できます。このガイドでは、レイク、ゾーン、アセットなどの Dataplex 機能を使用してデータメッシュを構築する方法について説明します。

データメッシュは、ドメイン データオーナー間でデータの所有権を分散させる組織的、技術的なアプローチです。これらのオーナーは標準的な方法でデータをプロダクトとして提供し、組織の異なる部分間の通信を促進し、データセットを異なるロケーションに分散します。データメッシュ アーキテクチャの詳細を確認する。

目標

このガイドに従って、Dataplex エンティティを使用してデータメッシュ アーキテクチャを構築します。

  • データメッシュのドメインとして機能する Dataplex レイクを作成します。
  • 各ドメイン内の個々のチームを表すレイクにゾーンを追加し、マネージド データ契約を提供します。
  • Cloud Storage に保存されているデータにマッピングするアセットをアタッチします。

費用

このドキュメントでは、Google Cloud の次の課金対象のコンポーネントを使用します。

料金計算ツールを使うと、予想使用量に基づいて費用の見積もりを生成できます。 新しい Google Cloud ユーザーは無料トライアルをご利用いただける場合があります。

このドキュメントに記載されているタスクの完了後、作成したリソースを削除すると、それ以上の請求は発生しません。詳細については、クリーンアップをご覧ください。

始める前に

  1. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  2. Google Cloud プロジェクトで課金が有効になっていることを確認します

  3. Dataplex API を有効にします。

    Dataplex API を有効にする

  4. Dataproc Metastore サービスを作成します

Cloud Storage バケットを作成する

データメッシュのデータアセットを格納するには、Cloud Storage バケットが必要です。

手順に沿って Cloud Storage バケットを作成します。そして次のようにします。

  • バケットに名前を付けます。
  • [ロケーション タイプ] で [リージョン] を選択し、プルダウン メニューから [us-central1(アイオワ)] を選択します。

ドメインを作成する

  1. Google Cloud コンソールで [Dataplex] ページに移動します。

    Dataplex に移動

  2. [管理] ビューに移動します。

  3. [作成] をクリックして、データメッシュとして機能する新しいレイクを作成します。

  4. [Deployment name] フィールドに「My data mesh」と入力します。

  5. [リージョン] で us-central1 を選択します。

  6. 以前に作成し、関連するメタストアとして構成した Dataproc Metastore サービスを選択します。

  7. [作成] をクリックします。

レイクにゾーンを作成する

Dataplex レイクを作成してドメインを作成した後、ゾーンを使用してマネージド データ契約とドメイン内の個々のチームをホストできます。ゾーンには次の 2 種類があります。

  • 未加工ゾーンは通常、外部ソースからの任意の形式でデータを Cloud Storage に保存するために使用されます。未加工のゾーンは、使用可能になる前にさらに処理が必要なデータに役立ちます。

  • キュレートされたゾーンは、特定のファイル形式に準拠し、Hive 互換のディレクトリ レイアウトで編成される必要がある Cloud Storage の構造化データ用に使用されます。利用と分析が可能なデータに最適です。

各ドメイン(たとえば、salescustomersproducts)には、少なくとも未加工のゾーンとキュレートされたゾーンが必要です。

追加のゾーンは、チーム間のデータ契約を管理するために使用されます。また、特定のドメイン内のチームの詳細な内訳を表示することもできます。たとえば、商品ドメイン内の在庫管理などです。データオーナーはドメイン内のデータを管理し、アクセスできます。

  1. Google Cloud コンソールの Dataplex で、[管理] ビューに移動します。

  2. ゾーンを追加するレイク(My data mesh)の名前をクリックします。

  3. [ゾーン] タブで、 [ゾーンを追加する] をクリックします。

  4. [Deployment name] フィールドに「My sub domain」と入力します。 Dataplex は、ゾーン用の ID を自動的に生成します。

    注: ゾーン名は BigQuery データセットの名前になります。したがって、同じ Google Cloud プロジェクトでホストされているすべてのゾーンは、たとえ異なるレイク内に存在する場合でも、一意の ID を持つ必要があります。

  5. [タイプ] で [未加工のゾーン] を選択します。

  6. [作成] をクリックします。

ゾーンにアセットをアタッチする

データアセットをゾーンにアタッチします。データを含むストレージ リソースであるデータアセットは、Cloud Storage バケットまたは BigQuery データセットになりえます。これは、データ メッシュ アーキテクチャの作成の最終段階です。

  1. Dataplex の [管理] ビューで、作成したレイク(My data mesh)をクリックします。

  2. [ゾーン] タブで、アセットを追加するゾーン(My sub domain)をクリックします。

  3. [アセット] タブで、 [アセットを追加] をクリックします。

  4. [アセットを追加] をクリックします。

  5. [Type] で [Cloud Storage bucket] を選択します。

  6. [Deployment name] フィールドに「Data mesh asset」と入力します。 Dataplex がアセット ID を自動的に生成します。

  7. [Bucket] フィールドで [参照] をクリックします。

    1. リストからバケットを選択します。
    2. [Select] をクリックします。
  8. [完了]、[続行] の順にクリックします。

  9. [続行] をクリックして、デフォルトの [詳細設定] を受け入れます。

  10. [送信] をクリックして、Cloud Storage バケットをデータアセットとしてゾーンに追加します。

クリーンアップ

このチュートリアルで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、リソースを含むプロジェクトを削除するか、プロジェクトを維持して個々のリソースを削除します。

プロジェクトの削除

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

データメッシュ アーキテクチャを削除する

  1. Google Cloud コンソールの Dataplex で、[管理] ビューに移動します。

  2. 削除するレイクで、[ さらに表示] をクリックし、[削除] をクリックします。

  3. delete」と入力して操作を確認し、[レイクを削除] をクリックします。

次のステップ