データメッシュを構築する


Dataplex を使用してデータメッシュ アーキテクチャを構築できます。このガイドでは、レイク、ゾーン、アセットなどの Dataplex 機能を使用してデータメッシュを構築する方法について説明します。

データメッシュは、ドメイン データオーナー間でデータの所有権を分散させる組織的、技術的なアプローチです。これらのオーナーは標準的な方法でデータをプロダクトとして提供し、組織の異なる部分間の通信を促進し、データセットを異なるロケーションに分散します。データメッシュ アーキテクチャの詳細を確認する。

目標

このガイドに従って、Dataplex エンティティを使用してデータメッシュ アーキテクチャを構築します。

  • データメッシュのドメインとして機能する Dataplex レイクを作成します。
  • 各ドメイン内の個々のチームを表すレイクにゾーンを追加し、マネージド データ契約を提供します。
  • Cloud Storage に保存されているデータにマッピングするアセットをアタッチします。

費用

このドキュメントでは、Google Cloud の次の課金対象のコンポーネントを使用します。

料金計算ツールを使うと、予想使用量に基づいて費用の見積もりを生成できます。 新しい Google Cloud ユーザーは無料トライアルをご利用いただける場合があります。

このドキュメントに記載されているタスクの完了後、作成したリソースを削除すると、それ以上の請求は発生しません。詳細については、クリーンアップをご覧ください。

始める前に

  1. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  2. Google Cloud プロジェクトで課金が有効になっていることを確認します

  3. Dataplex API を有効にします。

    Dataplex API を有効にする

  4. Dataproc Metastore サービスを作成します

Cloud Storage バケットを作成する

データメッシュのデータアセットを格納するには、Cloud Storage バケットが必要です。

手順に沿って Cloud Storage バケットを作成します。そして次のようにします。

  • バケットに名前を付けます。
  • [ロケーション タイプ] で [リージョン] を選択し、プルダウン メニューから [us-central1(アイオワ)] を選択します。

ドメインを作成する

  1. Google Cloud コンソールで [Dataplex] ページに移動します。

    Dataplex に移動

  2. [管理] ビューに移動します。

  3. [作成] をクリックして、データメッシュとして機能する新しいレイクを作成します。

  4. [Deployment name] フィールドに「My data mesh」と入力します。

  5. [リージョン] で us-central1 を選択します。

  6. 以前に作成し、関連するメタストアとして構成した Dataproc Metastore サービスを選択します。

  7. [作成] をクリックします。

レイクにゾーンを作成する

Dataplex レイクを作成してドメインを作成した後、ゾーンを使用してマネージド データ契約とドメイン内の個々のチームをホストできます。ゾーンには次の 2 種類があります。

  • 未加工ゾーンは通常、外部ソースからの任意の形式でデータを Cloud Storage に保存するために使用されます。未加工のゾーンは、使用可能になる前にさらに処理が必要なデータに役立ちます。

  • キュレートされたゾーンは、特定のファイル形式に準拠し、Hive 互換のディレクトリ レイアウトで編成される必要がある Cloud Storage の構造化データ用に使用されます。利用と分析が可能なデータに最適です。

各ドメイン(たとえば、salescustomersproducts)には、少なくとも未加工のゾーンとキュレートされたゾーンが必要です。

追加のゾーンは、チーム間のデータ契約を管理するために使用されます。また、特定のドメイン内のチームの詳細な内訳を表示することもできます。たとえば、商品ドメイン内の在庫管理などです。データオーナーはドメイン内のデータを管理し、アクセスできます。

  1. Google Cloud コンソールの Dataplex で、[管理] ビューに移動します。

  2. ゾーンを追加するレイク(My data mesh)の名前をクリックします。

  3. [ゾーン] タブで、 [ゾーンを追加する] をクリックします。

  4. [Deployment name] フィールドに「My sub domain」と入力します。 Dataplex は、ゾーン用の ID を自動的に生成します。

    注: ゾーン名は BigQuery データセットの名前になります。したがって、同じ Google Cloud プロジェクトでホストされているすべてのゾーンは、たとえ異なるレイク内に存在する場合でも、一意の ID を持つ必要があります。

  5. [タイプ] で [未加工のゾーン] を選択します。

  6. [作成] をクリックします。

ゾーンにアセットをアタッチする

データアセットをゾーンにアタッチします。データを含むストレージ リソースであるデータアセットは、Cloud Storage バケットまたは BigQuery データセットになりえます。これは、データ メッシュ アーキテクチャの作成の最終段階です。

  1. Dataplex の [管理] ビューで、作成したレイク(My data mesh)をクリックします。

  2. [ゾーン] タブで、アセットを追加するゾーン(My sub domain)をクリックします。

  3. [アセット] タブで、 [アセットを追加] をクリックします。

  4. [アセットを追加] をクリックします。

  5. [Type] で [Cloud Storage bucket] を選択します。

  6. [Deployment name] フィールドに「Data mesh asset」と入力します。 Dataplex がアセット ID を自動的に生成します。

  7. [Bucket] フィールドで [参照] をクリックします。

    1. リストからバケットを選択します。
    2. [Select] をクリックします。
  8. [完了]、[続行] の順にクリックします。

  9. [続行] をクリックして、デフォルトの [詳細設定] を受け入れます。

  10. [送信] をクリックして、Cloud Storage バケットをデータアセットとしてゾーンに追加します。

クリーンアップ

このチュートリアルで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、リソースを含むプロジェクトを削除するか、プロジェクトを維持して個々のリソースを削除します。

プロジェクトの削除

  1. Google Cloud コンソールで、[リソースの管理] ページに移動します。

    [リソースの管理] に移動

  2. プロジェクト リストで、削除するプロジェクトを選択し、[削除] をクリックします。
  3. ダイアログでプロジェクト ID を入力し、[シャットダウン] をクリックしてプロジェクトを削除します。

データメッシュ アーキテクチャを削除する

  1. Google Cloud コンソールの Dataplex で、[管理] ビューに移動します。

  2. 削除するレイクで、[ さらに表示] をクリックし、[削除] をクリックします。

  3. delete」と入力して操作を確認し、[レイクを削除] をクリックします。

次のステップ