メタデータの連携について

メタデータ連携は、1 つのエンドポイントから複数のメタデータ ソースにアクセスできるサービスです。

連携を設定するには、連携サービスを作成してメタデータ ソースを構成します。その後、サービスがすべてのメタデータにアクセスするために使用できる単一の gRPC エンドポイントを公開します。

たとえば、連携を使用すると、単一のエンドポイントを介して複数の Dataproc Metastore サービスを公開する Dataproc クラスタを作成できます。その後、Spark や Hive などのオープンソース ソフトウェア(OSS)エンジンを介してビッグデータ ジョブを実行し、複数のメタストア間でメタデータにアクセスできます。

連携の仕組み

Spark または Hive で実行される OSS ビッグデータ ワークロードは、Hive Metastore API にリクエストを送信して実行時にメタデータを取得します。

  • Hive Metastore インターフェースでは、読み取りと書き込みの両方のメソッドがサポートされています。連携サービスは、Hive Metastore インターフェースの gRPC バージョンを公開します。
  • 実行時に、連携サービスはリクエストを受信すると、ソースの順序を確認して適切なメタデータを取得します。

メタデータの入手先

連携サービスを作成するときは、メタデータ ソースを追加する必要があります。バックエンド メタストアとして次のソースを使用できます。

  • Dataproc Metastore インスタンス。
  • 1 つ以上の BigQuery データセットを含むプロジェクト
  • Dataplex レイク(プレビュー)。

ソースの制限

次のセクションでは、さまざまなメタデータのソースを使用する際に遵守する必要がある制限を示します。

ソース総数

すべてのメタデータ ソースには次の制限が適用されます。

  • 連携サービスには独自のデータは含まれません。代わりに、連携サービスはメタデータ ソースの一つからのみメタデータを提供します。
  • 連携サービスを別の連携サービスのメタデータのソースにすることはできません。

Dataproc Metastore

Dataproc Metastore をソースとして使用している場合は、次の制限が適用されます。

  • 連携サービスは、gRPC エンドポイントを介してのみ利用できます。Dataproc Metastore を連携で使用するには、gRPC エンドポイントを使用してメタストアを作成します。
  • 連携サービスは、任意の単一リージョンで単一リージョンの Dataproc Metastore サービスに接続できます。連携サービスは、マルチリージョン Dataproc Metastore サービスをサポートしていません。

BigQuery

BigQuery データセットをソースとして含むプロジェクトを使用している場合は、次の条件を満たす必要があります。

  • BigQuery データセットを含むプロジェクトにアクセスするために、適切な IAM ロールを付与します。
  • BigQuery データセットとともに、少なくとも 1 つの Dataproc Metastore サービスをソースとして追加します。

Dataplex レイク

  • dataplex.lakes.get 権限を含む IAM ロールを付与します。
  • Dataplex レイクとともに、少なくとも 1 つの Dataproc Metastore サービスをソースとして追加します。

ソースの順序付け

連携サービスは、メタデータ リクエストを優先順位で処理します。このコンセプトをソースの順序付けといいます。実行時に、連携サービスはリクエストを受信するとソースの順序を確認し、次のいずれかのアクションを行います。

  • リクエストにデータベース名が含まれている場合。リクエストは、データベース名を含むバックエンド メタストアに転送されます。複数のメタストアに同じデータベース名が含まれている場合、リクエストはランクが最も低いメタストアに転送されます。
  • リクエストでデータベースが作成または削除された場合。リクエストは、ランクが最も低いメタストアに転送されます。
  • リクエストにデータベース名が含まれておらず、データベースが作成または削除されない場合。リクエストは、ランクが最も低い Dataproc Metastore インスタンスに転送されます。データベースを指定しない Hive Metastore リクエストの例としては、set_ugicreate_database があります。
  • どのメタストアにもデータベースが含まれていない場合。OSS エンジンが、notFound エラーと同等のレスポンスを返します。

次のステップ