マネージド接続の概要

このドキュメントでは、サードパーティ ソースから Dataplex にメタデータをインポートするために使用できるマネージド接続パイプラインの概要について説明します。

マネージド接続を使用すると、大規模にメタデータを Dataplex にインポートできます。マネージド接続パイプラインは、データソースからメタデータを抽出し、メタデータを Dataplex にインポートします。必要に応じて、パイプラインは Google Cloud プロジェクトに Dataplex Catalog エントリ グループも作成します。ワークフローをオーケストレートし、要件に基づいてインポート ジョブをスケジュールできます。

独自のカスタム コネクタを構築して、サードパーティ ソースからメタデータを抽出します。たとえば、MySQL、SQL Server、Oracle、Snowflake、Databricks などのソースからメタデータを抽出するコネクタを構築できます。サンプル カスタム コネクタを作成する手順については、メタデータのインポート用にカスタム コネクタを開発するをご覧ください。

マネージド接続パイプラインを実行する手順については、ワークフローを使用してカスタムソースからメタデータをインポートするをご覧ください。

マネージド接続の仕組み

次の図は、マネージド接続パイプラインを示しています。

マネージド接続パイプライン。

マネージド接続の大まかな仕組みは次のとおりです。

  1. データソースのコネクタを構築する

    コネクタは、Dataproc Serverless で実行できる Artifact Registry イメージである必要があります。

  2. マネージド接続パイプラインを実行するには、オーケストレーション プラットフォームである Workflows を使用します。

  3. マネージド接続パイプラインは、次の処理を行います。

    1. エントリ グループがまだ存在しない場合は、構成に基づいてターゲット エントリ グループを作成します。
    2. コネクタを実行します。コネクタは、データソースからメタデータを抽出し、Dataplex Catalog にインポートできるメタデータ インポート ファイルを生成します。
    3. メタデータの抽出の進行状況をモニタリングします。
    4. メタデータのインポート ジョブを実行して、メタデータを Dataplex Catalog にインポートします。
    5. メタデータのインポート ジョブの進行状況をモニタリングします。

マネージド接続パイプラインは、Dataproc Serverless を使用してコネクタを実行し、Dataplex メタデータ インポート API メソッドを使用してメタデータ インポート ジョブを実行します。

インポートするメタデータは、Dataplex Catalog エントリとそのアスペクトで構成されます。Dataplex Catalog メタデータの詳細については、Dataplex Catalog の概要をご覧ください。

次のステップ