このドキュメントでは、サードパーティ ソースから Dataplex にメタデータをインポートするために使用できるマネージド接続パイプラインの概要について説明します。
マネージド接続を使用すると、大規模にメタデータを Dataplex にインポートできます。マネージド接続パイプラインは、データソースからメタデータを抽出し、メタデータを Dataplex にインポートします。必要に応じて、パイプラインは Google Cloud プロジェクトに Dataplex Catalog エントリ グループも作成します。ワークフローをオーケストレートし、要件に基づいてインポート ジョブをスケジュールできます。
独自のカスタム コネクタを構築して、サードパーティ ソースからメタデータを抽出します。たとえば、MySQL、SQL Server、Oracle、Snowflake、Databricks などのソースからメタデータを抽出するコネクタを構築できます。サンプル カスタム コネクタを作成する手順については、メタデータのインポート用にカスタム コネクタを開発するをご覧ください。
マネージド接続パイプラインを実行する手順については、ワークフローを使用してカスタムソースからメタデータをインポートするをご覧ください。
マネージド接続の仕組み
次の図は、マネージド接続パイプラインを示しています。
マネージド接続の大まかな仕組みは次のとおりです。
-
コネクタは、Dataproc Serverless で実行できる Artifact Registry イメージである必要があります。
マネージド接続パイプラインを実行するには、オーケストレーション プラットフォームである Workflows を使用します。
マネージド接続パイプラインは、次の処理を行います。
- エントリ グループがまだ存在しない場合は、構成に基づいてターゲット エントリ グループを作成します。
- コネクタを実行します。コネクタは、データソースからメタデータを抽出し、Dataplex Catalog にインポートできるメタデータ インポート ファイルを生成します。
- メタデータの抽出の進行状況をモニタリングします。
- メタデータのインポート ジョブを実行して、メタデータを Dataplex Catalog にインポートします。
- メタデータのインポート ジョブの進行状況をモニタリングします。
マネージド接続パイプラインは、Dataproc Serverless を使用してコネクタを実行し、Dataplex メタデータ インポート API メソッドを使用してメタデータ インポート ジョブを実行します。
インポートするメタデータは、Dataplex Catalog エントリとそのアスペクトで構成されます。Dataplex Catalog メタデータの詳細については、Dataplex Catalog の概要をご覧ください。