コンテンツに移動
データ分析

Cloud Data Fusion でより安全なデータ パイプラインを構築する

2020年2月18日
Google Cloud Japan Team

※この投稿は米国時間 2020 年 2 月 7 日に、Google Cloud blog に投稿されたものの抄訳です。 

データ分析に従事している方々にとって、ETL パイプラインや ELT パイプラインはデータ基盤の重要な一部を成しています。Cloud Data Fusion はデータ パイプラインをすばやく構築して管理できる、フルマネージド データ統合サービスです。

Cloud Data Fusion はオープンソース プロジェクトである CDAP に基づいて構築されており、このオープンなコアによってデータ パイプラインの移植性を実現しています。シンプルなデータ パイプラインをいくつか実行するのであれば CDAP サーバーで十分です。しかしながら、多数のビジネス クリティカルなデータ パイプラインを安全に実行するとなると、多くの場合、こうしたパイプラインのロギングとモニタリングにより多くの労力を注ぐ必要がでてきます。また、複数のチームや環境向けにワークロードを実行する場合には、そのデータを保護するための認証や承認の管理も必要になります。こうした付加的なサービスを提供するために、運用チームは多くのメンテナンス作業を実施しなくてはならず、本来なら開発にかけられる時間が削られることになります。作業の目的はパイプラインを実行することであり、ロギングやモニタリング、ID とアクセスの管理(IAM)サービスではありません。

Cloud Data Fusion はこうした作業の大部分を担うことを目的に設計されています。さらに Cloud Data Fusion は Google Cloud の一部であるため、セルフマネージド CDAP サーバーの代わりに使用することで、次のような Google Cloud に組み込まれたセキュリティ機能を利用できるというメリットがあります。

  • Cloud IAM によるクラウド ネイティブ セキュリティ コントロール: ID 管理や認証サービスには Cloud Identity が対応

  • Stackdriver Logging / Monitoring による完全な可観測性: パイプライン ログ、監査ログなど

  • プライベート ネットワークにより公共のインターネットへの露出を低減

これらの機能を詳しく見てみましょう。

Cloud IAM によるアクセス制御

セルフマネージド CDAP サーバーでなく Cloud Data Fusion を使用する一番の理由は、Cloud IAM とシームレスに統合されていることです。これにより、Cloud Data Fusion リソースへのアクセスを制御できます。Cloud IAM と連携していることで、Cloud Data Fusion は他の Google Cloud サービスと簡単に統合できます。また、多要素認証(MFA)などユーザーやグループの管理と認証に関わる機能を、独自に実装またはデプロイする代わりに、Cloud Identity を利用することもできます。

Cloud Data Fusion には管理者と閲覧者という事前定義された役割が 2 つあります。IAM の最小限の権限の原則に従い、管理者の役割はインスタンスを管理(作成や削除)する必要のあるユーザーにのみ割り当てます。閲覧者の役割はインスタンスを管理する必要がなく、インスタンスにアクセスできれば十分なユーザーに割り当てます。どちらの役割でも、Cloud Data Fusion ウェブ UI にアクセスしてパイプラインやプラグインを作成できます。

役割と権限は、可能な限り、直接ユーザーに割り当てるのではなく、ユーザーの属するグループに割り当てます。こうすることで、複数のプロジェクトでグループに繰り返し権限を割り当てるときなどに、ユーザーの Cloud Data Fusion リソースへのアクセスをより系統だった方法で制御できます。

Cloud Data Fusion の 2 つの役割とそれぞれの権限の詳細をご覧ください。

プライベート IP インスタンス

Cloud Data Fusion のプライベート IP インスタンスは、お使いの Virtual Private Cloud(VPC)にプライベート接続します。 このネットワーク上のトラフィックは、公共のインターネットを通過しないので、結果的にインスタンスへの攻撃可能範囲が減少します。詳しくは、Cloud Data Fusion のプライベート IP インスタンスの設定をご覧ください。

VPC Service Controls

Cloud Data Fusion への VPC Service Controls ベータ版のサポートについてもお知らせします。サービス境界に Cloud Data Fusion インスタンスを追加することで、データの流出を防ぐことができるようになりました。VPC-SC が構成されている場合、境界内からデータを読み取るパイプラインがサービス境界外のデータに書き込むことができなくなります。

Stackdriver Logging

Cloud Data Fusion では Stackdriver Logging / Monitoring がデフォルトで無効になっていますが、このツールを有効にして可観測性を高めることをおすすめします。

ログと指標により追加情報が提供されるので、インシデントの調査やその対応がより迅速に行えるようになるだけでなく、特定のインフラストラクチャやワークロードを効率的に長期にわたって管理する方法を把握できるようになります。Cloud Data Fusion パイプラインの適切な実行に役立つさまざまなログが用意されています。

パイプライン ログ

Cloud Data Fusion パイプラインで生成されるログです。このログは、Cloud Data Fusion パイプラインを理解するのに有用で、トラブルシューティングの際にも役立ちます。パイプライン ログは Cloud Data Fusion UI から参照できるほか、パイプラインを実行する Dataproc クラスタの Stackdriver ログ内にも含まれます。

管理アクティビティ監査ログ

このログにはリソースの構成やメタデータを変更するオペレーションが記録されます。管理アクティビティ監査ログはデフォルトで有効になっており、無効にすることはできません。

データアクセス監査ログ

データアクセス監査ログには、リソースの構成やメタデータを読み取る API 呼び出しや、ユーザー提供のリソースデータの作成、変更、読み取りを行う、ユーザーによる API 呼び出しが含まれます。

管理アクティビティ監査ログとデータアクセス監査ログは、Cloud Data Fusion リソースにアクセスしたユーザーや変更を加えたユーザーを追跡するのに便利です。悪意のあるアクティビティが見つかった場合、セキュリティ管理者は監査ログで攻撃者を見つけ、追跡することが可能になります。

ここに挙げた Google Cloud 機能を使えば、Cloud Data Fusion パイプラインのコントロールと可視性が格段に改善されます。Cloud Data Fusion リソースにアクセス可能なユーザーの管理には Cloud IAM、公共のインターネットへの露出を抑えるためにはプライベート インスタンス、ワークロードや権限の変更、リソースへのアクセスに関する情報の提供には Stackdriver Logging / Monitoring が便利です。これらの機能が互いに連携することで、より安全なデータ パイプライン ソリューションを Google Cloud 上で実現しています。

Cloud Data Fusion の詳細については、こちらをご覧ください

- 戦略的クラウド エンジニア Jeanno Cheung

投稿先