デベロッパー

Datasets for Google Cloud: 新しいリファレンスアーキテクチャのご紹介

2021年6月7日

Google Cloud Japan Team

※この投稿は米国時間 2021 年 5 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。

Datasets for Google Cloud が発表されました。このブログ投稿では、Google Cloud 一般公開データセットプログラムの簡単なデータオンボーディングプロセスのために構築した新しいリファレンスアーキテクチャについて詳しくご説明します。

データオンボーディング: デベロッパーエクスペリエンスの向上

Google にとって、データオンボーディングは既存の送信元から目的の宛先にデータを pull、変換、保存することにとどまりません。その結果得られたデータを分析しやすくし、データパイプラインの構築と維持を担当するデベロッパーエクスペリエンスをより快適にすることも含まれます。デベロッパーエクスペリエンスは、データエンジニアリングチームが数百から数千ものデータパイプラインに業務を拡大するにつれて、チームの生産性においてますます重要な役割を担うようになりました。

Google チームは Cloud Composer を利用し、標準化された一元的な方法でデータパイプラインを管理、モニタリングします。すべてのデータパイプラインは有向非巡回グラフ（DAG）で表され、DAG 内のすべてのノード（タスクとも呼ばれます）は Apache Airflow オペレータで表されます。各オペレータは 1 回の操作を実行します。たとえば、Cloud Storage との間でデータを転送するなどの単純な操作から、Google Kubernetes Engine クラスタを使用して大規模なデータセットにカスタムデータ変換を適用するなどの複雑な操作まで実行します。データエンジニアが DAG 実行の状態をモニタリングし、操作のグラフとして可視化できれば、理解しやすさと保守性が大幅に向上します。

Cloud Composer 環境には数多くのコンポーネントがあり、十分に油を差した機械のごとくパイプラインの操作が継続できるようにエンジニアが常に管理する必要があります。コンポーネントの処理としては、一貫性のある予測可能な方法での DAG の作成や、Airflow 変数の宣言、設定、インポート、すべてのパイプラインが依存する他のクラウドリソースの操作などがあります。新しいリファレンスアーキテクチャの目的は、YAML 構成ファイルで各コンポーネントの管理を統合して、こうしたすべての処理を簡素化することです。

https://storage.googleapis.com/gweb-cloudblog-publish/images/pasted_image_0_20.max-1600x1600.max-1600x1600.png

オープンソースのメリット

Google は、一般公開データセットの新しいリファレンスアーキテクチャをオープンソース化することに決定しました。詳しくは、GitHub の Google Cloud Platform 組織の下のディレクトリをご覧ください。

すべての Google Cloud 一般公開データセットを強化するデータパイプラインのアーキテクチャをオープンソース化するメリットは、次の 3 つです。まず、アナリストや研究者などのデータコンシューマに、データのソースと派生方法に関する透明性を提供します。次に、データセットを Google Cloud で一般公開することに関心のあるコミュニティにプログラムを開放します。最後に、他のユーザーが独自の方法でアーキテクチャを使用できます。たとえば、プライベートフォークを使用して、自身の Google Cloud アカウントで独自のデータセットを営利目的でオンボーディングします。

データエンジニアリングのフレームワーク

新しいリファレンスアーキテクチャをとらえる方法として、ウェブフレームワークとの類似性が挙げられます。ウェブフレームワークは、ウェブアプリケーションの構築時に必要な手間のかかる作業の大半を支援するツールと言えます。同様に、新しいリファレンスアーキテクチャはデータパイプラインを開発し維持する際に、オーバーヘッドを削減できます。

Airflow の作成者である Maxime Beauchemin 氏は、講演 Advanced Data Engineering Patterns with Apache Airflow（Apache Airflow による高度なデータエンジニアリングパターン）で、メタデータエンジニアリングという用語を作り出しました。メタデータエンジニアリングは、データエンジニアリングのオーバーヘッドの上に抽象化レイヤを構築するという概念を中心に展開しています。一連のルールと規則に基づいてデータパイプラインを動的に生成することは、そのような概念を実現できる具体的な方法の一つです。この処理を新しいリファレンスアーキテクチャが行います。Google の目標は、データエンジニアリングが、ウェブフレームワークがソフトウェアエンジニアリングに対して提供したメリットを導入することです。

まとめ

何百もの既存データパイプラインを Google Cloud に移行する取り組みを強化しつつ、このアーキテクチャがサポートできるリファレンスパターンのスペースを拡大し続けてまいります。それに加え、データの説明、ポリシー、サンプルユースケースなどのドキュメントセットとアーキテクチャを統合することも計画しています。これらを含めると、データセットの付加価値が増大します。オンボーディングプロセスの一部としてデータ分析と可視化を組み込んだ場合を考えてみてください。

新しいリファレンスアーキテクチャで引き出せる可能性がある Google Cloud 上のデータセットのメリットは、ごく一部にすぎません。また、GitHub で Issue を開くことにより、オンボーディングのリクエストを送信したり、バグを報告したり、新機能の開発を支援し、コラボレーションに参加することができます。ぜひご参加ください。

-Datasets for Google Cloud 担当エンジニアリングリード Adler Santos

投稿先