Dataflow クックブックのご紹介: よくあるデータ処理の問題に対する実用的なソリューション
Google Cloud Japan Team
※この投稿は米国時間 2023 年 5 月 17 日に、Google Cloud blog に投稿されたものの抄訳です。
Tyson Foods、Renault、Air Asia などの組織は、Google Cloud のリアルタイム インテリジェンス ソリューションを使用してデータクラウドを変革し、デジタルでつながり続ける世界における新たな顧客の問題を解決しています。また、データ処理をクラウドに移行する企業が増加するなかで、Google Cloud Dataflow がよく利用されるようになっています。
Dataflow は、ストリーミングおよびバッチデータ パイプラインの構築に使用できるパワフルかつ柔軟なデータ処理サービスです。Pub/Sub などのメッセージ サービスからの読み取りや、BigQuery といったデータ ウェアハウスへの書き込みなどに対応します。初めてこのソリューションを使用するユーザーが Dataflow の多数の機能を習得できるよう、Dataflow クックブックをご用意しました。
このクックブックは、よくあるデータ処理の課題に対する幅広い実用的なソリューションを提供することで、開発者およびデータ エンジニアが生産性を向上できるよう支援することを目的としています。レシピに加えて、開発者がパイプラインを最適化し、よくある問題を回避するうえで役立つベスト プラクティス、ヒント、コツも紹介しています。
このクックブックは Java、Python、Scala(Scio 経由)に対応しており、ユースケースに応じてフォルダ分けされています。すべてのサンプルが自己完結しており、可能な限り最小限に抑えられています。可能な場合は公開されたリソースを使用しているため、追加の準備を行わずにサンプルを使用できます。たとえば、次のようなサンプルがあります。
さまざまなソースのデータの読み取りと書き込み: Dataflow では、Google Cloud Storage、BigQuery、Pub/Sub などの多様なソースのデータの読み取り / 書き込みが可能です。クックブックのサンプルでは、データの読み取り、書き込み、処理に関してよく使用されるアプローチを取り上げています。
ウィンドウ処理とトリガー: 多くのデータ処理タスクでは、一定期間にわたってデータを分析します。Dataflow のウィンドウ処理機能を使用してストリーミング データを時間ベースの間隔とトリガーにグループ化する方法のレシピが用意されています。
高度なトピック: StatefulDoFns およびカスタム ウィンドウ実装に、より高度なパイプライン パターンを含めました。
ご利用を開始するには
このクックブックは、Dataflow のすべてのユーザーにとって貴重なリソースとなります。このプラットフォームについて初めて学ぶ方にも、複数のサンプルを統合して新しいパイプラインの作成をスピードアップしたいという上級者にも有効です。コミュニティの皆様と Google Cloud の知識を共有できることを嬉しく思います。また、この知識が、開発者とデータ エンジニアの皆様の目標達成をお手伝いできることを楽しみにしています。このクックブックは GitHub からご利用いただけます。ご利用とご感想をお待ちしております。