Google Cloud の Data Engineer Spotlight で学んだことトップ 5
Google Cloud Japan Team
※この投稿は米国時間 2022 年 7 月 29 日に、Google Cloud blog に投稿されたものの抄訳です。
キャプチャ、記録、保存できるデータの量というのは、ここ 10 年間でかつてないほどの増加をみせています。 さらに、そうしたデータはあらゆる形状、形式、スピード、ソースで供給されます。また、こうした状況がデータのアクセシビリティ、正確性、互換性、品質をさらに複雑化させています。だからこそ、今年の Data Engineer Spotlight では、データ エンジニア コミュニティを一か所に集め、重要な学習セッションを行い、Google Cloud の最新イノベーションについて情報を共有したいと考えました。
ライブ セッションを見逃してしまった方も、ご心配は無用です。すべてのコンテンツをオンデマンドでご視聴いただけます。
自社データを使用した概念実証をご希望の場合は、こちらからハンズオン ワークショップにご登録ください。
ここでは、Data Engineer Spotlight の内容を 5 つの領域にまとめてご紹介します。最初の 4 つのポイントは、データ コミュニティの意欲的なメンバーであり、Google Cloud パートナー Direcly の創業者である Francisco Garcia 氏が執筆しています。
1: Dataflow Go を含む、次世代 Dataflow が発表されました(これによりエンジニアは Go でコアとなる Beam パイプラインを書き込めるようになり、データ サイエンティストは Python 変換で貢献できるようになり、データ エンジニアは標準の Java I/O コネクタをインポートできるようになります)。最大のメリットは、すべてが単一のパイプラインで連携していることです。Dataflow ML(PyTorch、TensorFlow、scikit-learn で簡単な ML モデルをアプリケーションにリアルタイムでデプロイします)および Dataflow Prime(サイズ設定と調整の複雑さを取り除くことで、デベロッパーはマシンタイプについて考慮する必要がなくなり、さらなる生産性を実現できます)。
Google Cloud 公式ブログ「次世代の Dataflow: Dataflow Prime、Dataflow Go、Dataflow ML」をご覧ください。
Google Cloud の YouTube 動画「Build unified batch and streaming pipelines on popular ML frameworks」をご覧ください。
2: BigQuery でのスケーラブルな SQL パイプラインの構築、運用化をサポートする Dataform のプレビュー版を発表しました(2022 年第 3 四半期)。個人的には、SQL を管理する際にソフトウェア工学のベスト プラクティス(バージョン管理、テスト、ドキュメント)に倣っている点や、必要なのは SQL のスキルだけという点も気に入っています。
現在、Dataform は限定公開プレビュー版での提供となります。順番待ちリストに登録する
Google Cloud の YouTube 動画「Manage complex SQL workflows in BigQuery using Dataform CLI」をご覧ください。
3: Data Catalog が Dataplex の一部となったことで、セキュリティの一元化や、分散データ全体でのデータ ガバナンスの統合によりインテリジェントなデータ管理を実現し、大規模なガバナンスを支えていくことができるようになりました。また、データ分類、品質、リネージ、ライフサイクルの管理を可能にする、AI を活用したインテリジェンスも組み込まれています。
Google Cloud 公式ブログ「Data Catalog と Dataplex の統合によるデータの管理とガバナンスの効率化」をご覧ください。
Google Cloud の YouTube 動画「Manage and govern distributed data with Dataplex」をご覧ください。
4: BigQuery へのエンドツーエンドの移行を提供する BigQuery 移行サービスに関して、その方法や手順について紹介しました。このサービスにより、クラウドへのデータ移動プロセスが簡略化され、重要な意思決定をサポートするツールが提供されます。各組織はデータサイロを解消することが可能となります。特筆すべきは、インテリジェントで自動化された SQL 変換により移行を加速できる点です。
Google Cloud 公式ブログ「オンプレミス データ ウェアハウスを Google Cloud 上の BigQuery へ移行する方法」で詳細をご確認ください。
Google Cloud の YouTube 動画「Data Warehouse migrations to BigQuery made easy with BigQuery Migration Service」をご覧ください。
5: Google Cloud Hero ゲームは、ゲーム性のある 3 時間の Google Cloud トレーニングです。このゲームでは、楽しみながら学べる環境でインタラクティブな学習を通してスキルを獲得するハンズオンラボを活用しています。Data Engineer Spotlight の期間中に、50 人以上がライブで Google Meet から Cloud Hero BigQuery Skills ゲームに参加し、上位 10 人が Priyanka Vergadia の著書である Visualizing Google Cloud を獲得しました。
Cloud Hero ゲームに参加できなかったけれどもデータ エンジニアとしてキャリアアップしたい人は、Google Cloud Skills Boost の 30 日間の無料トレーニングを開始して、Google Cloud の Data Engineer 認定資格の取得を目指しましょう。
この Cloud Hero ゲームをプレーしたことで得られた最大の学びとはどんなことでしたか?
Google のクラウド分析チームが、ゲームを丁寧に体系化してくれていて、ゲームの日は紹介から始まって、その後スキルゲームへと移っていきました。BigQuery / SQL エンジンのコンセプトを理解するにはハンズオンだけでは足りませんでしたが、ラボを何度も行うことで理解が深まりました。上位 10 人が Visualizing Google Cloud の本を獲得できたのは思いがけないおまけでしたね。- Shirish Kamath 氏
コードのスニペットのコピーと貼り付けが勝因だという点ですね。いえいえ、冗談です。これまでは考えもしなかった BigQuery の機能について知ることができた、これが最大の学びですね。- Ivan Yudhi 氏
友人にこのゲームをすすめたいですか?その場合、どんな人にすすめたいですか?また、なぜすすめたいと思いましたか?
もちろんすすめたいです。クラウドによるデータ分析に対するニーズが高まるにつれて、こういったイベントやゲームを通した学びや気づきに対するニーズも世界中で高まっています。実際、スキルアップを目指す友人も多くいますし、こうしたゲームが新たなチャンスにつながるのではないかと思っています。- Karan Kukreja 氏
Cloud Hero BigQuery Skills ゲームで気に入った点はどんなところですか?Cloud Hero BigQuery Skills ゲームに勝ってどう感じましたか?
BigQuery ラボに意欲的に取り組むことで、期待される結果にたどり着き、目標を達成できるところが気に入りました。ゲームではラボごとに異なるタスクや学習が用意されているため、ラボを進めるごとに次の課題に臨む自信をつけることができました。順位表のトップでこのゲームを終えることができたのは、とても幸運だったと思っています。2022 年で最大級の記念すべき出来事になりました。- Sneha Kukreja 氏
- アソシエイト プロダクト マーケティング マネージャー Grace Yeung
- アソシエイト プロダクト マーケティング マネージャー インターン Mia Lerner