Google のデータ分析イノベーション: 1 年間の総まとめ
Google Cloud Japan Team
※この投稿は米国時間 2022 年 10 月 28 日に、Google Cloud blog に投稿されたものの抄訳です。
盛況のうちに終了した Google Next 2022 の余韻漂う 10 月 23 日(先週の日曜日)、私は Google に入社して 5 周年を迎えました。今年はニューヨーク市でたくさんのお客様や同僚に直接会うことができ、とても嬉しく思いました。このブログでは、昨年(Next 2021 に関する 4 周年記念のブログ投稿)からの進捗をお伝えしようと思います。
BigQuery をデータクラウドの中核に
昨年来、Google はポートフォリオ全体で大きな進歩を遂げてきました。まずは、お客様のデータクラウドの中核となっている BigQuery についてお話ししたいと思います。Google は、マルチステートメント トランザクション、検索とオペレーション ログ分析、ネイティブ JSON サポート、スロット Recommender、Teradata、Hive、Spark などのさまざまな言語のインタラクティブな SQL 変換、マテリアライズド ビューの強化、テーブル スナップショットなど、重要な機能をリリースして BigQuery を強化しました。さらに、SQL 言語のさまざまな機能強化をリリースし、BigQuery 移行サービスでお客様のクラウド移行を高速化すると同時に、Dataform プレビュー版で SQL を使用して BigQuery にスケーラブルなデータ変換パイプラインを導入しました。
BigQuery に対する重要な機能強化の 1 つが、オブジェクト テーブルを介した BigQuery での非構造化データのサポートです。オブジェクト テーブルを使用することにより、データ全体で共通のセキュリティとガバナンスを利用することができます。今回、構造化データと非構造化データを統合したデータ プロダクトを BigQuery で構築できるようになりました。
Next '22 では、データのオープン性を支援するため、データレイクとデータウェアハウスを統合してデータサイロを解消する BigLake の一般提供を発表しました。BigLake のイノベーションでは、データレイクのオープンソース テーブル形式の標準になりつつある Apache Iceberg のサポートが追加されています。また、近日中に Delta Lake や Hudi などの形式もサポートする予定です。
データの保存場所に関係なくお客様が分析できるようにするため、Google は BigQuery Omni をリリースしました。今回、クロスクラウド転送やクラウド間での大量のクエリ結果の操作といった新機能を追加し、クラウド環境間でのデータの結合や分析を簡単に行えるようにしました。また、BigQuery Omni を低コストで利用できるオンデマンド料金体系のサポートもリリースしました。
お客様が組織間のデータの境界をなくすことができるよう、Google は Analytics Hub をリリースしました。Analytics Hub は、組織がビジネス パートナーと協力して限定公開または一般公開エクスチェンジを作成できるようにするデータ交換プラットフォームです。Google は、Google トレンドのような非常に価値の高いデータセットを含む Google データを追加しました。何百ものパートナーが価値の高い商用データセットを共有しているため、Analytics Hub は、お客様が組織の壁を越えてデータを利用できるようにするのに役立ちます。また、Google Earth Engine チームとも連携し、BigQuery を使用して Earth Engine 内の貴重な衛星画像データにアクセスして価値を引き出すことができるようにしました。
Google は、BigQuery とオペレーショナル データベースの連携にも投資し、お客様がインテリジェントでデータドリブンなアプリケーションを構築できるようにしています。Spanner、Cloud SQL、Bigtable の連携クエリなどのイノベーションにより、お客様はオペレーショナル データベースに存在するデータを、BigQuery を使用してリアルタイムに分析できるようになりました。Next ’22 で発表した Datastream for BigQuery では、AlloyDB、PostgreSQL、MySQL、Oracle などのオペレーショナル データベース ソースから BigQuery に、数クリックで簡単にデータを直接レプリケートできます。
データから AI へ。BigQuery と Vertex AI のための組み込みのインテリジェンス機能
2018 年、Google は BigQuery 機械学習(ML)を発表し、世界中のデータ アナリストやデータ サイエンティストが機械学習を利用できるようにしました。現在、お客様は BigQuery ML を利用して毎月数百万個のモデルを作成し、数千万件の予測を行っています。Vertex AI は、データモデルから本番環境へのデプロイやリアルタイムでの予測実行まで、ML Ops を可能にします。この 1 年間、Google は BigQuery と Vertex AI を緊密に統合し、ML 操作を簡素化してきました。
今回、BigQuery MLを使用して BigQuery でモデルを作成できるようになりました。作成したモデルは、Vertex AI Model Registry に即座に表示されます。その後、これらのモデルを Vertex AI エンドポイントに直接デプロイして、リアルタイムで提供します。BigQuery ML と Vertex AI が統合されたことにより、VertexAI パイプラインを使用してモデルのモニタリングとトレーニングを行い、予測の詳細な説明を表示することが可能となります。
Google はさらに、Colab と BigQuery のインテグレーションも発表しました。このインテグレーションにより、Colab 上のデータ サイエンス ノートブックを用いた結果を素早く調べられるようになりました。Colab は、ユーザーが任意の Python コードを実行できるよう Google Research が開発したもので、データ サイエンティストや機械学習研究者が愛用するツールとなっています。BigQuery とのインテグレーションにより、データ サイエンティストは記述統計の実行、可視化の生成、予測分析の作成、他者との結果の共有など、シームレスなワークフローを実現できるようになりました。
データと AI をより緊密に連携させるイノベーションについて詳しくは、Cloud AI および業種別ソリューション担当バイス プレジデントである June Yang と私が担当した Next のセッションをご覧ください。
最良のオープンソースを提供する
Google は、Google Cloud をオープンソース ソフトウェアの実行に最適なプラットフォームにすることを常に信条としてきました。Cloud Dataproc では、Spark、Flink、Hive などさまざまな OSS エンジンを実行できます。この 1 年間、Dataproc に対して多くの機能拡張を行いました。中でも特に重要なものが、サーバーレス Spark を作成する機能拡張です。クラスタのことを忘れて Spark ジョブの実行に集中できます。Cloud Next 2022 では、BigQuery に Apache Spark の組み込みサポートが追加され、データ実務者は Spark での作業と SQL パイプラインを統合した BigQuery ストアド プロシージャを作成できるようになりました。これにより BigQuery の請求も統合され、高い価値を持つ内部および外部アセットのキュレートされたライブラリにアクセス可能となっています。
ストリーミング分析の強化
ストリーミング分析は、Cloud Dataflow や Cloud Pub/Sub のようなプロダクトで Google Cloud を差別化できる重要な分野です。今年の目標は、Dataflow Prime によるリアルタイム処理でイノベーションの限界を押し広げ、Pub/Sub に届くリアルタイム データをシームレスに BigQuery に取り込み、高度な分析ができるようにすることでした。年初には、25 以上の新しい Dataflow テンプレートを一般提供しました。7 月の Data Engineer Spotlight では、Dataflow Prime、Dataflow ML、Dataflow Go を一般提供しています。また、Dataflow パイプラインの可視性と制御性を高めるために、Dataflow 用の新たなオブザーバビリティ機能を多数導入しました。
今年に入り、Cloud Pub/Sub から BigQuery に直接書き込む「BigQuery サブスクリプション」という新しいタイプの Pub/Sub サブスクリプションを導入しました。このインテグレーションにより、お客様は BigQuery へのデータ取り込みに料金を支払う必要がなくなりました。料金は、使用した Pub/Sub に対してのみ発生します。
統合ビジネス インテリジェンス
2020 年 2 月に Looker の買収を完了して以来、Google は Looker の機能を構築して Google Cloudに統合する作業に励んでいます。また、データポータルは、長年にわたり Google のセルフサービス型 BI サービスであり続けてきました。BigQuery との連携が非常に強固なデータポータルは、BigQuery のお客様の多くが利用しています。Next '22 で発表したように、Google はすべての BI アセットを Looker という一つのソリューションにまとめているところです。データポータルは Looker Studio となり、エンタープライズ サポートを提供する有料版も導入される予定です。
Looker と Google Workspace 生産性向上ツールとの緊密なインテグレーションにより、お客様はスプレッドシートやその他のドキュメントを介して、組織全体にわたる厳選されたデータソースから、信頼できる一貫した回答に簡単にアクセスできるようになります。Looker と Google スプレッドシートのインテグレーションは現在プレビュー版です。BigQuery からコネクテッド シートへのアクセス性が向上したことで、より多くの人が大量のデータを分析できるようになりました。詳しくはこちらをご覧ください。
インテリジェントなデータ管理とガバナンス
次は、すべてのデータチームで最重要課題となっている、分散データシステムにおけるデータ管理とガバナンスについてです。Google のデータクラウドは、エンドツーエンドのデータ管理とガバナンス レイヤをお客様に提供し、組み込みのインテリジェンスでデータの信頼性を高め、分析情報を得るまでの時間を短縮します。今年に入り、Google はデータ管理とガバナンスのサービスとして Dataplex を発表しました。Dataplex は、組織が分散データを一元管理し、統制できるよう支援します。さらに、Data Catalog を Dataplex に統合することにより、お客様は効率的に、ビジネス コンテキストに基づいてデータを一元的に検出し、組み込みのデータ インテリジェンスを利用してデータを管理、統制できるようになりました。
Next では、データの取り込みから分析、ML モデルまで、エンドツーエンドのリネージを実現する、Dataplex のデータリネージ機能を紹介しました。Dataplex のデータ品質自動向上機能は、正確な予測を行うために不可欠なデータの信頼性を確保します。また、お客様からのご意見をもとに、ビジネス用語集からデータベースや Looker にカタログを自動作成できるよう強化したデータ検出機能や、Spark を活用した Data Exploration Workbench を追加しました。今回、Dataplex は BigLake と完全に統合され、きめ細かなアクセス制御を大規模に管理できるようになりました。
オープンデータ エコシステム
過去 5 年間、データ分析チームの目標は、Google Cloud を、分析を行うための最高の場所にすることでした。そのための重要な考え方の 1 つが、最も活気のあるパートナー エコシステムを確保することです。Google は、何百もの技術パートナーとのインテグレーションによる充実したエコシステムを有し、Cloud Ready - BigQuery イニシアチブを通じて認定された 40 以上のパートナーを擁しています。
さらに、800 を超える技術パートナーが Google のデータクラウド上にアプリケーションを構築しています。データ共有は今後も、こうしたパートナーがあらゆる規模の情報を企業のお客様と簡単に共有するために活用する、重要な機能の 1 つであり続けます。
また、Google は新しいアップデートと、Collibra、Elastic、MongoDB、Palantir、ServiceNow、Sisu Data、Reltio、Striim、Qlik とのインテグレーションも発表しました。お客様が選択したプラットフォーム間でデータを移動し、パートナーのプラットフォームでさらに Google のデータクラウド機能を提供できるよう支援していきます。
最後になりましたが、Google は、分析、ストレージ、データベース、ビジネス インテリジェンスなど、今日最も広く導入され、急成長しているエンタープライズ データ プラットフォームを提供する 17 の主要パートナーとともに、Data Cloud Alliance を設立しました。私たちの使命は、現代のデータに関する課題を解決するために協力し、価値の創出を加速させることです。私たちは、データの相互運用性、データ ガバナンス、教育によるスキルギャップの解消といった分野に重点的に取り組んでいます。
さまざまな業界やユースケースにおけるお客様の動向
Google は、Walmart、Boeing、Twitter、Televisa Univision、L’Oreal、CNA Insurance、Wayfair、MLB、British Telecom、Telus、Mercado Libre、LiveRamp、Home Depot などの企業に Next でデータ クラウドのベスト プラクティスを共有いただけることを非常に嬉しく思っています。Next のデータ分析セッションとリソースをすべてチェックして、今すぐデータクラウドを導入してください。今後の Google Cloud イベントで皆様のお話を伺えることを楽しみにしています。
- Google Cloud プロダクト管理担当シニア ディレクター Sudhir Hasbe