コンテンツに移動
データ分析

オープン イノベーション、スケーリング データ サイエンス、業界リーダーによる驚くべきデータ分析の実例

2021年3月25日
Google Cloud Japan Team

※この投稿は米国時間 2021 年 3 月 12 日に、Google Cloud blog に投稿されたものの抄訳です。

2 月は 1 年で最も短い月ですが、Google でのデータ分析にとっては最も忙しい月の一つでした。Databricks とのパートナーシップの発表から、Dataproc Hub と BigQuery BI Engine のリリースや、優れた成果を上げた Twitter、Verizon Media、J.B. Hunt との業務提携まで、今月はお客様、パートナー、コミュニティ全体にとって素晴らしい活動が多くありました。

データ分析のためのオープンなアプローチへの取り組み

この 1 か月のリリースについてはすでに多く書かれているため、優れたレビューや記事をすべて取り上げることはしませんが、先週 SiliconAngle の Maria Deutscher 氏が公開した、データ分析のオープンなアプローチに対する Google の取り組みについての記事をご紹介します。

先週リリースされた BI Engine とマテリアライズド ビューを取り上げたこの記事では、データ分析、特に BigQuery が戦略全体でどのように重要な役割を果たすかがわかりやすく強調されています。平均的な組織は、数十(場合によっては数百)の BI ツールを所有しています。BI ツールには、Google 製や Google のパートナー製のほか、顧客がパッケージ化されたオープンソース ソフトウェアを使用して構築したカスタム アプリケーションがあります。Google は、Microsoft から TableauQlikThoughtSpotSuperset まで、この取り組みによりパートナーから集まった素晴らしいサポートを嬉しく思っています。

BI Engine プレビュー版を使ってみる

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/BI_Engine_Preview.gif

Google では、すでに愛用しているツールで利用できる最高水準の分析エクスペリエンスをすべてのユーザーに提供することに取り組んでいます。そのため、BI Engine は、エンドユーザーによる追加の変更を必要とせずに、BI ツールとシームレスに連携できるようになっています。この新しいサービスの導入事例を皆様にお伝えするのが待ちきれません。ウェブセミナー、Delivering fast and fresh data experiences with BigQuery BI Engine & Looker(BigQuery BI Engine と Looker で迅速かつ鮮度の高いデータ エクスペリエンスを実現)にぜひご参加ください。こちらからご登録いただけます。

データ サイエンスを大規模かつ安全に実施

データ サイエンスを大規模に実施することは、多くの組織にとって課題となっています。データ サイエンティストは必要なツールを自由に使用できることを望む一方で、IT リーダーはその作業を管理するためのフレームワークを設定する必要があります。

Dataproc Hub は、管理されたフレームワーク内に自由を提供するソリューションです。この新機能により、データ サイエンティストは、テンプレート化された再利用可能な構成とすぐに使用できるビッグデータ フレームワークを使用して、作業を簡単にスケールできます。同時に、統合されたセキュリティ管理機能が管理者に提供されます。これにより、自動スケーリング ポリシー、自動削除、タイムアウトを設定できるので、権限が常に同期され、適切なデータが適切なユーザーに利用可能になります。

Dataproc Hub は、統合型であり、オープンでもあります。モデルのトレーニング、特徴量エンジニアリング、前処理に BigQuery データまたは Cloud Storage データを使用することを望む AI Platform Notebooks ユーザーは、この新機能の恩恵を大いに受けます。Dataproc Hub により、データ サイエンティストはセットアップや構成の作業をあまり行わずに PySpark や Dask などの API を活用できます。また、NVIDIA GPU により Spark XGBoost パイプラインを高速化することで、CPU と比較して費用を 14 分の 1 に削減し、データを 44 倍速く処理できます。Dataproc Hub のリリースの詳細については、こちらをご覧ください。AI Platform で RAPIDS、Dask、NVIDIA GPU を使用したモデル トレーニングについて詳しく知るには、まずこちらのブログをお読みになることをおすすめします。

NVIDIA でデータ サイエンス プロダクト グループのシニア ディレクターを務める Scott McClellan 氏が先日述べたように、「大規模なデータ サイエンスのタスクが実施しやすくなる」時が来ました。NVIDIA と協力してそれに取り組めることを光栄に思います。

1 分でわかる Dataproc

Video Thumbnail

2 月の投稿で示したように、Google の目標は、すべての人がデータ サイエンスと機械学習にアクセスできるようにすることです。Google のデータ分析機械学習機能を利用するためにデータ サイエンティストである必要はありません。すべての Google Workspace ユーザーは、コネクテッド シートから直接機械学習を使用できます。使用を開始するには、ブログ BigQuery ML によって Google スプレッドシートで機械学習モデルを使用する方法をご覧ください。

そうです。現在 20 億人以上のユーザーがいる Google スプレッドシートから、機械学習の力を直接利用できます。大規模なデータの使用を開始して、ビジネスに大きな影響をもたらしましょう。

協力してより良い未来を築く

2 月は特に、Verizon Media のクラウドへの移行の取り組みについて寄稿していただいた、Verizon Media のエンジニアリング担当シニア ディレクターである Nikhil Mishra 氏からインスピレーションを受けました。同氏は、問題の特定から、ソリューション要件、BigQuery と Google の Looker の選択に使用される概念実証全体まで、最終決定に至るプロセスを深く掘り下げています。これは、スケーリング、パフォーマンス、費用のためのモダナイゼーションと最適化に関する実践的なガイダンスを探している方にとって必読です。

正しいクラウド戦略を採用することは、Google のお客様の変革の取り組みにとって重要です。直接的なガイダンスをお探しの場合は、Twitter の導入事例も非常に参考になります。Twitter のプラットフォーム リーダーである Nick Torno 氏は、VentureBeat のインタビューで、Twitter ユーザーのエクスペリエンスを改善するために、同社がどのように Google BigQuery、Dataflow、機械学習を活用しているかを説明しています。この記事では、ビジネス ユースケースを通して迅速に価値を提供しながら、サイロを解消し、将来を見据えたデータ分析環境を構築することが重要であると結論付けています。

また、Google は、北米最大級の輸送物流会社の一つである J.B. Hunt が荷送人、キャリア、サービス プロバイダ向けの輸送と物流経験をデジタル変革するための新しいサービスを開発するという目標もサポートしています。

リアルタイムのデータは 1 兆ドル規模の物流業界の礎であり、今日のキャリアは、サプライ チェーン、設備稼働、価格設定、輸送全体で IT システムのパッチワークに依存しています。J.B. Hunt の 360 プラットフォームは、こうした異なるシステム間でデータを一元化し、無駄、干渉、非効率性を低減するのに役立ちます。

また、Google Cloud によって Ford が自動車技術を変革した事例や、BNY Mellon が毎日の数十億ドルに及ぶ決済不履行を予測できるようになった事例もご参考になるかと存じます。Google Cloud は先日、米国海洋大気庁(NOAA)との提携拡大に合意し、データをこれまで以上に幅広く共有できるようにしました。これにより、素晴らしい結果が得られています。

主な機能のご紹介

Google Cloud は、お客様に違いをもたらす新しい機能を継続的に改善して提供することを常に目標としています。2 月に、Data Fusion のレプリケーション アプリケーションの一般公開プレビュー版がリリースされたことをお知らせしました。このアプリケーションを使用すると、レイテンシを低く抑えながら、SQL Server や MySQL などのトランザクション データベースやオペレーショナル データベースから直接 BigQuery にリアルタイムでデータをレプリケートできるようになります。

Data Fusion のウィザード形式のシンプルなインターフェースにより、シチズン デベロッパーはレプリケーションを簡単に設定できます。レプリケーションの開始前に、スキーマの非互換性、接続性の問題、不足している機能を特定するだけでなく、その是正措置を提案する評価ツールも用意されています。Data Fusion でレプリケーションを行うと、レプリケーション ジョブのスループット、レイテンシ、エラーをモニタリングするリアルタイムのオペレーション ダッシュボード、BigQuery へのダウンタイムゼロのスナップショット レプリケーション、CDC ストリームのサポートなど、エンドツーエンドの可視性の恩恵を受けられるため、ユーザーは分析とアクションのために BigQuery の最新データにアクセスできます。

Cloud Data Fusion が Google Cloud プラットフォームに統合されることにより、データ ウェアハウスで最新のデータを分析に利用できるようにしながら、最高レベルのエンタープライズ セキュリティとプライバシーが確実に保護されます。今回のリリースには顧客管理の暗号鍵(CMEK)と VPC-SC のサポートが含まれています。Data Fusion を初めて使用する場合は、Data Fusion と Cloud Composer を使用したデータレイク ソリューション アーキテクチャに関するブログシリーズの第 1 章を確認することをおすすめします。

急速に変化し続けるデータに関しては、デベロッパー アドボケイトである Polong Lin と Sara Robinson による BigQuery ML を使用した継続的なモデル評価の最新のベスト プラクティスを参照いただくことをおすすめします。同投稿では、BigQuery ML を使用したモデルの作成から、ML.EVALUATE を使用したデータの評価、受信データを評価するためのストアド プロシージャの作成、テーブルへの評価指標の挿入まで、モデルのライフサイクル全体を説明しています。また、BigQuery と Cloud Scheduler で構築された統合プラットフォームのパワーのほか、Cloud Functions の使用やデータポータルでのモデル指標の可視化など、ユーザーが実現できることを紹介しています。紹介されているアドバイスをぜひお役立てください。

最後になりますが、BigQuery、Data Catalog、Pub/Sub、Dataflow を使用してデータリネージ システムを構築する方法に関する 2 月の投稿で、データ トレーサビリティについても取り上げました。データリネージは、データ フォレンジックの実行、データの依存関係の特定、そして何よりもビジネスデータの保護にとって重要です。Data Catalog は、Google Cloud サービスのデータだけでなく、独自のオンプレミス データセンターやデータベースのデータにビジネス メタデータを同期してタグ付けできる高度なインターフェースを提供します。最も一般的なユーザー ジャーニーにおすすめのアーキテクチャに関する考察については、こちらの役立つ記事をお読みください。その後で、BigQuery ストリーミング、Pub/Sub、ZetaSQL、Dataflow、Cloud Storage を使用してデータリネージ システムの構築を始めましょう。


BlackRock による Data Catalog の活用例: データ検出とメタデータ管理の実践をご覧ください。

Video Thumbnail

2 月号は以上です。ご意見、ご感想をぜひお寄せください。また 3 月号でお会いしましょう。

-データ分析担当プロダクト管理ディレクター Sudhir Hasbe

投稿先