コンテンツに移動
データ分析

最もオープンなデータ クラウド エコシステムの構築: あらゆるプラットフォームにおけるあらゆるソースのデータをすべて統合

2022年10月14日
https://storage.googleapis.com/gweb-cloudblog-publish/images/open_data_cloud_ecosystem_1.max-2600x2600.jpg
Google Cloud Japan Team

※この投稿は米国時間 2022 年 10 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。

データは、デジタル トランスフォーメーションにおいて最も価値のあるアセットの一つです。しかし、データには制限があることがまだ非常に多く、組織が重要な一歩を踏み出せないことがあります。たとえば、新しいデジタル ビジネスの設立や、消費者行動の変化の把握、あるいは公衆衛生の危機に対処するためのデータ活用でさえ、妨げられる可能性があります。また、データの複雑さもさることながら、データのロックインによって、デジタル トランスフォーメーションに大きな障壁が生まれています。

すでに 800 以上のソフトウェア企業が Google のデータクラウドを使用してサービスを構築し、40 以上のデータ プラットフォーム パートナーが Google Cloud Ready - BigQuery の取り組みを通じて検証済みの統合を提供しています。今年初め、Google は Data Cloud Alliance を立ち上げました。今では、業界での影響力の高いデータ企業 17 社に支援され、オープン標準と、よく利用されているデータ アプリケーション間での相互運用性の促進に協力して取り組んでいます。

今週の Next '22 では、最もオープンで拡張性が高く、強力なデータクラウドの提供に向けた大きなステップについて発表します。このステップとは、ユーザーが任意のあらゆるクラウド プロバイダとプラットフォームにわたり、あらゆるストレージ形式と分析スタイルで、あらゆるソースからすべてのデータを活用できるようにするものです。たとえば次の内容が挙げられます。

  • BigQuery で非構造化ストリーミング データを分析する新機能のリリース。

  • Apache Iceberg、Linux Foundation Delta Lake、Apache Hudi など、業界で主流のデータ形式に対するサポートの追加と、Apache Spark 向けの BigQuery の新しい統合エクスペリエンスの提供。

  • Dataplex の自動化されたデータ品質とデータリネージの機能を拡大し、ユーザーがデータをより信頼できるようにする。

  • ビジネス インテリジェンスのポートフォリオを Looker の傘下に統合し、Looker、データポータル、そして AI や 機械学習(ML)などの Google のコア テクノロジーの緊密な統合を実現する。

  • データ技術者が高性能のコンピュータ ビジョンと画像認識 AI を利用しやすくなる新しいサービス、Vertex AI Vision のリリース。

  • Collibra、Elastic、MongoDB、Palantir Foundry、ServiceNow といった、多数の人気の高いエンタープライズ データ プラットフォームとの統合を拡大し、データ間の障壁を取り除いて、ユーザーにより多くの選択肢を提供し、データのロックインを防ぐ。

これらの盛りだくさんの更新について、以下にそれぞれ詳しく説明します。

あらゆる環境の、あらゆる主要形式のデータをすべて統合する

Google では、データクラウドはストレージ形式や環境を問わず、あらゆる種類のデータを、信頼性が高く管理された方法で取り扱えるべきだと考えます。これを実現するため、Google のデータクラウドにいくつかの新機能を追加することになりました。

まず、BigQuery に非構造化データのサポートを追加し、ユーザーがあらゆる種類のデータを扱えるようにいたします。ほとんどの場合、データチームは構造化データを扱っており、BigQuery を使用してオペレーショナル データベースや SaaS アプリケーション(Adobe、SAP、ServiceNow、Workday など)のデータ、そして JSON ログファイルなどの半構造化データを分析しています。

しかし、この方法では組織の情報のほんの一部しか使用できません。非構造化データは、今日における全データの最大 90% を占める可能性があり、その中には、テレビ番組アーカイブの動画、コールセンターやラジオの音声、そしてさまざまな形式のドキュメントが含まれます。今後、データチームは BigQuery の使い慣れた SQL インターフェースを使用して、Google Cloud の ML、音声認識、コンピュータ ビジョン、翻訳、テキスト処理の機能を簡単に利用できるようになり、BigQuery で構造化データも非構造化データも分析できるようになります。

2 つ目に、現在使われている主要データ形式のサポートを追加します。Google のストレージ エンジンである BigLakeに、データレイクでよく使用される主要なオープンソース テーブル形式である Apache Iceberg、Delta Lake、Apache Hudi のサポートを追加します。Apache Iceberg のサポートは間もなくプレビュー版が提供される予定で、Apache Hudi Delta Lake のサポートも準備中です。これらの広く普及しているデータ形式をサポートすることで、組織がデータの価値を最大限に引き出すための妨げとなる障壁を取り除くことができます。

Databricks のプロダクト担当シニア バイス プレジデントの David Meyer 氏は次のように述べています。「Google Cloud による Delta のサポートは、オープンかつマルチクラウドのレイクハウスに対する需要の証と言えます。これにより、ユーザーには、場所を問わずすべてのデータを活用できるという柔軟性がもたらされます。このパートナーシップは、チームや組織間でのデータのアクセス、移植、コラボレーションをより容易にする、オープンデータ共有や Delta Lake などのオープン標準を推進する私たちの共同の取り組みをより一層実証するものです。」

3 つ目に、大規模データ処理の主要なオープンソース分析エンジンである Apache Spark 向けに、BigQuery の新しい統合エクスペリエンスを発表します。この新しい Spark とのインテグレーションは、本日プレビュー版としてリリースされます。これを使用することで、データ技術者の方は Apache Spark を使用して BigQuery でプロシージャーを作成し、自社の SQL パイプラインと統合できます。Walmart などの一部の組織は、Google Cloud を使用することで Spark の処理時間を 23% 短縮し、会計作業にかかる期間を 5 日間から 3 日間に短縮しました。

さらに、Datastream と BigQuery の新しいインテグレーションもリリースします。これにより、組織はさまざまなソースのデータ(AlloyDB、PostgreSQL、MySQLや、Oracle などのサードパーティ データベースのリアルタイム データなど)を、より効率的に、直接 BigQuery に複製できるようになります。さまざまなソースのデータを BigQuery に取り込む能力を高めることで、ユーザーはデータからより多くの分析情報を取得できるようになります。こうした機能は、小売企業にとって重要です。たとえば、データの取得元を問わず、バッチ処理を介してデータが定期的に読み込まれるのを待たずに、顧客の注文に関するリアルタイム データからより多くの価値を引き出せるようになります。

最後に、データクラウドは、組織がすべてのデータを安心してまとめられる場所である必要があります。すなわち、高いデータ品質を保証し、強力で柔軟なデータ管理とガバナンス機能を実現する必要があります。そのために、Google はデータ品質に関連する一般的なプロセスを自動化する Dataplex の更新を発表します。たとえば、ユーザーはデータリネージ(データがどこで発生し、時間の経過とともにどのように変換および移動されたか)をより簡単に理解できるようになり、時間のかかる手作業でのプロセスの必要性を減らせます。

ユーザーがさまざまな種類のデータを任意の形式で使用できるようにすることこそ、オープン データクラウドの特徴です。Google は、ユーザーがデータの制限を取り除き、データのロックインを回避するために必要なサポートとインテグレーションを提供することに取り組んでいます。

AI であらゆる形態の分析とアナリストをサポート

毎月 1,000 万人を超えるユーザーに Google Cloud のビジネス インテリジェンス ソリューションをご利用いただいており、それには Looker や Google データポータルも含まれます。このたび、特にご利用者の多いこの 2 つのツールを Looker の傘下に統合し、Looker、データポータル、および AI や ML といった Google のコア テクノロジー間の緊密なインテグレーションを実現します。このインテグレーションの一環として、データポータルは Looker Studio になりました。これにより、ダッシュボードの枠を超えて、データドリブンな意思決定に必要なインテリジェンスをワークフローやアプリケーションに組み込めるようになります。Looker およびビジネス インテリジェンスの次なる進化について詳しくは、Looker の未来についての投稿をご覧ください。

Goolge Cloud は、お客様が選択するビジネス インテリジェンス ツールをご利用できるようにしたいと考えています。Looker と Tableau のインテグレーションにつきましてはすでにお知らせしいたしましたが、本日は、Looker と BigQuery の Microsoft Power BI による強化についてお知らせいたします。お客様に最もオープンなデータ クラウドを提供するという取り組みにおいて、この強化によりまたひとつ大きく前進します。これにより、Tableau と Microsoft のお客様は、Looker から信頼できるデータを簡単に分析することや、BigQuery をシームレスに利用することが可能になります。

データのモデリングや管理において、AI と ML はますます重要なツールになってきています。特に、組織がこういった機能をユーザーが自ら利用できるようにする際に、その重要性が際立ちます。Vertex AI では、すでにデータアクセスやデータの取り込みの簡素化、モデル オーケストレーション、ML モデルの本番環境へのデプロイにより、データから価値を迅速に引き出すことが可能になっています。

こうしたなかで、このたび、データ実務者やデータ デベロッパー向けに Vertex AI の機能が拡張された Vertex AI Vision をリリースいたします。この新しいエンドツーエンドのアプリケーション開発環境は、視覚データの取り込み、分析、保存をサポートします。たとえば、製造工場内の安全を確認するためのストリーミング動画、在庫分析を改善するための店舗の棚からのストリーム、混雑する交差点を管理するための信号機のモニタリングといった視覚データが挙げられます。この開発環境では、こういったデータを把握、活用するコンピュータ ビジョン アプリケーションを簡単にビルド、デプロイできます。

Vertex AI Vision を利用すると、コンピュータ ビジョン アプリケーションの作成にかかる時間を週単位から時間単位に削減できるうえ、現在のサービス利用料を 10 分の 1 に抑えることもできます。このような効果を生み出せるように、Vertex AI Vision には、利用人数の検出、プロダクトの識別、オブジェクトの検出といった一般的なタスク用に、簡単に使用できるドラッグ&ドロップのインターフェースと事前トレーニング済み ML モデルのライブラリが用意されています。また、既存の AutoML モデルやカスタムの ML モデルを Vertex AI から Vertex AI Vision アプリケーションにインポートするオプションも用意されています。他の AI プロダクトと同様、Google Cloud の新しい AI プロダクトはすべて、Google Cloud の AI の原則に準拠しています。

コンピュータ ビジョン ソリューションの大手プロバイダである Plainsight は Google Cloud を利用して速度と費用対効果を高めています。「Vertex AI Vision を活用することにより、これまで大規模には実現できなかったユースケースにおいて、状況を大きく好転させています」と、Plainsight の共同創業者 / 最高製品責任者 Elizabeth Spears 氏は述べています。「ストリーミング動画に対してコンピュータ ビジョンモデルを実行する際の費用を最大で 100 分の 1 にまで削減できることは、弊社のお客様にとって、まったく新しいビジネス機会を生み出しています。

すべての主要オープンデータ プラットフォームに対応

お客様が選択するあらゆるデータ プラットフォームを利用できる柔軟性を提供することは、データ ロックインを防ぐためにきわめて重要です。Google Cloud は、Google のデータクラウドをオープンに保つために、Collibra、Databricks、Elastic、FiveTran、MongoDB、Reltio、Strimm、その他多くの企業を含めたすべての主要オープンデータ プラットフォームと連携して、共通のお客様に最適なプロダクトを Google の最高水準のデータクラウドでご利用いただけるよう取り組みを進めています。また、Data Cloud Alliance の 17 のメンバー企業と連携して、データ業界におけるオープン標準と相互運用性を促進する取り組みを進めているほか、MongoDB、MySQL、PostgreSQL、Redis といったオープンソース データベース エンジン、およびAlloyDB for PostgreSQL、Cloud Bigtable、Firestore、Cloud Spanner といった Google Cloud データベースのサポートも続けています。

Next '22 では、最新情報とともに、これらのパートナー企業のうち数社との重要なインテグレーションを発表いたします。これらのインテグレーションにより、ご自身で選択したプラットフォーム間でのデータの移行が簡単になるうえ、パートナー企業のプラットフォームで Google のデータクラウド機能をさらにご活用いただけるようになります。

  • Collibra と Dataplex とのインテグレーションにより、ビジネスデータをより簡単に検出し、データ系列を把握し、すべての主要なクラウド環境とオンプレミス環境で保存データを整合性を持って管理できるようになります。

  • Elastic とのインテグレーションにより、Google のデータクラウドで Elastic Search の機能が利用可能になり、検索クエリを Google Cloud 上のデータレイクに連携できるようになります。また、Looker のサポートを Elastic プラットフォームまで拡張いたします。これにより、検索インサイトをデータドリブン アプリケーションに簡単に埋め込めるようになります。

  • MongoDB がリリースする新しいテンプレートにより、Atlas と BigQuery 間のデータの移行処理が大幅に高速化されます。これは、Vertex AI を使用して Google Cloud の AI と ML の機能を MongoDB に適用する新しいユースケースも生み出します。

  • Palantir は、ビジネス オブジェクト、予測モデル、アクションに、基盤となるデータモデルを連携させる Foundry Ontology 用エンジンとして BigQuery を認定します。これにより、お客様はデータをインテリジェントな運用に活用できるようになります。

  • ServiceNow の Flow Designer と App Engine が BigQuery と統合されることにより、Google Cloud で利用可能なデータセットを簡単に接続して、BigQuery からのリアルタイムのデータに対処する新しいスマートなワークフローを構築できるようになります。このインテグレーションにより、開発者やビジネス アナリストは、BigQuery に直接接続して、自社データを外部のデータセットと組み合わせるソリューションを構築できます。このインテグレーションでは、IT アセット管理、カスタマー サービスの管理、注文管理など、企業全体のさまざまなユースケースが強化されます。

  • Reltio と BigQuery のインテグレーションにより、マスターデータ管理機能を通してリアルタイムでデータの集約、クレンジング、拡充が可能となるため、ユーザー エクスペリエンスが向上します。また、Vertex AI によりインテリジェントなアクションを取ることができるようになります。

  • Striim の BigQuery 向けマネージド サービスにより、インサイトを得るまでの時間が短縮され、自動スキーマ作成、調整された初期読み込み、1 秒未満のレイテンシでの組み込みの並列処理を通して、さまざまな運用ソースからのデータを簡単に複製できるようになります。インサイトを得るまでの時間が短縮されると、組織全体で意思決定までの時間も短縮できます。

Google Cloud の Next ‘22 の配信やオンデマンド セッションをご覧になり、これら最新のイノベーションを活用してデータから価値を創出する方法の詳細をご確認ください。


- データ分析担当バイス プレジデント兼ゼネラル マネージャー Gerrit Kazmaier
投稿先