コンテンツに移動
データ分析

IT 業界の予測: 統合されたデータ パイプラインでリアルタイムの分析情報がより充実

2023年1月4日
Google Cloud Japan Team

※この投稿は米国時間 2022 年 12 月 15 日に、Google Cloud blog に投稿されたものの抄訳です。

編集者注: この投稿は Google Cloud のエキスパートが IT 業界の今後を予測しているシリーズの一部です。今後数年間の IT 業界の変化について予測した内容の一覧をご覧ください。


予測: 2025 年までに、ML を使用してデータの 90% がリアルタイムで実用可能になる

最近の調査によると、自社のデータから有用な価値を実現できている企業は、全体のわずか 3 分の 1 であることが明らかになっています。その結果、組織はデータ インフラストラクチャの管理、データの移動と複製、適切なユーザーに対する適切なツールでのデータの提供という運用負担を抱え込んでいます。

Google は、データこそが Google の DNA であると考え、Google のイノベーションを可能にしてくれたソリューションをお客様に提供することを目指しています。たとえば、Vodafone が自社のすべてのデータを統合するのを Google がサポートした際には、数千人の従業員が 700 の異なるユースケースと、5,000 の異なるデータフィードにわたってイノベーションを実現できるようになりました。Vodafone は今では、ガバナンスや信頼性を犠牲にすることなく、AI 開発の速度を 80% 向上させ、より高い費用対効果を実現しています。

Google は、データ インフラストラクチャを構築してきた自社の経験から、価値やイノベーションを生み出すうえでの障壁を乗り越える際に役立つ以下の原則を発見しました。  

データを見つけて、信頼できるようにしなければなりません。手始めに、データ探しに費やす時間を減らしましょう。まずは、自動化とインテリジェンスを活用してデータを分類します。そうすることで、そのデータが信頼に足るものであるとの確信が持てます。Dataplex のような自動分類ツールを使用すると、保存場所にかかわらず、1 か所からデータを発見、管理、モニター、統制できるようになります。正しいデータを探すことに何日も費やすのではなく、まさに必要なときにデータが見つけられるため、実際の作業により多くの時間が割けるようになります。加えて、組み込みまれているデータ品質機能およびデータリネージ機能が、データ品質の自動化やデータの問題のトラブルシューティングをサポートしてくれます。  

データで作業できるようにしなければなりません。構造化データから、半構造化データや非構造化データまで、チームがすべてのデータで作業できるように、最適な独自かつオープンソースのツールを導入しましょう。鍵となるのは、エンタープライズ ソリューションを統合しながら Apache Spark のような最適なオープンソースを活用する方法を探ることです。そうすることで、信頼性やパフォーマンスを大規模に実現することが可能となります。オープンソース コードをフォークせずに Google Cloud インフラストラクチャのパワーを活用できた場合に、どんなことが実現できるかを想像してみてください。    

今日のデータは、明日ではなくその日のうちに対処する必要があります。ストリーミング分析を適用することで、データが収集されたときに作業を行うことができます。統合バッチとリアルタイム パイプラインを構築すると、リアルタイム イベントを処理して、コンテキスト内のエクスペリエンスを実現できるようになります。たとえば、Dataflow のようなストリーミング サービスでは、Apache Beam の使用が可能で、これを使用して統合パイプラインを構築すると、バッチでリアルタイムにデプロイすることができます。

Video Thumbnail

データを見つけることができ、信頼することができ、収集時に作業することができれば、ML を使用してデータの 90% をリアルタイムで実用可能にする方法も、それによって実現する素晴らしいイノベーションも見えてくるはずです。

- プロダクト管理、スマート アナリティクス担当シニア ディレクター Irina Farooq
投稿先