分析と AI の取り組みを強化できるデータセットを見つける
Google Cloud Japan Team
※この投稿は米国時間 2021 年 5 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。
お客様のために、データを活用したイノベーションを加速するという使命のもと、Google Cloud は常にデータを最優先にしてきました。Google 内のさまざまな組織は、一般利用、あるいは商用利用が可能な強力なデータカタログを所有しています。Google はこのほど、こうしたプログラムの全体像の把握を可能にする Google Cloud データセット ソリューションをここに発表いたします。あらゆる規模のビジネスで見られる傾向に基づいた Google のデータセット ソリューションでは、意思決定の強化や加速における、価値の高い精選されたデータアセットの重要性が強調されています。
Google は、現行の一般公開データセット プログラムの成功を基に対象を拡大し、分析と AI に関する取り組みの価値を強化するために使用できる商用データセット、合成データセット、ファーストパーティの Google データアセットをこのプログラムに追加することにしました。2016 年のリリース以来、Google Cloud 一般公開データセット プログラムは、米国海洋大気庁(NOAA)、アメリカ国立衛生研究所(NIH)、米国国勢調査局などの多くのデータ プロバイダと協力し、厳選された一般公開データアセットのカタログを、BigQuery と Cloud Storage で最適化された形式で提供してきました。こうしたデータは多くの業界の分析ワークロードをサポートできます。たとえば、NOAA が提供する暴風雨事象の詳細に関する一般公開データセットは、小売業者の非公開の在庫データセットに結合することで、悪天候が売り上げに与える影響を詳しく理解するのに役立ちます。また、財産保険会社は気象データの分析情報を保険契約の料金設定に反映させることができます。これは、これまで交わることのなかった異分野のデータを混ぜ合わせることで可能になる、数百ある事例のうちの 2 つにすぎません。
Google は、プログラムに商用データ、合成データ、ファーストパーティ データを追加することで、データ分析や人工知能で独自の分析情報を獲得するお客様の能力をさらに強化したいと考えています。また、Earth Engine と Kaggle のカタログから利用できるようになったデータセットを見つけ、利用することもできます。
さらに、お客様へのさらなる支援のため、データセット オンボーディング用のオープンソース リファレンス アーキテクチャも発表いたします。これにより、現在 Google Cloud に非公開データセットを保有していないお客様でも分析を利用し始めることができます。この取り組みに関する詳細や、データ オンボーディングにこのアーキテクチャを利用する方法については、開発者と実務担当者のブログをご覧ください。
Google の目標は、時間をかけてこうしたさまざまな分野でデータコーパスを成長させ、お客様にとっての有用性を高めることです。このプログラムを拡張し、単なる一般公開データ以上のものを提供できるようにすることが不可欠と考えています。新しいデータセットとソリューションでプログラムを成長させるとともに、データセット ソリューション ページに更新情報を定期的に投稿していきますので、ぜひご覧ください。
-Google Cloud データセット担当責任者 Michael Hamamoto Tribble