ビッグデータの概要

ビッグデータとは、一般的に、従来の(リレーショナル / モノリシック)データベース システムを使って保存、管理、分析するとコストがあまりに高くなるデータを指します。通常、そのようなシステムは費用対効果が良くありません。なぜなら、(画像、テキスト、ビデオなどの)非構造化データの保存、「高速な」(リアルタイム)データの処理、(ペタバイト単位の)膨大なデータボリューム向けスケーリングといった操作を可能にするための柔軟性に欠けるからです。

このため、ここ数年間で Apache Hadoop や NoSQL データベース システムなど、ビッグデータを管理して処理する新しいアプローチがメインストリームで採用されることが多くなりました。しかしこの場合、オンプレミス環境ではデプロイ、管理、利用がしばしば複雑になってしまいます。

ビッグデータはどこから発生するのでしょうか?

従来の顧客データは、(銀行の場合など)完全に構造化されたトランザクションに分類されるものがほとんどでした。しかし現在、組織がオンラインでお客様と毎日やり取りして生じる非構造化データに比べると、ほんの数年前に生成されていたデータは小さく見えます。近年の「モノのインターネット」の台頭により、テキスト、動画、画像、さらに音声形式のデータ量が爆発的に増加しています。「モノのインターネット」とは、相互に接続された数十億ものデバイスやセンサーが集まったグローバル ネットワークを指しています。そして最後に、法規制の下にある業界では、コンプライアンス上の理由でアーカイブデータにアクセスしなければならないことがよくあります。

ビッグデータが重要な理由

現在、あらゆる業種、あらゆる規模で成功している組織の 1 つの特徴は、データから一貫性のある形でビジネス価値を取得できる能力です。小売、広告、金融サービスなど、業種によっては死活問題とさえ言えます。しかもそのような業種は増え続けています。

データ分析から大きな価値を得るには、利用できるデータが多くなければなりません。したがってビッグデータはビジネス上の深い洞察を手にするための豊富な「資源」だということに、さまざまな業種の組織が気付いています。また、機械学習モデルはトレーニング用データが多ければ多いほど効率が上がるので、機械学習とビッグデータは密接に補完し合っています。

どんなデータが「ビッグ」なのか?

多くの企業は、データ量に関して言えばペタバイト規模にまだ達していませんが、ビッグデータの特徴である他の 2 つの要素のいずれかを持つデータを保有している可能性があります。そして、データが時間の経過とともに増加することは必然です - それもおそらく指数関数的に。その意味では、あらゆる「ビッグデータ」は「スモールデータ」として始まります。

クラウドがビッグデータに最適なプラットフォームである理由

クラウド コンピューティングは、オンプレミスのデプロイメントと比較して、よりスケーラブルで柔軟性が高く、費用対効果に優れ、しかも安全な方法でデータの保存、処理、アナリティクスを可能にします。お客様のデータボリュームが爆発的に増加している場合、必要に応じてストレージや処理用リソースを利用し、そのデータから価値を得るためには、このような特徴が不可欠です。さらに、ビッグデータ分析と機械学習の第一歩を踏み出そうとしている組織や、オンプレミス ビッグデータ システムの潜在的な複雑さを回避したい組織にとって、クラウドはマネージド サービス(Google BigQuery、Google Cloud ML Engine など)を従量課金制でテストできる手段となります。

詳細: