Google Cloud Platform でデータレイクを構築

膨大な量のデータをコスト効率と俊敏性に優れた方法で保存、処理、分析します。

クラウド データレイクの概要

あらゆるデータを収集し、使用するための場所

構造化データや非構造化データをそのままの状態で Google Cloud Platform に格納し、コンピューティング リソースとは切り離して保存すれば、費用のかさむオンプレミスのストレージ モデルから脱却できます。データの前処理の煩わしさを解消し、新しいデータ型を処理するためのスキーマ設計の試行を続けましょう。Google Cloud Platform が誇る最先端の処理、分析、機械学習サービスを利用すれば、社内で効果的なユースケースを実現できます。Google が ID、アプリケーション、デバイスを保護するために使用しているものと同じ、セキュリティを重視した設計のインフラストラクチャを活用しましょう。

データの取り込みから分析情報の導出まで

GCP データレイクにデータを格納

GCP データレイクにデータを収集

Google Cloud Platform では、バッチからストリーミングまで、データをどこからでも容易にクラウドへ移行できます。オフラインの Transfer Appliance を使用して社内ネットワーク間でデータを移行する場合も、リアルタイムのストリームをキャプチャする場合も、GCP のプロタクトやサービスなら煩雑な手間をかけずにニーズに対応します。

ペタバイト規模でデータを保存

ペタバイト規模でデータを保存

データレイクの集中管理ハブとして Cloud Storage を使用すれば、その強整合性や 99.999999999% の耐久性を実現した設計、保存データの格納機能(従来のオンプレミス モデルのようにコンピューティング リソースを消費しない)を生かせます。 複数のストレージ クラスを備えた Google Cloud Storage は、コストと可用性を最適化しながら、費用対効果に優れたペタバイト規模のデータレイクを構築することもできます。何よりも、Google Cloud Storage に 保存されているデータは他のさまざまな Google Cloud Platform プロダクトから利用しやすいため、あらゆるユースケースに備えて、あらゆるデータアセットを一元管理できる理想的な格納場所といえます。

データを処理

任意の方法でデータを処理

Cloud Storage 上にデータレイクを構築すれば、自社に適した方法でデータを処理できます。GCP のフルマネージド Hadoop & Spark サービス、Cloud Dataproc を利用して社内の Hadoop 環境を有効活用すれば、必要に応じてクラスタをスピンアップできるため、実際に使った分しか料金がかかりません。また、GCP のフルマネージド Apache Beam サービス、Cloud Dataflow を利用すれば、面倒なプロビジョニングや管理を排除したサーバーレスのデータ処理環境でストリーム ワークロードとバッチ ワークロードの両方に対応できます。

サーバーレス データ ウェアハウス

サーバーレス データ ウェアハウスでデータレイクのデータを分析

GCP のサーバーレスでペタバイト規模のデータ ウェアハウス、BigQuery を利用すれば、データレイクに格納した構造化データを分析できます。大量のデータに対しても高速でクエリを実行できるため、企業が求めるレポーティングやビジネス インテリジェンスのニーズにも対応します。使い慣れた SQL を使用してアクセスできる機械学習機能が組み込まれているため、データを中心とした社風もサポートします。

機械学習を駆使した高度な分析

機械学習を駆使した高度な分析

GCP 上のデータレイクを活用してデータ分析を試行し、Cloud Storage に格納されたデータアセットをもとに機械学習モデルを構築しましょう。Google が誇る最先端の Cloud AI プロダクトとネイティブに統合されているため、画像動画のアセットから有益な情報を得ることも、Cloud Machine Learning Engine を利用して独自の機械学習モデルをカスタマイズ、デプロイ、スケールすることも可能です。

オンプレミス Hadoop データレイクのワークロードを GCP プロダクトにマッピング

GCP でクラウド データレイクを構築はいいいえストリーミング データを処理しているApache Beam を使用しているApache Spark または Kafka を使用しているCloud DataflowCloud DataprocCloud Dataprocrインタラクティブなデータ分析またはアドホック クエリを実行しているインタラクティブなウェブ ノートブックで Apache Spark を使用しているこれらのクエリをそのまま維持したいと思いますか?Jupyter または Zeppelin のオプション コンポーネントと Cloud Dataproc の組み合わせCloud Dataprocrいいえ、サーバーレス ソリューションに興味があります。はいいいえいいえ、マネージド ソリューションに興味があります。 BigQueryApache Hive、Apache Drill、Impala、Presto などで SQL を使用しているCloud DataprocrCloud DataprocELT や ETL、バッチ処理を行っているMapReduce、Spark、Pig、Hiveを使用しているワークフローのオーケストレーションに Oozie を使用しているCloud Composerこれらのワークフロー業務をそのまま維持したいと思いますか? NoSQL ワークロードをサポートしているApache Accumulo を使用しているCloud DataprocはいいいえApache Phoenix でコプロセッサや SQL を使用する必要がありますか?Cloud DataprocrCloud Bigtable Apache HBase を使用しているApache Hadoop クラスタをオンプレミスで運用している

リソース

Google Cloud Platform のデータレイク アーキテクチャ

データレイクの採掘と補充(Cloud Next ’18)

Cloud Dataproc を使用して実行時間の長いクラスタを構築するための 10 のヒント

マーケティング データ ウェアハウスの構築

オンプレミスの Hadoop インフラストラクチャの Google Cloud Platform への移行