Google Cloud でのデータレイクの構築

すべてのデータをコスト効率の高い俊敏な方法で保存、処理、分析します。

クラウド データレイクの概要

生のデータをイノベーションに変える

お客様のデータは今どこに存在し、どのように活用されていますか?すべての構造化データまたは非構造化データを Google Cloud に読み込み、Google のツールを使って処理、分析、機械学習に利用すれば、ビジネスを成長させる有用な情報が得られます。

データの取り込みから分析情報の導出まで

GCP データレイクにデータを格納

クラウドへの移行が簡単

データはバッチとストリーミングのどちらですか?ネットワークを越えて移行する際、オフラインの Transfer Appliance を使用することをお考えですか?それとも、リアルタイムのストリームをキャプチャしますか?データが現在どこにあり、どのような方法で移行を行うかにかかわらず、Google Cloud へのデータの移行は簡単です。Cloud Storage は信頼性が高く、99.999999999% という高い耐久性を誇っています。

ペタバイト規模でデータを保存

柔軟かつ強力で費用対効果の高いストレージ

Google Cloud はストレージがコンピューティングから切り離されており、データを 1 ギガバイトという小さい増分単位で徐々に増やすことができます。料金は保存した分しかかかりません。複数のストレージ クラスが用意されており、費用と可用性を考慮して最適なストレージ クラスを選べます。スキーマの設計は必要ありません。さらに、Google Cloud Platform 全体と互換性があるため、新しい分析やデータを速やかにテストしてどのようなユースケースにも対応できます。

データを処理

任意の方法でデータを処理

Cloud Storage では、自社のビジネスにとって意味のある方法でデータを処理できます。Cloud Dataproc(Google のフルマネージドの Apache Hadoop および Spark サービス)を利用すれば、クラスタを数秒でスピンアップすることができ、料金はジョブを実行した時間分しかかかりません。また、フルマネージドの Apache Beam サービスである Cloud Dataflow を使用すると、プロビジョニングや管理に時間をとられないサーバーレス環境でストリーミングとバッチの両方のワークロードを扱うことができます。

サーバーレス データ ウェアハウス

高速なダッシュボードと可視化

大量の構造化データの分析をきわめて高速に行いたい場合は、BigQuery(Google のペタバイト規模のサーバーレス データ ウェアハウス)を利用することで、ウェアハウスを数秒でセットアップし、データのクエリを直ちに開始できます。さらに、インメモリの BigQuery BI Engine によってエンタープライズ レポートやビジネス インテリジェンスを瞬時に作成することも可能です。

機械学習を駆使した高度な分析

機械学習による新たな知見

Cloud AI とのネイティブの統合により、お客様のデータレイクを、大きな可能性を秘めた機械学習に活用できます。これにより、たとえば画像動画に隠された有用な情報を引き出したり、大規模な機械学習アルゴリズムをデプロイしたりすることが可能です。また、BigQuery に組み込まれた使いやすい BigQuery ML 機能を使用すれば、機械学習を手軽に利用できます。モデルの構築とデプロイが誰でもできるため、データ主導のアプローチが社内に広がります。

データレイクを作成する準備はできましたか?

オンプレミス Hadoop データレイクのワークロードに適した GCP プロダクトを選ぶ

Building a cloud data lake on GCPYESNOIm processingstreaming dataWe useApache BeamWe useApache Spark or KafkaCloud DataflowCloud DataprocCloud DataprocIm doinginteractive dataanalysis orad-hoc queryingWe use Apache Sparkwith interactive webnotebooksAre you interested in keepingthese SQL queries as they are?Cloud Dataproc in combinationwith Jupyter or Zeppelinoptional componentsCloud DataprocNo, Im interested inlearning more abouta serverless solution.YESNONo, Im interested inlearning more abouta managed solution.BigQueryWe use SQL with Apache Hive,Apache Drill, Impala,Presto or similarCloud DataprocCloud DataprocIm doing ELT/ETLor batch processingWe use MapReduce,Spark, Pig, or HiveWe use Oozie forworkflow orchestrationCloud ComposerAre you interested inkeeping these workflowjobs as they are?Im supportingNoSQL workloadsWe useApache AccumuloCloud DataprocYESNONeed to use coprocessorsor SQL with Apache Phoenix?Cloud DataprocCloud BigtableWe useApache HBaseIm running anApache Hadoopclusteron-premises

リソース