ジャンプ先

データレイクとは

データレイクは、大量の構造化データ、半構造化データ、非構造化データを保存、処理、保護するための、一元化されたリポジトリです。サイズ上限を問わず、ネイティブ形式でデータを保存し、どのようなデータでも処理できます。

Google Cloud でのデータレイクのモダナイズについて、詳しくご覧ください。

データレイクの概要

データレイクは、スケーラブルで安全なプラットフォームを提供します。これによって企業は、オンプレミス、クラウド、エッジ コンピューティング システムなど、データソースのシステム、データの種類、転送速度を問わず、すべてのデータを取り込むことができます。また、データの種類や量を問わず、高忠実度データを保管でき、リアルタイムまたはバッチモードでデータを処理できます。さらに、SQL、Python、R をはじめとするあらゆる言語、サードパーティのデータ、分析アプリケーションを使用してデータを分析できます。

データレイクとデータ ウェアハウスの違い: 「データレイクとは何か」とは逆に「何ではないか」という観点から、データレイクを定義することもできます。データレイクは単なるストレージではなく、データ ウェアハウスと同じでもありません。

データレイクとデータ ウェアハウスはどちらもある程度の容量のデータを保存するものですが、最適な用途はそれぞれ異なります。どちらか一方を選ぶのではなく、互いに補完し合うツールと考えてください。企業によってはどちらも必要になる場合があります。比較するポイントとしては、データ ウェアハウスは通常、月間売り上げレポートや地域別売り上げの追跡、ウェブサイトのトラフィックなど、ビジネス プラクティスで一般的な、再現可能なレポート作成や分析に理想的です。

データレイクの必要性

会社にとってデータレイクが必要かどうか判断するには、取り扱うデータの種類、データで何をするのか、データ取得プロセスの複雑さ、データ管理およびガバナンスの戦略、組織内にすでに存在するツールとスキルセットを考慮する必要があります。

今日の企業は、データレイクの価値をさまざまなレンズを通して見出し始めています。つまり、データレイクは、単に忠実度の高いデータを保存するだけではありません。他にも、ユーザーが今まで以上にコンテキストを得ることができるため、ビジネスの状況についての理解が深まり、分析テストを加速できるという面もあります。

データレイクはビッグデータの処理を主眼に開発されており、元データを変換することなく、バッチおよび / またはストリーミングでデータレイクに移すことができます。企業がデータレイクを活用する主な目的は、次のとおりです。

  • 総所有コストの削減
  • データ管理の簡素化
  • 人工知能と機械学習の取り入れ準備
  • 分析の高速化
  • セキュリティとガバナンスの向上

 

データレイクのユースケース

データレイクは分析と人工知能の土台となるため、あらゆる業種の企業が収益増加、コスト削減、リスク緩和のために、データレイクを活用しています。

メディア、エンターテイメント

音楽、ラジオ、ポッドキャストの配信を手掛けるある企業は、レコメンデーション システムを改善してユーザーのサービス消費を促すことで、広告販売を伸ばしています。

通信

ある多国籍通信企業は、顧客のチャーンを減らすチャーン傾向モデルを構築することで、コストを削減しています。

金融サービス

ある投資機関は、データレイクを活用して機械学習を強化することで、リアルタイムの市況データがアクセス可能になり次第すぐにポートフォリオ リスクを管理するための手立てをとることができるようになりました。

Google Cloud が提供する自動スケーリングに対応したサービス スイートを使用して、既存のアプリケーション、スキル、IT 投資と統合するデータレイクを構築できます。スイートには、データ統合のための DataflowCloud Data Fusion、ストレージ用の Cloud Storage、データおよび分析処理のための DataprocBigQuery が含まれます。