ELT(抽出、読み込み、変換)とは

データドリブンな環境が当たり前となった今日、組織は膨大な量の情報を管理、分析するためのより効率的な方法を常に模索しています。ELT(抽出、読み込み、変換)プロセスは、データ統合に対する最新のアプローチであり、特にクラウド環境に適しています。ELT は、多様なデータセットを処理する際の速度、柔軟性、スケーラビリティにおいて明確な利点を提供できるため、データ アーキテクチャ、データ エンジニアリング、分析に携わる人にとって、ELT を理解することは重要です。このアプローチにより、データ変換のタイミングと場所が変わり、データ活用の新たな可能性が開かれます。

ELT の定義

ELT は、抽出、読み込み、変換の略です。これは、まずさまざまなソースシステムからデータを抽出するデータ パイプライン モデルです。その後、元データは別のステージング エリアで変換されるのではなく、データレイクやクラウド データ ウェアハウスなどのターゲット データストアに直接読み込まれます。変換は、データがターゲット システムに読み込まれた後にのみ適用されます。

この順序が ELT を前身である ETL(抽出、変換、読み込み)と区別する特徴であり、クラウドネイティブ アーキテクチャで ELT の導入が拡大している主な理由でもあります。

ELT の仕組み

ELT プロセスフローでは、最新のデータ ストレージ プラットフォームとデータ処理プラットフォームの能力とスケーラビリティを活用します。各コンポーネントについて詳しく見ていきましょう。

  • 抽出: この最初のステップでは、元のソースから元データを収集します。データソースは、データベース(SQL と NoSQL)、エンタープライズ アプリケーション(CRM や ERP など)、SaaS プラットフォーム、API、ログファイルなど、非常に多様です。抽出プロセスでは、これらのシステムからデータを効率的に取得することに重点を置きます。
  • 読み込み: 2 番目のステップでは、抽出された元データが、多くの場合元の形式のまま、または最小限の処理を加えた状態で、大容量ストレージ システムに直接読み込まれます。この元データの一般的なターゲットは、大量の構造化データ、半構造化データ、非構造化データを処理できるクラウド データレイクまたは最新のクラウド データ ウェアハウスです。
  • 変換: この最後のステップは、データがターゲット システムに安全に格納された後に行われます。データ ウェアハウスまたはデータレイクの計算能力を使用して、元データをクリーンアップ、構造化、拡充し、分析、レポート、ML に適した形式に変換します。変換には、フィルタリング、結合、集計、フォーマットの標準化、新しいデータポイントの導出などがあります。

ELT プロセスは、変換が読み込み前に固定されないため、柔軟性があります。たとえば、データ サイエンティストは、元データにアクセスして予期せぬパターンを探ったり、アドホック分析を実施したりできます。また、ビジネス インテリジェンス チームは、レポート用にキュレートされた変換済みのデータセットを構築できます。

ELT のメリット

ELT アプローチには、特に大量のデータと多様なデータタイプを扱う環境において、いくつかの潜在的な利点があります。

  • データ取り込みの高速化: ステージング領域で変換が完了するのを待つよりも、ターゲット システムに元データを読み込む方が一般的に高速です。つまり、初期の探索や特定のユースケースでデータをより早く利用できるようになります。
  • 柔軟性とアジリティ: 元データがターゲット システムに保存されるため、ビジネス要件の進化に応じて変換を反復的に開発、変更、追加できます。変換ロジックが変更された場合でも、ソースシステムからデータを再取り込みする必要はありません。すでに読み込まれた元データに対して変換を再実行するだけです。
  • スケーラビリティ: 最新のクラウド データ ウェアハウスとデータレイクは、大規模なスケーラビリティを実現するように設計されています。ELT は、これらのターゲット システムの堅牢な処理エンジンを使用して変換を実行することで、この固有の機能を活用します。これにより、組織は増大するデータ量と複雑な変換を効率的に処理できます。
  • 元データの保存: 元データを保存することで、より完全な履歴記録を作成できます。これは、データ監査、以前の変換でエラーが見つかった場合の再処理、またはまだ予測されていない将来の分析ニーズに非常に役立ちます。データ サイエンティストは、細分化された変換されていないデータにアクセスできることから恩恵を受けることがよくあります。
  • 特定のワークロードの費用対効果: 変換にクラウド データ ウェアハウスの計算能力を使用すると、特にデータ ウェアハウスが最適化された処理を提供している場合、個別のインフラストラクチャを維持したり、変換専用の ETL ツールのライセンスを取得したりするよりも費用対効果が高くなることがあります。
  • 多様なデータタイプのサポート: ELT は、構造化データ、半構造化データ(JSON や XML など)、非構造化データ(テキストや画像など)の処理に適しています。データはネイティブ形式で読み込まれ、必要に応じて変換できます。これは、ビッグデータ シナリオで大きなメリットとなります。読み込み前ではなく処理中に構造を適用するこの「スキーマオンリード」アプローチが、ELT の特徴です。

ELT の課題

ELT にはいくつかのメリットがありますが、組織が対処すべき特定の考慮事項もあります。

  • データ ガバナンスとセキュリティ: 機密情報や個人を特定できる情報(PII)が含まれる可能性がある元データをデータレイクやデータ ウェアハウスに読み込むには、堅牢なデータ ガバナンス、セキュリティ、コンプライアンス対策が必要です。アクセス制御、暗号化、データ マスキング手法は、ターゲット環境内でこのデータを保護するために重要です。
  • ターゲット システム内での変換の複雑さ: データ ウェアハウス(SQL を使用するなど)やデータレイク内で直接複雑な変換ロジックを管理することは、強力ではあるものの、困難になる可能性があります。これらのツールに精通した熟練したスタッフと、コード管理と最適化に対する規律あるアプローチが必要です。
  • ツールとオーケストレーション: 効果的な ELT の実装には、抽出と読み込みのステップをオーケストレートし、ターゲット システム内で変換を管理および実行するための適切なツールが必要です。多くのクラウド プラットフォームでツールが提供されていますが、それらを統合してワークフロー全体を管理するには、慎重な計画が必要です。
  • 「データスワンプ」になる可能性: データレイクに読み込まれた元データが適切にカタログ化、管理、統制されていない場合、データレイクは「データスワンプ」になり、データを見つけにくく、信頼性が損なわれたり、効果的に使用するのが難しくなったりする可能性があります。強力なデータ管理戦略が不可欠です。
  • データ品質の責任: 変換はプロセスの後半で行われるため、データ品質を確保するには、読み込み後の専用のステップが必要になる場合があります。ターゲット システム内のデータのモニタリングと検証が重要になります。

こうした課題を事前に解決することで、組織は ELT パラダイムのメリットを最大限に活用できます。

ELT と ETL の比較

適切なデータ統合戦略を選択するには、ELT と従来の ETL(抽出、変換、読み込み)プロセスの違いを理解することが重要です。主な違いは、変換ステップがどのタイミングで発生し、どこで実行されるかです。

機能

ELT(抽出、読み込み、変換)

ETL(抽出、変換、読み込み)

オペレーションの順序

抽出し、読み込んでから、変換

抽出し、変換してから、読み込み

変換場所

ターゲット データストア(データ ウェアハウス / レイク)内

別個のステージング領域または ETL ツール環境

ターゲットに読み込まれたデータ

元の変換されていないデータ

クリーンアップされ、構造化して、変換されたデータ

処理能力


ターゲット データストアの機能を活用

専用の ETL エンジンまたはステージング サーバーに依存


データ取り込み速度


通常は先にデータを読み込む方が高速

事前変換処理のため、処理速度が遅くなる場合がある


新しい用途に対応する柔軟性


高い(再変換で元データが利用可能)

低い(変換が事前定義されている)

スキーマ処理

スキーマオンリードに適している

スキーマオンライトに依存することが多い

データ型の適合性


構造化データ、半構造化データ、非構造化データに最適

構造化データ、一部の半構造化データに最適

リソースの活用

スケーラブルなクラウド データ ウェアハウスの使用を最適化

変換には別のインフラストラクチャが必要になる場合がある


機能

ELT(抽出、読み込み、変換)

ETL(抽出、変換、読み込み)

オペレーションの順序

抽出し、読み込んでから、変換

抽出し、変換してから、読み込み

変換場所

ターゲット データストア(データ ウェアハウス / レイク)内

別個のステージング領域または ETL ツール環境

ターゲットに読み込まれたデータ

元の変換されていないデータ

クリーンアップされ、構造化して、変換されたデータ

処理能力


ターゲット データストアの機能を活用

専用の ETL エンジンまたはステージング サーバーに依存


データ取り込み速度


通常は先にデータを読み込む方が高速

事前変換処理のため、処理速度が遅くなる場合がある


新しい用途に対応する柔軟性


高い(再変換で元データが利用可能)

低い(変換が事前定義されている)

スキーマ処理

スキーマオンリードに適している

スキーマオンライトに依存することが多い

データ型の適合性


構造化データ、半構造化データ、非構造化データに最適

構造化データ、一部の半構造化データに最適

リソースの活用

スケーラブルなクラウド データ ウェアハウスの使用を最適化

変換には別のインフラストラクチャが必要になる場合がある


ELT は、Google Cloud が推奨するデータ統合パターンです。ELT では、ソースシステムからデータを抽出し、BigQuery に読み込み、分析に使用する形式に変換します。データをデータ ウェアハウスに読み込む前に変換する ETL(抽出、変換、読み込み)とは異なり、ELT アプローチでは、BigQuery の機能をフル活用してデータ変換を実施し、SQL ユーザーがデータ統合パイプラインを効果的に開発することができます。

ELT と ETL のどちらを選ぶかは、多くの場合、具体的なユースケース、既存のインフラストラクチャ、データ量、組織の分析ニーズによって異なります。多くの最新のデータ アーキテクチャでは、パイプラインの異なる部分に ELT と ETL の両方を使用するハイブリッド アプローチも採用されています。

ELT のユースケース

ELT パターンは、次のようなさまざまな最新のデータシナリオで特に効果的です。

クラウド データ ウェアハウジング

ELT は、大規模なデータセットの変換を効率的に処理できる膨大な処理能力とスケーラビリティを提供する、Google Cloud の BigQuery のようなクラウド データ プラットフォームに適しています。

ビッグデータ分析

大量、高速、多様なデータを扱う場合、ELT を使用すると、データレイクまたはスケーラブルなストレージに迅速に取り込むことができます。その後、分散処理フレームワークを使用して、必要に応じて変換を適用できます。

データレイクの実装

データレイクは、膨大な量の元データをそのネイティブ形式で保存するように設計されています。ELT プロセスがこの元データを読み込み、さまざまな分析エンジンや処理エンジンで変換して利用することができます。

リアルタイムまたは準リアルタイムのデータ処理

最新のデータに迅速にアクセスする必要があるユースケースでは、ELT によって読み込みフェーズを迅速化した後、このデータのサブセットに対して、特定の準リアルタイム ダッシュボードやアプリケーションの変換を実施することができます。

探索的データ分析とデータ サイエンス

データ サイエンティストは、事前定義された変換に制約されることなく、特徴量エンジニアリング、ML モデルの構築、分析情報の抽出を行うために、変換されていない元データにアクセスすることを好む傾向にあります。ELT は、この元データをすぐに利用できるようにします。

多様なデータソースの統合

構造が異なる多数の分散システムからデータを統合する場合、ELT は、まず全データを一元的に読み込み、変換によってハーモナイズすることで、初期取り込みを簡素化します。

Google Cloud でビジネスの課題を解決する

新規のお客様には、Google Cloud で使用できる無料クレジット $300 分を差し上げます。

Google Cloud での ELT の使用方法

Google Cloud は ELT アーキテクチャの最適化に役立つ包括的なサービス スイートを提供しているため、組織は堅牢でスケーラブルなデータ パイプラインを構築できます。データベース内の変換に BigQuery などのサービスの機能を使用することに重点が置かれています。

ELT パターンで Google Cloud サービスを活用する一般的な方法は次のとおりです。

  • 抽出: Dataflow(バッチとストリーミングのデータ処理)、Dataproc(Spark や Hadoop のワークロード向け)などのサービスを使用して、またはコネクタと API を介して Google Cloud サービスに直接接続することで、さまざまなソースからデータを抽出できます。Pub/Sub を使用すると、リアルタイムのストリーミング データを取り込むことが可能です。
  • 読み込み: 通常、抽出された元データは、スケーラビリティと耐久性に優れたデータレイクとして機能する Cloud Storage に読み込まれます。Cloud Storage から、Google Cloud のスケーラビリティと費用対効果に優れたサーバーレス マルチクラウド データ ウェアハウスである BigQuery にデータを効率的に読み込むことができます。データは BigQuery に直接ストリーミングすることも可能です。
  • 変換: Google Cloud において ELT の「T」が真価を発揮する場面です。BigQuery は、標準 SQL を使用してペタバイト規模の複雑な変換を実行するように設計されており、強力な処理エンジンが、保存されているデータに対して結合、集計、ウィンドウ関数、その他の変換を直接処理します。また、JavaScript でユーザー定義関数(UDF)を開発したり、BigQuery ML を活用してデータベース内 ML を実施したりすることもできます。元データは Cloud Storage または別の BigQuery テーブルに保持されることが多いため、多様な再変換が可能です。

Google Cloud のインフラストラクチャは、元データ用のスケーラブルなストレージ、高速な読み込み機能、変換を効率的に行う BigQuery 内の強力なエンジンを提供することで、ELT の基本理念をサポートします。これにより、データ エンジニアは、データを迅速に取り込み、特定の分析要件に基づいて精緻化するパイプラインを、すべてマネージドのサーバーレス環境内で構築できます。

次のステップ

$300 分の無料クレジットと 20 以上の Always Free プロダクトを活用して、Google Cloud で構築を開始しましょう。

  • Google Cloud プロダクト
  • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
Google Cloud