ELT は、抽出、読み込み、変換の略です。これは、まずさまざまなソースシステムからデータを抽出するデータ パイプライン モデルです。その後、元データは別のステージング エリアで変換されるのではなく、データレイクやクラウド データ ウェアハウスなどのターゲット データストアに直接読み込まれます。変換は、データがターゲット システムに読み込まれた後にのみ適用されます。
この順序が ELT を前身である ETL(抽出、変換、読み込み)と区別する特徴であり、クラウドネイティブ アーキテクチャで ELT の導入が拡大している主な理由でもあります。
ELT プロセスフローでは、最新のデータ ストレージ プラットフォームとデータ処理プラットフォームの能力とスケーラビリティを活用します。各コンポーネントについて詳しく見ていきましょう。
ELT プロセスは、変換が読み込み前に固定されないため、柔軟性があります。たとえば、データ サイエンティストは、元データにアクセスして予期せぬパターンを探ったり、アドホック分析を実施したりできます。また、ビジネス インテリジェンス チームは、レポート用にキュレートされた変換済みのデータセットを構築できます。
ELT アプローチには、特に大量のデータと多様なデータタイプを扱う環境において、いくつかの潜在的な利点があります。
ELT にはいくつかのメリットがありますが、組織が対処すべき特定の考慮事項もあります。
こうした課題を事前に解決することで、組織は ELT パラダイムのメリットを最大限に活用できます。
適切なデータ統合戦略を選択するには、ELT と従来の ETL(抽出、変換、読み込み)プロセスの違いを理解することが重要です。主な違いは、変換ステップがどのタイミングで発生し、どこで実行されるかです。
機能 | ELT(抽出、読み込み、変換) | ETL(抽出、変換、読み込み) |
オペレーションの順序 | 抽出し、読み込んでから、変換 | 抽出し、変換してから、読み込み |
変換場所 | ターゲット データストア(データ ウェアハウス / レイク)内 | 別個のステージング領域または ETL ツール環境 |
ターゲットに読み込まれたデータ | 元の変換されていないデータ | クリーンアップされ、構造化して、変換されたデータ |
処理能力 | ターゲット データストアの機能を活用 | 専用の ETL エンジンまたはステージング サーバーに依存 |
データ取り込み速度 | 通常は先にデータを読み込む方が高速 | 事前変換処理のため、処理速度が遅くなる場合がある |
新しい用途に対応する柔軟性 | 高い(再変換で元データが利用可能) | 低い(変換が事前定義されている) |
スキーマ処理 | スキーマオンリードに適している | スキーマオンライトに依存することが多い |
データ型の適合性 | 構造化データ、半構造化データ、非構造化データに最適 | 構造化データ、一部の半構造化データに最適 |
リソースの活用 | スケーラブルなクラウド データ ウェアハウスの使用を最適化 | 変換には別のインフラストラクチャが必要になる場合がある |
機能
ELT(抽出、読み込み、変換)
ETL(抽出、変換、読み込み)
オペレーションの順序
抽出し、読み込んでから、変換
抽出し、変換してから、読み込み
変換場所
ターゲット データストア(データ ウェアハウス / レイク)内
別個のステージング領域または ETL ツール環境
ターゲットに読み込まれたデータ
元の変換されていないデータ
クリーンアップされ、構造化して、変換されたデータ
処理能力
ターゲット データストアの機能を活用
専用の ETL エンジンまたはステージング サーバーに依存
データ取り込み速度
通常は先にデータを読み込む方が高速
事前変換処理のため、処理速度が遅くなる場合がある
新しい用途に対応する柔軟性
高い(再変換で元データが利用可能)
低い(変換が事前定義されている)
スキーマ処理
スキーマオンリードに適している
スキーマオンライトに依存することが多い
データ型の適合性
構造化データ、半構造化データ、非構造化データに最適
構造化データ、一部の半構造化データに最適
リソースの活用
スケーラブルなクラウド データ ウェアハウスの使用を最適化
変換には別のインフラストラクチャが必要になる場合がある
ELT は、Google Cloud が推奨するデータ統合パターンです。ELT では、ソースシステムからデータを抽出し、BigQuery に読み込み、分析に使用する形式に変換します。データをデータ ウェアハウスに読み込む前に変換する ETL(抽出、変換、読み込み)とは異なり、ELT アプローチでは、BigQuery の機能をフル活用してデータ変換を実施し、SQL ユーザーがデータ統合パイプラインを効果的に開発することができます。
ELT と ETL のどちらを選ぶかは、多くの場合、具体的なユースケース、既存のインフラストラクチャ、データ量、組織の分析ニーズによって異なります。多くの最新のデータ アーキテクチャでは、パイプラインの異なる部分に ELT と ETL の両方を使用するハイブリッド アプローチも採用されています。
ELT パターンは、次のようなさまざまな最新のデータシナリオで特に効果的です。
クラウド データ ウェアハウジング
ELT は、大規模なデータセットの変換を効率的に処理できる膨大な処理能力とスケーラビリティを提供する、Google Cloud の BigQuery のようなクラウド データ プラットフォームに適しています。
ビッグデータ分析
大量、高速、多様なデータを扱う場合、ELT を使用すると、データレイクまたはスケーラブルなストレージに迅速に取り込むことができます。その後、分散処理フレームワークを使用して、必要に応じて変換を適用できます。
データレイクの実装
データレイクは、膨大な量の元データをそのネイティブ形式で保存するように設計されています。ELT プロセスがこの元データを読み込み、さまざまな分析エンジンや処理エンジンで変換して利用することができます。
リアルタイムまたは準リアルタイムのデータ処理
最新のデータに迅速にアクセスする必要があるユースケースでは、ELT によって読み込みフェーズを迅速化した後、このデータのサブセットに対して、特定の準リアルタイム ダッシュボードやアプリケーションの変換を実施することができます。
探索的データ分析とデータ サイエンス
データ サイエンティストは、事前定義された変換に制約されることなく、特徴量エンジニアリング、ML モデルの構築、分析情報の抽出を行うために、変換されていない元データにアクセスすることを好む傾向にあります。ELT は、この元データをすぐに利用できるようにします。
多様なデータソースの統合
構造が異なる多数の分散システムからデータを統合する場合、ELT は、まず全データを一元的に読み込み、変換によってハーモナイズすることで、初期取り込みを簡素化します。
Google Cloud は ELT アーキテクチャの最適化に役立つ包括的なサービス スイートを提供しているため、組織は堅牢でスケーラブルなデータ パイプラインを構築できます。データベース内の変換に BigQuery などのサービスの機能を使用することに重点が置かれています。
ELT パターンで Google Cloud サービスを活用する一般的な方法は次のとおりです。
Google Cloud のインフラストラクチャは、元データ用のスケーラブルなストレージ、高速な読み込み機能、変換を効率的に行う BigQuery 内の強力なエンジンを提供することで、ELT の基本理念をサポートします。これにより、データ エンジニアは、データを迅速に取り込み、特定の分析要件に基づいて精緻化するパイプラインを、すべてマネージドのサーバーレス環境内で構築できます。