【Next Tokyo】基調講演のアーカイブを公開中！最新の AI フルスタック環境や Gemini Enterprise など、注目のプロダクトアップデートとビジネス変革のリアルを今すぐ振り返りましょう。

ELT（抽出、読み込み、変換）とは

昨今のデータドリブンな環境では、組織は膨大な量の情報を管理、分析するためのより効率的な方法を常に模索しています。ELT（抽出、読み込み、変換）プロセスは、データ統合に対する最新のアプローチであり、特にクラウド環境に適しています。ELT は、多様なデータセットを処理する際に、速度、柔軟性、スケーラビリティの面で明確な利点があり、データアーキテクチャ、データエンジニアリング、分析に関わるすべての人にとって、ELT を理解することが重要です。このアプローチにより、データ変換のタイミングと場所が変わり、データ活用の新たな可能性が開かれます。

ELT の定義

ELT は、抽出、読み込み、変換の略です。これは、さまざまなソースシステムからデータを抽出するデータパイプラインモデルであり、その後、元データは別のステージングエリアで変換されるのではなく、データレイクやクラウドデータウェアハウスなどのターゲットデータストアに直接読み込まれます。変換は、データがターゲットシステムに読み込まれた後にのみ適用されます。

この順序が ELT を前身である ETL（抽出、変換、読み込み）と区別する特徴であり、クラウドネイティブアーキテクチャで ELT の導入が拡大している主な理由でもあります。

ELT の仕組み

ELT プロセスフローは、最新のデータストレージと処理プラットフォームの能力とスケーラビリティを活用します。各コンポーネントを詳しく見ていきましょう。

抽出: この最初のステップでは、元データを元のソースから収集します。これらのソースは、データベース（SQL および NoSQL）、エンタープライズアプリケーション（CRM や ERP など）、SaaS プラットフォーム、API、ログファイルなど、非常に多様です。抽出プロセスでは、これらのシステムからデータを効率的に取り出すことに重点を置きます。
読み込み: 2 番目のステップでは、抽出された元データが、多くの場合元の形式のまま、または最小限の処理で、大容量のストレージシステムに直接読み込まれます。この元データの一般的なターゲットは、大量の構造化データ、半構造化データ、非構造化データを処理できるクラウドデータレイクまたは最新のクラウドデータウェアハウスです。
変換: この最後のステップは、データがターゲットシステムに安全に格納された後に行われます。データウェアハウスまたはデータレイクのコンピューティング能力を使用して、元データをクリーンアップ、構造化、拡充し、分析、レポート、機械学習に適した形式に変換します。変換には、フィルタリング、結合、集計、形式の標準化、新しいデータポイントの導出などがあります。

ELT プロセスでは、読み込み前に変換が固定されないため、柔軟性が得られます。たとえば、データサイエンティストは元データにアクセスして予期せぬパターンを探索したり、アドホックな分析を行ったりできます。一方、ビジネスインテリジェンスチームは、レポート用にキュレートされた変換済みデータセットを構築できます。

ELT のメリット

ELT アプローチには、特に大量のデータや多様なデータ型を扱う環境において、いくつかの潜在的な利点があります。

データ取り込みの高速化: ステージング領域で変換が完了するのを待つよりも、ターゲットシステムに元データを読み込む方が一般的に高速です。つまり、初期探索や特定のユースケースでデータをより早く利用できるようになります。
柔軟性とアジリティ: 元データはターゲットシステムに保持されるため、ビジネス要件の進化に合わせて変換を反復的に開発、変更、追加できます。変換ロジックが変更された場合でも、ソースシステムからデータを再取り込みする必要はありません。すでに読み込まれている元データに対して変換を再実行するだけです。
スケーラビリティ: 最新のクラウドデータウェアハウスとデータレイクは、大規模なスケーラビリティに対応できるように設計されています。ELT は、これらのターゲットシステムの堅牢な処理エンジンを使用して変換を実行することで、この固有の機能を活用します。これにより、組織は増大するデータ量と複雑な変換を効率的に処理できます。
元データの保持: 元データを保存することで、より完全な履歴レコードを保持できます。これは、データの監査、以前の変換でエラーが見つかった場合の再処理、まだ予測されていない将来の分析ニーズに非常に役立ちます。データサイエンティストは、最も粒度の細かい、変換されていないデータにアクセスできると、多くの場合メリットがあります。
特定のワークロードの費用対効果: 変換にクラウドデータウェアハウスのコンピューティング能力を使用すると、特にデータウェアハウスが最適化された処理を提供する場合は、個別のインフラストラクチャを維持したり、変換用の専用 ETL ツールのライセンスを取得したりするよりも費用対効果が高くなることがあります。
多様なデータタイプのサポート: ELT は、構造化データ、半構造化データ（JSON や XML など）、非構造化データ（テキストや画像など）の処理に適しています。データはネイティブ形式で読み込み、必要に応じて変換できます。これは、ビッグデータシナリオでは大きな利点となります。読み込み前ではなく処理中に構造を適用するこの「スキーマオンリード」アプローチが、ELT の特徴です。

ELT の課題

ELT にはいくつかのメリットがありますが、組織が対処すべき特定の考慮事項もあります。

データガバナンスとセキュリティ: 機密情報や個人を特定できる情報（PII）が含まれている可能性のある元データをデータレイクやデータウェアハウスに読み込むには、堅牢なデータガバナンス、セキュリティ、コンプライアンス対策が必要です。アクセス制御、暗号化、データマスク手法は、移行先の環境内でこのデータを保護するために不可欠です。
ターゲットシステム内での変換の複雑さ: データウェアハウス（SQL を使用するなど）やデータレイク内で直接複雑な変換ロジックを管理することは、強力ではあるものの、困難になる可能性があります。これらのツールに精通した熟練した人材と、コードの管理と最適化に対する規律あるアプローチが必要です。
ツールとオーケストレーション: 効果的な ELT の実装は、抽出と読み込みのステップをオーケストレートし、ターゲットシステム内で変換を管理および実行するための適切なツールに依存します。多くのクラウドプラットフォームでツールが提供されていますが、それらを統合してワークフロー全体を管理するには、慎重な計画が必要です。
「データスワンプ」になる可能性: データレイクに読み込まれた元データが適切にカタログ化、管理、統制されていない場合、データレイクは「データスワンプ」になり、データを見つけにくく、信頼性が損なわれたり、効果的に使用するのが難しくなったりする可能性があります。強力なデータマネジメント戦略が不可欠です。
データ品質の責任: 変換はプロセスの後半で行われるため、データ品質を確保するには、読み込み後に専用のステップが必要になる場合があります。ターゲットシステム内のデータのモニタリングと検証が重要になります。

こうした課題に事前に対処することで、組織は ELT パラダイムの利点を最大限に活用できます。

ELT と ETL の比較

適切なデータ統合戦略を選択するには、ELT と、より従来型の ETL（抽出、変換、読み込み）プロセスの違いを理解することが重要です。主な違いは、変換ステップがどのタイミングで発生し、どこで実行されるかです。

機能	ELT（抽出、読み込み、変換）	ETL（抽出、変換、読み込み）
オペレーションの順序	抽出し、読み込んでから、変換	抽出し、変換してから、読み込み
変換場所	ターゲットデータストア（データウェアハウス / レイク）内	別個のステージング領域または ETL ツール環境
ターゲットに読み込まれたデータ	元の変換されていないデータ	クリーンアップされ、構造化して、変換されたデータ
処理能力	ターゲットデータストアの機能を活用	専用の ETL エンジンまたはステージングサーバーに依存
データの取り込み速度	通常は先にデータを読み込む方が高速	事前変換処理のため、処理速度が遅くなる場合がある
新しい用途に対応する柔軟性	高い（再変換で元データが利用可能）	低い（変換が事前定義されている）
スキーマ処理	スキーマオンリードに適している	スキーマオンライトに依存することが多い
データ型の適合性	構造化データ、半構造化データ、非構造化データに最適	構造化データ、一部の半構造化データに最適
リソースの活用	スケーラブルなクラウドデータウェアハウスの使用を最適化	変換には別のインフラストラクチャが必要になる場合がある

機能

ELT（抽出、読み込み、変換）

ETL（抽出、変換、読み込み）

オペレーションの順序

抽出し、読み込んでから、変換

抽出し、変換してから、読み込み

変換場所

ターゲットデータストア（データウェアハウス / レイク）内

別個のステージング領域または ETL ツール環境

ターゲットに読み込まれたデータ

元の変換されていないデータ

クリーンアップされ、構造化して、変換されたデータ

処理能力

ターゲットデータストアの機能を活用

専用の ETL エンジンまたはステージングサーバーに依存

データの取り込み速度

通常は先にデータを読み込む方が高速

事前変換処理のため、処理速度が遅くなる場合がある

新しい用途に対応する柔軟性

高い（再変換で元データが利用可能）

低い（変換が事前定義されている）

スキーマ処理

スキーマオンリードに適している

スキーマオンライトに依存することが多い

データ型の適合性

構造化データ、半構造化データ、非構造化データに最適

構造化データ、一部の半構造化データに最適

リソースの活用

スケーラブルなクラウドデータウェアハウスの使用を最適化

変換には別のインフラストラクチャが必要になる場合がある

ELT は、Google Cloud が推奨するデータ統合パターンです。ELT では、ソースシステムからデータを抽出し、BigQuery に読み込み、分析に使用する形式に変換します。データをデータウェアハウスに読み込む前に変換する ETL（抽出、変換、読み込み）とは異なり、ELT アプローチでは、BigQuery の機能をフル活用してデータ変換を実施し、SQL ユーザーがデータ統合パイプラインを効果的に開発することができます。

ELT と ETL のどちらを選ぶかは、多くの場合、具体的なユースケース、既存のインフラストラクチャ、データ量、組織の分析ニーズによって異なります。多くの最新のデータアーキテクチャでは、パイプラインの異なる部分に ELT と ETL の両方を使用するハイブリッドアプローチも採用されています。

ELT のユースケース

ELT パターンは、次のようなさまざまな最新のデータシナリオで特に効果的です。

クラウドデータウェアハウジング

ELT は、大規模なデータセットの変換を効率的に処理できる膨大な処理能力とスケーラビリティを提供する、Google Cloud の BigQuery のようなクラウドデータプラットフォームに適しています。

ビッグデータ分析

大量、高速、多様なデータを扱う場合、ELT を使用すると、データレイクまたはスケーラブルなストレージに迅速に取り込むことができます。その後、分散処理フレームワークを使用して、必要に応じて変換を適用できます。

データレイクの実装

データレイクは、膨大な量の元データをそのネイティブ形式で保存するように設計されています。ELT プロセスがこの元データを読み込み、さまざまな分析エンジンや処理エンジンで変換して利用することができます。

リアルタイムまたは準リアルタイムのデータ処理

最新のデータに迅速にアクセスする必要があるユースケースでは、ELT によって読み込みフェーズを迅速化した後、このデータのサブセットに対して、特定の準リアルタイムダッシュボードやアプリケーションの変換を実施することができます。

探索的データ分析とデータサイエンス

データサイエンティストは、事前定義された変換に制約されることなく、特徴量エンジニアリング、ML モデルの構築、分析情報の抽出を行うために、変換されていない元データにアクセスすることを好む傾向にあります。ELT は、この元データをすぐに利用できるようにします。

多様なデータソースの統合

構造が異なる多数の分散システムからデータを統合する場合、ELT は、まず全データを一元的に読み込み、変換によってハーモナイズすることで、初期取り込みを簡素化します。

Google Cloud でビジネスの課題を解決する

新規のお客様には、Google Cloud で使用できる無料クレジット $300 分を差し上げます。

Google Cloud での ELT の使用方法

Google Cloud は ELT アーキテクチャの最適化に役立つ包括的なサービススイートを提供しているため、組織は堅牢でスケーラブルなデータパイプラインを構築できます。データベース内の変換に BigQuery などのサービスの機能を使用することに重点が置かれています。

ELT パターンで Google Cloud サービスを活用する一般的な方法は次のとおりです。

抽出: バッチおよびストリーミングデータ処理用の Dataflow、Spark や Hadoop ワークロード用の Managed Service for Apache Spark などのサービスを使用したり、コネクタと API を介して Google Cloud サービスに直接接続したりすることで、さまざまなソースからデータを抽出できます。Pub/Sub を使用すると、リアルタイムのストリーミングデータを取り込むことが可能です。
読み込み: 通常、抽出された元データは、スケーラビリティと耐久性に優れたデータレイクとして機能する Cloud Storage に読み込まれます。Cloud Storage から、Google Cloud のスケーラビリティと費用対効果に優れたサーバーレスマルチクラウドデータウェアハウスである BigQuery にデータを効率的に読み込むことができます。データは BigQuery に直接ストリーミングすることも可能です。
変換: Google Cloud において ELT の「T」が真価を発揮する場面です。BigQuery は、標準 SQL を使用してペタバイト規模の複雑な変換を実行するように設計されており、強力な処理エンジンが、保存されているデータに対して結合、集計、ウィンドウ関数、その他の変換を直接処理します。また、JavaScript でユーザー定義関数（UDF）を開発したり、BigQuery ML を活用してデータベース内 ML を実施したりすることもできます。元データは Cloud Storage または別の BigQuery テーブルに保持されることが多いため、多様な再変換が可能です。

Google Cloud のインフラストラクチャは、元データ用のスケーラブルなストレージ、高速な読み込み機能、変換を効率的に行う BigQuery 内の強力なエンジンを提供することで、ELT の基本理念をサポートします。これにより、データエンジニアは、データを迅速に取り込み、特定の分析要件に基づいて精緻化するパイプラインを、すべてマネージドのサーバーレス環境内で構築できます。