ETL は extract(抽出)、transform(変換)、load(読み込み)の略で、複数のシステムからのデータを単一のデータベース、データストア、データ ウェアハウス、データレイクに統合するために、さまざまな組織が長く利用してきた方法です。ETL は、既存のデータを保存するために使用できます。また、現在は一般的に、データを集計して分析し、ビジネス上の正しい決定を下すために使用されます。
組織は何十年もの間 ETL を使用してきました。しかし、新しい点として、データのソースとターゲット データベースの両方がクラウドに移行していることが挙げられます。
さらに、バッチ パイプラインと一緒に統合されるようになったストリーミング ETL パイプラインも出現しています。つまり、集計されたバッチでデータを処理するのではなく、データの連続するストリームをリアルタイムで処理します。バッチのバックフィルまたはデータ検出に織り込まれた再処理パイプラインを使用して連続的なストリーム処理を実行する企業もあります。
Cloud Data Fusion、Dataflow、Dataproc など、ETL を有効にする Google Cloud のサービスのポートフォリオについて学びましょう。
準備ができたら新規のお客様には、Google Cloud で使用できる無料クレジット $300 分を差し上げます。
ETL は、企業が広範なデータ(構造化データと非構造化データ、世界中のあらゆるチームが管理するデータ)を取得するエンドツーエンドのプロセスの流れを説明し、ビジネス目的で役立つ状態に近づけます。
現在の最新の ETL ソリューションは、加速するデータの量とスピードに対応する必要があります。さらに、トランザクションの取り込み、強化、管理と、どのソースからでも構造化データと非構造化データの両方をリアルタイムにサポートする機能は、オンプレミスでもクラウドでも、現在のエンタープライズ ETL ソリューションの基本要件となっています。
抽出
抽出は、オンライン、オンプレミス、レガシー、SaaS など、1 つ以上のソースからデータを取得するプロセスです。取得(抽出)が完了すると、データはステージング領域に読み込まれます。
変換
変換では、そのデータを取得してクリーニングし、共通の形式にすることで、対象となるデータベース、データストア、データ ウェアハウス、データレイクに格納できるようにします。通常、クリーニングには、重複するレコード、不完全なレコード、明らかに誤ったレコードを取り出すことが含まれます。
読み込んでいます
読み込みは、フォーマットされたデータをターゲット データベース、データストア、データ ウェアハウス、データレイクに挿入するプロセスです。
ETL は、すべての関連データを 1 つの場所にまとめてアクションにつながるものにするために重要な方法です。すなわちそれを分析し、経営幹部、マネージャー、その他の関係者がその情報に基づいてビジネス上の意思決定を行えるようにします。 一般的に、ETL を使用して、次のことを行います。
データ ウェアハウジング
データ ウェアハウスは、さまざまなソースからのデータを組み合わせて、ビジネス目的でまとめて分析できるようにしたデータベースです。ETL は、多くの場合、データをデータ ウェアハウスに移行させるために使用されます。
機械学習と人工知能
機械学習(ML)は、明示的に分析モデルをプログラミングすることなく、データを読み解く方法です。代わりに、システムは人工知能の技術を使用してデータから学習します。ETL は、ML の目的でデータを 1 か所に移行するために使用されます。
マーケティング データの統合
マーケティング データの統合には、お客様のデータ、ソーシャル ネットワーク データ、ウェブ解析データなど、すべてのマーケティング データを 1 か所に移行して分析し、今後の計画を立てることが含まれます。ETL は、マーケティング データの収集と準備に使用されます。
IoT データの統合
IoT は、ハードウェアに埋め込まれたセンサーを介してデータを収集、送信できる接続デバイスのコレクションです。IoT デバイスには、工場の機器、ネットワーク サーバー、スマートフォン、さらにはウェアラブルや埋め込み型デバイス、その他の幅広いマシンが含まれます。ETL は、データを分析するために、複数の IoT ソースから 1 か所に移行できます。
データベース レプリケーション
データベース レプリケーションは、Oracle、Cloud SQL for MySQL、Microsoft SQL Server、Cloud SQL for PostgreSQL、MongoDB などのソース データベースからデータを取得し、クラウド データ ウェアハウスにコピーするものです。これは、データが更新される際の 1 回限りの操作になることもあれば、継続的なプロセスになることもあり、ETL はデータを複製するために使用されます。
クラウドへの移行
企業は、コスト削減、アプリケーションのスケーラビリティの向上、データの安全性の確保のために、データやアプリケーションをオンプレミスからクラウドに移行しており、ETL は通常これらの移行を実行するために使用されます。