BigQuery Connector for SAP の概要

このガイドでは、BigQuery Connector for SAP の概要を示し、その機能、および SAP システムと BigQuery 間のデータ統合をどのように促進するかについて詳しく説明します。BigQuery Connector for SAP は、SAP データを BigQuery に準リアルタイムで複製します。BigQuery のデータを使用すると、SAP のライブアプリケーションデータを AI や ML で分析できます。BigQuery では、SAP データを他のソースのデータと統合することもできます。

BigQuery Connector for SAP は、SAP Landscape Transformation Replication Server（SAP LT Replication Server）にインストールされ、SAP Landscape Transformation Replication Server の標準インターフェースと機能を使用します。BigQuery Connector for SAP は、SAP LT Replication Server がサポートするすべてのデータソースをサポートします。

Google Cloud は、SAP LT Replication Server SDK プロセスに従って、SAP LT Replication Server 用の SAP Business Add In（BAdI）の実装として BigQuery Connector for SAP を開発しました。このコネクタは、SAP LT Replication Server の変更データキャプチャ（CDC）機能を使用します。

データ処理

BigQuery Connector for SAP を使用すると、最小限のデータ変換のみが可能になります。抽出 / 変換 / 読み込み（ETL）モデルではなく、抽出 / 読み込み/ 変換（ELT）モデルに対応しています。これらのモデルの詳細については、データパイプラインの手順とパターンをご覧ください。

コネクタは、ソースデータに基づいてターゲットテーブルのフィールド、フィールド名、データ型を自動的に提案します。ターゲット BigQuery テーブルを作成する前に、必要に応じて推奨値を変更できます。ターゲットフィールド名の候補は、ソーステーブルのフィールドの説明に基づいています。詳細については、フィールドのデフォルトの命名オプションをご覧ください。

BigQuery Connector for SAP は、ほとんどのフィールドで BigQuery のデータ型を自動的に提案しますが、ブール値、タイムスタンプ、16 進数の値は自動的に解釈されないため、手動でマッピングする必要があります。詳細については、データ型のマッピングをご覧ください。

BigQuery Connector for SAP には、BigQuery Connector for SAP コードに独自のカスタム機能を挿入できる方法がいくつか用意されています。詳しくは、拡張の手口をご覧ください。

BigQuery にターゲットテーブルが存在しない場合は、BigQuery Connector for SAP によって作成されます。Pub/Sub を介した CDC レプリケーションの場合、BigQuery Connector for SAP は必要な Pub/Sub トピック、スキーマ、サブスクリプションも自動的に作成します。

サポートされているレプリケーションパス

BigQuery Connector for SAP は、次のレプリケーションパスをサポートしています。

Pub/Sub を介した変更データキャプチャ（CDC）レプリケーション
ストリーミングデータレプリケーション

Pub/Sub を介した変更データキャプチャ（CDC）レプリケーション

Pub/Sub を介した変更データキャプチャ（CDC）レプリケーションにより、BigQuery テーブルにソース SAP テーブルの変更が直接反映され、既存のデータが更新され、新しいレコードが追加されてデータの同期が維持されます。このアプローチでは、Storage Write API の CDC 機能を使用するため、手動で重複除去を行う必要がありません。CDC は、ソース SAP テーブルで発生した変更（更新、削除、新規挿入）のみをキャプチャして適用することに重点を置いています。

SAP テーブルのレコードが更新または削除されると、BigQuery Connector for SAP はこの変更を Pub/Sub トピックに公開します。BigQuery サブスクリプションは、重複なしで変更を適用し、対応する BigQuery テーブルに直接ストリーミングします。

ストリーミングデータレプリケーション

ストリーミングデータレプリケーションでは、BigQuery テーブルに新しいレコードが継続的に追加され、すべての変更が挿入専用モードで個別のエントリとして反映されます。BigQuery は、BigQuery テーブルにすでに存在するレコードの更新を受信すると、既存のインスタンスを変更せずに、そのレコードの新しいインスタンスをテーブルに挿入します。最後に挿入されたレコードのインスタンスは、ソーステーブル内のレコードの現在の状態を反映します。

ストリーミングデータレプリケーションの場合、BigQuery Connector for SAP は BigQuery ストリーミング API を使用します。

次の図は、BigQuery Connector for SAP を使用した SAP から BigQuery への両方のデータレプリケーションパスを示しています。

BigQuery へのレプリケーションパス

各パスのデータフローとコンポーネントの内訳は次のとおりです。

データの抽出と初期処理（両方のパスに共通）

SAP データソース: SAP 環境内でデータを生成します。
SAP LT Replication Server: RFC 接続を介して SAP データソースに接続します。主な役割は、SAP ソースから CDC データを抽出することです。
BigQuery Connector for SAP: 抽出された CDC データを受信し、構成に基づいてデータがどのレプリケーションパスをたどるかを決定します。

CDC レプリケーションパス

このパスは、Pub/Sub を介して BigQuery CDC テーブルへの変更を複製することに重点を置いています。

Pub/Sub REST API: BigQuery Connector for SAP は、Pub/Sub REST API を使用して CDC データを Pub/Sub に公開します。
Pub/Sub トピック: これは、公開された CDC データを受信する中央メッセージブローカーとして機能します。
Pub/Sub スキーマ: Pub/Sub トピックに関連付けられたスキーマは、データ構造を適用してデータの整合性を維持します。
Pub/Sub BigQuery サブスクリプション: Pub/Sub トピックをサブスクライブし、CDC データを BigQuery CDC テーブルにストリーミングします。
BigQuery CDC テーブル: BigQuery の CDC データの最終的な宛先。変更（更新/削除）を適用し、新しいレコードを挿入して、SAP データの重複除去された最新のビューを維持します。
デッドレタートピック: BigQuery サブスクリプションで処理できなかったメッセージが送信され、手動でさらに調査される Pub/Sub トピック。データ損失を防ぎます。

ストリーミングデータレプリケーション（挿入専用）パス

このパスは、新しいレコードを BigQuery ステージングテーブルに継続的に挿入し、すべての変更を新しいエントリとして保持するように設計されています。

BigQuery Streaming REST API: BigQuery Connector for SAP は、BigQuery Streaming REST API を使用して、データを BigQuery に直接ストリーミングします。
BigQuery ステージングテーブル: ストリーミングデータの宛先。この挿入専用モードでは、すべての変更（既存の SAP レコードの更新や削除など）により、このテーブルに新しい行が追加されます。

レプリケーションパスを選択する

このセクションでは、レプリケーションパスを比較して、特定のデータニーズと運用上の要件に最適なパスを決定できるようにします。

要素	Pub/Sub を介した CDC レプリケーション	ストリーミングデータレプリケーション（挿入専用モード）
仕組み	BigQuery テーブルに対する変更のみをキャプチャして適用します。	すべての変更を新しいレコードとして BigQuery テーブルに挿入します。
BigQuery の結果	既存の行をネイティブに更新または削除することで、単一の最新レコードを維持します。	変更ごとに新しいエントリが作成されるため、同じレコードの複数のバージョンが作成されます。
主なメリット	最新のデータで高いデータ整合性を提供します。	基本的な取り込みに役立ち、履歴監査を提供します。

デプロイアーキテクチャ

BigQuery Connector for SAP をビジネス用アドイン（BAdI）として SAP LT Replication Server インスタンス内にインストールします。

SAP LT Replication Server インスタンスは、 Google Cloud、オンプレミス、または別のクラウドプロバイダに配置できます。SAP LT Replication Server インスタンスは、SAP データソースのできるだけ近くに配置することをおすすめします。ネットワークチームと協力して、ソース SAP システム、SAP LT Replication Server、BigQuery データセット間の低レイテンシと高スループットを実現してください。

以降のセクションでは、BigQuery Connector for SAP の一般的な推奨アーキテクチャについて説明します。

Pub/Sub を介した CDC レプリケーションのデプロイアーキテクチャ

Google Cloud上の SAP データソースのアーキテクチャ

次の図は、 Google Cloud上の SAP データソースを使用した Google Cloudでの SAP LT Replication Server のインストールに関する例を 2 つ示しています。

各アーキテクチャの例を挙げると、SAP LT Replication Server のスタンドアロンアーキテクチャを使用するインストールでは、SAP LT Replication Server が別のサーバーにインストールされ、もう 1 つのインストールでは、SAP LT Replication Server の組み込みアーキテクチャが使用されています。このアーキテクチャでは、SAP LT Replication Server は SAP ソースシステムサーバーにインストールされます。

SAP LT Replication Server インスタンスはGoogle Cloudにインストールされているため、BigQuery Connector for SAP は Cloud Interconnect または Cloud VPN 接続を必要とせずに、Pub/Sub API エンドポイントに直接接続します。

オンプレミスまたは別のクラウドプロバイダ上の SAP データソースのアーキテクチャ

次の図は、オンプレミスまたは別のクラウドプロバイダで実行されている SAP LT Replication Server の 2 つのインストール例を示しています。

各アーキテクチャの例を示すため、一方のインストールでは SAP LT Replication Server スタンドアロンアーキテクチャを使用し、もう一方では SAP LT Replication Server 組み込みアーキテクチャを使用します。

どちらの例でも、SAP LT Replication Server は SAP データソースと同じ環境にインストールされます。

SAP LT Replication Server の BigQuery Connector for SAP から Pub/Sub への接続は、Cloud Interconnect 接続または Cloud VPN 接続によって実現します。

オンプレミスまたは別のクラウドプロバイダ上の SAP データソースのアーキテクチャ

データフローの詳細なアーキテクチャビュー

次の図は、BigQuery Connector for SAP が SAP LT Replication Server のデータフローにどこで適合するかを示しています。

次の番号の付された説明は、図の番号に対応しています。

SAP LT Replication Server の初期化後、ソーステーブルのレコードが挿入、更新、または削除されると、データベースのトリガーにより、ロギングテーブルに変更内容が記録されます。
SAP LT Replication Server は、RFC 呼び出しを介してロギングテーブルに新しいエントリがないか継続的にチェックします。
SAP LT Replication Server が新しいエントリを検出すると、読み取りエンジンがレコードを読み取り、マッピングと変換エンジンを呼び出します。
マッピングと変換エンジンは書き込みエンジンを呼び出し、書き込みエンジンは BigQuery Connector for SAP を呼び出します。
書き込みエンジンは、処理されたデータを BigQuery Connector for SAP に渡します。ここで、コネクタのカスタム BAdI 実装により、SAP の変更レコードが Avro 準拠の JSON 形式に変換されます。特定のメタデータフィールドに次のように入力されます。
1. _CHANGE_TYPE: SAP SLT オペレーションに基づいて入力されています。たとえば、挿入または更新の場合は UPSERT、削除の場合は DELETE です。
2. _CHANGE_SEQUENCE_NUMBER: BigQuery での時系列順序付けと競合解決のための詳細なタイムスタンプ。
また、コネクタは SAP から BigQuery にテーブルとフィールド（名前とデータ型）をマッピングします。
変換されたメッセージは、BigQuery Connector for SAP によって、Pub/Sub REST API を介して、安全な接続を経由する HTTPS を使用して Pub/Sub に公開されます。
データを受信すると、Pub/Sub は次のアクションを実行します。
1. スキーマに従って検証チェックを行います。
2. 有効なメッセージに対して、BigQuery Connector for SAP に HTTP 200（OK）ステータスコードを返します。
3. BigQuery サブスクリプションを介して、レコードを BigQuery ターゲットテーブルに挿入します。
4. BigQuery の取り込みに失敗したメッセージをデッドレタートピックにキャプチャし、データ損失を防ぎ、トラブルシューティングを簡素化します。
BigQuery Storage Write API は、メッセージの _CHANGE_TYPE フィールドと _CHANGE_SEQUENCE_NUMBER フィールドを使用して変更を適用します。API は挿入、更新、削除オペレーションを実行し、データ分析用の BigQuery テーブルで同期されたデータを維持します。
BigQuery Connector for SAP は、HTTP OK ステータスコードを SAP LT Replication Server に返します。これにより、ロギングテーブルから複製されたエントリが削除され、SAP ソースシステムのリソースが解放されます。

ストリーミングデータレプリケーションのデプロイアーキテクチャ

次の図は、 Google Cloud上の SAP データソースを使用した Google Cloudでの SAP LT Replication Server のインストールに関する例を 2 つ示しています。

各アーキテクチャの例を挙げると、SAP LT Replication Server のスタンドアロンアーキテクチャを使用するデプロイでは、SAP LT Replication Server が別のサーバーにインストールされ、もう 1 つのデプロイでは、SAP LT Replication Server の組み込みアーキテクチャが使用されています。このアーキテクチャでは、SAP LT Replication Server は SAP ソースシステムサーバーにインストールされます。

SAP LT Replication Server インスタンスはGoogle Cloudにインストールされているため、BigQuery Connector for SAP は Cloud Interconnect または Cloud VPN 接続を必要とせずに、BigQuery API エンドポイントに直接接続します。

この図では、SAP システムと BigQuery は異なる Google Cloud プロジェクトに示されていますが、必要に応じて同じプロジェクトを両方に対して使用することもできます。

オンプレミスまたは別のクラウドプロバイダ上の SAP データソースのアーキテクチャ

次の図は、オンプレミスまたは別のクラウドプロバイダで実行されている SAP LT Replication Server の 2 つのインストール例を示しています。

どちらの例でも、SAP LT Replication Server は SAP データソースと同じ環境にインストールされます。

SAP LT Replication Server の BigQuery Connector for SAP から BigQuery への接続は、Cloud Interconnect 接続または Cloud VPN 接続によって実現します。

データフローの詳細なアーキテクチャビュー

次の図は、BigQuery Connector for SAP が SAP LT Replication Server のデータフローにどこで適合するかを示しています。

次の番号の付された説明は、図の番号に対応しています。

SAP LT Replication Server の初期化後、ソーステーブルのレコードが挿入、更新、または削除されると、データベースのトリガーにより、ロギングテーブルに変更内容が記録されます。
SAP LT Replication Server は、RFC 呼び出しを介してロギングテーブルに新しいエントリがないか継続的にチェックします。
SAP LT Replication Server が新しいエントリを検出すると、読み取りエンジンがレコードを読み取り、マッピングと変換エンジンを呼び出します。
マッピングと変換エンジンは書き込みエンジンを呼び出し、書き込みエンジンは BigQuery Connector for SAP を呼び出します。
BigQuery Connector for SAP は、次のアクションを実行します。
1. SAP データをターゲットのテーブル名、フィールド名、BigQuery データ型にマッピングする。
2. 必要に応じて BigQuery テーブルを作成する。
3. BigQuery Streaming API を使用して、分割されたレコードを BigQuery に送信する。
データを受信すると、BigQuery は次のアクションを実行します。
1. 検証チェックを行う。
2. ターゲットテーブルにレコードを挿入する。
3. BigQuery Connector for SAP に HTTP 200（OK）ステータスコードを返す。
BigQuery Connector for SAP は、HTTP OK ステータスコードを SAP LT Replication Server に返します。これにより、ロギングテーブルから複製されたエントリが削除され、SAP ソースシステムのリソースが解放されます。

次のステップ

BigQuery Connector for SAP のインストールと構成の計画については、BigQuery Connector for SAP のプランニングガイドをご覧ください。

BigQuery Connector for SAP の概要 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

データ処理

サポートされているレプリケーション パス

Pub/Sub を介した変更データ キャプチャ（CDC）レプリケーション

ストリーミング データ レプリケーション

レプリケーション パスを選択する

デプロイ アーキテクチャ

Pub/Sub を介した CDC レプリケーションのデプロイ アーキテクチャ

Google Cloud上の SAP データソースのアーキテクチャ

オンプレミスまたは別のクラウド プロバイダ上の SAP データソースのアーキテクチャ

データフローの詳細なアーキテクチャ ビュー

ストリーミング データ レプリケーションのデプロイ アーキテクチャ

オンプレミスまたは別のクラウド プロバイダ上の SAP データソースのアーキテクチャ

データフローの詳細なアーキテクチャ ビュー

次のステップ

BigQuery Connector for SAP の概要

サポートされているレプリケーションパス

Pub/Sub を介した変更データキャプチャ（CDC）レプリケーション

ストリーミングデータレプリケーション

レプリケーションパスを選択する

デプロイアーキテクチャ

Pub/Sub を介した CDC レプリケーションのデプロイアーキテクチャ

オンプレミスまたは別のクラウドプロバイダ上の SAP データソースのアーキテクチャ

データフローの詳細なアーキテクチャビュー

ストリーミングデータレプリケーションのデプロイアーキテクチャ

オンプレミスまたは別のクラウドプロバイダ上の SAP データソースのアーキテクチャ

データフローの詳細なアーキテクチャビュー