Transfer Service for On Premises Data の概要

このページでは、Transfer Service for On Premises Data、その要件、機能について説明します。

Transfer Service for On Premises Data について

Transfer Service for On Premises Data は、データセンターから Cloud Storage バケットに大量のデータを転送できるソフトウェア サービスです。これは、数十億個のファイルや数百 TB のデータを 1 回の転送で移動する場合に適しています。数十 Gbps のネットワーク接続にまでスケールできます。

Transfer Service for On Premises Data のメリット

Transfer Service for On Premises Data を使用すると、カスタム スクリプトの作成や既製のソリューションの購入を行うことなく、大量のデータを転送できます。カスタム スクリプトには次のような欠点があります。

  • 信頼性が低い
  • 低速
  • 安全性が低い
  • メンテナンスやトラブルシューティングが困難

既製のソリューションは、デプロイに多額の費用が必要になる場合があります。

Transfer Service for On Premises Data は、スケーラブルで信頼性の高いマネージド サービスで、エンジニアリング チームや転送ソリューションに投資することなくデータを移行できます。Linux 用のオンプレミス エージェントを含む Docker コンテナをデータセンターのコンピュータにインストールすると、エージェントがデータを Cloud Storage に安全に転送するための調整が Transfer Service for On Premises Data によって行われます。

Transfer Service for On Premises Data と帯域幅の上限

帯域幅に上限がある場合でも、Transfer Service for On Premises Data を使用できます。Google Cloud プロジェクトに帯域幅の上限を設定することで、オンプレミス エージェントがデータを Google Cloud にコピーする際のレートを制限できます。帯域幅の上限は、すべての転送ジョブと、Google Cloud プロジェクト内の関連するオンプレミス エージェントの間で共有されます。

Transfer Service for On Premises Data の機能

以下では、Transfer Service for On Premises Data の機能を簡単に説明します。

  1. プライベート データセンターで、Docker をインストールしてエージェントという小さなソフトウェアを実行します。エージェントは Docker コンテナ内で実行され、ローカルにマウントされた NFS データにアクセスできます。

    詳細については、オンプレミス エージェントのインストールと実行をご覧ください。

  2. オンプレミス用 Transfer の初回設定を完了します。

  3. Google Cloud Console から Transfer Service for On Premises Data の転送を開始します。その際は、NFS ディレクトリとデータ転送先の Cloud Storage バケットを指定します。

    詳細については、転送ジョブの作成をご覧ください。

  4. 転送が開始すると、指定した NFS ディレクトリが再帰的に走査され、検出されたデータが Cloud Storage バケットに転送されます。

    転送されたデータはチェックサムが検査され、エラーのあるファイルは再転送されます。また、データは安全な接続を介して送信されます。転送の進行状況は、転送先の Cloud Storage バケットのログ オブジェクトに記録されます。Google Cloud Console で転送の進行状況をモニタリングすることもできます。

  5. 転送が完了したら、Google Cloud Console でエラーサンプルを確認できます。転送ログで、転送済みファイルのカタログとエラーを確認することもできます。

Transfer Service for On Premises Data エージェントの機能

次に、Transfer Service for On Premises Data エージェント プロセスについて説明します。

  • エージェント プロセスは動的です。転送の実行中にエージェントを追加し、パフォーマンスを改善できます。新しく開始したエージェントは、エージェント プールに参加し、既存の転送から処理を実行します。これにより、実行中のエージェントの数を調整できます。また、転送量の変化に合わせて転送のパフォーマンスを調整できます。

  • エージェント プロセスはフォールト トレラントな集合体です。1 つのエージェントが停止した場合でも、残りのエージェントは作業を継続します。すべてのエージェントが停止した場合、エージェントを再起動すると、エージェントが停止したところから転送が再開します。これにより、エージェントのモニタリング、転送の再試行、リカバリ ロジックの実装を回避できます。Google Kubernetes Engine でエージェントを調整することで、転送を停止せずにエージェント プールのパッチ適用、移動、動的スケーリングを行うことができます。

    たとえば、2 つのエージェントの実行中に 2 つの転送を行うとします。マシンの再起動やオペレーティング システムのパッチ適用でいずれかのエージェントが停止した場合、残りのエージェントは作業を継続します。2 つの転送はまだ実行中ですが、1 つのエージェントでデータの転送が行われるため、処理が遅くなります。残りのエージェントも停止すると、実行中のエージェントがなくなるため、すべての転送が停止します。エージェント プロセスを再起動すると、転送は中断したところから再開します。

  • エージェント プロセスはプールです。データの転送を並列で行います。このため、転送するデータソースに対して、すべてのエージェントが同じアクセス権を持っている必要があります。

    たとえば、特定のファイル システムからデータを転送する場合、エージェントをインストールしたすべてのマシンにファイル システムをマウントする必要があります。一部のエージェントがデータソースにアクセスできても、それ以外のエージェントがアクセスできない場合、そのデータソースからの転送は失敗します。

Transfer Service for On Premises Data の要件

オンプレミス用 Transfer を使用するには、次のものが必要です。

  • POSIX 準拠のソース。

  • 300 Mbps 以上のネットワーク接続。

  • 転送するデータにアクセス可能な Docker 対応の 64 ビット Linux サーバーまたは仮想マシン。

    Docker Community Edition は、CentOS、Debian、Fedora、Ubuntu オペレーティング システムをサポートしています。

    他の Linux オペレーティング システムを使用するには、Docker Enterprise をご覧ください。

  • オンプレミス用 Transfer の初回設定を完了します。

転送を開始する前に、次のことを確認します。

  • 送信接続用に TCP ポート 80(HTTP)と 443(HTTPS)が開いていること。
  • 1 つの Google Cloud プロジェクトのすべてのエージェント プロセスで、同じファイル システムが同じマウント ポイントにマウントされていること。

次のステップ

初回設定を完了して転送を開始する。