Transfer Service for On Premises Data ジョブの詳細

このドキュメントでは、Transfer Service for On Premises Data の機能について詳しく説明します。具体的には、増分転送とデータ整合性、それぞれの意味、どのように機能するかについて説明します。

増分転送の開始

Transfer Service for On Premises Data は、転送元と転送先に存在するデータを計算し、最後の転送以降に作成、更新、削除された転送元ファイルを判別してから、すべての転送を開始します。これは、マシンから送信されるデータの量を減らして帯域幅を効率的に使用し、転送時間を短縮するためです。

ファイルが変更されたかどうかを検出するために、gsutil rsync と同様のアルゴリズムを使用して、転送元ファイルの最終更新日時、サイズを確認し、そのファイルを最後にコピーしたときに記録した最終更新日時、サイズと比較します。新しいファイルや変更されたファイルを検出すると、ファイル全体を転送先にコピーします。ファイルの鮮度の詳細については、データの整合性の詳細をご覧ください。

デフォルトでは、転送元で削除されたファイルを検出しますが、処理は行いません。作成または編集時に同期オプション [ソースにない宛先ファイルを削除します] が選択された場合は、転送時に転送先の対応するオブジェクトを削除します。

同期オプション [ソースにない宛先ファイルを削除します] が選択された場合は、ソースで誤って削除されたファイルは転送先でも削除されます。誤って削除してデータを損失しないように、このオプションを使用する場合は、転送先バケットでオブジェクトのバージョニングを有効にすることをおすすめします。これにより、誤ってファイルを削除した場合に Cloud Storage のオブジェクトを古いバージョンで復元できます。

データの整合性の詳細

正常な転送オペレーションでは、オペレーションの全実行時間を通して存在し、変更されなかったすべての転送元ファイルが転送されます。転送中に作成、更新、削除された転送元ファイルについては、それらの変更が転送先のデータに反映される場合とされない場合があります。

オンプレミス用 Transfer では、ファイルの最終更新日時とサイズを使用して、ファイルが変更されているかどうかを判別します。最終更新日時やサイズを変更せずにファイルが変更され、delete-objects-from-source オプションが有効になっている場合、その変更によるデータが失われる可能性があります。

delete-objects-from-source 機能を使用する場合は、データの損失を防ぐために、転送期間中にソースへの書き込みをフリーズすることを強くおすすめします。

ソースへの書き込みをフリーズするには、次のいずれかを行います。

  • 転送するディレクトリのクローンを作成し、クローンを作成したディレクトリを転送のソースとして使用します。
  • ソース ディレクトリに書き込むアプリケーションを停止します。

転送中に発生した変更をキャプチャする必要がある場合は、転送を再実行するか、オペレーションの実行中に転送元のファイル システムを読み取り専用に設定します。

Cloud Storage にはディレクトリの概念がないため、空のソース ディレクトリは転送されません。