Mentransfer dari sistem file ke Cloud Storage

Halaman ini menunjukkan cara membuat tugas transfer antara sistem file (di lokal atau di cloud) dan Cloud Storage.

Transfer dari sistem file ke Cloud Storage adalah transfer berbasis agen, yang berarti Anda akan menginstal agen software di komputer dengan akses ke sistem file untuk mengatur transfer.

Konfigurasikan izin

Sebelum membuat transfer, Anda harus mengonfigurasi izin untuk entity berikut:

Akun pengguna yang digunakan untuk membuat transfer. Ini adalah akun yang digunakan untuk login ke konsol Google Cloud, atau akun yang ditentukan saat melakukan autentikasi ke CLI `gcloud`. Akun pengguna dapat berupa akun pengguna reguler, atau akun layanan yang dikelola pengguna.
Akun layanan yang dikelola Google, juga dikenal sebagai agen layanan, yang digunakan oleh Storage Transfer Service. Akun ini umumnya diidentifikasi oleh alamat emailnya, yang menggunakan format project-PROJECT_NUMBER@storage-transfer-service.iam.gserviceaccount.com.
Akun agen transfer yang memberikan izin Google Cloud untuk agen transfer. Akun agen transfer menggunakan kredensial pengguna yang menginstalnya, atau kredensial akun layanan yang dikelola pengguna, untuk melakukan autentikasi.

Lihat Izin transfer berbasis agen untuk mengetahui petunjuknya.

Menginstal agen ke dalam kumpulan agen

Transfer berbasis agen menggunakan agen software untuk mengatur transfer. Agen ini harus diinstal di komputer dengan akses ke sistem file yang terlibat dalam transfer.

Jangan sertakan informasi sensitif seperti informasi identitas pribadi (PII) atau data keamanan dalam nama kumpulan agen atau awalan ID agen Anda. Nama resource dapat di-propagasi ke nama resource Google Cloud lainnya dan dapat diekspos ke sistem internal Google di luar project Anda.
  1. Buat kumpulan agen. Gunakan akun pengguna Simbol akun pengguna untuk tindakan ini.
  2. Instal agen ke dalam kumpulan agen. Gunakan akun agen transfer untuk tindakan ini.

Sebaiknya mulai dengan 3 agen di kumpulan agen sumber Anda. Setelah transfer berlangsung, pantau kecepatan transfer; Anda dapat menambahkan lebih banyak agen ke dalam kumpulan saat transfer sedang berlangsung.

Sebaiknya gunakan satu VM per agen, masing-masing dengan minimal 4 CPU dan 8 GiB RAM.

Opsi transfer

Fitur Storage Transfer Service berikut tersedia untuk transfer dari sistem file ke Cloud Storage.

Mentransfer file tertentu menggunakan manifes
Anda dapat meneruskan daftar file untuk ditindaklanjuti oleh Storage Transfer Service. Lihat Mentransfer file atau objek tertentu menggunakan manifes untuk mengetahui detailnya.
Menentukan class penyimpanan
Anda dapat menentukan class penyimpanan Cloud Storage yang akan digunakan untuk data Anda di bucket tujuan. Lihat opsi StorageClass untuk mengetahui detail REST, atau gunakan flag --custom-storage-class dengan Google Cloud CLI.

Perhatikan bahwa setelan class penyimpanan apa pun akan diabaikan jika bucket tujuan mengaktifkan Autoclass. Jika Autoclass diaktifkan, objek yang ditransfer ke bucket awalnya ditetapkan ke penyimpanan Standar.

Penyimpanan metadata

Saat mentransfer file dari sistem file, Storage Transfer Service dapat menyimpan atribut tertentu sebagai metadata kustom secara opsional. Jika file ini nantinya ditulis kembali ke sistem file, Storage Transfer Service dapat mengonversi metadata yang dipertahankan kembali ke atribut POSIX.

Lihat bagian Transfer sistem file POSIX di Preservasi metadata untuk mengetahui detail metadata yang dapat dipertahankan, dan cara mengonfigurasi transfer Anda.

Mengelola bandwidth jaringan
Storage Transfer Service secara default menggunakan bandwidth sebanyak yang tersedia untuk mentransfer file dari sistem file Anda. Anda dapat menetapkan batas bandwidth untuk mencegah transfer memengaruhi traffic jaringan lainnya. Batas bandwidth diterapkan di tingkat kumpulan agen.

Lihat Mengelola bandwidth jaringan untuk mempelajari lebih lanjut.

Akun pengguna Anda memerlukan peran Storage Transfer Admin (roles/storagetransfer.admin) untuk menetapkan atau mengubah batas bandwidth.

Logging
Storage Transfer Service mendukung Cloud Logging untuk Storage Transfer Service (direkomendasikan) serta log transfer berbasis agen.

Buat transfer

Jangan sertakan informasi sensitif seperti informasi identitas pribadi (PII) atau data keamanan dalam nama tugas transfer Anda. Nama resource dapat di-propagasi ke nama resource Google Cloud lainnya dan dapat diekspos ke sistem internal Google di luar project Anda.

Storage Transfer Service menyediakan beberapa antarmuka untuk membuat transfer.

Konsol Google Cloud

  1. Buka halaman Storage Transfer Service di konsol Google Cloud.

    Buka Storage Transfer Service

  2. Klik Buat tugas transfer. Halaman Buat tugas transfer akan ditampilkan.

  3. Pilih Sistem file POSIX sebagai sumber.

  4. Pilih Cloud Storage sebagai jenis tujuan, lalu klik Langkah berikutnya.

  5. Pilih kumpulan agen yang ada, atau pilih Buat kumpulan agen dan ikuti petunjuk untuk membuat kumpulan baru.

  6. Tentukan jalur yang sepenuhnya memenuhi syarat dari direktori sistem file.

  7. Klik Next step.

  8. Di kolom Bucket or folder, masukkan bucket tujuan dan (opsional) nama folder, atau klik Browse untuk memilih bucket dari daftar bucket yang ada di project saat ini. Untuk membuat bucket baru, klik Ikon ember Buat bucket baru.

  9. Klik Next step.

  10. Pilih opsi penjadwalan.

  11. Klik Next step.

  12. Pilih setelan untuk tugas transfer.

    • Di kolom Deskripsi, masukkan deskripsi transfer. Sebagai praktik terbaik, masukkan deskripsi yang bermakna dan unik sehingga Anda dapat membedakan tugas.

    • Di bagian Metadata options, gunakan opsi default, atau perbarui satu atau beberapa nilai. Lihat Preservasi metadata untuk mengetahui detailnya.

    • Di bagian Kapan akan menimpa, pilih salah satu opsi berikut:

      • Tidak pernah: Layanan Transfer Penyimpanan akan melewati transfer file apa pun dari sumber yang memiliki nama yang sama dengan file yang ada di tujuan.

      • Jika berbeda: Menimpa file tujuan jika file sumber dengan nama yang sama memiliki nilai checksum atau Etag yang berbeda.

      • Always: Selalu menimpa file tujuan jika file sumber memiliki nama yang sama, meskipun file tersebut identik.

    • Di bagian Waktu penghapusan, pilih salah satu opsi berikut:

      • Jangan pernah: Jangan pernah menghapus file dari sumber atau tujuan.

      • Hapus file dari sumber setelah ditransfer: Menghapus file dari sumber setelah ditransfer ke tujuan.

      • Menghapus file dari tujuan jika file tersebut juga tidak ada di sumber: Jika file di bucket Cloud Storage tujuan juga tidak ada di sumber, hapus file dari bucket Cloud Storage.

        Opsi ini memastikan bahwa bucket Cloud Storage tujuan sama persis dengan sumber Anda.

    • Pilih apakah akan Mengaktifkan logging di Cloud Storage dan/atau Mengaktifkan logging di Cloud Logging. Lihat Log transfer sistem file dan Cloud Logging untuk Storage Transfer Service untuk mengetahui informasi selengkapnya.

  13. Untuk membuat tugas transfer, klik Buat.

gcloud

Sebelum menggunakan perintah gcloud, instal Google Cloud CLI.

Untuk membuat tugas transfer baru, gunakan perintah gcloud transfer jobs create. Membuat tugas baru akan memulai transfer yang ditentukan, kecuali jika jadwal atau --do-not-run ditentukan.

gcloud transfer jobs create \
  posix:///SOURCE \
  gs://DESTINATION/ \
  --source-agent-pool=SOURCE_POOL_NAME

Dengan keterangan:

  • SOURCE adalah jalur absolut dari root sistem file. Nilai ini diawali dengan posix:// sehingga nilai akhir akan menyertakan 3 garis miring. Misalnya, posix:///tmp/data/.

  • DESTINATION adalah salah satu nama bucket Cloud Storage dan, secara opsional, jalur folder yang diikuti dengan garis miring di akhir. Contoh, gs://example-bucket/data/.

  • --source-agent-pool menentukan kumpulan agen sumber yang akan digunakan untuk transfer ini.

Opsi tambahan mencakup:

  • --do-not-run mencegah Storage Transfer Service menjalankan tugas setelah perintah dikirim. Untuk menjalankan tugas, perbarui untuk menambahkan jadwal, atau gunakan jobs run untuk memulainya secara manual.

  • --manifest-file menentukan jalur ke file CSV di Cloud Storage yang berisi daftar file yang akan ditransfer dari sumber Anda. Untuk pemformatan file manifes, lihat Mentransfer file atau objek tertentu menggunakan manifes.

  • Informasi tugas: Anda dapat menentukan --name dan --description.

  • Jadwal: Tentukan --schedule-starts, --schedule-repeats-every, dan --schedule-repeats-until, atau --do-not-run.

  • Opsi transfer: Tentukan apakah akan menimpa file tujuan (--overwrite-when=different atau always) dan apakah akan menghapus file tertentu selama atau setelah transfer (--delete-from=destination-if-unique atau source-after-transfer); tentukan nilai metadata yang akan dipertahankan (--preserve-metadata); dan secara opsional tetapkan class penyimpanan pada objek yang ditransfer (--custom-storage-class).

Untuk melihat semua opsi, jalankan gcloud transfer jobs create --help atau lihat dokumentasi referensi gcloud. Perhatikan bahwa tidak semua opsi didukung untuk transfer berbasis agen; opsi yang tidak didukung berisi catatan tentang hal ini dalam teks bantuannya.

REST

Contoh berikut menunjukkan cara menggunakan Layanan Transfer Penyimpanan melalui REST API.

Saat Anda mengonfigurasi atau mengedit tugas transfer menggunakan Storage Transfer Service API, waktunya harus dalam UTC. Untuk informasi selengkapnya tentang cara menentukan jadwal tugas transfer, lihat Jadwal.

Untuk memindahkan file dari sistem file POSIX ke bucket Cloud Storage, gunakan transferJobs.create dengan posixDataSource:

POST https://storagetransfer.googleapis.com/v1/transferJobs
{
 "name":"transferJobs/sample_transfer",
 "description": "My First Transfer",
 "status": "ENABLED",
 "projectId": "my_transfer_project_id",
 "schedule": {
     "scheduleStartDate": {
         "year": 2022,
         "month": 5,
         "day": 2
     },
     "startTimeOfDay": {
         "hours": 22,
         "minutes": 30,
         "seconds": 0,
         "nanos": 0
     }
     "scheduleEndDate": {
         "year": 2022,
         "month": 12,
         "day": 31
     },
     "repeatInterval": {
         "259200s"
     },
 },
 "transferSpec": {
     "posixDataSource": {
          "rootDirectory": "/bar/",
     },
     "sourceAgentPoolName": "my_example_pool",
     "gcsDataSink": {
          "bucketName": "destination_bucket"
          "path": "foo/bar/"
     },
  }
}

Kolom schedule bersifat opsional; jika tidak disertakan, tugas transfer harus dimulai dengan permintaan transferJobs.run.

Untuk memeriksa status transfer setelah membuat tugas, gunakan transferJobs.get:

GET https://storagetransfer.googleapis.com/v1/transferJobs/sample_transfer?project_id=my_transfer_project_id

Library klien

Contoh berikut menunjukkan cara menggunakan Storage Transfer Service secara terprogram dengan Go, Java, Node.js, dan Python.

Saat Anda mengonfigurasi atau mengedit tugas transfer secara terprogram, waktunya harus dalam UTC. Untuk informasi selengkapnya tentang cara menentukan jadwal tugas transfer, lihat Jadwal.

Untuk mengetahui informasi selengkapnya tentang library klien Storage Transfer Service, lihat Memulai library klien Storage Transfer Service.

Untuk memindahkan file dari sistem file POSIX ke bucket Cloud Storage:

Go


import (
	"context"
	"fmt"
	"io"

	storagetransfer "cloud.google.com/go/storagetransfer/apiv1"
	"cloud.google.com/go/storagetransfer/apiv1/storagetransferpb"
)

func transferFromPosix(w io.Writer, projectID string, sourceAgentPoolName string, rootDirectory string, gcsSinkBucket string) (*storagetransferpb.TransferJob, error) {
	// Your project id
	// projectId := "myproject-id"

	// The agent pool associated with the POSIX data source. If not provided, defaults to the default agent
	// sourceAgentPoolName := "projects/my-project/agentPools/transfer_service_default"

	// The root directory path on the source filesystem
	// rootDirectory := "/directory/to/transfer/source"

	// The ID of the GCS bucket to transfer data to
	// gcsSinkBucket := "my-sink-bucket"

	ctx := context.Background()
	client, err := storagetransfer.NewClient(ctx)
	if err != nil {
		return nil, fmt.Errorf("storagetransfer.NewClient: %w", err)
	}
	defer client.Close()

	req := &storagetransferpb.CreateTransferJobRequest{
		TransferJob: &storagetransferpb.TransferJob{
			ProjectId: projectID,
			TransferSpec: &storagetransferpb.TransferSpec{
				SourceAgentPoolName: sourceAgentPoolName,
				DataSource: &storagetransferpb.TransferSpec_PosixDataSource{
					PosixDataSource: &storagetransferpb.PosixFilesystem{RootDirectory: rootDirectory},
				},
				DataSink: &storagetransferpb.TransferSpec_GcsDataSink{
					GcsDataSink: &storagetransferpb.GcsData{BucketName: gcsSinkBucket},
				},
			},
			Status: storagetransferpb.TransferJob_ENABLED,
		},
	}

	resp, err := client.CreateTransferJob(ctx, req)
	if err != nil {
		return nil, fmt.Errorf("failed to create transfer job: %w", err)
	}
	if _, err = client.RunTransferJob(ctx, &storagetransferpb.RunTransferJobRequest{
		ProjectId: projectID,
		JobName:   resp.Name,
	}); err != nil {
		return nil, fmt.Errorf("failed to run transfer job: %w", err)
	}
	fmt.Fprintf(w, "Created and ran transfer job from %v to %v with name %v", rootDirectory, gcsSinkBucket, resp.Name)
	return resp, nil
}

Java

import com.google.storagetransfer.v1.proto.StorageTransferServiceClient;
import com.google.storagetransfer.v1.proto.TransferProto;
import com.google.storagetransfer.v1.proto.TransferTypes.GcsData;
import com.google.storagetransfer.v1.proto.TransferTypes.PosixFilesystem;
import com.google.storagetransfer.v1.proto.TransferTypes.TransferJob;
import com.google.storagetransfer.v1.proto.TransferTypes.TransferSpec;
import java.io.IOException;

public class TransferFromPosix {

  public static void main(String[] args) throws IOException {
    // TODO(developer): Replace these variables before running the sample.

    // Your project id
    String projectId = "my-project-id";

    // The agent pool associated with the POSIX data source. If not provided, defaults to the
    // default agent
    String sourceAgentPoolName = "projects/my-project-id/agentPools/transfer_service_default";

    // The root directory path on the source filesystem
    String rootDirectory = "/directory/to/transfer/source";

    // The ID of the GCS bucket to transfer data to
    String gcsSinkBucket = "my-sink-bucket";

    transferFromPosix(projectId, sourceAgentPoolName, rootDirectory, gcsSinkBucket);
  }

  public static void transferFromPosix(
      String projectId, String sourceAgentPoolName, String rootDirectory, String gcsSinkBucket)
      throws IOException {
    TransferJob transferJob =
        TransferJob.newBuilder()
            .setProjectId(projectId)
            .setTransferSpec(
                TransferSpec.newBuilder()
                    .setSourceAgentPoolName(sourceAgentPoolName)
                    .setPosixDataSource(
                        PosixFilesystem.newBuilder().setRootDirectory(rootDirectory).build())
                    .setGcsDataSink(GcsData.newBuilder().setBucketName(gcsSinkBucket).build()))
            .setStatus(TransferJob.Status.ENABLED)
            .build();

    // Initialize client that will be used to send requests. This client only needs to be created
    // once, and can be reused for multiple requests. After completing all of your requests, call
    // the "close" method on the client to safely clean up any remaining background resources,
    // or use "try-with-close" statement to do this automatically.
    try (StorageTransferServiceClient storageTransfer = StorageTransferServiceClient.create()) {

      // Create the transfer job
      TransferJob response =
          storageTransfer.createTransferJob(
              TransferProto.CreateTransferJobRequest.newBuilder()
                  .setTransferJob(transferJob)
                  .build());

      System.out.println(
          "Created a transfer job from "
              + rootDirectory
              + " to "
              + gcsSinkBucket
              + " with "
              + "name "
              + response.getName());
    }
  }
}

Node.js


// Imports the Google Cloud client library
const {
  StorageTransferServiceClient,
} = require('@google-cloud/storage-transfer');

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// Your project id
// const projectId = 'my-project'

// The agent pool associated with the POSIX data source. Defaults to the default agent
// const sourceAgentPoolName = 'projects/my-project/agentPools/transfer_service_default'

// The root directory path on the source filesystem
// const rootDirectory = '/directory/to/transfer/source'

// The ID of the GCS bucket to transfer data to
// const gcsSinkBucket = 'my-sink-bucket'

// Creates a client
const client = new StorageTransferServiceClient();

/**
 * Creates a request to transfer from the local file system to the sink bucket
 */
async function transferDirectory() {
  const createRequest = {
    transferJob: {
      projectId,
      transferSpec: {
        sourceAgentPoolName,
        posixDataSource: {
          rootDirectory,
        },
        gcsDataSink: {bucketName: gcsSinkBucket},
      },
      status: 'ENABLED',
    },
  };

  // Runs the request and creates the job
  const [transferJob] = await client.createTransferJob(createRequest);

  const runRequest = {
    jobName: transferJob.name,
    projectId: projectId,
  };

  await client.runTransferJob(runRequest);

  console.log(
    `Created and ran a transfer job from '${rootDirectory}' to '${gcsSinkBucket}' with name ${transferJob.name}`
  );
}

transferDirectory();

Python

from google.cloud import storage_transfer


def transfer_from_posix_to_gcs(
    project_id: str,
    description: str,
    source_agent_pool_name: str,
    root_directory: str,
    sink_bucket: str,
):
    """Create a transfer from a POSIX file system to a GCS bucket."""

    client = storage_transfer.StorageTransferServiceClient()

    # The ID of the Google Cloud Platform Project that owns the job
    # project_id = 'my-project-id'

    # A useful description for your transfer job
    # description = 'My transfer job'

    # The agent pool associated with the POSIX data source.
    # Defaults to 'projects/{project_id}/agentPools/transfer_service_default'
    # source_agent_pool_name = 'projects/my-project/agentPools/my-agent'

    # The root directory path on the source filesystem
    # root_directory = '/directory/to/transfer/source'

    # Google Cloud Storage sink bucket name
    # sink_bucket = 'my-gcs-sink-bucket'

    transfer_job_request = storage_transfer.CreateTransferJobRequest(
        {
            "transfer_job": {
                "project_id": project_id,
                "description": description,
                "status": storage_transfer.TransferJob.Status.ENABLED,
                "transfer_spec": {
                    "source_agent_pool_name": source_agent_pool_name,
                    "posix_data_source": {
                        "root_directory": root_directory,
                    },
                    "gcs_data_sink": {"bucket_name": sink_bucket},
                },
            }
        }
    )

    result = client.create_transfer_job(transfer_job_request)
    print(f"Created transferJob: {result.name}")