Mentransfer dari sistem file ke Cloud Storage

Halaman ini menunjukkan cara membuat tugas transfer antara sistem file (baik lokal maupun di cloud) dan Cloud Storage.

Transfer dari sistem file ke Cloud Storage adalah transfer berbasis agen. Artinya, Anda akan menginstal agen software pada mesin yang memiliki akses ke sistem file Anda untuk mengorkestrasi transfer.

Konfigurasikan izin

Sebelum membuat transfer, Anda harus mengonfigurasi izin untuk entitas berikut:

Akun pengguna yang digunakan untuk membuat transfer. Akun ini adalah akun yang login ke Konsol Google Cloud, atau akun yang ditentukan saat melakukan autentikasi ke CLI `gcloud`. Akun pengguna dapat berupa akun pengguna biasa, atau akun layanan yang dikelola pengguna.
Akun layanan yang dikelola Google, juga dikenal sebagai agen layanan, yang digunakan oleh Storage Transfer Service. Akun ini umumnya diidentifikasi melalui alamat emailnya, yang menggunakan format project-PROJECT_NUMBER@storage-transfer-service.iam.gserviceaccount.com.
Akun agen transfer yang memberikan izin Google Cloud untuk agen transfer. Akun agen transfer menggunakan kredensial pengguna yang menginstalnya, atau kredensial akun layanan yang dikelola pengguna, untuk melakukan autentikasi.

Lihat Izin transfer berbasis agen untuk mengetahui petunjuknya.

Menginstal agen ke dalam kumpulan agen

Transfer berbasis agen menggunakan agen software untuk mengorkestrasi transfer. Agen ini harus diinstal pada mesin yang memiliki akses ke sistem file yang terlibat dalam transfer.

Jangan sertakan informasi sensitif seperti informasi identitas pribadi (PII) atau data keamanan di nama kumpulan agen atau awalan ID agen Anda. Nama resource dapat disebarkan ke nama resource Google Cloud lainnya dan dapat diekspos ke sistem internal Google di luar project Anda.
  1. Buat kumpulan agen. Gunakan akun pengguna Simbol akun pengguna Anda untuk tindakan ini.
  2. Instal agen ke kumpulan agen. Gunakan akun agen transfer untuk tindakan ini.

Sebaiknya mulai dengan 3 agen di kumpulan agen sumber Anda. Setelah transfer berlangsung, pantau kecepatan transfer; Anda dapat menambahkan lebih banyak agen ke dalam kumpulan saat transfer sedang berlangsung.

Kami merekomendasikan satu VM per agen, masing-masing dengan minimal 4 CPU dan RAM 8 GiB.

Opsi transfer

Fitur Storage Transfer Service berikut tersedia untuk transfer dari sistem file ke Cloud Storage.

Mentransfer file tertentu menggunakan manifes
Anda dapat meneruskan daftar file agar Storage Transfer Service dapat ditindaklanjuti. Lihat Mentransfer file atau objek tertentu menggunakan manifes untuk mengetahui detailnya.
Menentukan kelas penyimpanan
Anda dapat menentukan class penyimpanan Cloud Storage yang akan digunakan untuk data Anda di bucket tujuan. Lihat opsi StorageClass untuk mengetahui detail REST, atau gunakan flag --custom-storage-class dengan Google Cloud CLI.

Perlu diingat bahwa setiap setelan kelas penyimpanan akan diabaikan jika bucket tujuan telah mengaktifkan Autoclass. Jika Autoclass diaktifkan, objek yang ditransfer ke dalam bucket awalnya akan ditetapkan ke Standard Storage.

Penyimpanan metadata

Saat mentransfer file dari sistem file, Storage Transfer Service dapat secara opsional mempertahankan atribut tertentu sebagai metadata kustom. Jika file ini kemudian ditulis kembali ke sistem file, Storage Transfer Service dapat mengonversi metadata yang telah dipertahankan kembali ke atribut POSIX.

Lihat bagian Transfer sistem file POSIX pada Penyimpanan metadata untuk mengetahui detail tentang metadata mana yang dapat dipertahankan, dan cara mengonfigurasi transfer Anda.

Mengelola bandwidth jaringan
Storage Transfer Service secara default menggunakan bandwidth sebanyak yang tersedia untuk mentransfer file dari sistem file Anda. Anda dapat menetapkan batas bandwidth agar transfer tidak memengaruhi traffic jaringan lainnya. Batas bandwidth diterapkan pada tingkat kumpulan agen.

Lihat Mengelola bandwidth jaringan untuk mempelajari lebih lanjut.

Akun pengguna Anda memerlukan peran Storage Transfer Admin (roles/storagetransfer.admin) untuk menetapkan atau mengubah batas bandwidth.

Logging
Storage Transfer Service mendukung Cloud Logging for Storage Transfer Service (direkomendasikan) serta log transfer berbasis agen.

Buat transfer

Jangan menyertakan informasi sensitif seperti informasi identitas pribadi (PII) atau data keamanan dalam nama tugas transfer Anda. Nama resource dapat disebarkan ke nama resource Google Cloud lainnya dan dapat diekspos ke sistem internal Google di luar project Anda.

Storage Transfer Service menyediakan beberapa antarmuka yang digunakan untuk membuat transfer.

Konsol Google Cloud

  1. Buka halaman Storage Transfer Service di Konsol Google Cloud.

    Buka Storage Transfer Service

  2. Klik Buat tugas transfer. Halaman Create a transfer job akan ditampilkan.

  3. Pilih sistem file POSIX sebagai sumbernya.

  4. Pilih Cloud Storage sebagai jenis tujuan, lalu klik Langkah berikutnya.

  5. Pilih kumpulan agen yang ada, atau pilih Buat kumpulan agen dan ikuti petunjuk untuk membuat kumpulan baru.

  6. Tentukan jalur direktori sistem file yang sepenuhnya memenuhi syarat.

  7. Klik Next step.

  8. Di kolom Bucket or folder, masukkan bucket tujuan dan nama folder (opsional), atau klik Browse untuk memilih bucket dari daftar bucket yang ada di project Anda saat ini. Untuk membuat bucket baru, klik Ikon bucket Create new bucket.

  9. Klik Next step.

  10. Pilih opsi penjadwalan.

  11. Klik Next step.

  12. Pilih setelan untuk tugas transfer.

    • Di kolom Description, masukkan deskripsi transfer. Sebagai praktik terbaik, masukkan deskripsi yang bermakna dan unik agar Anda dapat membedakannya.

    • Di bagian Metadata options, gunakan opsi default, atau perbarui satu atau beberapa nilai. Lihat Preservasi metadata untuk mengetahui detailnya.

    • Di bagian Kapan harus menimpa, pilih salah satu dari opsi berikut:

      • Tidak pernah: Storage Transfer Service tidak mentransfer file apa pun dari sumber yang memiliki nama yang sama dengan file yang ada di tujuan.

      • Jika berbeda: Timpa file tujuan jika file sumber dengan nama yang sama memiliki nilai Etag atau checksum yang berbeda.

      • Always: Selalu menimpa file tujuan jika file sumber memiliki nama yang sama, meskipun file tersebut identik.

    • Di bagian Kapan harus dihapus, pilih salah satu opsi berikut:

      • Tidak pernah: Jangan pernah menghapus file dari sumber atau tujuan.

      • Hapus file dari sumber setelah ditransfer: Hapus file dari sumber setelah ditransfer ke tujuan.

      • Hapus file dari tujuan jika file tersebut tidak ada di sumber: Jika file di bucket Cloud Storage tujuan tidak juga ada di sumber, hapus file dari bucket Cloud Storage.

        Opsi ini akan memastikan bucket Cloud Storage tujuan sama persis dengan sumber Anda.

    • Pilih apakah Enable logging in Cloud Storage dan/atau Enable logging in Cloud Logging. Lihat Log transfer sistem file dan Cloud Logging untuk Storage Transfer Service untuk mengetahui informasi selengkapnya.

  13. Untuk membuat tugas transfer, klik Buat.

gcloud

Sebelum menggunakan perintah gcloud, instal Google Cloud CLI.

Untuk membuat tugas transfer baru, gunakan perintah gcloud transfer jobs create. Membuat tugas baru akan memulai transfer yang ditentukan, kecuali jika jadwal atau --do-not-run ditentukan.

gcloud transfer jobs create \
  posix:///SOURCE \
  gs://DESTINATION/ \
  --source-agent-pool=SOURCE_POOL_NAME

Dengan keterangan:

  • SOURCE adalah jalur absolut dari root sistem file. Nilai ini diawali dengan posix:// sehingga nilai akhirnya akan menyertakan 3 garis miring ke depan. Misalnya, posix:///tmp/data/.

  • DESTINATION adalah salah satu nama bucket Cloud Storage dan, secara opsional, jalur folder yang diikuti dengan garis miring. Misalnya, gs://example-bucket/data/.

  • --source-agent-pool menentukan kumpulan agen sumber yang akan digunakan untuk transfer ini.

Opsi tambahan mencakup:

  • --do-not-run mencegah Storage Transfer Service menjalankan tugas setelah perintah dikirimkan. Untuk menjalankan tugas, perbarui tugas untuk menambahkan jadwal, atau gunakan jobs run untuk memulainya secara manual.

  • --manifest-file menentukan jalur ke file CSV di Cloud Storage yang berisi daftar file yang akan ditransfer dari sumber Anda. Untuk pemformatan file manifes, baca artikel Mentransfer file atau objek tertentu menggunakan manifes.

  • Informasi pekerjaan: Anda dapat menetapkan --name dan --description.

  • Schedule: Tentukan --schedule-starts, --schedule-repeats-every, dan --schedule-repeats-until, atau --do-not-run.

  • Opsi transfer: Tentukan apakah akan menimpa file tujuan (--overwrite-when=different atau always) dan apakah akan menghapus file tertentu selama atau setelah transfer (--delete-from=destination-if-unique atau source-after-transfer); menentukan nilai metadata yang akan dipertahankan (--preserve-metadata); dan menetapkan class penyimpanan pada objek yang ditransfer secara opsional (--custom-storage-class).

Untuk melihat semua opsi, jalankan gcloud transfer jobs create --help atau lihat dokumentasi referensi gcloud. Perhatikan bahwa tidak semua opsi didukung untuk transfer berbasis agen; opsi yang tidak didukung mencantumkan catatan tentang efek ini dalam teks bantuannya.

REST

Contoh berikut menunjukkan cara menggunakan Storage Transfer Service melalui REST API.

Saat Anda mengonfigurasi atau mengedit tugas transfer menggunakan Storage Transfer Service API, waktunya harus dalam UTC. Untuk informasi selengkapnya tentang menentukan jadwal tugas transfer, lihat Menjadwalkan.

Untuk memindahkan file dari sistem file POSIX ke bucket Cloud Storage, gunakan transferJobs.create dengan posixDataSource:

POST https://storagetransfer.googleapis.com/v1/transferJobs
{
 "name":"transferJobs/sample_transfer",
 "description": "My First Transfer",
 "status": "ENABLED",
 "projectId": "my_transfer_project_id",
 "schedule": {
     "scheduleStartDate": {
         "year": 2022,
         "month": 5,
         "day": 2
     },
     "startTimeOfDay": {
         "hours": 22,
         "minutes": 30,
         "seconds": 0,
         "nanos": 0
     }
     "scheduleEndDate": {
         "year": 2022,
         "month": 12,
         "day": 31
     },
     "repeatInterval": {
         "259200s"
     },
 },
 "transferSpec": {
     "posixDataSource": {
          "rootDirectory": "/bar/",
     },
     "sourceAgentPoolName": "my_example_pool",
     "gcsDataSink": {
          "bucketName": "destination_bucket"
          "path": "foo/bar/"
     },
  }
}

Kolom schedule bersifat opsional; jika tidak disertakan, tugas transfer harus dimulai dengan permintaan transferJobs.run.

Untuk memeriksa status transfer setelah membuat tugas, gunakan transferJobs.get:

GET https://storagetransfer.googleapis.com/v1/transferJobs/sample_transfer?project_id=my_transfer_project_id

Library klien

Contoh berikut menunjukkan cara menggunakan Storage Transfer Service secara terprogram dengan Go, Java, Node.js, dan Python.

Saat Anda mengonfigurasi atau mengedit tugas transfer secara terprogram, waktunya harus dalam UTC. Untuk informasi selengkapnya tentang menentukan jadwal tugas transfer, lihat Menjadwalkan.

Untuk informasi selengkapnya tentang library klien Storage Transfer Service, lihat Mulai menggunakan library klien Storage Transfer Service.

Untuk memindahkan file dari sistem file POSIX ke bucket Cloud Storage:

Go


import (
	"context"
	"fmt"
	"io"

	storagetransfer "cloud.google.com/go/storagetransfer/apiv1"
	"cloud.google.com/go/storagetransfer/apiv1/storagetransferpb"
)

func transferFromPosix(w io.Writer, projectID string, sourceAgentPoolName string, rootDirectory string, gcsSinkBucket string) (*storagetransferpb.TransferJob, error) {
	// Your project id
	// projectId := "myproject-id"

	// The agent pool associated with the POSIX data source. If not provided, defaults to the default agent
	// sourceAgentPoolName := "projects/my-project/agentPools/transfer_service_default"

	// The root directory path on the source filesystem
	// rootDirectory := "/directory/to/transfer/source"

	// The ID of the GCS bucket to transfer data to
	// gcsSinkBucket := "my-sink-bucket"

	ctx := context.Background()
	client, err := storagetransfer.NewClient(ctx)
	if err != nil {
		return nil, fmt.Errorf("storagetransfer.NewClient: %w", err)
	}
	defer client.Close()

	req := &storagetransferpb.CreateTransferJobRequest{
		TransferJob: &storagetransferpb.TransferJob{
			ProjectId: projectID,
			TransferSpec: &storagetransferpb.TransferSpec{
				SourceAgentPoolName: sourceAgentPoolName,
				DataSource: &storagetransferpb.TransferSpec_PosixDataSource{
					PosixDataSource: &storagetransferpb.PosixFilesystem{RootDirectory: rootDirectory},
				},
				DataSink: &storagetransferpb.TransferSpec_GcsDataSink{
					GcsDataSink: &storagetransferpb.GcsData{BucketName: gcsSinkBucket},
				},
			},
			Status: storagetransferpb.TransferJob_ENABLED,
		},
	}

	resp, err := client.CreateTransferJob(ctx, req)
	if err != nil {
		return nil, fmt.Errorf("failed to create transfer job: %w", err)
	}
	if _, err = client.RunTransferJob(ctx, &storagetransferpb.RunTransferJobRequest{
		ProjectId: projectID,
		JobName:   resp.Name,
	}); err != nil {
		return nil, fmt.Errorf("failed to run transfer job: %w", err)
	}
	fmt.Fprintf(w, "Created and ran transfer job from %v to %v with name %v", rootDirectory, gcsSinkBucket, resp.Name)
	return resp, nil
}

Java

import com.google.storagetransfer.v1.proto.StorageTransferServiceClient;
import com.google.storagetransfer.v1.proto.TransferProto;
import com.google.storagetransfer.v1.proto.TransferTypes.GcsData;
import com.google.storagetransfer.v1.proto.TransferTypes.PosixFilesystem;
import com.google.storagetransfer.v1.proto.TransferTypes.TransferJob;
import com.google.storagetransfer.v1.proto.TransferTypes.TransferSpec;
import java.io.IOException;

public class TransferFromPosix {

  public static void main(String[] args) throws IOException {
    // TODO(developer): Replace these variables before running the sample.

    // Your project id
    String projectId = "my-project-id";

    // The agent pool associated with the POSIX data source. If not provided, defaults to the
    // default agent
    String sourceAgentPoolName = "projects/my-project-id/agentPools/transfer_service_default";

    // The root directory path on the source filesystem
    String rootDirectory = "/directory/to/transfer/source";

    // The ID of the GCS bucket to transfer data to
    String gcsSinkBucket = "my-sink-bucket";

    transferFromPosix(projectId, sourceAgentPoolName, rootDirectory, gcsSinkBucket);
  }

  public static void transferFromPosix(
      String projectId, String sourceAgentPoolName, String rootDirectory, String gcsSinkBucket)
      throws IOException {
    TransferJob transferJob =
        TransferJob.newBuilder()
            .setProjectId(projectId)
            .setTransferSpec(
                TransferSpec.newBuilder()
                    .setSourceAgentPoolName(sourceAgentPoolName)
                    .setPosixDataSource(
                        PosixFilesystem.newBuilder().setRootDirectory(rootDirectory).build())
                    .setGcsDataSink(GcsData.newBuilder().setBucketName(gcsSinkBucket).build()))
            .setStatus(TransferJob.Status.ENABLED)
            .build();

    // Initialize client that will be used to send requests. This client only needs to be created
    // once, and can be reused for multiple requests. After completing all of your requests, call
    // the "close" method on the client to safely clean up any remaining background resources,
    // or use "try-with-close" statement to do this automatically.
    try (StorageTransferServiceClient storageTransfer = StorageTransferServiceClient.create()) {

      // Create the transfer job
      TransferJob response =
          storageTransfer.createTransferJob(
              TransferProto.CreateTransferJobRequest.newBuilder()
                  .setTransferJob(transferJob)
                  .build());

      System.out.println(
          "Created a transfer job from "
              + rootDirectory
              + " to "
              + gcsSinkBucket
              + " with "
              + "name "
              + response.getName());
    }
  }
}

Node.js


// Imports the Google Cloud client library
const {
  StorageTransferServiceClient,
} = require('@google-cloud/storage-transfer');

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// Your project id
// const projectId = 'my-project'

// The agent pool associated with the POSIX data source. Defaults to the default agent
// const sourceAgentPoolName = 'projects/my-project/agentPools/transfer_service_default'

// The root directory path on the source filesystem
// const rootDirectory = '/directory/to/transfer/source'

// The ID of the GCS bucket to transfer data to
// const gcsSinkBucket = 'my-sink-bucket'

// Creates a client
const client = new StorageTransferServiceClient();

/**
 * Creates a request to transfer from the local file system to the sink bucket
 */
async function transferDirectory() {
  const createRequest = {
    transferJob: {
      projectId,
      transferSpec: {
        sourceAgentPoolName,
        posixDataSource: {
          rootDirectory,
        },
        gcsDataSink: {bucketName: gcsSinkBucket},
      },
      status: 'ENABLED',
    },
  };

  // Runs the request and creates the job
  const [transferJob] = await client.createTransferJob(createRequest);

  const runRequest = {
    jobName: transferJob.name,
    projectId: projectId,
  };

  await client.runTransferJob(runRequest);

  console.log(
    `Created and ran a transfer job from '${rootDirectory}' to '${gcsSinkBucket}' with name ${transferJob.name}`
  );
}

transferDirectory();

Python

from google.cloud import storage_transfer


def transfer_from_posix_to_gcs(
    project_id: str,
    description: str,
    source_agent_pool_name: str,
    root_directory: str,
    sink_bucket: str,
):
    """Create a transfer from a POSIX file system to a GCS bucket."""

    client = storage_transfer.StorageTransferServiceClient()

    # The ID of the Google Cloud Platform Project that owns the job
    # project_id = 'my-project-id'

    # A useful description for your transfer job
    # description = 'My transfer job'

    # The agent pool associated with the POSIX data source.
    # Defaults to 'projects/{project_id}/agentPools/transfer_service_default'
    # source_agent_pool_name = 'projects/my-project/agentPools/my-agent'

    # The root directory path on the source filesystem
    # root_directory = '/directory/to/transfer/source'

    # Google Cloud Storage sink bucket name
    # sink_bucket = 'my-gcs-sink-bucket'

    transfer_job_request = storage_transfer.CreateTransferJobRequest(
        {
            "transfer_job": {
                "project_id": project_id,
                "description": description,
                "status": storage_transfer.TransferJob.Status.ENABLED,
                "transfer_spec": {
                    "source_agent_pool_name": source_agent_pool_name,
                    "posix_data_source": {
                        "root_directory": root_directory,
                    },
                    "gcs_data_sink": {"bucket_name": sink_bucket},
                },
            }
        }
    )

    result = client.create_transfer_job(transfer_job_request)
    print(f"Created transferJob: {result.name}")