Memigrasikan data Amazon Redshift dengan jaringan VPC

Dokumen ini menjelaskan cara memigrasikan data dari Amazon Redshift ke BigQuery menggunakan VPC.

Jika memiliki instance Amazon Redshift pribadi di AWS, Anda dapat memigrasikan data tersebut ke BigQuery dengan membuat jaringan virtual private cloud (VPC) dan menghubungkannya dengan jaringan VPC Amazon Redshift. Proses migrasi data berjalan sebagai berikut:

  1. Anda membuat jaringan VPC dalam project yang ingin digunakan untuk transfer. Jaringan VPC tidak boleh berupa jaringan VPC Bersama.
  2. Anda menyiapkan virtual private network (VPN) dan menghubungkan jaringan VPC project Anda dan jaringan VPC Amazon Redshift.
  3. Anda menentukan jaringan VPC project dan rentang IP yang dicadangkan saat menyiapkan transfer.
  4. BigQuery Data Transfer Service membuat project tenant dan melampirkannya ke project yang Anda gunakan untuk transfer.
  5. BigQuery Data Transfer Service membuat jaringan VPC dengan satu subnet di project tenant, menggunakan rentang IP yang dicadangkan yang Anda tentukan.
  6. BigQuery Data Transfer Service membuat peering VPC antara jaringan VPC project Anda dan jaringan VPC project tenant.
  7. Migrasi BigQuery Data Transfer Service berjalan di project tenant. Hal ini memicu operasi penghapusan muatan dari Amazon Redshift ke area staging dalam bucket Amazon S3. Kecepatan penghapusan muatan ditentukan oleh konfigurasi cluster Anda.
  8. Migrasi BigQuery Data Transfer Service mentransfer data Anda dari bucket Amazon S3 ke BigQuery.

Jika ingin mentransfer data dari instance Amazon Redshift melalui IP publik, Anda dapat memigrasikan data Amazon Redshift ke BigQuery dengan petunjuk ini.

Sebelum memulai

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  4. Aktifkan API BigQuery and BigQuery Data Transfer Service.

    Mengaktifkan API

  5. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  6. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  7. Aktifkan API BigQuery and BigQuery Data Transfer Service.

    Mengaktifkan API

Menetapkan izin yang diperlukan

Sebelum membuat transfer Amazon Redshift, ikuti langkah-langkah berikut:

  1. Pastikan orang yang melakukan transfer memiliki izin Identity and Access Management (IAM) yang diperlukan di BigQuery berikut:

    • bigquery.transfers.update izin untuk membuat transfer
    • Izin bigquery.datasets.update pada set data target

    Peran IAM role/bigquery.admin bawaan mencakup izin bigquery.transfers.update dan bigquery.datasets.update. Untuk mengetahui informasi selengkapnya tentang peran IAM dalam BigQuery Data Transfer Service, lihat Kontrol akses.

  2. Lihat dokumentasi untuk Amazon S3 guna memastikan Anda telah mengonfigurasi izin yang diperlukan untuk mengaktifkan transfer. Setidaknya, data sumber Amazon S3 harus menerapkan kebijakan yang dikelola AWS AmazonS3ReadOnlyAccess pada data tersebut.

  3. Berikan izin IAM yang sesuai untuk membuat dan menghapus Peering Jaringan VPC kepada setiap orang yang menyiapkan transfer. Layanan ini menggunakan kredensial pengguna Google Cloud milik setiap individu untuk membuat koneksi peering VPC.

    • Izin untuk membuat peering VPC: compute.networks.addPeering
    • Izin untuk menghapus peering VPC: compute.networks.removePeering

    Peran IAM roles/project.owner, roles/project.editor, dan roles/compute.networkAdmin yang telah ditetapkan menyertakan izin compute.networks.addPeering dan compute.networks.removePeering secara default.

Membuat set data

Buat set data BigQuery untuk menyimpan data Anda. Anda tidak perlu membuat tabel apa pun.

Mengizinkan akses ke cluster Amazon Redshift

Ikuti petunjuk di Mengonfigurasi aturan masuk untuk klien SQL guna mengizinkan rentang IP cluster Amazon Redshift pribadi Anda. Pada langkah selanjutnya, Anda menentukan rentang IP pribadi di jaringan VPC ini saat menyiapkan transfer.

Memberikan akses ke bucket Amazon S3

Anda harus memiliki bucket Amazon S3 untuk digunakan sebagai area staging guna mentransfer data Amazon Redshift ke BigQuery. Untuk petunjuk selengkapnya, lihat dokumentasi Amazon.

  1. Sebaiknya Anda membuat pengguna Amazon IAM khusus, dan memberikan akses Baca saja kepada pengguna tersebut ke Amazon Redshift serta akses Baca dan Tulis ke Amazon S3. Untuk mencapai langkah ini, Anda dapat menerapkan kebijakan berikut:

    Izin Amazon migrasi Amazon Redshift

  2. Buat pasangan kunci akses pengguna IAM Amazon.

Mengonfigurasi kontrol workload dengan antrean migrasi terpisah

Jika ingin, Anda dapat menentukan antrean Amazon Redshift untuk tujuan migrasi guna membatasi dan memisahkan resource yang digunakan untuk migrasi. Anda dapat mengonfigurasi antrean migrasi ini dengan jumlah kueri konkurensi maksimum. Selanjutnya, Anda dapat mengaitkan grup pengguna migrasi tertentu dengan antrean dan menggunakan kredensial tersebut saat menyiapkan migrasi untuk mentransfer data ke BigQuery. Layanan transfer hanya memiliki akses ke antrean migrasi.

Mengumpulkan informasi transfer

Kumpulkan informasi yang Anda perlukan untuk menyiapkan migrasi deng BigQuery Data Transfer Service:

  • Dapatkan VPC dan rentang IP yang dicadangkan di Amazon Redshift.
  • Ikuti petunjuk ini untuk mendapatkan URL JDBC.
  • Dapatkan nama pengguna dan sandi pengguna dengan izin yang sesuai ke database Amazon Redshift Anda.
  • Ikuti petunjuk di bagian Memberikan akses ke bucket Amazon S3 untuk mendapatkan pasangan kunci akses AWS.
  • Dapatkan URI bucket Amazon S3 yang ingin Anda gunakan untuk transfer. Sebaiknya siapkan kebijakan Siklus proses untuk bucket ini guna menghindari biaya yang tidak perlu. Waktu habis masa berlaku yang direkomendasikan adalah 24 jam agar tersedia waktu yang cukup untuk mentransfer semua data ke BigQuery.

Menilai data Anda

Sebagai bagian dari transfer data, BigQuery Data Transfer Service menulis data dari Amazon Redshift ke Cloud Storage sebagai file CSV. Jika file ini berisi karakter 0 ASCII, file tersebut tidak dapat dimuat ke BigQuery. Anda sebaiknya menilai data untuk menentukan apakah hal ini dapat menjadi masalah. Jika demikian, Anda dapat mengatasi hal ini dengan mengekspor data Anda ke Amazon S3 sebagai file Parquet, lalu mengimpor file tersebut dengan menggunakan BigQuery Data Transfer Service. Untuk informasi selengkapnya, lihat Ringkasan transfer Amazon S3.

Menyiapkan jaringan VPC dan VPN

  1. Pastikan Anda memiliki izin untuk mengaktifkan peering VPC. Untuk mengetahui informasi selengkapnya, lihat Menetapkan izin yang diperlukan.

  2. Ikuti petunjuk dalam panduan ini untuk menyiapkan jaringan VPC Google Cloud, menyiapkan VPN antara jaringan VPC project Google Cloud Anda dan jaringan VPC Amazon Redshift, dan mengaktifkan peering VPC.

  3. Konfigurasi Amazon Redshift untuk mengizinkan koneksi ke VPN Anda. Untuk informasi selengkapnya, lihat grup keamanan cluster Amazon Redshift.

  4. Di konsol Google Cloud, buka halaman Jaringan VPC untuk memverifikasi bahwa jaringan VPC Google Cloud Anda ada di project Google Cloud yang terhubung ke Amazon Redshift melalui VPN.

    Buka VPC networks

    Halaman konsol mencantumkan semua jaringan VPC Anda.

Menyiapkan transfer Amazon Redshift

Gunakan petunjuk berikut untuk menyiapkan transfer Amazon Redshift:

  1. Di konsol Google Cloud, buka halaman BigQuery.

    Buka BigQuery

  2. Klik Transfer data.

  3. Klik Buat Transfer.

  4. Di bagian Jenis sumber, pilih Migrasi: Amazon Redshift dari daftar Sumber.

  5. Di bagian Transfer nama konfigurasi, masukkan nama untuk transfer, misalnya My migration, di kolom Nama tampilan. Nama tampilan dapat berupa nilai apa pun yang memudahkan Anda mengidentifikasi transfer jika perlu mengubahnya nanti.

  6. Di bagian Setelan tujuan, pilih set data yang Anda buat dari daftar Set data.

  7. Di bagian Detail sumber data, lakukan hal berikut:

    1. Bagi URL koneksi JDBC untuk Amazon Redshift, berikan URL JDBC untuk mengakses cluster Amazon Redshift Anda.
    2. Untuk Nama pengguna database, masukkan nama pengguna untuk database Amazon Redshift yang ingin dimigrasikan.
    3. Untuk Sandi database Anda, masukkan sandi database.

    4. Untuk ID kunci akses dan Kunci akses rahasia, masukkan pasangan kunci akses yang diperoleh dari Memberikan akses ke bucket S3.

    5. Untuk Amazon S3 URI, masukkan URI bucket S3 yang akan Anda gunakan sebagai area staging.

    6. Untuk Amazon Redshift Schema, masukkan skema Amazon Redshift yang Anda migrasikan.

    7. Untuk Pola nama tabel, tentukan nama atau pola untuk mencocokkan nama tabel dalam skema. Anda dapat menggunakan ekspresi reguler untuk menentukan pola dalam bentuk: <table1Regex>;<table2Regex>. Pola ini harus mengikuti sintaksis ekspresi reguler Java. Contoh:

      • lineitem;ordertb cocok dengan tabel yang bernama lineitem dan ordertb.
      • .* cocok dengan semua tabel.

      Kosongkan kolom ini untuk memigrasikan semua tabel dari skema yang ditentukan.

    8. Untuk VPC dan rentang IP yang dicadangkan, tentukan nama jaringan VPC Anda dan rentang alamat IP pribadi yang akan digunakan dalam jaringan VPC project tenant. Tentukan rentang alamat IP sebagai blok CIDR.

      Kolom CIDR migrasi Amazon Redshift

      • Formatnya adalah VPC_network_name:CIDR, misalnya: my_vpc:10.251.1.0/24.
      • Gunakan rentang alamat jaringan VPC pribadi standar dalam notasi CIDR, yang dimulai dengan 10.x.x.x.
      • Rentang IP harus memiliki lebih dari 10 alamat IP.
      • Rentang IP tidak boleh tumpang tindih dengan subnet apa pun di jaringan VPC project Anda atau jaringan VPC Amazon Redshift.
      • Jika Anda memiliki beberapa transfer yang dikonfigurasi untuk instance Amazon Redshift yang sama, pastikan untuk menggunakan nilai VPC_network_name:CIDR yang sama di setiap transfer, sehingga beberapa transfer dapat menggunakan kembali infrastruktur migrasi yang sama.
  8. Opsional: Di bagian Opsi notifikasi, lakukan hal berikut:

    1. Klik tombol untuk mengaktifkan notifikasi email. Saat Anda mengaktifkan opsi ini, administrator transfer akan menerima notifikasi email saat proses transfer gagal.
    2. Untuk Select a Pub/Sub topic, pilih nama topik atau klik Create a topic. Opsi ini mengonfigurasi notifikasi operasi Pub/Sub untuk transfer Anda.
  9. Klik Simpan.

  10. Konsol Google Cloud menampilkan semua detail penyiapan transfer, termasuk Nama resource untuk transfer ini.

Kuota dan batas

Migrasi instance pribadi Amazon Redshift dengan jaringan VPC akan menjalankan agen migrasi pada satu infrastruktur tenant. Karena batas resource komputasi, maksimal 5 operasi transfer serentak diizinkan.

BigQuery memiliki kuota muatan sebesar 15 TB untuk setiap tugas pemuatan untuk setiap tabel. Secara internal, Amazon Redshift mengompresi data tabel, sehingga ukuran tabel yang diekspor akan lebih besar dari ukuran tabel yang dilaporkan oleh Amazon Redshift. Jika Anda berencana memigrasikan tabel yang lebih besar dari 15 TB, hubungi Cloud Customer Care terlebih dahulu.

Biaya dapat dikenakan di luar Google dengan menggunakan layanan ini. Tinjau halaman harga Amazon Redshift dan Amazon S3 untuk mengetahui detailnya.

Karena model konsistensi Amazon S3, ada kemungkinan bahwa beberapa file tidak akan disertakan dalam transfer ke BigQuery.

Langkah selanjutnya