Memigrasikan data Amazon Redshift dengan jaringan VPC
Dokumen ini menjelaskan cara memigrasikan data dari Amazon Redshift ke BigQuery menggunakan VPC.
Jika memiliki instance Amazon Redshift pribadi di AWS, Anda dapat memigrasikan data tersebut ke BigQuery dengan membuat jaringan virtual private cloud (VPC) dan menghubungkannya dengan jaringan VPC Amazon Redshift. Proses migrasi data berjalan sebagai berikut:
- Anda membuat jaringan VPC dalam project yang ingin digunakan untuk transfer. Jaringan VPC tidak boleh berupa jaringan VPC Bersama.
- Anda menyiapkan virtual private network (VPN) dan menghubungkan jaringan VPC project Anda dan jaringan VPC Amazon Redshift.
- Anda menentukan jaringan VPC project dan rentang IP yang dicadangkan saat menyiapkan transfer.
- BigQuery Data Transfer Service membuat project tenant dan melampirkannya ke project yang Anda gunakan untuk transfer.
- BigQuery Data Transfer Service membuat jaringan VPC dengan satu subnet di project tenant, menggunakan rentang IP yang dicadangkan yang Anda tentukan.
- BigQuery Data Transfer Service membuat peering VPC antara jaringan VPC project Anda dan jaringan VPC project tenant.
- Migrasi BigQuery Data Transfer Service berjalan di project tenant. Hal ini memicu operasi penghapusan muatan dari Amazon Redshift ke area staging dalam bucket Amazon S3. Kecepatan penghapusan muatan ditentukan oleh konfigurasi cluster Anda.
- Migrasi BigQuery Data Transfer Service mentransfer data Anda dari bucket Amazon S3 ke BigQuery.
Jika ingin mentransfer data dari instance Amazon Redshift melalui IP publik, Anda dapat memigrasikan data Amazon Redshift ke BigQuery dengan petunjuk ini.
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and BigQuery Data Transfer Service APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and BigQuery Data Transfer Service APIs.
Menetapkan izin yang diperlukan
Sebelum membuat transfer Amazon Redshift, ikuti langkah-langkah berikut:
Pastikan orang yang melakukan transfer memiliki izin Identity and Access Management (IAM) yang diperlukan di BigQuery berikut:
bigquery.transfers.update
izin untuk membuat transfer- Izin
bigquery.datasets.update
pada set data target
Peran IAM
role/bigquery.admin
bawaan mencakup izinbigquery.transfers.update
danbigquery.datasets.update
. Untuk mengetahui informasi selengkapnya tentang peran IAM dalam BigQuery Data Transfer Service, lihat Kontrol akses.Lihat dokumentasi untuk Amazon S3 guna memastikan Anda telah mengonfigurasi izin yang diperlukan untuk mengaktifkan transfer. Setidaknya, data sumber Amazon S3 harus menerapkan kebijakan yang dikelola AWS
AmazonS3ReadOnlyAccess
pada data tersebut.Berikan izin IAM yang sesuai untuk membuat dan menghapus Peering Jaringan VPC kepada setiap orang yang menyiapkan transfer. Layanan ini menggunakan kredensial pengguna Google Cloud milik setiap individu untuk membuat koneksi peering VPC.
- Izin untuk membuat peering VPC:
compute.networks.addPeering
- Izin untuk menghapus peering VPC:
compute.networks.removePeering
Peran IAM
roles/project.owner
,roles/project.editor
, danroles/compute.networkAdmin
yang telah ditetapkan menyertakan izincompute.networks.addPeering
dancompute.networks.removePeering
secara default.- Izin untuk membuat peering VPC:
Membuat set data
Buat set data BigQuery untuk menyimpan data Anda. Anda tidak perlu membuat tabel apa pun.
Mengizinkan akses ke cluster Amazon Redshift
Ikuti petunjuk di bagian Mengonfigurasi aturan masuk untuk klien SQL guna memasukkan rentang IP cluster Amazon Redshift pribadi Anda ke dalam daftar yang disetujui. Pada langkah selanjutnya, Anda menentukan rentang IP pribadi di jaringan VPC ini saat menyiapkan transfer.
Memberikan akses ke bucket Amazon S3
Anda harus memiliki bucket Amazon S3 untuk digunakan sebagai area staging guna mentransfer data Amazon Redshift ke BigQuery. Untuk petunjuk selengkapnya, lihat dokumentasi Amazon.
Sebaiknya Anda membuat pengguna Amazon IAM khusus, dan memberikan akses Baca saja kepada pengguna tersebut ke Amazon Redshift serta akses Baca dan Tulis ke Amazon S3. Untuk mencapai langkah ini, Anda dapat menerapkan kebijakan berikut:
Buat pasangan kunci akses pengguna IAM Amazon.
Mengonfigurasi kontrol workload dengan antrean migrasi terpisah
Jika ingin, Anda dapat menentukan antrean Amazon Redshift untuk tujuan migrasi guna membatasi dan memisahkan resource yang digunakan untuk migrasi. Anda dapat mengonfigurasi antrean migrasi ini dengan jumlah kueri konkurensi maksimum. Selanjutnya, Anda dapat mengaitkan grup pengguna migrasi tertentu dengan antrean dan menggunakan kredensial tersebut saat menyiapkan migrasi untuk mentransfer data ke BigQuery. Layanan transfer hanya memiliki akses ke antrean migrasi.
Mengumpulkan informasi transfer
Kumpulkan informasi yang Anda perlukan untuk menyiapkan migrasi deng BigQuery Data Transfer Service:
- Dapatkan VPC dan rentang IP yang dicadangkan di Amazon Redshift.
- Ikuti petunjuk ini untuk mendapatkan URL JDBC.
- Dapatkan nama pengguna dan sandi pengguna dengan izin yang sesuai ke database Amazon Redshift Anda.
- Ikuti petunjuk di bagian Memberikan akses ke bucket Amazon S3 untuk mendapatkan pasangan kunci akses AWS.
- Dapatkan URI bucket Amazon S3 yang ingin Anda gunakan untuk transfer. Sebaiknya siapkan kebijakan Lifecycle untuk bucket ini guna menghindari biaya yang tidak perlu. Waktu habis masa berlaku yang direkomendasikan adalah 24 jam agar tersedia waktu yang cukup untuk mentransfer semua data ke BigQuery.
Menilai data Anda
Sebagai bagian dari transfer data, BigQuery Data Transfer Service menulis data dari Amazon Redshift ke Cloud Storage sebagai file CSV. Jika file ini berisi karakter 0 ASCII, file tersebut tidak dapat dimuat ke BigQuery. Anda sebaiknya menilai data untuk menentukan apakah hal ini dapat menjadi masalah. Jika demikian, Anda dapat mengatasi hal ini dengan mengekspor data Anda ke Amazon S3 sebagai file Parquet, lalu mengimpor file tersebut dengan menggunakan BigQuery Data Transfer Service. Untuk informasi selengkapnya, lihat Ringkasan transfer Amazon S3.
Menyiapkan jaringan VPC dan VPN
Pastikan Anda memiliki izin untuk mengaktifkan peering VPC. Untuk mengetahui informasi selengkapnya, lihat Menetapkan izin yang diperlukan.
Ikuti petunjuk dalam panduan ini untuk menyiapkan jaringan VPC Google Cloud, menyiapkan VPN antara jaringan VPC project Google Cloud Anda dan jaringan VPC Amazon Redshift, dan mengaktifkan peering VPC.
Konfigurasi Amazon Redshift untuk mengizinkan koneksi ke VPN Anda. Untuk informasi selengkapnya, lihat grup keamanan cluster Amazon Redshift.
Di konsol Google Cloud, buka halaman Jaringan VPC untuk memverifikasi bahwa jaringan VPC Google Cloud Anda ada di project Google Cloud yang terhubung ke Amazon Redshift melalui VPN.
Halaman konsol mencantumkan semua jaringan VPC Anda.
Menyiapkan transfer Amazon Redshift
Gunakan petunjuk berikut untuk menyiapkan transfer Amazon Redshift:
Di konsol Google Cloud, buka halaman BigQuery.
Klik Transfer data.
Klik Buat Transfer.
Di bagian Jenis sumber, pilih Migrasi: Amazon Redshift dari daftar Sumber.
Di bagian Transfer nama konfigurasi, masukkan nama untuk transfer, misalnya
My migration
, di kolom Nama tampilan. Nama tampilan dapat berupa nilai apa pun yang memudahkan Anda mengidentifikasi transfer jika perlu mengubahnya nanti.Di bagian Setelan tujuan, pilih set data yang Anda buat dari daftar Set data.
Di bagian Detail sumber data, lakukan hal berikut:
- Bagi URL koneksi JDBC untuk Amazon Redshift, berikan URL JDBC untuk mengakses cluster Amazon Redshift Anda.
- Untuk Nama pengguna database, masukkan nama pengguna untuk database Amazon Redshift yang ingin dimigrasikan.
Untuk Sandi database Anda, masukkan sandi database.
Untuk ID kunci akses dan Kunci akses rahasia, masukkan pasangan kunci akses yang diperoleh dari Memberikan akses ke bucket S3.
Untuk Amazon S3 URI, masukkan URI bucket S3 yang akan Anda gunakan sebagai area staging.
Untuk Amazon Redshift Schema, masukkan skema Amazon Redshift yang Anda migrasikan.
Untuk Pola nama tabel, tentukan nama atau pola untuk mencocokkan nama tabel dalam skema. Anda dapat menggunakan ekspresi reguler untuk menentukan pola dalam bentuk:
<table1Regex>;<table2Regex>
. Pola ini harus mengikuti sintaksis ekspresi reguler Java. Contoh:lineitem;ordertb
cocok dengan tabel yang bernamalineitem
danordertb
..*
cocok dengan semua tabel.
Kosongkan kolom ini untuk memigrasikan semua tabel dari skema yang ditentukan.
Untuk VPC dan rentang IP yang dicadangkan, tentukan nama jaringan VPC Anda dan rentang alamat IP pribadi yang akan digunakan dalam jaringan VPC project tenant. Tentukan rentang alamat IP sebagai blok CIDR.
- Formatnya adalah
VPC_network_name:CIDR
, misalnya:my_vpc:10.251.1.0/24
. - Gunakan rentang alamat jaringan VPC pribadi standar dalam notasi CIDR,
yang dimulai dengan
10.x.x.x
. - Rentang IP harus memiliki lebih dari 10 alamat IP.
- Rentang IP tidak boleh tumpang tindih dengan subnet apa pun di jaringan VPC project Anda atau jaringan VPC Amazon Redshift.
- Jika Anda memiliki beberapa transfer yang dikonfigurasi untuk instance Amazon Redshift
yang sama, pastikan untuk menggunakan nilai
VPC_network_name:CIDR
yang sama di setiap transfer, sehingga beberapa transfer dapat menggunakan kembali infrastruktur migrasi yang sama.
- Formatnya adalah
Opsional: Di bagian Opsi notifikasi, lakukan hal berikut:
- Klik tombol untuk mengaktifkan notifikasi email. Saat Anda mengaktifkan opsi ini, administrator transfer akan menerima notifikasi email saat proses transfer gagal.
- Untuk Select a Pub/Sub topic, pilih nama topik atau klik Create a topic. Opsi ini mengonfigurasi notifikasi operasi Pub/Sub untuk transfer Anda.
Klik Simpan.
Konsol Google Cloud menampilkan semua detail penyiapan transfer, termasuk Nama resource untuk transfer ini.
Kuota dan batas
Migrasi instance pribadi Amazon Redshift dengan jaringan VPC akan menjalankan agen migrasi pada satu infrastruktur tenant. Karena batas resource komputasi, maksimal 5 operasi transfer serentak diizinkan.
BigQuery memiliki kuota muatan sebesar 15 TB untuk setiap tugas pemuatan untuk setiap tabel. Secara internal, Amazon Redshift mengompresi data tabel, sehingga ukuran tabel yang diekspor akan lebih besar dari ukuran tabel yang dilaporkan oleh Amazon Redshift. Jika Anda berencana memigrasikan tabel yang lebih besar dari 15 TB, hubungi Cloud Customer Care terlebih dahulu.
Biaya dapat dikenakan di luar Google dengan menggunakan layanan ini. Tinjau halaman harga Amazon Redshift dan Amazon S3 untuk mengetahui detailnya.
Karena model konsistensi Amazon S3, ada kemungkinan bahwa beberapa file tidak akan disertakan dalam transfer ke BigQuery.
Langkah berikutnya
- Pelajari migrasi Amazon Redshift standar.
- Pelajari BigQuery Data Transfer Service lebih lanjut.
- Migrasikan kode SQL dengan terjemahan Batch SQL.