Menggunakan migrasi terkelola dengan layanan Dataproc Metastore

Halaman ini menunjukkan cara memulai dan mengelola Metastore Dataproc migrasi terkelola.

Anda dapat mengonfigurasi migrasi menggunakan Dataproc Metastore API.

Sebelum memulai

Mulai migrasi

Saat Anda menjalankan mulai migrasi, Dataproc Metastore akan terhubung ke Cloud SQL dan menggunakan Cloud SQL sebagai database backend-nya. Selama proses ini, Metastore Dataproc menjalankan pipeline yang menyalin data dari Cloud SQL ke database-nya sendiri (Spanner).

Metastore Dataproc akan terus menggunakan Cloud SQL sebagai backend dan mereplikasi data hingga proses migrasi selesai dipanggil.

Sebelum memulai migrasi, pastikan Anda telah menyiapkan migrasi terkelola prasyarat.

Mulai pertimbangan migrasi

  • Layanan Metastore Dataproc hanya dapat menjalankan satu migrasi dalam satu waktu.

  • Migrasi akan tetap aktif hingga Anda menyelesaikan proses migrasi. Tidak ada batas waktu untuk menyelesaikan migrasi Anda, misalnya, dapat memakan waktu 1 hari, 30 hari, atau satu tahun.

  • Pencadangan terjadwal tidak dibatasi selama migrasi. Namun, pencadangan mungkin tidak lengkap. Untuk menghindari masalah, nonaktifkan pencadangan terjadwal saat migrasi sedang berlangsung.

Migrasi awal memicu perubahan status berikut:

  • Metastore Dataproc berpindah ke status MIGRATING.
  • Status eksekusi migrasi berpindah ke RUNNING.
  • Fase eksekusi migrasi dipindahkan ke REPLICATION.

Konsol

Mulai

  1. Di konsol Google Cloud, buka halaman Dataproc Metastore:

    Buka Metastore Dataproc

  2. Di halaman Dataproc Metastore, klik nama layanan tujuan migrasi.

    Halaman Detail layanan akan terbuka.

  3. Di bagian atas halaman, klik Migrasikan Data.

    Halaman Buat migrasi akan terbuka ke tab Konektivitas dan menampilkan konfigurasi database Cloud SQL untuk Dataproc Metastore pengaturan konfigurasi.

Konfigurasi database Cloud SQL untuk DPMS

  1. Di Instance connection name, masukkan nama koneksi instance Database Cloud SQL, dalam format berikut: project_id:region:instance_name.

  2. Di kolom Alamat IP, masukkan alamat IP yang diperlukan untuk terhubung ke instance Cloud SQL.

  3. Di kolom Port, masukkan 3306.

  4. Di Hive database name, masukkan nama database yang sedang digunakan sebagai backend dari Hive Metastore yang dikelola sendiri.

  5. Di kolom Nama pengguna, masukkan nama pengguna yang digunakan untuk menghubungkan dari Cloud SQL ke Hive Metastore.

  6. Pada kolom Password, masukkan sandi yang digunakan untuk menghubungkan dari Cloud SQL ke Hive Metastore.

Layanan Proxy SOCKS5

  1. Di kolom Proxy Subnet, masukkan subnet Jenis reguler. Subnetwork harus ada di jaringan VPC Cloud SQL. Subnet ini digunakan untuk men-deploy layanan proxy SOCKS5 perantara

  2. Di kolom Nat Subnet, masukkan subnet Private Service Connect type. Subnetwork ini harus ada di jaringan VPC Cloud SQL dan yang digunakan untuk memublikasikan layanan proxy SOCKS5 menggunakan koneksi layanan pribadi.

  3. Klik Lanjutkan.

    Tab Change Data Capture (CDC) akan terbuka dan menampilkan Konfigurasi database Cloud SQL untuk Datastream pengaturan konfigurasi.

Konfigurasi database Cloud SQL untuk aliran data

  1. Pada kolom Nama pengguna, masukkan nama pengguna yang Anda gunakan untuk login ke CDC Cloud SQL yang digunakan oleh Datastream.

  2. Pada kolom Sandi, masukkan sandi yang Anda gunakan untuk login ke CDC Cloud SQL yang digunakan oleh Datastream.

  3. Di kolom VPC network, masukkan jaringan di VPC yang sama jaringan sebagai instance Cloud SQL yang digunakan oleh Datastream untuk membuat koneksi pribadi ke CDC.

  4. Di kolom Subnet IP range, masukkan rentang IP subnet sebesar minimal /29. Datastream menggunakan IP ini untuk membuat peering ke jaringan VPC.

  5. Di kolom Reverse proxy subnet, masukkan subnetwork yang Anda buat di jaringan VPC yang sama dengan Cloud SQL. Datastream menggunakan data jaringan yang berbeda. Subnetwork digunakan untuk menghosting koneksi reverse proxy untuk Datastream CDC. Subnet harus dikonfigurasi di region yang sama dengan layanan Dataproc Metastore.

Konfigurasi GCS

  1. Untuk Bucket ID, pilih jalur Cloud Storage yang akan disimpan data CDC selama migrasi.

  2. Di kolom Root path, masukkan jalur root di dalam Cloud Storage direktori VM dengan bucket. Data peristiwa streaming ditulis ke jalur ini.

  3. Klik Create.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type:application/json" \
  -X POST -d \
  '{
    "migration_execution": {
      "cloud_sql_migration_config": {
        "cloud_sql_connection_config": {
          "instance_connection_name": INSTANCE_CONNECTION_NAME,
          "hive_database_name": "HIVE_DATABASE_NAME",
          "ip_address": "IP_ADDRESS",
          "port": 3306,
          "username": "CONNECTION_USERNAME",
          "password": "CONNECTION_PASSWORD",
          "proxy_subnet": "PROXY_SUBNET",
          "nat_subnet": "NAT_SUBNET"
        },
        "cdc_config": {
          "username": "CDC_USENAME",
          "password": "CDC_PASSWORD",
          "vpc_network": "VPC_NETWORK",
          "subnet_ip_range": "SUBNET_IP_RANGE",
          "reverse_proxy_subnet": "REVERSE_PROXY_SUBNET_ID",
          "bucket": "BUCKET_NAME",
          "root_path": "ROOT_PATH",
        }
      }
    }
}' \
  https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:startMigration

Ganti kode berikut:

  • SERVICE: nama atau ID Layanan Metastore Dataproc.
  • PROJECT_ID: project ID Google Cloud tempat layanan Dataproc Metastore Anda berada.
  • LOCATION: region Google Cloud tempat layanan Dataproc Metastore Anda berada.

Konfigurasi Migrasi Cloud SQL

  • INSTANCE_CONNECTION_NAME: koneksi instance untuk database Cloud SQL, dalam format berikut: PROJECT_ID/LOCATION/CLOUDSQL_INSTANCE_ID.
  • HIVE_DATABASE_NAME: nama akun yang dikelola sendiri Database Hive terhubung ke Cloud SQL.
  • IP_ADDRESS: alamat IP yang diperlukan agar dapat terhubung ke instance Cloud SQL.
  • CONNECTION_USERNAME: nama pengguna yang Anda gunakan untuk menghubungkan Cloud SQL ke Hive Metastore.
  • CONNECTION_PASSWORD sandi yang Anda gunakan untuk menghubungkan Cloud SQL ke Hive Metastore
  • PROXY_SUBNET: subnetwork yang digunakan di jaringan VPC Cloud SQL. Subnetwork ini menghosting intermediate proxy ke menyediakan konektivitas di seluruh jaringan transitif.
  • NAT_SUBNET: subnet Private Service Connect yang menyediakan koneksi dari layanan Dataproc Metastore untuk mengakses proxy perantara. Ukuran subnet harus memiliki panjang awalan minimal /29 dan dalam rentang IPv4.

Konfigurasi CDC

  • CDC_USERNAME: nama pengguna yang Layanan Datastream yang digunakan untuk login ke Cloud SQL.
  • CDC_PASSWORD: sandi yang Layanan Datastream yang digunakan untuk login ke Cloud SQL.
  • VPC_NETWORK: jaringan di VPC yang sama jaringan sebagai instance Cloud SQL yang digunakan oleh Datastream untuk membuat koneksi pribadi ke CDC.
  • SUBNET_IP_RANGE: Rentang IP subnet pada setidaknya /29 yang digunakan oleh Datastream untuk membuat peering ke Jaringan VPC.
  • REVERSE_PROXY_SUBNET_ID: subnetwork di jaringan VPC yang sama dengan instance Cloud SQL yang digunakan oleh Datastream. Subnetwork digunakan untuk menghosting koneksi proxy terbalik untuk Datastream CDC. Subnet harus dikonfigurasi di region yang sama dengan layanan Dataproc Metastore.
  • BUCKET_NAME: jalur Cloud Storage untuk menyimpan data CDC selama migrasi.
  • ROOT_PATH: jalur root di dalam Cloud Storage direktori VM dengan bucket. Data peristiwa streaming ditulis ke jalur ini.

Selesaikan migrasi

Saat Anda menyelesaikan migrasi, Dataproc Metastore akan terhubung ke Spanner dan mulai menggunakan Spanner sebagai database backend-nya.

Migrasi yang lengkap memicu perubahan status berikut:

  • Metastore Dataproc akan kembali ke status ACTIVE.
  • Status eksekusi migrasi berpindah ke SUCCEEDED.

Konsol

  1. Di konsol Google Cloud, buka Dataproc Metastore kami.

  2. Di bagian atas halaman, klik Migrasikan Data.

    Halaman Migrasikan Data akan terbuka dan menampilkan data terkelola yang telah selesai beberapa migrasi data.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type:application/json" \
  -X POST -d '' \
   https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:completeMigration

Ganti kode berikut:

  • SERVICE: nama atau ID Layanan Metastore Dataproc.
  • PROJECT_ID: project ID Google Cloud tempat layanan Dataproc Metastore Anda berada.
  • LOCATION: region Google Cloud tempat layanan Dataproc Metastore Anda berada.

Batalkan migrasi

Saat Anda membatalkan migrasi, Dataproc Metastore akan mengembalikan semua perubahan dan mulai menggunakan jenis database Spanner sebagai database backend-nya. Semua data yang ditransfer selama migrasi akan dihapus.

Migrasi pembatalan memicu perubahan status berikut:

  • Metastore Dataproc akan kembali ke status ACTIVE.
  • Status eksekusi migrasi berpindah ke CANCELLED.

Konsol

  1. Di konsol Google Cloud, buka Dataproc Metastore kami.

  2. Di bagian atas halaman, klik Migrasikan Data.

    Halaman Migrasikan Data akan terbuka dan menampilkan informasi langganan Anda yang dibatalkan beberapa migrasi terkelola.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type:application/json" \
  -X POST -d '' \
    https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:cancelMigration

Ganti kode berikut:

  • SERVICE_NAME: nama atau ID Layanan Metastore Dataproc.
  • PROJECT_ID: project ID Google Cloud tempat layanan Dataproc Metastore Anda berada.
  • LOCATION: region Google Cloud tempat layanan Dataproc Metastore Anda berada.

Dapatkan detail migrasi

Dapatkan detail tentang satu migrasi terkelola.

Konsol

  1. Di konsol Google Cloud, buka Dataproc Metastore kami.

  2. Di bagian atas halaman, klik Migrasikan Data.

    Halaman Migrasikan Data akan terbuka dan menampilkan migrasi terkelola Anda.

    Untuk mendapatkan detail migrasi selengkapnya, klik nama migrasi terkelola.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -X GET \
   https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID

Ganti kode berikut:

  • SERVICE: nama atau ID Layanan Metastore Dataproc.
  • PROJECT_ID: project ID Google Cloud tempat layanan Dataproc Metastore Anda berada.
  • LOCATION: region Google Cloud tempat layanan Dataproc Metastore Anda berada.
  • MIGRATION_ID: nama atau ID Migrasi Metastore Dataproc.

Mencantumkan migrasi

Mencantumkan migrasi terkelola.

Konsol

  1. Di konsol Google Cloud, buka Dataproc Metastore kami.

  2. Di bagian atas halaman, klik Migrasikan Data.

    Halaman Migrasikan Data akan terbuka dan menampilkan migrasi terkelola Anda.

  3. Pastikan perintah mencantumkan migrasi.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -X GET \
   https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID

Ganti kode berikut:

  • SERVICE: nama atau ID Layanan Metastore Dataproc.
  • PROJECT_ID: project ID Google Cloud tempat layanan Dataproc Metastore Anda berada.
  • LOCATION: region Google Cloud tempat layanan Dataproc Metastore Anda berada.

Hapus migrasi

Hapus migrasi terkelola.

Konsol

  1. Di konsol Google Cloud, buka Dataproc Metastore kami.

  2. Di bagian atas halaman, klik Migrasikan Data.

    Halaman Migrasikan Data akan terbuka dan menampilkan migrasi terkelola Anda.

  3. Pilih migrasi, lalu klik Hapus.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
   -X DELETE \
    https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID

Ganti kode berikut:

  • SERVICE: nama atau ID Layanan Metastore Dataproc.
  • PROJECT_ID: project ID Google Cloud tempat layanan Dataproc Metastore Anda berada.
  • LOCATION: region Google Cloud tempat layanan Dataproc Metastore Anda berada.
  • MIGRATION_ID: nama atau ID Migrasi Metastore Dataproc.

Langkah selanjutnya