Mengekstrak metadata dari Apache Hive untuk migrasi

Dokumen ini menunjukkan cara menggunakan alat dwh-migration-dumper untuk mengekstrak metadata yang diperlukan sebelum menjalankan migrasi data atau izin Apache Hive.

Dokumen ini membahas ekstraksi metadata dari sumber data berikut:

  • Apache Hive
  • Apache Hadoop Distributed File System (HDFS)
  • Apache Ranger
  • Cloudera Manager
  • Log kueri Apache Hive

Sebelum memulai

Sebelum Anda dapat menggunakan alat dwh-migration-dumper, lakukan hal berikut:

Menginstal Java

Server tempat Anda berencana menjalankan alat dwh-migration-dumper harus sudah menginstal Java 8 atau yang lebih baru. Jika tidak, download Java dari halaman download Java, lalu instal.

Izin yang diperlukan

Akun pengguna yang Anda tentukan untuk menghubungkan alat dwh-migration-dumper ke sistem sumber harus memiliki izin untuk membaca metadata dari sistem tersebut. Pastikan akun ini memiliki keanggotaan peran yang sesuai untuk membuat kueri resource metadata yang tersedia untuk platform Anda. Misalnya, INFORMATION_SCHEMA adalah resource metadata yang umum di beberapa platform.

Menginstal alat dwh-migration-dumper

Untuk menginstal alat dwh-migration-dumper, ikuti langkah-langkah berikut:

  1. Di komputer tempat Anda ingin menjalankan alat dwh-migration-dumper, download file zip dari repositori GitHub alat dwh-migration-dumper.
  2. Untuk memvalidasi file zip alat dwh-migration-dumper, download file SHA256SUMS.txt dan jalankan perintah berikut:

    Bash

    sha256sum --check SHA256SUMS.txt

    Jika verifikasi gagal, lihat Pemecahan masalah.

    Windows PowerShell

    (Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]

    Ganti RELEASE_ZIP_FILENAME dengan nama file zip yang didownload dari rilis alat ekstraksi command line dwh-migration-dumper—misalnya, dwh-migration-tools-v1.0.52.zip

    Hasil True mengonfirmasi keberhasilan verifikasi checksum.

    Hasil False menunjukkan error verifikasi. Pastikan file checksum dan ZIP didownload dari versi rilis yang sama dan ditempatkan di direktori yang sama.

  3. Ekstrak file ZIP. Biner alat ekstraksi berada dalam subdirektori /bin dari folder yang dibuat dengan mengekstrak file ZIP.

  4. Update variabel lingkungan PATH untuk menyertakan jalur penginstalan untuk alat ekstraksi.

Mengekstrak metadata untuk migrasi

Pilih salah satu opsi berikut untuk mempelajari cara mengekstrak metadata untuk sumber data Anda:

Apache Hive

Lakukan langkah-langkah di bagian Apache Hive Mengekstrak metadata dan log kueri dari data warehouse Anda untuk mengekstrak metadata Apache Hive Anda. Kemudian, Anda dapat mengupload metadata ke bucket Cloud Storage yang berisi file migrasi Anda.

HDFS

Jalankan perintah berikut untuk mengekstrak metadata dari HDFS menggunakan alat dwh-migration-dumper.

dwh-migration-dumper \
  --connector hdfs \
  --host HDFS-HOST \
  --port HDFS-PORT \
  --output gs://MIGRATION-BUCKET/hdfs-dumper-output.zip \
  --assessment \

Ganti kode berikut:

  • HDFS-HOST: nama host HDFS NameNode
  • HDFS-PORT: nomor port HDFS NameNode. Anda dapat melewati argumen ini jika menggunakan port 8020 default.
  • MIGRATION-BUCKET: bucket Cloud Storage yang Anda gunakan untuk menyimpan file migrasi.

Perintah ini mengekstrak metadata dari HDFS ke file bernama hdfs-dumper-output.zip di direktori MIGRATION-BUCKET.

Ada beberapa batasan umum saat mengekstrak metadata dari HDFS:

  • Beberapa tugas di konektor ini bersifat opsional dan dapat gagal, mencatat perdagangan stack lengkap dalam output. Selama tugas yang diperlukan telah berhasil dan hdfs-dumper-output.zip dibuat, Anda dapat melanjutkan migrasi HDFS.
  • Proses ekstraksi mungkin gagal atau berjalan lebih lambat dari yang diharapkan jika ukuran thread pool yang dikonfigurasi terlalu besar. Jika Anda mengalami masalah ini, sebaiknya kurangi ukuran kumpulan thread menggunakan argumen command line --thread-pool-size.

Apache Ranger

Jalankan perintah berikut untuk mengekstrak metadata dari Apache Ranger menggunakan alat dwh-migration-dumper.

dwh-migration-dumper \
  --connector ranger \
  --host RANGER-HOST \
  --port 6080 \
  --user RANGER-USER \
  --password RANGER-PASSWORD \
  --ranger-scheme RANGER-SCHEME \
  --output gs://MIGRATION-BUCKET/ranger-dumper-output.zip \
  --assessment \

Ganti kode berikut:

  • RANGER-HOST: nama host instance Apache Ranger
  • RANGER-USER: nama pengguna Apache Ranger
  • RANGER-PASSWORD: sandi pengguna Apache Ranger
  • RANGER-SCHEME: tentukan apakah Apache Ranger menggunakan http atau https. Nilai defaultnya adalah http.
  • MIGRATION-BUCKET: bucket Cloud Storage yang Anda gunakan untuk menyimpan file migrasi.

Anda juga dapat menyertakan flag opsional berikut:

  • --kerberos-auth-for-hadoop: menggantikan --user dan --password, jika Apache Ranger dilindungi oleh kerberos, bukan autentikasi dasar. Anda harus menjalankan perintah kinit sebelum alat dwh-migration-dumper untuk menggunakan flag ini.
  • --ranger-disable-tls-validation: sertakan tanda ini jika sertifikat https yang digunakan oleh API ditandatangani sendiri. Misalnya, saat menggunakan Cloudera.

Perintah ini mengekstrak metadata dari Apache Ranger ke file bernama ranger-dumper-output.zip di direktori MIGRATION-BUCKET.

Cloudera

Jalankan perintah berikut untuk mengekstrak metadata dari Cloudera menggunakan alat dwh-migration-dumper.

dwh-migration-dumper \
  --connector cloudera-manager \
  --url CLOUDERA-URL \
  --user CLOUDERA-USER \
  --password CLOUDERA-PASSWORD \
  --output gs://MIGRATION-BUCKET/cloudera-dumper-output.zip \
  --yarn-application-types APPLICATION-TYPES \
  --pagination-page-size PAGE-SIZE \
  --assessment \

Ganti kode berikut:

  • CLOUDERA-URL: URL untuk Cloudera Manager
  • CLOUDERA-USER: nama pengguna Cloudera
  • CLOUDERA-PASSWORD: sandi pengguna Cloudera
  • MIGRATION-BUCKET: bucket Cloud Storage yang Anda gunakan untuk menyimpan file migrasi.
  • APPLICATION-TYPES: (Opsional) daftar semua jenis aplikasi yang ada dari Hadoop YARN. Contoh, SPARK, MAPREDUCE.
  • PAGE-SIZE: (Opsional) tentukan jumlah data yang diambil dari layanan pihak ketiga, seperti Hadoop YARN API. Nilai defaultnya adalah 1000, yang mewakili 1.000 entity per permintaan.

Perintah ini mengekstrak metadata dari Cloudera ke file bernama dwh-migration-cloudera.zip di direktori MIGRATION-BUCKET.

Log kueri Apache Hive

Lakukan langkah-langkah di bagian Apache Hive Mengekstrak log kueri dengan hook logging hadoop-migration-assessment untuk mengekstrak log kueri Apache Hive Anda. Kemudian, Anda dapat mengupload log ke bucket Cloud Storage yang berisi file migrasi Anda.

Langkah berikutnya

Dengan metadata yang diekstrak dari Hadoop, Anda dapat menggunakan file metadata ini untuk melakukan hal berikut: