Mengekstrak metadata dari Apache Hive untuk migrasi
Dokumen ini menunjukkan cara menggunakan alat dwh-migration-dumper
untuk mengekstrak
metadata yang diperlukan sebelum menjalankan migrasi data atau izin
Apache Hive.
Dokumen ini membahas ekstraksi metadata dari sumber data berikut:
- Apache Hive
- Apache Hadoop Distributed File System (HDFS)
- Apache Ranger
- Cloudera Manager
- Log kueri Apache Hive
Sebelum memulai
Sebelum Anda dapat menggunakan alat dwh-migration-dumper
, lakukan hal berikut:
Menginstal Java
Server tempat Anda berencana menjalankan alat dwh-migration-dumper
harus sudah menginstal Java 8 atau yang lebih baru. Jika tidak, download Java dari halaman download Java, lalu instal.
Izin yang diperlukan
Akun pengguna yang Anda tentukan untuk menghubungkan alat dwh-migration-dumper
ke sistem sumber harus memiliki izin untuk membaca metadata dari sistem tersebut.
Pastikan akun ini memiliki keanggotaan peran yang sesuai untuk membuat kueri resource metadata yang tersedia untuk platform Anda. Misalnya, INFORMATION_SCHEMA
adalah resource metadata yang umum di beberapa platform.
Menginstal alat dwh-migration-dumper
Untuk menginstal alat dwh-migration-dumper
, ikuti langkah-langkah berikut:
- Di komputer tempat Anda ingin menjalankan alat
dwh-migration-dumper
, download file zip dari repositori GitHub alatdwh-migration-dumper
. Untuk memvalidasi file zip alat
dwh-migration-dumper
, download fileSHA256SUMS.txt
dan jalankan perintah berikut:Bash
sha256sum --check SHA256SUMS.txt
Jika verifikasi gagal, lihat Pemecahan masalah.
Windows PowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Ganti
RELEASE_ZIP_FILENAME
dengan nama file zip yang didownload dari rilis alat ekstraksi command linedwh-migration-dumper
—misalnya,dwh-migration-tools-v1.0.52.zip
Hasil
True
mengonfirmasi keberhasilan verifikasi checksum.Hasil
False
menunjukkan error verifikasi. Pastikan file checksum dan ZIP didownload dari versi rilis yang sama dan ditempatkan di direktori yang sama.Ekstrak file ZIP. Biner alat ekstraksi berada dalam subdirektori
/bin
dari folder yang dibuat dengan mengekstrak file ZIP.Update variabel lingkungan
PATH
untuk menyertakan jalur penginstalan untuk alat ekstraksi.
Mengekstrak metadata untuk migrasi
Pilih salah satu opsi berikut untuk mempelajari cara mengekstrak metadata untuk sumber data Anda:
Apache Hive
Lakukan langkah-langkah di bagian Apache Hive Mengekstrak metadata dan log kueri dari data warehouse Anda untuk mengekstrak metadata Apache Hive Anda. Kemudian, Anda dapat mengupload metadata ke bucket Cloud Storage yang berisi file migrasi Anda.
HDFS
Jalankan perintah berikut untuk mengekstrak metadata dari HDFS menggunakan alat dwh-migration-dumper
.
dwh-migration-dumper \
--connector hdfs \
--host HDFS-HOST \
--port HDFS-PORT \
--output gs://MIGRATION-BUCKET/hdfs-dumper-output.zip \
--assessment \
Ganti kode berikut:
HDFS-HOST
: nama host HDFS NameNodeHDFS-PORT
: nomor port HDFS NameNode. Anda dapat melewati argumen ini jika menggunakan port8020
default.MIGRATION-BUCKET
: bucket Cloud Storage yang Anda gunakan untuk menyimpan file migrasi.
Perintah ini mengekstrak metadata dari HDFS ke
file bernama hdfs-dumper-output.zip
di direktori MIGRATION-BUCKET
.
Ada beberapa batasan umum saat mengekstrak metadata dari HDFS:
- Beberapa tugas di konektor ini bersifat opsional dan dapat gagal, mencatat perdagangan stack lengkap dalam output. Selama tugas yang diperlukan telah berhasil dan
hdfs-dumper-output.zip
dibuat, Anda dapat melanjutkan migrasi HDFS. - Proses ekstraksi mungkin gagal atau berjalan lebih lambat dari yang diharapkan jika ukuran thread pool yang dikonfigurasi terlalu besar. Jika Anda mengalami masalah ini, sebaiknya kurangi ukuran kumpulan thread menggunakan argumen command line
--thread-pool-size
.
Apache Ranger
Jalankan perintah berikut untuk mengekstrak metadata dari Apache Ranger menggunakan alat dwh-migration-dumper
.
dwh-migration-dumper \
--connector ranger \
--host RANGER-HOST \
--port 6080 \
--user RANGER-USER \
--password RANGER-PASSWORD \
--ranger-scheme RANGER-SCHEME \
--output gs://MIGRATION-BUCKET/ranger-dumper-output.zip \
--assessment \
Ganti kode berikut:
RANGER-HOST
: nama host instance Apache RangerRANGER-USER
: nama pengguna Apache RangerRANGER-PASSWORD
: sandi pengguna Apache RangerRANGER-SCHEME
: tentukan apakah Apache Ranger menggunakanhttp
atauhttps
. Nilai defaultnya adalahhttp
.MIGRATION-BUCKET
: bucket Cloud Storage yang Anda gunakan untuk menyimpan file migrasi.
Anda juga dapat menyertakan flag opsional berikut:
--kerberos-auth-for-hadoop
: menggantikan--user
dan--password
, jika Apache Ranger dilindungi oleh kerberos, bukan autentikasi dasar. Anda harus menjalankan perintahkinit
sebelum alatdwh-migration-dumper
untuk menggunakan flag ini.--ranger-disable-tls-validation
: sertakan tanda ini jika sertifikat https yang digunakan oleh API ditandatangani sendiri. Misalnya, saat menggunakan Cloudera.
Perintah ini mengekstrak metadata dari Apache Ranger ke
file bernama ranger-dumper-output.zip
di direktori MIGRATION-BUCKET
.
Cloudera
Jalankan perintah berikut untuk mengekstrak metadata dari Cloudera menggunakan alat dwh-migration-dumper
.
dwh-migration-dumper \
--connector cloudera-manager \
--url CLOUDERA-URL \
--user CLOUDERA-USER \
--password CLOUDERA-PASSWORD \
--output gs://MIGRATION-BUCKET/cloudera-dumper-output.zip \
--yarn-application-types APPLICATION-TYPES \
--pagination-page-size PAGE-SIZE \
--assessment \
Ganti kode berikut:
CLOUDERA-URL
: URL untuk Cloudera ManagerCLOUDERA-USER
: nama pengguna ClouderaCLOUDERA-PASSWORD
: sandi pengguna ClouderaMIGRATION-BUCKET
: bucket Cloud Storage yang Anda gunakan untuk menyimpan file migrasi.APPLICATION-TYPES
: (Opsional) daftar semua jenis aplikasi yang ada dari Hadoop YARN. Contoh,SPARK, MAPREDUCE
.PAGE-SIZE
: (Opsional) tentukan jumlah data yang diambil dari layanan pihak ketiga, seperti Hadoop YARN API. Nilai defaultnya adalah1000
, yang mewakili 1.000 entity per permintaan.
Perintah ini mengekstrak metadata dari Cloudera ke
file bernama dwh-migration-cloudera.zip
di direktori MIGRATION-BUCKET
.
Log kueri Apache Hive
Lakukan langkah-langkah di bagian Apache Hive Mengekstrak log kueri dengan hook logging hadoop-migration-assessment
untuk mengekstrak log kueri Apache Hive Anda. Kemudian, Anda dapat mengupload log
ke bucket Cloud Storage yang berisi file migrasi Anda.
Langkah berikutnya
Dengan metadata yang diekstrak dari Hadoop, Anda dapat menggunakan file metadata ini untuk melakukan hal berikut: