Estrazione dei metadati da Apache Hive per la migrazione
Questo documento mostra come utilizzare lo strumento dwh-migration-dumper
per estrarre i metadati necessari prima di eseguire una migrazione dei dati o delle autorizzazioni di Apache Hive.
Questo documento riguarda l'estrazione dei metadati dalle seguenti origini dati:
- Apache Hive
- Apache Hadoop Distributed File System (HDFS)
- Apache Ranger
- Cloudera Manager
- Log delle query Apache Hive
Prima di iniziare
Prima di poter utilizzare lo strumento dwh-migration-dumper
, segui questi passaggi:
Installare Java
Sul server su cui prevedi di eseguire lo strumento dwh-migration-dumper
deve essere installato Java 8 o versioni successive. In caso contrario, scarica Java dalla
pagina dei download di Java
e installalo.
Autorizzazioni obbligatorie
L'account utente specificato per connettere lo strumento dwh-migration-dumper
al sistema di origine deve disporre delle autorizzazioni per leggere i metadati da questo sistema.
Conferma che questo account disponga dell'appartenenza al ruolo appropriata per eseguire query sulle risorse di metadati disponibili per la tua piattaforma. Ad esempio, INFORMATION_SCHEMA
è una risorsa di metadati comune a diverse piattaforme.
Installa lo strumento dwh-migration-dumper
Per installare lo strumento dwh-migration-dumper
:
- Sulla macchina in cui vuoi eseguire lo strumento
dwh-migration-dumper
, scarica il file zip dal repository GitHub dello strumentodwh-migration-dumper
. Per convalidare il file zip dello strumento
dwh-migration-dumper
, scarica il fileSHA256SUMS.txt
ed esegui questo comando:Bash
sha256sum --check SHA256SUMS.txt
Se la verifica non va a buon fine, consulta la sezione Risoluzione dei problemi.
Windows PowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Sostituisci
RELEASE_ZIP_FILENAME
con il nome del file zip scaricato della release dello strumento di estrazione da riga di comandodwh-migration-dumper
, ad esempiodwh-migration-tools-v1.0.52.zip
.Il risultato
True
conferma la verifica riuscita del checksum.Il risultato
False
indica un errore di verifica. Assicurati che i file checksum e zip siano scaricati dalla stessa versione e inseriti nella stessa directory.Estrai il file ZIP. Il file binario dello strumento di estrazione si trova nella sottodirectory
/bin
della cartella creata estraendo il file zip.Aggiorna la variabile di ambiente
PATH
in modo da includere il percorso di installazione dello strumento di estrazione.
Estrazione dei metadati per la migrazione
Seleziona una delle seguenti opzioni per scoprire come estrarre i metadati per l'origine dati:
Apache Hive
Segui i passaggi descritti nella sezione Apache Hive Estrai i metadati e i log delle query dal data warehouse per estrarre i metadati di Apache Hive. Puoi quindi caricare i metadati nel bucket Cloud Storage contenente i file di migrazione.
HDFS
Esegui questo comando per estrarre i metadati da HDFS
utilizzando lo strumento dwh-migration-dumper
.
dwh-migration-dumper \
--connector hdfs \
--host HDFS-HOST \
--port HDFS-PORT \
--output gs://MIGRATION-BUCKET/hdfs-dumper-output.zip \
--assessment \
Sostituisci quanto segue:
HDFS-HOST
: l'hostname di HDFS NameNodeHDFS-PORT
: il numero di porta di NameNode HDFS. Puoi ignorare questo argomento se utilizzi la porta8020
predefinita.MIGRATION-BUCKET
: il bucket Cloud Storage che utilizzi per archiviare i file di migrazione.
Questo comando estrae i metadati da HDFS in un file denominato hdfs-dumper-output.zip
nella directory MIGRATION-BUCKET
.
Esistono diverse limitazioni note durante l'estrazione dei metadati da HDFS:
- Alcune attività in questo connettore sono facoltative e possono non riuscire, registrando un errore
di stack completo nell'output. Se le attività richieste sono state completate correttamente e viene generato il
hdfs-dumper-output.zip
, puoi procedere con la migrazione di HDFS. - Il processo di estrazione potrebbe non riuscire o essere più lento del previsto se
la dimensione del pool di thread configurato è troppo grande. Se riscontri questi
problemi, ti consigliamo di ridurre le dimensioni del pool di thread utilizzando l'argomento
della riga di comando
--thread-pool-size
.
Apache Ranger
Esegui questo comando per estrarre i metadati da Apache Ranger
utilizzando lo strumento dwh-migration-dumper
.
dwh-migration-dumper \
--connector ranger \
--host RANGER-HOST \
--port 6080 \
--user RANGER-USER \
--password RANGER-PASSWORD \
--ranger-scheme RANGER-SCHEME \
--output gs://MIGRATION-BUCKET/ranger-dumper-output.zip \
--assessment \
Sostituisci quanto segue:
RANGER-HOST
: il nome host dell'istanza Apache RangerRANGER-USER
: il nome utente dell'utente Apache RangerRANGER-PASSWORD
: la password dell'utente Apache RangerRANGER-SCHEME
: specifica se Apache Ranger utilizzahttp
ohttps
. Il valore predefinito èhttp
.MIGRATION-BUCKET
: il bucket Cloud Storage che utilizzi per archiviare i file di migrazione.
Puoi anche includere i seguenti flag facoltativi:
--kerberos-auth-for-hadoop
: sostituisce--user
e--password
, se Apache Ranger è protetto da Kerberos anziché dall'autenticazione di base. Per utilizzare questo flag, devi eseguire il comandokinit
prima dello strumentodwh-migration-dumper
.--ranger-disable-tls-validation
: includi questo flag se il certificato https utilizzato dall'API è autofirmato. Ad esempio, quando utilizzi Cloudera.
Questo comando estrae i metadati da Apache Ranger in un file denominato ranger-dumper-output.zip
nella directory MIGRATION-BUCKET
.
Cloudera
Esegui questo comando per estrarre i metadati da Cloudera
utilizzando lo strumento dwh-migration-dumper
.
dwh-migration-dumper \
--connector cloudera-manager \
--url CLOUDERA-URL \
--user CLOUDERA-USER \
--password CLOUDERA-PASSWORD \
--output gs://MIGRATION-BUCKET/cloudera-dumper-output.zip \
--yarn-application-types APPLICATION-TYPES \
--pagination-page-size PAGE-SIZE \
--assessment \
Sostituisci quanto segue:
CLOUDERA-URL
: l'URL di Cloudera ManagerCLOUDERA-USER
: il nome utente dell'utente ClouderaCLOUDERA-PASSWORD
: la password dell'utente ClouderaMIGRATION-BUCKET
: il bucket Cloud Storage che utilizzi per archiviare i file di migrazione.APPLICATION-TYPES
: (facoltativo) elenco di tutti i tipi di applicazioni esistenti di Hadoop YARN. Ad esempio,SPARK, MAPREDUCE
.PAGE-SIZE
: (facoltativo) specifica la quantità di dati recuperati da servizi di terze parti, come l'API Hadoop YARN. Il valore predefinito è1000
, che rappresenta 1000 entità per richiesta.
Questo comando estrae i metadati da Cloudera in un file
denominato dwh-migration-cloudera.zip
nella directory MIGRATION-BUCKET
.
Log delle query Apache Hive
Esegui i passaggi descritti nella sezione Apache Hive Estrai i log delle query con l'hook di logging hadoop-migration-assessment
per estrarre i log delle query Apache Hive. Puoi quindi caricare i log
nel bucket Cloud Storage contenente i file di migrazione.
Passaggi successivi
Con i metadati estratti da Hadoop, puoi utilizzare questi file di metadati per: