Estrazione dei metadati da Apache Hive per la migrazione

Questo documento mostra come utilizzare lo strumento dwh-migration-dumper per estrarre i metadati necessari prima di eseguire una migrazione dei dati o delle autorizzazioni di Apache Hive.

Questo documento riguarda l'estrazione dei metadati dalle seguenti origini dati:

  • Apache Hive
  • Apache Hadoop Distributed File System (HDFS)
  • Apache Ranger
  • Cloudera Manager
  • Log delle query Apache Hive

Prima di iniziare

Prima di poter utilizzare lo strumento dwh-migration-dumper, segui questi passaggi:

Installare Java

Sul server su cui prevedi di eseguire lo strumento dwh-migration-dumper deve essere installato Java 8 o versioni successive. In caso contrario, scarica Java dalla pagina dei download di Java e installalo.

Autorizzazioni obbligatorie

L'account utente specificato per connettere lo strumento dwh-migration-dumper al sistema di origine deve disporre delle autorizzazioni per leggere i metadati da questo sistema. Conferma che questo account disponga dell'appartenenza al ruolo appropriata per eseguire query sulle risorse di metadati disponibili per la tua piattaforma. Ad esempio, INFORMATION_SCHEMA è una risorsa di metadati comune a diverse piattaforme.

Installa lo strumento dwh-migration-dumper

Per installare lo strumento dwh-migration-dumper:

  1. Sulla macchina in cui vuoi eseguire lo strumento dwh-migration-dumper, scarica il file zip dal repository GitHub dello strumento dwh-migration-dumper.
  2. Per convalidare il file zip dello strumento dwh-migration-dumper, scarica il file SHA256SUMS.txt ed esegui questo comando:

    Bash

    sha256sum --check SHA256SUMS.txt

    Se la verifica non va a buon fine, consulta la sezione Risoluzione dei problemi.

    Windows PowerShell

    (Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]

    Sostituisci RELEASE_ZIP_FILENAME con il nome del file zip scaricato della release dello strumento di estrazione da riga di comando dwh-migration-dumper, ad esempio dwh-migration-tools-v1.0.52.zip.

    Il risultato True conferma la verifica riuscita del checksum.

    Il risultato False indica un errore di verifica. Assicurati che i file checksum e zip siano scaricati dalla stessa versione e inseriti nella stessa directory.

  3. Estrai il file ZIP. Il file binario dello strumento di estrazione si trova nella sottodirectory /bin della cartella creata estraendo il file zip.

  4. Aggiorna la variabile di ambiente PATH in modo da includere il percorso di installazione dello strumento di estrazione.

Estrazione dei metadati per la migrazione

Seleziona una delle seguenti opzioni per scoprire come estrarre i metadati per l'origine dati:

Apache Hive

Segui i passaggi descritti nella sezione Apache Hive Estrai i metadati e i log delle query dal data warehouse per estrarre i metadati di Apache Hive. Puoi quindi caricare i metadati nel bucket Cloud Storage contenente i file di migrazione.

HDFS

Esegui questo comando per estrarre i metadati da HDFS utilizzando lo strumento dwh-migration-dumper.

dwh-migration-dumper \
  --connector hdfs \
  --host HDFS-HOST \
  --port HDFS-PORT \
  --output gs://MIGRATION-BUCKET/hdfs-dumper-output.zip \
  --assessment \

Sostituisci quanto segue:

  • HDFS-HOST: l'hostname di HDFS NameNode
  • HDFS-PORT: il numero di porta di NameNode HDFS. Puoi ignorare questo argomento se utilizzi la porta 8020 predefinita.
  • MIGRATION-BUCKET: il bucket Cloud Storage che utilizzi per archiviare i file di migrazione.

Questo comando estrae i metadati da HDFS in un file denominato hdfs-dumper-output.zip nella directory MIGRATION-BUCKET.

Esistono diverse limitazioni note durante l'estrazione dei metadati da HDFS:

  • Alcune attività in questo connettore sono facoltative e possono non riuscire, registrando un errore di stack completo nell'output. Se le attività richieste sono state completate correttamente e viene generato il hdfs-dumper-output.zip, puoi procedere con la migrazione di HDFS.
  • Il processo di estrazione potrebbe non riuscire o essere più lento del previsto se la dimensione del pool di thread configurato è troppo grande. Se riscontri questi problemi, ti consigliamo di ridurre le dimensioni del pool di thread utilizzando l'argomento della riga di comando --thread-pool-size.

Apache Ranger

Esegui questo comando per estrarre i metadati da Apache Ranger utilizzando lo strumento dwh-migration-dumper.

dwh-migration-dumper \
  --connector ranger \
  --host RANGER-HOST \
  --port 6080 \
  --user RANGER-USER \
  --password RANGER-PASSWORD \
  --ranger-scheme RANGER-SCHEME \
  --output gs://MIGRATION-BUCKET/ranger-dumper-output.zip \
  --assessment \

Sostituisci quanto segue:

  • RANGER-HOST: il nome host dell'istanza Apache Ranger
  • RANGER-USER: il nome utente dell'utente Apache Ranger
  • RANGER-PASSWORD: la password dell'utente Apache Ranger
  • RANGER-SCHEME: specifica se Apache Ranger utilizza http o https. Il valore predefinito è http.
  • MIGRATION-BUCKET: il bucket Cloud Storage che utilizzi per archiviare i file di migrazione.

Puoi anche includere i seguenti flag facoltativi:

  • --kerberos-auth-for-hadoop: sostituisce --user e --password, se Apache Ranger è protetto da Kerberos anziché dall'autenticazione di base. Per utilizzare questo flag, devi eseguire il comando kinit prima dello strumento dwh-migration-dumper.
  • --ranger-disable-tls-validation: includi questo flag se il certificato https utilizzato dall'API è autofirmato. Ad esempio, quando utilizzi Cloudera.

Questo comando estrae i metadati da Apache Ranger in un file denominato ranger-dumper-output.zip nella directory MIGRATION-BUCKET.

Cloudera

Esegui questo comando per estrarre i metadati da Cloudera utilizzando lo strumento dwh-migration-dumper.

dwh-migration-dumper \
  --connector cloudera-manager \
  --url CLOUDERA-URL \
  --user CLOUDERA-USER \
  --password CLOUDERA-PASSWORD \
  --output gs://MIGRATION-BUCKET/cloudera-dumper-output.zip \
  --yarn-application-types APPLICATION-TYPES \
  --pagination-page-size PAGE-SIZE \
  --assessment \

Sostituisci quanto segue:

  • CLOUDERA-URL: l'URL di Cloudera Manager
  • CLOUDERA-USER: il nome utente dell'utente Cloudera
  • CLOUDERA-PASSWORD: la password dell'utente Cloudera
  • MIGRATION-BUCKET: il bucket Cloud Storage che utilizzi per archiviare i file di migrazione.
  • APPLICATION-TYPES: (facoltativo) elenco di tutti i tipi di applicazioni esistenti di Hadoop YARN. Ad esempio, SPARK, MAPREDUCE.
  • PAGE-SIZE: (facoltativo) specifica la quantità di dati recuperati da servizi di terze parti, come l'API Hadoop YARN. Il valore predefinito è 1000, che rappresenta 1000 entità per richiesta.

Questo comando estrae i metadati da Cloudera in un file denominato dwh-migration-cloudera.zip nella directory MIGRATION-BUCKET.

Log delle query Apache Hive

Esegui i passaggi descritti nella sezione Apache Hive Estrai i log delle query con l'hook di logging hadoop-migration-assessment per estrarre i log delle query Apache Hive. Puoi quindi caricare i log nel bucket Cloud Storage contenente i file di migrazione.

Passaggi successivi

Con i metadati estratti da Hadoop, puoi utilizzare questi file di metadati per: