Extração de metadados do Apache Hive para migração
Este documento mostra como pode usar a ferramenta dwh-migration-dumper
para extrair os metadados necessários antes de executar uma migração de dados ou autorizações do Apache Hive.
Este documento aborda a extração de metadados das seguintes origens de dados:
- Apache Hive
- Apache Hadoop Distributed File System (HDFS)
- Apache Ranger
- Cloudera Manager
- Registos de consultas do Apache Hive
Antes de começar
Antes de poder usar a ferramenta dwh-migration-dumper
, faça o seguinte:
Instale o Java
O servidor no qual planeia executar a ferramenta dwh-migration-dumper
tem de ter o Java 8 ou superior instalado. Se não o tiver, transfira o Java a partir da
página de transferências do Java
e instale-o.
Autorizações necessárias
A conta de utilizador que especificar para associar a ferramenta dwh-migration-dumper
ao
sistema de origem tem de ter autorizações para ler metadados desse sistema.
Confirme se esta conta tem a associação de funções adequada para consultar os recursos de metadados disponíveis para a sua plataforma. Por exemplo, INFORMATION_SCHEMA
é um recurso de metadados comum a várias plataformas.
Instale a ferramenta dwh-migration-dumper
Para instalar a ferramenta dwh-migration-dumper
, siga estes passos:
- Na máquina onde quer executar a ferramenta
dwh-migration-dumper
, transfira o ficheiro ZIP dodwh-migration-dumper
repositório do GitHub da ferramenta. Para validar o ficheiro ZIP da ferramenta
dwh-migration-dumper
, transfira o ficheiroSHA256SUMS.txt
e execute o seguinte comando:Bash
sha256sum --check SHA256SUMS.txt
Se a validação falhar, consulte a secção Resolução de problemas.
Windows PowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Substitua
RELEASE_ZIP_FILENAME
pelo nome do ficheiro ZIP transferido da versão da ferramenta de extração de linhas de comandodwh-migration-dumper
, por exemplo,dwh-migration-tools-v1.0.52.zip
O resultado
True
confirma a validação da soma de verificação bem-sucedida.O resultado
False
indica um erro de validação. Certifique-se de que os ficheiros ZIP e de soma de verificação são transferidos a partir da mesma versão de lançamento e colocados no mesmo diretório.Extraia o ficheiro ZIP. O ficheiro binário da ferramenta de extração encontra-se no subdiretório
/bin
da pasta criada ao extrair o ficheiro ZIP.Atualize a variável de ambiente
PATH
para incluir o caminho de instalação da ferramenta de extração.
Extrair metadados para migração
Selecione uma das seguintes opções para saber como extrair metadados para a sua origem de dados:
Apache Hive
Execute os passos na secção do Apache Hive Extraia metadados e consulte registos do seu armazém de dados para extrair os metadados do Apache Hive. Em seguida, pode carregar os metadados para o contentor do Cloud Storage que contém os ficheiros de migração.
HDFS
Execute o seguinte comando para extrair metadados do HDFS
com a ferramenta dwh-migration-dumper
.
dwh-migration-dumper \
--connector hdfs \
--host HDFS-HOST \
--port HDFS-PORT \
--output gs://MIGRATION-BUCKET/hdfs-dumper-output.zip \
--assessment \
Substitua o seguinte:
HDFS-HOST
: o nome do anfitrião do NameNode do HDFSHDFS-PORT
: o número da porta do NameNode do HDFS. Pode ignorar este argumento se estiver a usar a porta8020
predefinida.MIGRATION-BUCKET
: o contentor do Cloud Storage que está a usar para armazenar os ficheiros de migração.
Este comando extrai metadados do HDFS para um ficheiro denominado hdfs-dumper-output.zip
no diretório MIGRATION-BUCKET
.
Existem várias limitações conhecidas ao extrair metadados do HDFS:
- Algumas tarefas neste conector são opcionais e podem falhar, registando uma troca de pilha completa na saída. Desde que as tarefas necessárias tenham sido concluídas com êxito e o
hdfs-dumper-output.zip
seja gerado, pode prosseguir com a migração do HDFS. - O processo de extração pode falhar ou ser executado mais lentamente do que o esperado se o tamanho do conjunto de threads configurado for demasiado grande. Se estiver a ter estes problemas, recomendamos que diminua o tamanho do conjunto de threads através do argumento de linha de comandos
--thread-pool-size
.
Apache Ranger
Execute o seguinte comando para extrair metadados do Apache Ranger
com a ferramenta dwh-migration-dumper
.
dwh-migration-dumper \
--connector ranger \
--host RANGER-HOST \
--port 6080 \
--user RANGER-USER \
--password RANGER-PASSWORD \
--ranger-scheme RANGER-SCHEME \
--output gs://MIGRATION-BUCKET/ranger-dumper-output.zip \
--assessment \
Substitua o seguinte:
RANGER-HOST
: o nome do anfitrião da instância do Apache RangerRANGER-USER
: o nome de utilizador do utilizador do Apache RangerRANGER-PASSWORD
: a palavra-passe do utilizador do Apache RangerRANGER-SCHEME
: especifique se o Apache Ranger está a usarhttp
ouhttps
. O valor predefinido éhttp
.MIGRATION-BUCKET
: o contentor do Cloud Storage que está a usar para armazenar os ficheiros de migração.
Também pode incluir as seguintes flags opcionais:
--kerberos-auth-for-hadoop
: substitui--user
e--password
, se o Apache Ranger estiver protegido pelo Kerberos em vez da autenticação básica. Tem de executar o comandokinit
antes da ferramentadwh-migration-dumper
para usar esta flag.--ranger-disable-tls-validation
: inclua esta flag se o certificado https usado pela API for autoassinado. Por exemplo, quando usa o Cloudera.
Este comando extrai metadados do Apache Ranger para um ficheiro denominado ranger-dumper-output.zip
no diretório MIGRATION-BUCKET
.
Cloudera
Execute o seguinte comando para extrair metadados do Cloudera
com a ferramenta dwh-migration-dumper
.
dwh-migration-dumper \
--connector cloudera-manager \
--url CLOUDERA-URL \
--user CLOUDERA-USER \
--password CLOUDERA-PASSWORD \
--output gs://MIGRATION-BUCKET/cloudera-dumper-output.zip \
--yarn-application-types APPLICATION-TYPES \
--pagination-page-size PAGE-SIZE \
--assessment \
Substitua o seguinte:
CLOUDERA-URL
: o URL do Cloudera ManagerCLOUDERA-USER
: o nome de utilizador do utilizador do ClouderaCLOUDERA-PASSWORD
: a palavra-passe do utilizador do ClouderaMIGRATION-BUCKET
: o contentor do Cloud Storage que está a usar para armazenar os ficheiros de migração.APPLICATION-TYPES
: (opcional) lista de todos os tipos de aplicações existentes do Hadoop YARN. Por exemplo,SPARK, MAPREDUCE
.PAGE-SIZE
: (Opcional) especifique a quantidade de dados obtidos de serviços de terceiros, como a API Hadoop YARN. O valor predefinido é1000
, que representa 1000 entidades por pedido.
Este comando extrai metadados do Cloudera para um ficheiro denominado dwh-migration-cloudera.zip
no diretório MIGRATION-BUCKET
.
Registos de consultas do Apache Hive
Execute os passos na secção Apache Hive Extraia registos de consultas com o gancho de registo hadoop-migration-assessment
para extrair os registos de consultas do Apache Hive. Em seguida, pode carregar os registos
para o seu contentor do Cloud Storage que contém os ficheiros de migração.
O que se segue?
Com os metadados extraídos do Hadoop, pode usar estes ficheiros de metadados para fazer o seguinte: