Extração de metadados do Apache Hive para migração

Este documento mostra como pode usar a ferramenta dwh-migration-dumper para extrair os metadados necessários antes de executar uma migração de dados ou autorizações do Apache Hive.

Este documento aborda a extração de metadados das seguintes origens de dados:

  • Apache Hive
  • Apache Hadoop Distributed File System (HDFS)
  • Apache Ranger
  • Cloudera Manager
  • Registos de consultas do Apache Hive

Antes de começar

Antes de poder usar a ferramenta dwh-migration-dumper, faça o seguinte:

Instale o Java

O servidor no qual planeia executar a ferramenta dwh-migration-dumper tem de ter o Java 8 ou superior instalado. Se não o tiver, transfira o Java a partir da página de transferências do Java e instale-o.

Autorizações necessárias

A conta de utilizador que especificar para associar a ferramenta dwh-migration-dumper ao sistema de origem tem de ter autorizações para ler metadados desse sistema. Confirme se esta conta tem a associação de funções adequada para consultar os recursos de metadados disponíveis para a sua plataforma. Por exemplo, INFORMATION_SCHEMA é um recurso de metadados comum a várias plataformas.

Instale a ferramenta dwh-migration-dumper

Para instalar a ferramenta dwh-migration-dumper, siga estes passos:

  1. Na máquina onde quer executar a ferramenta dwh-migration-dumper, transfira o ficheiro ZIP do dwh-migration-dumperrepositório do GitHub da ferramenta.
  2. Para validar o ficheiro ZIP da ferramenta dwh-migration-dumper, transfira o ficheiro SHA256SUMS.txt e execute o seguinte comando:

    Bash

    sha256sum --check SHA256SUMS.txt

    Se a validação falhar, consulte a secção Resolução de problemas.

    Windows PowerShell

    (Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]

    Substitua RELEASE_ZIP_FILENAME pelo nome do ficheiro ZIP transferido da versão da ferramenta de extração de linhas de comando dwh-migration-dumper, por exemplo, dwh-migration-tools-v1.0.52.zip

    O resultado True confirma a validação da soma de verificação bem-sucedida.

    O resultado False indica um erro de validação. Certifique-se de que os ficheiros ZIP e de soma de verificação são transferidos a partir da mesma versão de lançamento e colocados no mesmo diretório.

  3. Extraia o ficheiro ZIP. O ficheiro binário da ferramenta de extração encontra-se no subdiretório /bin da pasta criada ao extrair o ficheiro ZIP.

  4. Atualize a variável de ambiente PATH para incluir o caminho de instalação da ferramenta de extração.

Extrair metadados para migração

Selecione uma das seguintes opções para saber como extrair metadados para a sua origem de dados:

Apache Hive

Execute os passos na secção do Apache Hive Extraia metadados e consulte registos do seu armazém de dados para extrair os metadados do Apache Hive. Em seguida, pode carregar os metadados para o contentor do Cloud Storage que contém os ficheiros de migração.

HDFS

Execute o seguinte comando para extrair metadados do HDFS com a ferramenta dwh-migration-dumper.

dwh-migration-dumper \
  --connector hdfs \
  --host HDFS-HOST \
  --port HDFS-PORT \
  --output gs://MIGRATION-BUCKET/hdfs-dumper-output.zip \
  --assessment \

Substitua o seguinte:

  • HDFS-HOST: o nome do anfitrião do NameNode do HDFS
  • HDFS-PORT: o número da porta do NameNode do HDFS. Pode ignorar este argumento se estiver a usar a porta 8020 predefinida.
  • MIGRATION-BUCKET: o contentor do Cloud Storage que está a usar para armazenar os ficheiros de migração.

Este comando extrai metadados do HDFS para um ficheiro denominado hdfs-dumper-output.zip no diretório MIGRATION-BUCKET.

Existem várias limitações conhecidas ao extrair metadados do HDFS:

  • Algumas tarefas neste conector são opcionais e podem falhar, registando uma troca de pilha completa na saída. Desde que as tarefas necessárias tenham sido concluídas com êxito e o hdfs-dumper-output.zip seja gerado, pode prosseguir com a migração do HDFS.
  • O processo de extração pode falhar ou ser executado mais lentamente do que o esperado se o tamanho do conjunto de threads configurado for demasiado grande. Se estiver a ter estes problemas, recomendamos que diminua o tamanho do conjunto de threads através do argumento de linha de comandos --thread-pool-size.

Apache Ranger

Execute o seguinte comando para extrair metadados do Apache Ranger com a ferramenta dwh-migration-dumper.

dwh-migration-dumper \
  --connector ranger \
  --host RANGER-HOST \
  --port 6080 \
  --user RANGER-USER \
  --password RANGER-PASSWORD \
  --ranger-scheme RANGER-SCHEME \
  --output gs://MIGRATION-BUCKET/ranger-dumper-output.zip \
  --assessment \

Substitua o seguinte:

  • RANGER-HOST: o nome do anfitrião da instância do Apache Ranger
  • RANGER-USER: o nome de utilizador do utilizador do Apache Ranger
  • RANGER-PASSWORD: a palavra-passe do utilizador do Apache Ranger
  • RANGER-SCHEME: especifique se o Apache Ranger está a usar http ou https. O valor predefinido é http.
  • MIGRATION-BUCKET: o contentor do Cloud Storage que está a usar para armazenar os ficheiros de migração.

Também pode incluir as seguintes flags opcionais:

  • --kerberos-auth-for-hadoop: substitui --user e --password, se o Apache Ranger estiver protegido pelo Kerberos em vez da autenticação básica. Tem de executar o comando kinit antes da ferramenta dwh-migration-dumper para usar esta flag.
  • --ranger-disable-tls-validation: inclua esta flag se o certificado https usado pela API for autoassinado. Por exemplo, quando usa o Cloudera.

Este comando extrai metadados do Apache Ranger para um ficheiro denominado ranger-dumper-output.zip no diretório MIGRATION-BUCKET.

Cloudera

Execute o seguinte comando para extrair metadados do Cloudera com a ferramenta dwh-migration-dumper.

dwh-migration-dumper \
  --connector cloudera-manager \
  --url CLOUDERA-URL \
  --user CLOUDERA-USER \
  --password CLOUDERA-PASSWORD \
  --output gs://MIGRATION-BUCKET/cloudera-dumper-output.zip \
  --yarn-application-types APPLICATION-TYPES \
  --pagination-page-size PAGE-SIZE \
  --assessment \

Substitua o seguinte:

  • CLOUDERA-URL: o URL do Cloudera Manager
  • CLOUDERA-USER: o nome de utilizador do utilizador do Cloudera
  • CLOUDERA-PASSWORD: a palavra-passe do utilizador do Cloudera
  • MIGRATION-BUCKET: o contentor do Cloud Storage que está a usar para armazenar os ficheiros de migração.
  • APPLICATION-TYPES: (opcional) lista de todos os tipos de aplicações existentes do Hadoop YARN. Por exemplo, SPARK, MAPREDUCE.
  • PAGE-SIZE: (Opcional) especifique a quantidade de dados obtidos de serviços de terceiros, como a API Hadoop YARN. O valor predefinido é 1000, que representa 1000 entidades por pedido.

Este comando extrai metadados do Cloudera para um ficheiro denominado dwh-migration-cloudera.zip no diretório MIGRATION-BUCKET.

Registos de consultas do Apache Hive

Execute os passos na secção Apache Hive Extraia registos de consultas com o gancho de registo hadoop-migration-assessment para extrair os registos de consultas do Apache Hive. Em seguida, pode carregar os registos para o seu contentor do Cloud Storage que contém os ficheiros de migração.

O que se segue?

Com os metadados extraídos do Hadoop, pode usar estes ficheiros de metadados para fazer o seguinte: