Esta página foi traduzida pela API Cloud Translation.

Extração de metadados do Apache Hive para migração

Este documento mostra como pode usar a ferramenta dwh-migration-dumper para extrair os metadados necessários antes de executar uma migração de dados ou autorizações do Apache Hive.

Este documento aborda a extração de metadados das seguintes origens de dados:

Apache Hive
Apache Hadoop Distributed File System (HDFS)
Apache Ranger
Cloudera Manager
Registos de consultas do Apache Hive

Antes de começar

Antes de poder usar a ferramenta dwh-migration-dumper, faça o seguinte:

Instale o Java

O servidor no qual planeia executar a ferramenta dwh-migration-dumper tem de ter o Java 8 ou superior instalado. Se não o tiver, transfira o Java a partir da página de transferências do Java e instale-o.

Autorizações necessárias

A conta de utilizador que especificar para associar a ferramenta dwh-migration-dumper ao sistema de origem tem de ter autorizações para ler metadados desse sistema. Confirme se esta conta tem a associação de funções adequada para consultar os recursos de metadados disponíveis para a sua plataforma. Por exemplo, INFORMATION_SCHEMA é um recurso de metadados comum a várias plataformas.

Instale a ferramenta `dwh-migration-dumper`

Para instalar a ferramenta dwh-migration-dumper, siga estes passos:

Na máquina onde quer executar a ferramenta dwh-migration-dumper, transfira o ficheiro ZIP do dwh-migration-dumperrepositório do GitHub da ferramenta.
Para validar o ficheiro ZIP da ferramenta dwh-migration-dumper, transfira o ficheiro SHA256SUMS.txt e execute o seguinte comando:
Bash
```
sha256sum --check SHA256SUMS.txt
```
Se a validação falhar, consulte a secção Resolução de problemas.
Windows PowerShell
```
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
```
Substitua RELEASE_ZIP_FILENAME pelo nome do ficheiro ZIP transferido da versão da ferramenta de extração de linhas de comando dwh-migration-dumper, por exemplo, dwh-migration-tools-v1.0.52.zip

O resultado True confirma a validação da soma de verificação bem-sucedida.

O resultado False indica um erro de validação. Certifique-se de que os ficheiros ZIP e de soma de verificação são transferidos a partir da mesma versão de lançamento e colocados no mesmo diretório.
Extraia o ficheiro ZIP. O ficheiro binário da ferramenta de extração encontra-se no subdiretório /bin da pasta criada ao extrair o ficheiro ZIP.
Atualize a variável de ambiente PATH para incluir o caminho de instalação da ferramenta de extração.

Extrair metadados para migração

Selecione uma das seguintes opções para saber como extrair metadados para a sua origem de dados:

Apache Hive

Execute os passos na secção do Apache Hive Extraia metadados e consulte registos do seu armazém de dados para extrair os metadados do Apache Hive. Em seguida, pode carregar os metadados para o contentor do Cloud Storage que contém os ficheiros de migração.

HDFS

Execute o seguinte comando para extrair metadados do HDFS com a ferramenta dwh-migration-dumper.

dwh-migration-dumper \
  --connector hdfs \
  --host HDFS-HOST \
  --port HDFS-PORT \
  --output gs://MIGRATION-BUCKET/hdfs-dumper-output.zip \
  --assessment \

Substitua o seguinte:

HDFS-HOST: o nome do anfitrião do NameNode do HDFS
HDFS-PORT: o número da porta do NameNode do HDFS. Pode ignorar este argumento se estiver a usar a porta 8020 predefinida.
MIGRATION-BUCKET: o contentor do Cloud Storage que está a usar para armazenar os ficheiros de migração.

Este comando extrai metadados do HDFS para um ficheiro denominado hdfs-dumper-output.zip no diretório MIGRATION-BUCKET.

Existem várias limitações conhecidas ao extrair metadados do HDFS:

Algumas tarefas neste conector são opcionais e podem falhar, registando uma troca de pilha completa na saída. Desde que as tarefas necessárias tenham sido concluídas com êxito e o hdfs-dumper-output.zip seja gerado, pode prosseguir com a migração do HDFS.
O processo de extração pode falhar ou ser executado mais lentamente do que o esperado se o tamanho do conjunto de threads configurado for demasiado grande. Se estiver a ter estes problemas, recomendamos que diminua o tamanho do conjunto de threads através do argumento de linha de comandos --thread-pool-size.

Apache Ranger

Execute o seguinte comando para extrair metadados do Apache Ranger com a ferramenta dwh-migration-dumper.

dwh-migration-dumper \
  --connector ranger \
  --host RANGER-HOST \
  --port 6080 \
  --user RANGER-USER \
  --password RANGER-PASSWORD \
  --ranger-scheme RANGER-SCHEME \
  --output gs://MIGRATION-BUCKET/ranger-dumper-output.zip \
  --assessment \

Substitua o seguinte:

RANGER-HOST: o nome do anfitrião da instância do Apache Ranger
RANGER-USER: o nome de utilizador do utilizador do Apache Ranger
RANGER-PASSWORD: a palavra-passe do utilizador do Apache Ranger
RANGER-SCHEME: especifique se o Apache Ranger está a usar http ou https. O valor predefinido é http.
MIGRATION-BUCKET: o contentor do Cloud Storage que está a usar para armazenar os ficheiros de migração.

Também pode incluir as seguintes flags opcionais:

--kerberos-auth-for-hadoop: substitui --user e --password, se o Apache Ranger estiver protegido pelo Kerberos em vez da autenticação básica. Tem de executar o comando kinit antes da ferramenta dwh-migration-dumper para usar esta flag.
--ranger-disable-tls-validation: inclua esta flag se o certificado https usado pela API for autoassinado. Por exemplo, quando usa o Cloudera.

Este comando extrai metadados do Apache Ranger para um ficheiro denominado ranger-dumper-output.zip no diretório MIGRATION-BUCKET.

Cloudera

Execute o seguinte comando para extrair metadados do Cloudera com a ferramenta dwh-migration-dumper.

dwh-migration-dumper \
  --connector cloudera-manager \
  --url CLOUDERA-URL \
  --user CLOUDERA-USER \
  --password CLOUDERA-PASSWORD \
  --output gs://MIGRATION-BUCKET/cloudera-dumper-output.zip \
  --yarn-application-types APPLICATION-TYPES \
  --pagination-page-size PAGE-SIZE \
  --assessment \

Substitua o seguinte:

CLOUDERA-URL: o URL do Cloudera Manager
CLOUDERA-USER: o nome de utilizador do utilizador do Cloudera
CLOUDERA-PASSWORD: a palavra-passe do utilizador do Cloudera
MIGRATION-BUCKET: o contentor do Cloud Storage que está a usar para armazenar os ficheiros de migração.
APPLICATION-TYPES: (opcional) lista de todos os tipos de aplicações existentes do Hadoop YARN. Por exemplo, SPARK, MAPREDUCE.
PAGE-SIZE: (Opcional) especifique a quantidade de dados obtidos de serviços de terceiros, como a API Hadoop YARN. O valor predefinido é 1000, que representa 1000 entidades por pedido.

Este comando extrai metadados do Cloudera para um ficheiro denominado dwh-migration-cloudera.zip no diretório MIGRATION-BUCKET.

Registos de consultas do Apache Hive

Execute os passos na secção Apache Hive Extraia registos de consultas com o gancho de registo hadoop-migration-assessment para extrair os registos de consultas do Apache Hive. Em seguida, pode carregar os registos para o seu contentor do Cloud Storage que contém os ficheiros de migração.

O que se segue?

Com os metadados extraídos do Hadoop, pode usar estes ficheiros de metadados para fazer o seguinte:

Extração de metadados do Apache Hive para migração

Antes de começar

Instale o Java

Autorizações necessárias

Instale a ferramenta dwh-migration-dumper

Bash

Windows PowerShell

Extrair metadados para migração

Apache Hive

HDFS

Apache Ranger

Cloudera

Registos de consultas do Apache Hive

O que se segue?

Instale a ferramenta `dwh-migration-dumper`