Avaliação da migração

A avaliação da migração do BigQuery permite-lhe planear e rever a migração do seu armazém de dados existente para o BigQuery. Pode executar a avaliação da migração do BigQuery para gerar um relatório que avalie o custo de armazenamento dos seus dados no BigQuery, ver como o BigQuery pode otimizar a sua carga de trabalho existente para poupar custos e preparar um plano de migração que descreva o tempo e o esforço necessários para concluir a migração do armazém de dados para o BigQuery.

Este documento descreve como usar a avaliação da migração do BigQuery e as diferentes formas de rever os resultados da avaliação. Este documento destina-se a utilizadores que estão familiarizados com a Google Cloud consola e o tradutor de SQL em lote.

Antes de começar

Para preparar e executar uma avaliação de migração do BigQuery, siga estes passos:

  1. Crie um contentor do Cloud Storage.

  2. Extraia metadados e registos de consultas do seu armazém de dados através da ferramenta dwh-migration-dumper.

  3. Carregue os seus metadados e registos de consultas para o seu contentor do Cloud Storage.

  4. Execute a avaliação de migração.

  5. Reveja o relatório do Looker Studio.

  6. Opcional: consulte os resultados da avaliação para encontrar informações de avaliação detalhadas ou específicas.

Extraia metadados e consulte registos do seu armazém de dados

São necessários metadados e registos de consultas para preparar a avaliação com recomendações.

Para extrair os metadados e os registos de consultas necessários para executar a avaliação, selecione o seu data warehouse:

Teradata

Requisitos

  • Um computador ligado ao seu data warehouse de dados Teradata (O Teradata 15 e versões posteriores são suportados)
  • Uma Google Cloud conta com um contentor do Cloud Storage para armazenar os dados
  • Um conjunto de dados do BigQuery vazio para armazenar os resultados
  • Autorizações de leitura no conjunto de dados para ver os resultados
  • Recomendado: direitos de acesso ao nível de administrador à base de dados de origem quando usar a ferramenta de extração para aceder às tabelas do sistema

Requisito: ative o registo

A ferramenta dwh-migration-dumper extrai três tipos de registos: registos de consultas, registos de utilitários e registos de utilização de recursos. Tem de ativar o registo para os seguintes tipos de registos para ver estatísticas mais detalhadas:

Execute a ferramenta dwh-migration-dumper

Transfira a ferramenta dwh-migration-dumper.

Transfira o ficheiro SHA256SUMS.txt e execute o seguinte comando para verificar se o ZIP está correto:

Bash

sha256sum --check SHA256SUMS.txt

Windows PowerShell

(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]

Substitua RELEASE_ZIP_FILENAME pelo nome do ficheiro ZIP transferido da versão da ferramenta de extração de linhas de comando dwh-migration-dumper, por exemplo, dwh-migration-tools-v1.0.52.zip

O resultado True confirma a validação da soma de verificação bem-sucedida.

O resultado False indica um erro de validação. Certifique-se de que os ficheiros ZIP e de soma de verificação são transferidos da mesma versão de lançamento e colocados no mesmo diretório.

Para ver detalhes sobre como configurar e usar a ferramenta de extração, consulte o artigo Gere metadados para tradução e avaliação.

Use a ferramenta de extração para extrair registos e metadados do seu armazém de dados do Teradata como dois ficheiros ZIP. Execute os seguintes comandos numa máquina com acesso ao data warehouse de origem para gerar os ficheiros.

Gere o ficheiro ZIP de metadados:

dwh-migration-dumper \
  --connector teradata \
  --database DATABASES \
  --driver path/terajdbc4.jar \
  --host HOST \
  --assessment \
  --user USER \
  --password PASSWORD

Nota: a flag --database é opcional para o conector teradata. Se for omitido, são extraídos os metadados de todas as bases de dados. Este sinalizador só é válido para o conector teradata e não pode ser usado com teradata-logs.

Gere o ficheiro ZIP com os registos de consultas:

dwh-migration-dumper \
  --connector teradata-logs \
  --driver path/terajdbc4.jar \
  --host HOST \
  --assessment \
  --user USER \
  --password PASSWORD

Nota: a flag --database não é usada quando extrai registos de consultas com o conector teradata-logs. Os registos de consultas são sempre extraídos para todas as bases de dados.

Substitua o seguinte:

  • PATH: o caminho absoluto ou relativo para o ficheiro JAR do controlador a usar para esta ligação
  • VERSION: a versão do seu controlador
  • HOST: o endereço do anfitrião
  • USER: o nome de utilizador a usar para a ligação à base de dados
  • DATABASES: (opcional) a lista separada por vírgulas dos nomes das bases de dados a extrair. Se não for fornecido, todas as bases de dados são extraídas.
  • PASSWORD: (opcional) a palavra-passe a usar para a ligação à base de dados. Se este campo não for preenchido, é pedida a palavra-passe ao utilizador.

Por predefinição, os registos de consultas são extraídos da vista dbc.QryLogV e da tabela dbc.DBQLSqlTbl. Se precisar de extrair os registos de consultas de uma localização alternativa, pode especificar os nomes das tabelas ou das vistas através das flags -Dteradata-logs.query-logs-table e -Dteradata-logs.sql-logs-table.

Por predefinição, os registos de utilitários são extraídos da tabela dbc.DBQLUtilityTbl. Se precisar de extrair os registos de utilidade de uma localização alternativa, pode especificar o nome da tabela através da flag -Dteradata-logs.utility-logs-table.

Por predefinição, os registos de utilização de recursos são extraídos das tabelas dbc.ResUsageScpu e dbc.ResUsageSpma. Se precisar de extrair os registos de utilização de recursos de uma localização alternativa, pode especificar os nomes das tabelas através das flags -Dteradata-logs.res-usage-scpu-table e -Dteradata-logs.res-usage-spma-table.

Por exemplo:

Bash

dwh-migration-dumper \
  --connector teradata-logs \
  --driver path/terajdbc4.jar \
  --host HOST \
  --assessment \
  --user USER \
  --password PASSWORD \
  -Dteradata-logs.query-logs-table=pdcrdata.QryLogV_hst \
  -Dteradata-logs.sql-logs-table=pdcrdata.DBQLSqlTbl_hst \
  -Dteradata-logs.log-date-column=LogDate \
  -Dteradata-logs.utility-logs-table=pdcrdata.DBQLUtilityTbl_hst \
  -Dteradata-logs.res-usage-scpu-table=pdcrdata.ResUsageScpu_hst \
  -Dteradata-logs.res-usage-spma-table=pdcrdata.ResUsageSpma_hst

Windows PowerShell

dwh-migration-dumper `
  --connector teradata-logs `
  --driver path\terajdbc4.jar `
  --host HOST `
  --assessment `
  --user USER `
  --password PASSWORD `
  "-Dteradata-logs.query-logs-table=pdcrdata.QryLogV_hst" `
  "-Dteradata-logs.sql-logs-table=pdcrdata.DBQLSqlTbl_hst" `
  "-Dteradata-logs.log-date-column=LogDate" `
  "-Dteradata-logs.utility-logs-table=pdcrdata.DBQLUtilityTbl_hst" `
  "-Dteradata-logs.res-usage-scpu-table=pdcrdata.ResUsageScpu_hst" `
  "-Dteradata-logs.res-usage-spma-table=pdcrdata.ResUsageSpma_hst"

Por predefinição, a ferramenta dwh-migration-dumper extrai os últimos sete dias de registos de consultas. A Google recomenda que forneça, pelo menos, duas semanas de registos de consultas para poder ver estatísticas mais detalhadas. Pode especificar um intervalo de tempo personalizado usando as flags --query-log-start e --query-log-end. Por exemplo:

dwh-migration-dumper \
  --connector teradata-logs \
  --driver path/terajdbc4.jar \
  --host HOST \
  --assessment \
  --user USER \
  --password PASSWORD \
  --query-log-start "2023-01-01 00:00:00" \
  --query-log-end "2023-01-15 00:00:00"

Também pode gerar vários ficheiros ZIP com registos de consultas que abrangem diferentes períodos e fornecê-los todos para avaliação.

Redshift

Requisitos

  • Um computador ligado ao seu data warehouse do Amazon Redshift de origem
  • Uma Google Cloud conta com um contentor do Cloud Storage para armazenar os dados
  • Um conjunto de dados do BigQuery vazio para armazenar os resultados
  • Autorizações de leitura no conjunto de dados para ver os resultados
  • Recomendado: acesso de superutilizador à base de dados quando usar a ferramenta de extração para aceder a tabelas do sistema

Execute a ferramenta dwh-migration-dumper

Transfira a dwh-migration-dumper ferramenta de extração de linhas de comando.

Transfira o ficheiro SHA256SUMS.txt e execute o seguinte comando para verificar se o ZIP está correto:

Bash

sha256sum --check SHA256SUMS.txt

Windows PowerShell

(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]

Substitua RELEASE_ZIP_FILENAME pelo nome do ficheiro ZIP transferido da versão da ferramenta de extração de linhas de comando dwh-migration-dumper, por exemplo, dwh-migration-tools-v1.0.52.zip

O resultado True confirma a validação da soma de verificação bem-sucedida.

O resultado False indica um erro de validação. Certifique-se de que os ficheiros ZIP e de soma de verificação são transferidos da mesma versão de lançamento e colocados no mesmo diretório.

Para ver detalhes sobre como usar a ferramenta dwh-migration-dumper, consulte a página gerar metadados.

Use a ferramenta dwh-migration-dumper para extrair registos e metadados do seu armazém de dados do Amazon Redshift como dois ficheiros ZIP. Execute os seguintes comandos numa máquina com acesso ao data warehouse de origem para gerar os ficheiros.

Gere o ficheiro ZIP de metadados:

dwh-migration-dumper \
  --connector redshift \
  --database DATABASE \
  --driver PATH/redshift-jdbc42-VERSION.jar \
  --host host.region.redshift.amazonaws.com \
  --assessment \
  --user USER \
  --iam-profile IAM_PROFILE_NAME

Gere o ficheiro ZIP com os registos de consultas:

dwh-migration-dumper \
  --connector redshift-raw-logs \
  --database DATABASE \
  --driver PATH/redshift-jdbc42-VERSION.jar \
  --host host.region.redshift.amazonaws.com \
  --assessment \
  --user USER \
  --iam-profile IAM_PROFILE_NAME

Substitua o seguinte:

  • DATABASE: o nome da base de dados à qual se ligar
  • PATH: o caminho absoluto ou relativo para o ficheiro JAR do controlador a usar para esta ligação
  • VERSION: a versão do seu controlador
  • USER: o nome de utilizador a usar para a ligação à base de dados
  • IAM_PROFILE_NAME: o nome do perfil de IAM do Amazon Redshift. Obrigatório para a autenticação do Amazon Redshift e para o acesso à API AWS. Para obter a descrição dos clusters do Amazon Redshift, use a API AWS.

Por predefinição, o Amazon Redshift armazena registos de consultas de três a cinco dias.

Por predefinição, a ferramenta dwh-migration-dumper extrai os últimos sete dias de registos de consultas.

A Google recomenda que faculte, pelo menos, duas semanas de registos de consultas para poder ver estatísticas mais detalhadas. Pode ter de executar a ferramenta de extração algumas vezes ao longo de duas semanas para obter os melhores resultados. Pode especificar um intervalo personalizado através das flags --query-log-start e --query-log-end. Por exemplo:

dwh-migration-dumper \
  --connector redshift-raw-logs \
  --database DATABASE \
  --driver PATH/redshift-jdbc42-VERSION.jar \
  --host host.region.redshift.amazonaws.com \
  --assessment \
  --user USER \
  --iam-profile IAM_PROFILE_NAME \
  --query-log-start "2023-01-01 00:00:00" \
  --query-log-end "2023-01-02 00:00:00"

Também pode gerar vários ficheiros ZIP com registos de consultas que abrangem diferentes períodos e fornecê-los todos para avaliação.

Redshift sem servidor

Requisitos

  • Um computador ligado ao seu data warehouse Amazon Redshift Serverless de origem
  • Uma Google Cloud conta com um contentor do Cloud Storage para armazenar os dados
  • Um conjunto de dados do BigQuery vazio para armazenar os resultados
  • Autorizações de leitura no conjunto de dados para ver os resultados
  • Recomendado: acesso de superutilizador à base de dados quando usar a ferramenta de extração para aceder a tabelas do sistema

Execute a ferramenta dwh-migration-dumper

Transfira a dwh-migration-dumper ferramenta de extração de linhas de comando.

Para ver detalhes sobre como usar a ferramenta dwh-migration-dumper, consulte a página Gere metadados.

Use a ferramenta dwh-migration-dumper para extrair registos de utilização e metadados do seu espaço de nomes sem servidor do Amazon Redshift como dois ficheiros ZIP. Execute os seguintes comandos numa máquina com acesso ao data warehouse de origem para gerar os ficheiros.

Gere o ficheiro ZIP de metadados:

dwh-migration-dumper \
  --connector redshift \
  --database DATABASE \
  --driver PATH/redshift-jdbc42-VERSION.jar \
  --host host.region.redshift-serverless.amazonaws.com \
  --assessment \
  --user USER \
  --iam-profile IAM_PROFILE_NAME

Gere o ficheiro ZIP com os registos de consultas:

dwh-migration-dumper \
  --connector redshift-serverless-logs \
  --database DATABASE \
  --driver PATH/redshift-jdbc42-VERSION.jar \
  --host host.region.redshift-serverless.amazonaws.com \
  --assessment \
  --user USER \
  --iam-profile IAM_PROFILE_NAME

Substitua o seguinte:

  • DATABASE: o nome da base de dados à qual se ligar
  • PATH: o caminho absoluto ou relativo para o ficheiro JAR do controlador a usar para esta ligação
  • VERSION: a versão do seu controlador
  • USER: o nome de utilizador a usar para a ligação à base de dados
  • IAM_PROFILE_NAME: o nome do perfil de IAM do Amazon Redshift. Obrigatório para a autenticação do Amazon Redshift e para o acesso à API AWS. Para obter a descrição dos clusters do Amazon Redshift, use a API AWS.

O Amazon Redshift Serverless armazena registos de utilização durante sete dias. Se for necessário um intervalo mais amplo, a Google recomenda que extraia dados várias vezes durante um período mais longo.

Floco de neve

Requisitos

Tem de cumprir os seguintes requisitos para extrair metadados e registos de consultas do Snowflake:

  • Uma máquina que pode estabelecer ligação às suas instâncias do Snowflake.
  • Uma Google Cloud conta com um contentor do Cloud Storage para armazenar os dados.
  • Um conjunto de dados do BigQuery vazio para armazenar os resultados. Em alternativa, pode criar um conjunto de dados do BigQuery quando criar a tarefa de avaliação através da Google Cloud IU da consola.
  • Utilizador do Snowflake com acesso IMPORTED PRIVILEGES na base de dados Snowflake. Recomendamos que crie um SERVICE utilizador com uma autenticação baseada num par de chaves. Isto fornece o método seguro para aceder à plataforma de dados do Snowflake sem necessidade de gerar tokens de MFA.
    • Para criar um novo utilizador do serviço, siga o guia oficial do Snowflake. Tem de gerar o par de chaves RSA e atribuir a chave pública ao utilizador do Snowflake.
    • O utilizador do serviço deve ter a função ACCOUNTADMIN ou ser-lhe concedida uma função com os privilégios IMPORTED PRIVILEGES na base de dados Snowflake por um administrador da conta.
    • Em alternativa à autenticação por par de chaves, pode usar a autenticação baseada em palavra-passe. No entanto, a partir de agosto de 2025, a Snowflake vai aplicar a MFA a todos os utilizadores baseados em palavras-passe. Isto requer que aprove a notificação push da MFA quando usar a nossa ferramenta de extração.

Execute a ferramenta dwh-migration-dumper

Transfira a dwh-migration-dumper ferramenta de extração de linhas de comando.

Transfira o ficheiro SHA256SUMS.txt e execute o seguinte comando para verificar se o ZIP está correto:

Bash

sha256sum --check SHA256SUMS.txt

Windows PowerShell

(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]

Substitua RELEASE_ZIP_FILENAME pelo nome do ficheiro ZIP transferido da versão da ferramenta de extração de linhas de comando dwh-migration-dumper, por exemplo, dwh-migration-tools-v1.0.52.zip

O resultado True confirma a validação da soma de verificação bem-sucedida.

O resultado False indica um erro de validação. Certifique-se de que os ficheiros ZIP e de soma de verificação são transferidos da mesma versão de lançamento e colocados no mesmo diretório.

Para ver detalhes sobre como usar a ferramenta dwh-migration-dumper, consulte a página gerar metadados.

Use a ferramenta dwh-migration-dumper para extrair registos e metadados do seu armazém de dados do Snowflake como dois ficheiros ZIP. Execute os seguintes comandos numa máquina com acesso ao data warehouse de origem para gerar os ficheiros.

Gere o ficheiro ZIP de metadados:

dwh-migration-dumper \
  --connector snowflake \
  --host HOST_NAME \
  --user USER_NAME \
  --role ROLE_NAME \
  --warehouse WAREHOUSE \
  --assessment \
  --private-key-file PRIVATE_KEY_PATH \
  --private-key-password PRIVATE_KEY_PASSWORD

Gere o ficheiro ZIP com os registos de consultas:

dwh-migration-dumper \
  --connector snowflake-logs \
  --host HOST_NAME \
  --user USER_NAME \
  --role ROLE_NAME \
  --warehouse WAREHOUSE \
  --query-log-start STARTING_DATE \
  --query-log-end ENDING_DATE \
  --assessment \
  --private-key-file PRIVATE_KEY_PATH \
  --private-key-password PRIVATE_KEY_PASSWORD

Substitua o seguinte:

  • HOST_NAME: o nome do anfitrião da sua instância do Snowflake.
  • USER_NAME: o nome de utilizador a usar para a ligação à base de dados, em que o utilizador tem de ter as autorizações de acesso detalhadas na secção de requisitos.
  • PRIVATE_KEY_PATH: o caminho para a chave privada RSA usada para autenticação.
  • PRIVATE_KEY_PASSWORD: (Opcional) a palavra-passe que foi usada quando criou a chave privada RSA. Só é necessário se a chave privada estiver encriptada.
  • ROLE_NAME: (opcional) a função do utilizador quando executa a ferramenta dwh-migration-dumper, por exemplo, ACCOUNTADMIN.
  • WAREHOUSE: o armazém usado para executar as operações de descarga. Se tiver vários armazéns virtuais, pode especificar qualquer armazém para executar esta consulta. A execução desta consulta com as autorizações de acesso detalhadas na secção de requisitos extrai todos os artefactos do armazém nesta conta.
  • STARTING_DATE: (opcional) usado para indicar a data de início num intervalo de datas dos registos de consultas, escrito no formato YYYY-MM-DD.
  • ENDING_DATE: (opcional) usado para indicar a data de conclusão num intervalo de datas dos registos de consultas, escrito no formato YYYY-MM-DD.

Também pode gerar vários ficheiros ZIP com registos de consultas que abrangem períodos não sobrepostos e fornecê-los todos para avaliação.

Oracle

Para pedir feedback ou apoio técnico para esta funcionalidade, envie um email para bq-edw-migration-support@google.com.

Requisitos

Tem de cumprir os seguintes requisitos para extrair metadados e consultar registos do Oracle:

  • A sua base de dados Oracle tem de ser a versão 11g R1 ou superior.
  • Uma máquina que pode estabelecer ligação às suas instâncias do Oracle.
  • Java 8 ou superior.
  • Uma Google Cloud conta com um contentor do Cloud Storage para armazenar os dados.
  • Um conjunto de dados do BigQuery vazio para armazenar os resultados. Em alternativa, pode criar um conjunto de dados do BigQuery quando criar a tarefa de avaliação através da Google Cloud IU da consola.
  • Um utilizador comum do Oracle com privilégios SYSDBA.

Execute a ferramenta dwh-migration-dumper

Transfira a dwh-migration-dumper ferramenta de extração de linhas de comando.

Transfira o ficheiro SHA256SUMS.txt e execute o seguinte comando para verificar se o ZIP está correto:

sha256sum --check SHA256SUMS.txt

Para ver detalhes sobre como usar a ferramenta dwh-migration-dumper, consulte a página gerar metadados.

Use a ferramenta dwh-migration-dumper para extrair metadados e estatísticas de desempenho para o ficheiro ZIP. Por predefinição, as estatísticas são extraídas do Oracle AWR, que requer o Oracle Tuning and Diagnostics Pack. Se estes dados não estiverem disponíveis, a função dwh-migration-dumper usa o STATSPACK.

Para bases de dados multiinquilino, a ferramenta dwh-migration-dumper tem de ser executada no contentor raiz. A execução numa das bases de dados conectáveis resulta em estatísticas de desempenho e metadados em falta sobre outras bases de dados conectáveis.

Gere o ficheiro ZIP de metadados:

dwh-migration-dumper \
  --connector oracle-stats \
  --host HOST_NAME \
  --port PORT \
  --oracle-service SERVICE_NAME \
  --assessment \
  --driver JDBC_DRIVER_PATH \
  --user USER_NAME \
  --password

Substitua o seguinte:

  • HOST_NAME: o nome do anfitrião da sua instância do Oracle.
  • PORT: o número da porta de ligação. O valor predefinido é 1521.
  • SERVICE_NAME: o nome do serviço Oracle a usar para a ligação.
  • JDBC_DRIVER_PATH: o caminho absoluto ou relativo para o ficheiro JAR do controlador. Pode transferir este ficheiro a partir da página Transferências do controlador JDBC da Oracle. Deve selecionar a versão do controlador compatível com a versão da sua base de dados.
  • USER_NAME: nome do utilizador usado para estabelecer ligação à sua instância do Oracle. O utilizador tem de ter as autorizações de acesso conforme detalhado na secção de requisitos.

Hadoop / Cloudera

Para pedir feedback ou apoio técnico para esta funcionalidade, envie um email para bq-edw-migration-support@google.com.

Requisitos

Tem de ter o seguinte para extrair metadados do Cloudera:

  • Uma máquina que possa estabelecer ligação à API Cloudera Manager.
  • Uma Google Cloud conta com um contentor do Cloud Storage para armazenar os dados.
  • Um conjunto de dados do BigQuery vazio para armazenar os resultados. Em alternativa, pode criar um conjunto de dados do BigQuery quando criar a tarefa de avaliação.

Execute a ferramenta dwh-migration-dumper

  1. Transfira a dwh-migration-dumper ferramenta de extração de linhas de comando.

  2. Transfira o ficheiro SHA256SUMS.txt.

  3. No ambiente de linha de comandos, verifique se o ficheiro ZIP está correto:

      sha256sum --check SHA256SUMS.txt
      

    Para ver detalhes sobre como usar a ferramenta dwh-migration-dumper, consulte o artigo Gere metadados para tradução e avaliação.

  4. Use a dwh-migration-dumperferramenta para extrair metadados e estatísticas de desempenho para o ficheiro ZIP:

    dwh-migration-dumper \
        --connector cloudera-manager \
        --user USER_NAME \
        --password PASSWORD \
        --url URL_PATH \
        --yarn-application-types "APP_TYPES" \
        --pagination-page-size PAGE_SIZE \
        --start-date START_DATE \
        --end-date END_DATE \
        --assessment

    Substitua o seguinte:

    • USER_NAME: o nome do utilizador para estabelecer ligação à sua instância do Cloudera Manager.
    • PASSWORD: a palavra-passe da sua instância do Cloudera Manager.
    • URL_PATH: o caminho do URL para a Cloudera Manager API, por exemplo, https://localhost:7183/api/v55/.
    • APP_TYPES (opcional): os tipos de aplicações YARN separados por vírgulas que são transferidos do cluster. O valor predefinido é MAPREDUCE,SPARK,Oozie Launcher.
    • PAGE_SIZE (opcional): o número de registos por resposta do Cloudera. O valor predefinido é 1000.
    • START_DATE (opcional): a data de início da exportação do histórico no formato ISO 8601, por exemplo, 2025-05-29. O valor predefinido é 90 dias antes da data atual.
    • END_DATE (opcional): a data de fim da exportação do histórico no formato ISO 8601, por exemplo, 2025-05-30. O valor predefinido é a data atual.

Use o Oozie no seu cluster Cloudera

Se usar o Oozie no seu cluster Cloudera, pode transferir o histórico de tarefas do Oozie com o conetor do Oozie. Pode usar o Oozie com a autenticação Kerberos ou a autenticação básica.

Para a autenticação Kerberos, execute o seguinte:

kinit
dwh-migration-dumper \
    --connector oozie \
    --url URL_PATH \
    --assessment

Substitua o seguinte:

  • URL_PATH (opcional): o caminho do URL do servidor Oozie. Se não especificar o caminho do URL, este é retirado da OOZIE_URLvariável de ambiente.

Para a autenticação básica, execute o seguinte:

dwh-migration-dumper \
    --connector oozie \
    --user USER_NAME \
    --password PASSWORD \
    --url URL_PATH \
    --assessment

Substitua o seguinte:

  • USER_NAME: o nome do utilizador do Oozie.
  • PASSWORD: a palavra-passe do utilizador.
  • URL_PATH (opcional): o caminho do URL do servidor Oozie. Se não especificar o caminho do URL, este é retirado da OOZIE_URLvariável de ambiente.

Use o Airflow no seu cluster Cloudera

Se usar o Airflow no seu cluster Cloudera, pode transferir o histórico de DAGs com o conetor do Airflow:

dwh-migration-dumper \
    --connector airflow \
    --user USER_NAME \
    --password PASSWORD \
    --url URL \
    --driver "DRIVER_PATH" \
    --start-date START_DATE \
    --end-date END_DATE \
    --assessment

Substitua o seguinte:

  • USER_NAME: o nome do utilizador do Airflow
  • PASSWORD: a palavra-passe do utilizador
  • URL: a string JDBC para a base de dados do Airflow
  • DRIVER_PATH: o caminho para o controlador JDBC
  • START_DATE (opcional): a data de início da exportação do histórico no formato ISO 8601
  • END_DATE (opcional): a data de fim da exportação do histórico no formato ISO 8601

Use o Hive no seu cluster Cloudera

Para usar o conector do Hive, consulte o separador Apache Hive.

Apache Hive

Requisitos

  • Um computador ligado ao seu armazém de dados Apache Hive de origem (A avaliação da migração do BigQuery suporta o Hive no Tez e o MapReduce, e suporta as versões do Apache Hive entre 2.2 e 3.1, inclusive)
  • Uma Google Cloud conta com um contentor do Cloud Storage para armazenar os dados
  • Um conjunto de dados do BigQuery vazio para armazenar os resultados
  • Autorizações de leitura no conjunto de dados para ver os resultados
  • Acesso ao seu armazém de dados do Apache Hive de origem para configurar a extração de registos de consultas
  • Estatísticas de tabelas, partições e colunas atualizadas

A avaliação da migração do BigQuery usa estatísticas de tabelas, partições e colunas para compreender melhor o seu armazém de dados do Apache Hive e fornecer estatísticas detalhadas. Se a definição de configuração hive.stats.autogather estiver definida como false no seu data warehouse do Apache Hive de origem, a Google recomenda que a ative ou atualize as estatísticas manualmente antes de executar a ferramenta dwh-migration-dumper.

Execute a ferramenta dwh-migration-dumper

Transfira a dwh-migration-dumper ferramenta de extração de linhas de comando.

Transfira o ficheiro SHA256SUMS.txt e execute o seguinte comando para verificar se o ZIP está correto:

Bash

sha256sum --check SHA256SUMS.txt

Windows PowerShell

(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]

Substitua RELEASE_ZIP_FILENAME pelo nome do ficheiro ZIP transferido da versão da ferramenta de extração de linhas de comando dwh-migration-dumper, por exemplo, dwh-migration-tools-v1.0.52.zip

O resultado True confirma a validação da soma de verificação bem-sucedida.

O resultado False indica um erro de validação. Certifique-se de que os ficheiros ZIP e de soma de verificação são transferidos da mesma versão de lançamento e colocados no mesmo diretório.

Para ver detalhes sobre como usar a ferramenta dwh-migration-dumper, consulte o artigo Gere metadados para tradução e avaliação.

Use a ferramenta dwh-migration-dumper para gerar metadados do seu armazém de dados do Hive como um ficheiro ZIP.

Sem autenticação

Para gerar o ficheiro ZIP de metadados, execute o seguinte comando numa máquina que tenha acesso ao data warehouse de origem:

dwh-migration-dumper \
  --connector hiveql \
  --database DATABASES \
  --host hive.cluster.host \
  --port 9083 \
  --assessment

Com a autenticação Kerberos

Para autenticar no metastore, inicie sessão como um utilizador que tenha acesso ao metastore do Apache Hive e gere um pedido do Kerberos. Em seguida, gere o ficheiro ZIP de metadados com o seguinte comando:

JAVA_OPTS="-Djavax.security.auth.useSubjectCredsOnly=false" \
  dwh-migration-dumper \
  --connector hiveql \
  --database DATABASES \
  --host hive.cluster.host \
  --port 9083 \
  --hive-kerberos-url PRINCIPAL/HOST \
  -Dhiveql.rpc.protection=hadoop.rpc.protection \
  --assessment

Substitua o seguinte:

  • DATABASES: a lista separada por vírgulas dos nomes das bases de dados a extrair. Se não for fornecido, todas as bases de dados são extraídas.
  • PRINCIPAL: o principal do Kerberos ao qual a permissão é emitida
  • HOST: o nome do anfitrião Kerberos para o qual a permissão é emitida
  • hadoop.rpc.protection: a qualidade de proteção (QOP) do nível de configuração da camada de autenticação e segurança simples (SASL), igual ao valor do parâmetro hadoop.rpc.protection no ficheiro /etc/hadoop/conf/core-site.xml, com um dos seguintes valores:
    • authentication
    • integrity
    • privacy

Extraia registos de consultas com o gancho de registo hadoop-migration-assessment

Para extrair registos de consultas, siga estes passos:

  1. Carregue o hadoop-migration-assessment gancho de registo.
  2. Configure as propriedades do gancho de registo.
  3. Valide o gancho de registo.

Carregue o hadoop-migration-assessment logging hook

  1. Transfira o hadoop-migration-assessment gancho de registo de extração de registos de consultas que contém o ficheiro JAR do gancho de registo do Hive.

  2. Extraia o ficheiro JAR.

    Se precisar de auditar a ferramenta para garantir que cumpre os requisitos de conformidade, reveja o código fonte do hadoop-migration-assessmentrepositório do GitHub do gancho de registo e compile o seu próprio ficheiro binário.

  3. Copie o ficheiro JAR para a pasta da biblioteca auxiliar em todos os clusters onde planeia ativar o registo de consultas. Consoante o fornecedor, tem de localizar a pasta da biblioteca auxiliar nas definições do cluster e transferir o ficheiro JAR para a pasta da biblioteca auxiliar no cluster do Hive.

  4. Configure propriedades de configuração para o gancho de registo hadoop-migration-assessment. Consoante o fornecedor do Hadoop, tem de usar a consola da IU para editar as definições do cluster. Modifique o ficheiro /etc/hive/conf/hive-site.xml ou aplique a configuração com o Configuration Manager.

Configure propriedades

Se já tiver outros valores para as seguintes chaves de configuração, acrescente as definições com uma vírgula (,). Para configurar o gancho de registo hadoop-migration-assessment, são necessárias as seguintes definições de configuração:

  • hive.exec.failure.hooks: com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
  • hive.exec.post.hooks : com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
  • hive.exec.pre.hooks: com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
  • hive.aux.jars.path: inclua o caminho para o ficheiro JAR do gancho de registo, por exemplo, file:///HiveMigrationAssessmentQueryLogsHooks_deploy.jar.
  • dwhassessment.hook.base-directory: caminho para a pasta de saída dos registos de consultas. Por exemplo, hdfs://tmp/logs/.
  • Também pode definir as seguintes configurações opcionais:

    • dwhassessment.hook.queue.capacity: a capacidade da fila para os threads de registo de eventos de consulta. O valor predefinido é 64.
    • dwhassessment.hook.rollover-interval: a frequência com que a substituição do ficheiro tem de ser realizada. Por exemplo, 600s. O valor predefinido é de 3600 segundos (1 hora).
    • dwhassessment.hook.rollover-eligibility-check-interval: a frequência com que a verificação de elegibilidade da substituição de ficheiros é acionada em segundo plano. Por exemplo, 600s. O valor predefinido é de 600 segundos (10 minutos).

Valide o gancho de registo

Depois de reiniciar o processo do hive-server2, execute uma consulta de teste e analise os registos de depuração. Pode ver a seguinte mensagem:

Logger successfully started, waiting for query events. Log directory is '[dwhassessment.hook.base-directory value]'; rollover interval is '60' minutes;
rollover eligibility check is '10' minutes

O gancho de registo cria uma subpasta com partições de data na pasta configurada. O ficheiro Avro com eventos de consulta aparece nessa pasta após o intervalo de dwhassessment.hook.rollover-interval ou a terminação do processo hive-server2. Pode procurar mensagens semelhantes nos registos de depuração para ver o estado da operação de substituição:

Updated rollover time for logger ID 'my_logger_id' to '2023-12-25T10:15:30'
Performed rollover check for logger ID 'my_logger_id'. Expected rollover time
is '2023-12-25T10:15:30'

A transferência ocorre nos intervalos especificados ou quando o dia muda. Quando a data muda, o ponto de ligação de registo também cria uma nova subpasta para essa data.

A Google recomenda que forneça, pelo menos, duas semanas de registos de consultas para poder ver estatísticas mais detalhadas.

Também pode gerar pastas com registos de consultas de diferentes clusters do Hive e fornecê-las todas para uma única avaliação.

Informatica

Para pedir feedback ou apoio técnico para esta funcionalidade, envie um email para bq-edw-migration-support@google.com.

Requisitos

  • Acesso ao cliente do Informatica PowerCenter Repository Manager
  • Uma Google Cloud conta com um contentor do Cloud Storage para armazenar os dados.
  • Um conjunto de dados do BigQuery vazio para armazenar os resultados. Em alternativa, pode criar um conjunto de dados do BigQuery quando criar a tarefa de avaliação através da Google Cloud consola.

Requisito: exporte ficheiros de objetos

Pode usar a GUI do Informatica PowerCenter Repository Manager para exportar os seus ficheiros de objetos. Para mais informações, consulte o artigo Passos para exportar objetos

Em alternativa, também pode executar o comando pmrep para exportar os seus ficheiros de objetos através dos seguintes passos:

  1. Execute o comando pmrep connect para estabelecer ligação ao repositório:
  pmrep connect -r `REPOSITORY_NAME` -d `DOMAIN_NAME` -n `USERNAME` -x `PASSWORD`

Substitua o seguinte:

  • REPOSITORY_NAME: nome do repositório ao qual quer estabelecer ligação
  • DOMAIN_NAME: nome do domínio do repositório
  • USERNAME: nome de utilizador para estabelecer ligação ao repositório
  • PASSWORD: palavra-passe do nome de utilizador
  1. Depois de estabelecer ligação ao repositório, use o comando pmrep objectexport para exportar os objetos necessários:
  pmrep objectexport -n `OBJECT_NAME` -o `OBJECT_TYPE` -f `FOLDER_NAME` -u `OUTPUT_FILE_NAME.xml`

Substitua o seguinte:

  • OBJECT_NAME: nome de um objeto específico a exportar
  • OBJECT_TYPE: tipo de objeto do objeto especificado
  • FOLDER_NAME: nome da pasta que contém o objeto a exportar
  • OUTPUT_FILE_NAME: nome do ficheiro XML que contém as informações do objeto

Carregue metadados e registos de consultas para o Cloud Storage

Depois de extrair os metadados e os registos de consultas do seu data warehouse, pode carregar os ficheiros para um contentor do Cloud Storage para prosseguir com a avaliação da migração.

Teradata

Carregue os metadados e um ou mais ficheiros ZIP que contenham registos de consultas para o seu contentor do Cloud Storage. Para mais informações sobre como criar contentores e carregar ficheiros para o Cloud Storage, consulte os artigos Crie contentores e Carregue objetos a partir de um sistema de ficheiros. O limite para o tamanho total não comprimido de todos os ficheiros no ficheiro ZIP de metadados é de 50 GB.

As entradas em todos os ficheiros ZIP que contêm registos de consultas estão divididas da seguinte forma:

  • Ficheiros do histórico de consultas com o prefixo query_history_.
  • Ficheiros de intervalos temporais com os prefixos utility_logs_, dbc.ResUsageScpu_ e dbc.ResUsageSpma_.

O limite para o tamanho total não comprimido de todos os ficheiros do histórico de consultas é de 5 TB. O limite para o tamanho total não comprimido de todos os ficheiros de séries cronológicas é de 1 TB.

Caso os registos de consultas sejam arquivados numa base de dados diferente, consulte a descrição das flags -Dteradata-logs.query-logs-table e -Dteradata-logs.sql-logs-table anteriormente nesta secção, que explica como fornecer uma localização alternativa para os registos de consultas.

Redshift

Carregue os metadados e um ou mais ficheiros ZIP que contenham registos de consultas para o seu contentor do Cloud Storage. Para mais informações sobre como criar contentores e carregar ficheiros para o Cloud Storage, consulte os artigos Crie contentores e Carregue objetos a partir de um sistema de ficheiros. O limite para o tamanho total não comprimido de todos os ficheiros no ficheiro ZIP de metadados é de 50 GB.

As entradas em todos os ficheiros ZIP que contêm registos de consultas estão divididas da seguinte forma:

  • Ficheiros do histórico de consultas com os prefixos querytext_ e ddltext_.
  • Ficheiros de intervalos temporais com os prefixos query_queue_info_, wlm_query_ e querymetrics_.

O limite para o tamanho total não comprimido de todos os ficheiros do histórico de consultas é de 5 TB. O limite para o tamanho total não comprimido de todos os ficheiros de séries cronológicas é de 1 TB.

Redshift sem servidor

Carregue os metadados e um ou mais ficheiros ZIP que contenham registos de consultas para o seu contentor do Cloud Storage. Para mais informações sobre como criar contentores e carregar ficheiros para o Cloud Storage, consulte os artigos Crie contentores e Carregue objetos a partir de um sistema de ficheiros.

Floco de neve

Carregue os metadados e os ficheiros ZIP que contêm registos de consultas e históricos de utilização para o seu contentor do Cloud Storage. Quando carregar estes ficheiros para o Cloud Storage, tem de cumprir os seguintes requisitos:

  • O tamanho total não comprimido de todos os ficheiros no ficheiro ZIP de metadados tem de ser inferior a 50 GB.
  • O ficheiro ZIP de metadados e o ficheiro ZIP que contém os registos de consultas têm de ser carregados para uma pasta do Cloud Storage. Se tiver vários ficheiros ZIP com registos de consultas não sobrepostos, pode carregá-los todos.
  • Tem de carregar todos os ficheiros para a mesma pasta do Cloud Storage.
  • Tem de carregar todos os ficheiros ZIP de metadados e registos de consultas exatamente como são gerados pela ferramenta dwh-migration-dumper. Não extraia, combine nem modifique os dados de outra forma.
  • O tamanho total não comprimido de todos os ficheiros do histórico de consultas tem de ser inferior a 5 TB.

Para mais informações sobre como criar contentores e carregar ficheiros para o Cloud Storage, consulte os artigos Crie contentores e Carregue objetos a partir de um sistema de ficheiros.

Oracle

Para pedir feedback ou apoio técnico para esta funcionalidade, envie um email para bq-edw-migration-support@google.com.

Carregue o ficheiro ZIP com metadados e estatísticas de desempenho para um contentor do Cloud Storage. Por predefinição, o nome do ficheiro ZIP é dwh-migration-oracle-stats.zip, mas pode personalizá-lo especificando-o na flag --output. O limite para o tamanho total não comprimido de todos os ficheiros no ficheiro ZIP é de 50 GB.

Para mais informações sobre como criar contentores e carregar ficheiros para o Cloud Storage, consulte os artigos Crie contentores e Carregue objetos a partir de um sistema de ficheiros.

Hadoop / Cloudera

Para pedir feedback ou apoio técnico para esta funcionalidade, envie um email para bq-edw-migration-support@google.com.

Carregue o ficheiro ZIP com metadados e estatísticas de desempenho para um contentor do Cloud Storage. Por predefinição, o nome do ficheiro ZIP é dwh-migration-cloudera-manager-RUN_DATE.zip (por exemplo, dwh-migration-cloudera-manager-20250312T145808.zip), mas pode personalizá-lo com a flag --output. O limite para o tamanho total não comprimido de todos os ficheiros no ficheiro ZIP é de 50 GB.

Para mais informações sobre como criar contentores e carregar ficheiros para o Cloud Storage, consulte os artigos Crie um contentor e Carregue objetos a partir de um sistema de ficheiros.

Apache Hive

Carregue os metadados e as pastas que contêm registos de consultas de um ou mais clusters do Hive para o seu contentor do Cloud Storage. Para mais informações sobre como criar contentores e carregar ficheiros para o Cloud Storage, consulte os artigos Crie contentores e Carregue objetos a partir de um sistema de ficheiros.

O limite para o tamanho total não comprimido de todos os ficheiros no ficheiro ZIP de metadados é de 50 GB.

Pode usar o conetor do Cloud Storage para copiar os registos de consultas diretamente para a pasta do Cloud Storage. As pastas que contêm subpastas com registos de consultas têm de ser carregadas para a mesma pasta do Cloud Storage onde o ficheiro ZIP de metadados é carregado.

As pastas de registos de consultas têm ficheiros do histórico de consultas com o prefixo dwhassessment_. O limite para o tamanho total não comprimido de todos os ficheiros do histórico de consultas é de 5 TB.

Informatica

Para pedir feedback ou apoio técnico para esta funcionalidade, envie um email para bq-edw-migration-support@google.com.

Carregue um ficheiro ZIP que contenha os objetos do repositório XML do Informatica para um contentor do Cloud Storage. Este ficheiro ZIP também tem de incluir um ficheiro compilerworks-metadata.yaml que contenha o seguinte:

  product:
    arguments: "ConnectorArguments{connector=informatica, assessment=true}"

O limite para o tamanho total não comprimido de todos os ficheiros no ficheiro ZIP é de 50 GB.

Para mais informações sobre como criar contentores e carregar ficheiros para o Cloud Storage, consulte os artigos Crie contentores e Carregue objetos a partir de um sistema de ficheiros.

Execute uma avaliação de migração do BigQuery

Siga estes passos para executar a avaliação da migração do BigQuery. Estes passos pressupõem que carregou os ficheiros de metadados para um contentor do Cloud Storage, conforme descrito na secção anterior.

Autorizações necessárias

Para ativar o serviço de migração do BigQuery, precisa das seguintes autorizações de Identity and Access Management (IAM):

  • resourcemanager.projects.get
  • resourcemanager.projects.update
  • serviceusage.services.enable
  • serviceusage.services.get

Para aceder e usar o serviço de migração do BigQuery, precisa das seguintes autorizações no projeto:

  • bigquerymigration.workflows.create
  • bigquerymigration.workflows.get
  • bigquerymigration.workflows.list
  • bigquerymigration.workflows.delete
  • bigquerymigration.subtasks.get
  • bigquerymigration.subtasks.list

Para executar o serviço de migração do BigQuery, precisa das seguintes autorizações adicionais.

  • Autorização para aceder aos contentores do Cloud Storage para ficheiros de entrada e saída:

    • storage.objects.get no contentor do Cloud Storage de origem
    • storage.objects.list no contentor do Cloud Storage de origem
    • storage.objects.create no contentor de destino do Cloud Storage
    • storage.objects.delete no contentor de destino do Cloud Storage
    • storage.objects.update no contentor de destino do Cloud Storage
    • storage.buckets.get
    • storage.buckets.list
  • Autorização para ler e atualizar o conjunto de dados do BigQuery onde o serviço de migração do BigQuery escreve os resultados:

    • bigquery.datasets.update
    • bigquery.datasets.get
    • bigquery.datasets.create
    • bigquery.datasets.delete
    • bigquery.jobs.create
    • bigquery.jobs.delete
    • bigquery.jobs.list
    • bigquery.jobs.update
    • bigquery.tables.create
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.tables.list
    • bigquery.tables.updateData

Para partilhar o relatório do Looker Studio com um utilizador, tem de conceder as seguintes funções:

  • roles/bigquery.dataViewer
  • roles/bigquery.jobUser

Para personalizar este documento de forma a usar o seu próprio projeto e utilizador nos comandos, edite estas variáveis: PROJECT, USER_EMAIL.

Crie uma função personalizada com as autorizações necessárias para usar a avaliação da migração do BigQuery:

gcloud iam roles create BQMSrole \
  --project=PROJECT \
  --title=BQMSrole \
  --permissions=bigquerymigration.subtasks.get,bigquerymigration.subtasks.list,bigquerymigration.workflows.create,bigquerymigration.workflows.get,bigquerymigration.workflows.list,bigquerymigration.workflows.delete,resourcemanager.projects.update,resourcemanager.projects.get,serviceusage.services.enable,serviceusage.services.get,storage.objects.get,storage.objects.list,storage.objects.create,storage.objects.delete,storage.objects.update,bigquery.datasets.get,bigquery.datasets.update,bigquery.datasets.create,bigquery.datasets.delete,bigquery.tables.get,bigquery.tables.create,bigquery.tables.updateData,bigquery.tables.getData,bigquery.tables.list,bigquery.jobs.create,bigquery.jobs.update,bigquery.jobs.list,bigquery.jobs.delete,storage.buckets.list,storage.buckets.get

Conceda a função personalizada BQMSrole a um utilizador:

gcloud projects add-iam-policy-binding \
  PROJECT \
  --member=user:USER_EMAIL \
  --role=projects/PROJECT/roles/BQMSrole

Conceda as funções necessárias a um utilizador com o qual quer partilhar o relatório:

gcloud projects add-iam-policy-binding \
  PROJECT \
  --member=user:USER_EMAIL \
  --role=roles/bigquery.dataViewer

gcloud projects add-iam-policy-binding \
  PROJECT \
  --member=user:USER_EMAIL \
  --role=roles/bigquery.jobUser

Localizações suportadas

A funcionalidade de avaliação da migração do BigQuery é suportada em dois tipos de localizações:

  • Uma região é um local geográfico específico, como Londres.

  • Uma multirregião é uma grande área geográfica, como os Estados Unidos, que contém duas ou mais regiões. As localizações multirregionais podem oferecer quotas maiores do que as regiões únicas.

Para mais informações sobre regiões e zonas, consulte o artigo Geografia e regiões.

Regiões

A tabela seguinte apresenta as regiões nas Américas onde a avaliação da migração do BigQuery está disponível.
Descrição da região Nome da região Detalhes
Columbus, Ohio us-east5
Dallas us-south1 ícone de folha Baixo CO2
Iowa us-central1 ícone de folha Baixo CO2
Carolina do Sul us-east1
Virgínia do Norte us-east4
Oregon us-west1 ícone de folha Baixo CO2
Los Angeles us-west2
Salt Lake City us-west3
A tabela seguinte apresenta as regiões na Ásia-Pacífico onde a avaliação da migração do BigQuery está disponível.
Descrição da região Nome da região Detalhes
Singapura asia-southeast1
Tóquio asia-northeast1
A tabela seguinte apresenta as regiões na Europa onde a avaliação da migração do BigQuery está disponível.
Descrição da região Nome da região Detalhes
Bélgica europe-west1 ícone de folha Baixo CO2
Finlândia europe-north1 ícone de folha Baixo CO2
Frankfurt europe-west3
Londres europe-west2 ícone de folha Baixo CO2
Madrid europe-southwest1 ícone de folha Baixo CO2
Países Baixos europe-west4 ícone de folha Baixo CO2
Paris europe-west9 ícone de folha Baixo CO2
Turim europe-west12
Varsóvia europe-central2
Zurique europe-west6 ícone de folha Baixo CO2

Várias regiões

A tabela seguinte lista as multirregiões onde a avaliação da migração do BigQuery está disponível.
Descrição multirregião Nome multirregião
Centros de dados nos Estados-Membros da União Europeia EU
Centros de dados nos Estados Unidos US

Antes de começar

Antes de executar a avaliação, tem de ativar a API BigQuery Migration e criar um conjunto de dados do BigQuery para armazenar os resultados da avaliação.

Ative a API BigQuery Migration

Ative a API BigQuery Migration da seguinte forma:

  1. Na Google Cloud consola, aceda à página da API BigQuery Migration.

    Aceda à API BigQuery Migration

  2. Clique em Ativar.

Crie um conjunto de dados para os resultados da avaliação

A avaliação da migração do BigQuery escreve os resultados da avaliação em tabelas no BigQuery. Antes de começar, crie um conjunto de dados para conter estas tabelas. Quando partilha o relatório do Looker Studio, também tem de conceder aos utilizadores autorização para ler este conjunto de dados. Para mais informações, consulte o artigo Disponibilize o relatório aos utilizadores.

Execute a avaliação da migração

Consola

  1. Na Google Cloud consola, aceda à página BigQuery.

    Aceda ao BigQuery

  2. No menu de navegação, clique em Avaliação.

  3. Clique em Iniciar avaliação.

  4. Preencha a caixa de diálogo de configuração da avaliação.

    1. Em Nome a apresentar, introduza o nome que pode conter letras, números ou sublinhados. Este nome destina-se apenas a fins de apresentação e não tem de ser exclusivo.
    2. Na lista Localização dos dados, escolha uma localização para a tarefa de avaliação. A tarefa de avaliação tem de estar localizada na mesma localização que o seu contentor do Cloud Storage de entrada de ficheiros extraídos e o seu conjunto de dados do BigQuery de saída. No entanto, se o contentor do Cloud Storage ou o conjunto de dados do BigQuery estiver localizado numa multirregião, a tarefa de avaliação tem de estar numa das regiões dentro desta multirregião.

      Se a localização da avaliação for uma região múltipla US ou EU, então a localização do contentor do Cloud Storage e a localização do conjunto de dados do BigQuery têm de estar na mesma região múltipla ou na localização dentro desta região múltipla. Para mais informações sobre restrições de localização, consulte Considerações sobre a localização dos dados de carregamento do BigQuery .

    3. Para Origem de dados de avaliação, escolha o seu armazém de dados.

    4. Para Caminho para ficheiros de entrada, introduza o caminho para o contentor do Cloud Storage que contém os seus ficheiros extraídos.

    5. Para escolher como os resultados da avaliação são armazenados, selecione uma das seguintes opções:

      • Mantenha a caixa de verificação Criar automaticamente o novo conjunto de dados do BigQuery selecionada para que o conjunto de dados do BigQuery seja criado automaticamente. O nome do conjunto de dados é gerado automaticamente.
      • Desmarque a caixa de verificação Criar automaticamente o novo conjunto de dados do BigQuery e escolha o conjunto de dados do BigQuery vazio existente através do formato projectId.datasetId ou crie um novo nome de conjunto de dados. Nesta opção, pode escolher o nome do conjunto de dados do BigQuery.

    Opção 1: geração automática do conjunto de dados do BigQuery (predefinição) Caixa de diálogo de configuração da avaliação.

    Opção 2: criação manual do conjunto de dados do BigQuery: Caixa de diálogo de configuração da avaliação com criação manual do conjunto de dados.

  5. Clique em Criar. Pode ver o estado da tarefa na lista de tarefas de avaliação.

    Enquanto a avaliação está em execução, pode verificar o respetivo progresso e o tempo estimado para a conclusão na sugestão do ícone de estado.

    Progresso da avaliação na sugestão.

  6. Enquanto a avaliação está em execução, pode clicar no link Ver relatório na lista de tarefas de avaliação para ver o relatório de avaliação com dados parciais no Looker Studio. O link Ver relatório pode demorar algum tempo a aparecer enquanto a avaliação está em execução. O relatório é aberto num novo separador.

    O relatório é atualizado com novos dados à medida que são processados. Atualize o separador com o relatório ou clique novamente em Ver relatório para ver o relatório atualizado.

  7. Após a conclusão da avaliação, clique em Ver relatório para ver o relatório de avaliação completo no Looker Studio. O relatório é aberto num novo separador.

API

Chame o método create com um fluxo de trabalho definido.

Em seguida, chame o método start para iniciar o fluxo de trabalho de avaliação.

A avaliação cria tabelas no conjunto de dados do BigQuery que criou anteriormente. Pode consultar estas tabelas para obter informações sobre as tabelas e as consultas usadas no seu data warehouse existente. Para obter informações sobre os ficheiros de saída da tradução, consulte o artigo Tradutor de SQL em lote.

Resultado da avaliação agregado partilhável

Para as avaliações do Amazon Redshift, Teradata e Snowflake, além do conjunto de dados do BigQuery criado anteriormente, o fluxo de trabalho cria outro conjunto de dados simples com o mesmo nome, mais o sufixo _shareableRedactedAggregate. Este conjunto de dados contém dados altamente agregados derivados do conjunto de dados de saída e não contém informações de identificação pessoal (IIP).

Para encontrar, inspecionar e partilhar de forma segura o conjunto de dados com outros utilizadores, consulte o artigo Consultar as tabelas de resultados da avaliação da migração.

A funcionalidade está ativada por predefinição, mas pode desativá-la através da API pública.

Detalhes da avaliação

Para ver a página de detalhes da avaliação, clique no nome a apresentar na lista de tarefas de avaliação.

Página da lista de avaliações.

A página de detalhes da avaliação contém o separador Configuração, onde pode ver mais informações sobre uma tarefa de avaliação, e o separador Erros, onde pode rever quaisquer erros ocorridos durante o processamento da avaliação.

Consulte o separador Configuração para ver as propriedades da avaliação.

Página de detalhes da avaliação: separador de configuração.

Consulte o separador Erros para ver os erros ocorridos durante o processamento da avaliação.

Página de detalhes da avaliação: separador Erros.

Reveja e partilhe o relatório do Looker Studio

Após a conclusão da tarefa de avaliação, pode criar e partilhar um relatório do Looker Studio dos resultados.

Reveja o relatório

Clique no link Ver relatório apresentado junto à tarefa de avaliação individual. O relatório do Looker Studio é aberto num novo separador, no modo de pré-visualização. Pode usar o modo de pré-visualização para rever o conteúdo do relatório antes de o partilhar mais.

O relatório tem um aspeto semelhante à seguinte captura de ecrã:

Relatório de avaliação.

Para ver que vistas estão contidas no relatório, selecione o seu armazém de dados:

Teradata

O relatório é uma narrativa de três partes precedida de uma página de destaques de resumo. Essa página inclui as seguintes secções:

  • Sistema existente. Esta secção é uma vista geral do sistema e da utilização do Teradata existentes, incluindo o número de bases de dados, esquemas, tabelas e o tamanho total em TB. Também lista os esquemas por tamanho e indica uma potencial utilização de recursos abaixo do ideal (tabelas sem escritas ou com poucas leituras).
  • Transformações de estado estável do BigQuery (sugestões). Esta secção mostra o aspeto do sistema no BigQuery após a migração. Inclui sugestões para otimizar as cargas de trabalho no BigQuery (e evitar o desperdício).
  • Plano de migração. Esta secção fornece informações sobre o esforço de migração em si, por exemplo, a transição do sistema existente para o estado estável do BigQuery. Esta secção inclui a quantidade de consultas que foram traduzidas automaticamente e o tempo esperado para mover cada tabela para o BigQuery.

Os detalhes de cada secção incluem o seguinte:

Sistema existente

  • Computação e consultas
    • Utilização da CPU:
      • Mapa térmico da utilização média da CPU por hora (vista geral da utilização de recursos do sistema)
      • Consultas por hora e dia com utilização da CPU
      • Consultas por tipo (leitura/escrita) com utilização da CPU
      • Aplicações com utilização da CPU
      • Sobreposição da utilização da CPU por hora com o desempenho das consultas por hora médio e o desempenho das aplicações por hora médio
    • Histograma de consultas por tipo e durações das consultas
    • Vista de detalhes das aplicações (app, utilizador, consultas únicas, relatórios versus discriminação de ETL)
  • Vista geral do armazenamento
    • Bases de dados por volume, visualizações e taxas de acesso
    • Tabelas com taxas de acesso por utilizadores, consultas, gravações e criações de tabelas temporárias
  • Aplicações: taxas de acesso e endereços IP

Transformações de estado estável do BigQuery (sugestões)

  • Índices de junção convertidos em vistas materializadas
  • Agrupamento e divisão de candidatos com base em metadados e utilização
  • Consultas de baixa latência identificadas como candidatas ao BigQuery BI Engine
  • Colunas configuradas com valores predefinidos que usam a funcionalidade de descrição da coluna para armazenar valores predefinidos
  • Índices únicos no Teradata (para impedir linhas com chaves não únicas numa tabela) use tabelas de preparação e uma declaração MERGE para inserir apenas registos únicos nas tabelas de destino e, em seguida, rejeitar duplicados
  • Consultas e esquema restantes traduzidos tal como estão

Plano de migração

  • Vista detalhada com consultas traduzidas automaticamente
    • Contagem do total de consultas com a capacidade de filtrar por utilizador, aplicação, tabelas afetadas, tabelas consultadas e tipo de consulta
    • Recipientes de consultas com padrões semelhantes agrupados e apresentados em conjunto para que o utilizador possa ver a filosofia de tradução por tipos de consultas
  • Consultas que requerem intervenção humana
    • Consultas com violações da estrutura léxica do BigQuery
    • Funções e procedimentos definidos pelo utilizador
    • Palavras-chave reservadas do BigQuery
  • Tabelas agendadas por escritas e leituras (para as agrupar para mover)
  • Migração de dados com o Serviço de transferência de dados do BigQuery: Tempo estimado de migração por tabela

A secção Sistema existente contém as seguintes vistas:

Vista geral do sistema
A vista Vista geral do sistema apresenta as métricas de volume de nível elevado dos componentes principais no sistema existente durante um período especificado. A cronologia avaliada depende dos registos que foram analisados pela avaliação da migração do BigQuery. Esta vista dá-lhe estatísticas rápidas sobre a utilização do armazém de dados de origem, que pode usar para o planeamento da migração.
Volume da tabela
A vista Volume da tabela fornece estatísticas sobre as maiores tabelas e bases de dados encontradas pela avaliação da migração do BigQuery. Uma vez que as tabelas grandes podem demorar mais tempo a extrair do sistema de armazém de dados de origem, esta vista pode ser útil no planeamento e na sequenciação da migração.
Utilização de tabelas
A vista Utilização da tabela fornece estatísticas sobre as tabelas que são muito usadas no sistema de data warehouse de origem. As tabelas muito usadas podem ajudar a compreender que tabelas podem ter muitas dependências e exigir um planeamento adicional durante o processo de migração.
Aplicações
A vista Utilização de aplicações e a vista Padrões de aplicações fornecem estatísticas sobre as aplicações encontradas durante o processamento dos registos. Estas vistas permitem aos utilizadores compreender a utilização de aplicações específicas ao longo do tempo e o impacto na utilização de recursos. Durante uma migração, é importante visualizar o carregamento e o consumo de dados para compreender melhor as dependências do data warehouse e analisar o impacto da movimentação de várias aplicações dependentes em conjunto. A tabela de endereços IP pode ser útil para identificar a aplicação exata que usa o data warehouse através de ligações JDBC.
Consultas
A vista Consultas apresenta uma análise detalhada dos tipos de declarações SQL executadas e estatísticas da respetiva utilização. Pode usar o histograma de tipo de consulta e hora para identificar períodos de baixa utilização do sistema e horas do dia ideais para transferir dados. Também pode usar esta vista para identificar consultas executadas com frequência e os utilizadores que invocam essas execuções.
Bases de dados
A vista Bases de dados fornece métricas sobre o tamanho, as tabelas, as vistas e os procedimentos definidos no sistema de data warehouse de origem. Esta vista pode dar estatísticas sobre o volume de objetos que tem de migrar.
Ligação da base de dados
A vista de união de bases de dados oferece uma vista de alto nível das bases de dados e das tabelas acedidas em conjunto numa única consulta. Esta vista pode mostrar que tabelas e bases de dados são referenciadas com frequência e o que pode usar para o planeamento da migração.

A secção Estado estável do BigQuery contém as seguintes vistas:

Tabelas sem utilização
A vista Tabelas sem utilização apresenta tabelas nas quais a avaliação da migração do BigQuery não conseguiu encontrar nenhuma utilização durante o período dos registos que foi analisado. A falta de utilização pode indicar que não precisa de transferir essa tabela para o BigQuery durante a migração ou que os custos de armazenamento de dados no BigQuery podem ser inferiores. Deve validar a lista de tabelas não usadas, uma vez que podem ter utilização fora do período dos registos, como uma tabela que só é usada uma vez a cada três ou seis meses.
Tabelas sem gravações
A vista Tabelas sem gravações apresenta tabelas nas quais a avaliação da migração do BigQuery não conseguiu encontrar atualizações durante o período dos registos que foi analisado. A falta de gravações pode indicar onde pode reduzir os custos de armazenamento no BigQuery.
Consultas de baixa latência
A vista Consultas de baixa latência apresenta uma distribuição dos tempos de execução das consultas com base nos dados de registo analisados. Se o gráfico de distribuição da duração das consultas apresentar um grande número de consultas com um tempo de execução inferior a 1 segundo, pondere ativar o BigQuery BI Engine para acelerar a inteligência empresarial e outras cargas de trabalho de baixa latência.
Vistas materializadas
A vista materializada oferece sugestões de otimização adicionais para melhorar o desempenho no BigQuery.
Clustering e particionamento

A vista Particionamento e clustering apresenta tabelas que beneficiariam do particionamento, do clustering ou de ambos.

As sugestões de metadados são alcançadas através da análise do esquema do armazém de dados de origem (como a partição e a chave primária na tabela de origem) e da procura do equivalente mais próximo no BigQuery para alcançar características de otimização semelhantes.

As sugestões de carga de trabalho são alcançadas através da análise dos registos de consultas de origem. A recomendação é determinada através da análise das cargas de trabalho, especialmente as cláusulas WHERE ou JOIN nos registos de consultas analisados.

Recomendação de clustering

A vista Particionamento apresenta tabelas que podem ter mais de 10 000 partições, com base na respetiva definição de restrição de particionamento. Estas tabelas tendem a ser boas candidatas para a agrupamento do BigQuery, que permite partições de tabelas detalhadas.

Restrições únicas

A vista Unique Constraints apresenta tabelas SET e índices únicos definidos no data warehouse de origem. No BigQuery, é recomendado usar tabelas de preparação e uma declaração MERGE para inserir apenas registos únicos numa tabela de destino. Use o conteúdo desta vista para ajudar a determinar que tabelas pode ter de ajustar para a ETL durante a migração.

Valores predefinidos / restrições de verificação

Esta vista mostra tabelas que usam restrições de verificação para definir valores de colunas predefinidos. No BigQuery, consulte o artigo Especifique valores de colunas predefinidos.

A secção Caminho de migração do relatório contém as seguintes vistas:

Tradução de SQL
A vista Tradução de SQL apresenta a quantidade e os detalhes das consultas que foram convertidas automaticamente pela avaliação da migração do BigQuery e não requerem intervenção manual. Normalmente, a tradução automática de SQL alcança taxas de tradução elevadas se forem fornecidos metadados. Esta vista é interativa e permite a análise de consultas comuns e como estas são traduzidas.
Esforço offline
A vista Esforço offline capta as áreas que precisam de intervenção manual, incluindo UDFs específicas e potenciais violações da estrutura lexical e da sintaxe para tabelas ou colunas.
Palavras-chave reservadas do BigQuery
A vista Palavras-chave reservadas do BigQuery apresenta a utilização detetada de palavras-chave que têm um significado especial na linguagem GoogleSQL e não podem ser usadas como identificadores, a menos que estejam entre carateres de acento grave (`).
Horário das atualizações de tabelas
A vista de agendamento de atualizações de tabelas mostra quando e com que frequência as tabelas são atualizadas para ajudar a planear como e quando as mover.
Migração de dados para o BigQuery
A vista Migração de dados para o BigQuery descreve o caminho de migração com o tempo esperado para migrar os seus dados através do Serviço de transferência de dados do BigQuery. Para mais informações, consulte o guia do Serviço de transferência de dados do BigQuery para o Teradata.

A secção Apêndice contém as seguintes vistas:

Sensibilidade a maiúsculas e minúsculas
A vista Sensibilidade a maiúsculas e minúsculas mostra tabelas no data warehouse de origem que estão configuradas para fazer comparações insensíveis a maiúsculas e minúsculas. Por predefinição, as comparações de strings no BigQuery são sensíveis a maiúsculas e minúsculas. Para mais informações, consulte o artigo Ordenação.

Redshift

Destaques da migração
A vista Destaques da migração oferece um resumo executivo das três secções do relatório:
  1. O painel Sistema existente fornece informações sobre o número de bases de dados, esquemas, tabelas e o tamanho total do sistema Redshift existente. Também apresenta os esquemas por tamanho e potencial utilização de recursos abaixo do ideal. Pode usar estas informações para otimizar os seus dados removendo, dividindo ou agrupando as tabelas.
  2. O painel Estado estável do BigQuery fornece informações sobre o aspeto dos seus dados após a migração no BigQuery, incluindo o número de consultas que podem ser traduzidas automaticamente através do serviço de migração do BigQuery. Esta secção também mostra os custos de armazenamento dos seus dados no BigQuery com base na taxa de carregamento de dados anual, juntamente com sugestões de otimização para tabelas, aprovisionamento e espaço.
  3. O painel Caminho de migração fornece informações sobre o esforço de migração em si. Para cada tabela, mostra o tempo esperado para a migração, o número de linhas na tabela e o respetivo tamanho.

A secção Sistema existente contém as seguintes vistas:

Consultas por tipo e programação
A vista Consultas por tipo e programação categoriza as suas consultas em ETL/gravação e relatórios/agregação. Ver a combinação de consultas ao longo do tempo ajuda a compreender os padrões de utilização existentes e a identificar a variabilidade e o potencial aprovisionamento excessivo que podem afetar o custo e o desempenho.
Colocação de consultas em fila
A vista de colocação em fila de consultas fornece detalhes adicionais sobre a carga do sistema, incluindo o volume de consultas, a combinação e os impactos no desempenho devido à colocação em fila, como recursos insuficientes.
Consultas e escalabilidade da GCL
A vista Consultas e escalamento de WLM identifica o escalamento de concorrência como um custo adicional e uma complexidade de configuração. Mostra como o seu sistema Redshift encaminha as consultas com base nas regras especificadas e os impactos no desempenho devido ao processamento em fila, ao dimensionamento da concorrência e às consultas removidas.
Colocação em fila e espera
A vista de filas de espera e tempos de espera oferece uma análise mais detalhada dos tempos de espera das consultas ao longo do tempo.
Classes e desempenho do WLM
A vista Classes e desempenho do WLM oferece uma forma opcional de mapear as suas regras para o BigQuery. No entanto, recomendamos que permita que o BigQuery encaminhe automaticamente as suas consultas.
Estatísticas de volume de consultas e tabelas
A vista Estatísticas de volume de consultas e tabelas apresenta as consultas por tamanho, frequência e principais utilizadores. Isto ajuda a categorizar as origens de carga no sistema e a planear como migrar as suas cargas de trabalho.
Bases de dados e esquemas
A vista Bases de dados e esquemas fornece métricas sobre o tamanho, as tabelas, as vistas e os procedimentos definidos no sistema de armazém de dados de origem. Isto permite analisar o volume de objetos que têm de ser migrados.
Volume da tabela
A vista Volume da tabela fornece estatísticas sobre as maiores tabelas e bases de dados, mostrando como são acedidas. Uma vez que as tabelas grandes podem demorar mais tempo a extrair do sistema de armazém de dados de origem, esta vista ajuda a planear e sequenciar a migração.
Utilização de tabelas
A vista Utilização da tabela fornece estatísticas sobre as tabelas que são muito usadas no sistema de data warehouse de origem. As tabelas muito usadas podem ser usadas para compreender as tabelas que podem ter muitas dependências e justificar um planeamento adicional durante o processo de migração.
Importadores e exportadores
A vista Importadores e exportadores fornece informações sobre os dados e os utilizadores envolvidos na importação de dados (através de COPYconsultas) e na exportação de dados (através de UNLOADconsultas). Esta vista ajuda a identificar a camada de preparação e os processos relacionados com o carregamento e as exportações.
Utilização do cluster
A vista de utilização do cluster fornece informações gerais sobre todos os clusters disponíveis e apresenta a utilização da CPU para cada cluster. Esta vista pode ajudar a compreender a reserva de capacidade do sistema.

A secção Estado estável do BigQuery contém as seguintes vistas:

Agrupamento e particionamento

A vista Particionamento e clustering apresenta tabelas que beneficiariam do particionamento, do clustering ou de ambos.

As sugestões de metadados são alcançadas através da análise do esquema do data warehouse de dados de origem (como a chave de ordenação e a chave de distribuição na tabela de origem) e da procura do equivalente mais próximo no BigQuery para alcançar características de otimização semelhantes.

As sugestões de carga de trabalho são alcançadas através da análise dos registos de consultas de origem. A recomendação é determinada através da análise das cargas de trabalho, especialmente as cláusulas WHERE ou JOIN nos registos de consultas analisados.

Na parte inferior da página, encontra uma declaração de criação de tabela traduzida com todas as otimizações fornecidas. Todas as declarações DDL traduzidas também podem ser extraídas do conjunto de dados. As declarações DDL traduzidas são armazenadas na tabela SchemaConversion na coluna CreateTableDDL.

As recomendações no relatório são fornecidas apenas para tabelas com mais de 1 GB, porque as tabelas pequenas não beneficiam da agrupagem e da partição. No entanto, o DDL para todas as tabelas (incluindo tabelas com menos de 1 GB) está disponível na tabela SchemaConversion.

Tabelas sem utilização

A vista Tabelas sem utilização apresenta tabelas onde a avaliação da migração do BigQuery não identificou nenhuma utilização durante o período dos registos analisados. A falta de utilização pode indicar que não precisa de transferir essa tabela para o BigQuery durante a migração ou que os custos de armazenamento de dados no BigQuery podem ser inferiores (faturados como armazenamento a longo prazo). Recomendamos que valide a lista de tabelas não usadas, uma vez que podem ter utilização fora do período dos registos, como uma tabela que só é usada uma vez a cada três ou seis meses.

Tabelas sem gravações

A vista Tabelas sem gravações apresenta tabelas em que a avaliação da migração do BigQuery não identificou atualizações durante o período dos registos analisados. A falta de gravações pode indicar onde pode reduzir os custos de armazenamento no BigQuery (faturados como armazenamento a longo prazo).

BigQuery BI Engine e vistas materializadas

O BigQuery BI Engine e as vistas materializadas oferecem mais sugestões de otimização para aumentar o desempenho no BigQuery.

A secção Caminho de migração contém as seguintes vistas:

Tradução de SQL
A vista Tradução de SQL apresenta a quantidade e os detalhes das consultas que foram convertidas automaticamente pela avaliação da migração do BigQuery e não requerem intervenção manual. Normalmente, a tradução automática de SQL alcança taxas de tradução elevadas se forem fornecidos metadados.
Esforço offline de tradução de SQL
A vista Esforço offline de tradução de SQL capta as áreas que precisam de intervenção manual, incluindo UDFs específicas e consultas com potenciais ambiguidades de tradução.
Suporte de anexação de tabelas de alteração
A vista Alter Table Append Support mostra detalhes sobre construções comuns de SQL do Redshift que não têm uma contrapartida direta no BigQuery.
Apoio técnico para o comando de cópia
A vista de apoio técnico do comando de cópia mostra detalhes sobre construções comuns de SQL do Redshift que não têm uma contrapartida direta no BigQuery.
Avisos de SQL
A vista Avisos de SQL capta áreas que são traduzidas com êxito, mas requerem uma revisão.
Estrutura lexical e violações de sintaxe
A vista Estrutura lexical e violações de sintaxe apresenta os nomes das colunas, das tabelas, das funções e dos procedimentos que violam a sintaxe do BigQuery.
Palavras-chave reservadas do BigQuery
A vista Palavras-chave reservadas do BigQuery apresenta a utilização detetada de palavras-chave que têm um significado especial na linguagem GoogleSQL e não podem ser usadas como identificadores, a menos que estejam entre carateres de acento grave (`).
Ligação de esquemas
A vista de associação de esquemas oferece uma vista de alto nível das bases de dados, dos esquemas e das tabelas que são acedidos em conjunto numa única consulta. Esta vista pode mostrar as tabelas, os esquemas e as bases de dados que são referenciados com frequência e o que pode usar para o planeamento da migração.
Horário das atualizações de tabelas
A vista Horário de atualizações das tabelas mostra quando e com que frequência as tabelas são atualizadas para ajudar a planear como e quando as mover.
Escala da tabela
A vista de escala da tabela apresenta as tabelas com o maior número de colunas.
Migração de dados para o BigQuery
A vista Migração de dados para o BigQuery descreve o caminho de migração com o tempo esperado para migrar os seus dados através do Serviço de transferência de dados do BigQuery. Para mais informações, consulte o guia do Serviço de transferência de dados do BigQuery para o Redshift.
Resumo da execução da avaliação

O resumo da execução da avaliação contém a integridade do relatório, o progresso da avaliação em curso e o estado dos ficheiros processados e dos erros.

A integridade do relatório representa a percentagem de dados processados com êxito que se recomenda apresentar para obter estatísticas significativas no relatório de avaliação. Se os dados de uma secção específica do relatório estiverem em falta, estas informações são apresentadas na tabela Módulos de avaliação no indicador Integridade do relatório.

A métrica progress indica a percentagem de dados processados até ao momento, juntamente com a estimativa do tempo restante para processar todos os dados. Após a conclusão do processamento, a métrica de progresso não é apresentada.

Resumo da execução da avaliação.

Redshift sem servidor

Destaques da migração
Esta página de relatório mostra o resumo das bases de dados sem servidor do Amazon Redshift existentes, incluindo o tamanho e o número de tabelas. Além disso, fornece a estimativa de alto nível do valor do contrato anual (ACV), ou seja, o custo de computação e armazenamento no BigQuery. A vista Destaques da migração oferece um resumo executivo das três secções do relatório.

A secção Sistema existente tem as seguintes vistas:

Bases de dados e esquemas
Fornece uma discriminação do tamanho total do armazenamento em GB para cada base de dados, esquema ou tabela.
Bases de dados e esquemas externos
Apresenta uma discriminação do tamanho total do armazenamento em GB para cada base de dados, esquema ou tabela externa.
Utilização do sistema
Fornece informações gerais sobre a utilização do sistema do histórico. Esta vista apresenta o histórico de utilização de RPUs (unidades de processamento do Amazon Redshift) e o consumo de armazenamento diário. Esta vista pode ajudar a compreender a reserva de capacidade do sistema.

A secção Estado estável do BigQuery fornece informações sobre o aspeto dos seus dados após a migração para o BigQuery, incluindo o número de consultas que podem ser traduzidas automaticamente através do serviço de migração do BigQuery. Esta secção também mostra os custos de armazenamento dos seus dados no BigQuery com base na taxa de ingestão de dados anual, juntamente com sugestões de otimização para tabelas, aprovisionamento e espaço. A secção Estado estável tem as seguintes vistas:

Preços do Amazon Redshift Serverless versus BigQuery
Oferece uma comparação dos modelos de preços do Amazon Redshift Serverless e do BigQuery para ajudar a compreender as vantagens e as potenciais poupanças de custos após a migração para o BigQuery.
Custo de computação do BigQuery (CCT)
Permite-lhe estimar o custo da computação no BigQuery. Existem quatro entradas manuais na calculadora: edição do BigQuery, região, período de compromisso e base. Por predefinição, a calculadora oferece compromissos de base ideais e rentáveis que pode substituir manualmente.
Custo total de propriedade
Permite-lhe estimar o valor do contrato anual (ACV), ou seja, o custo de computação e armazenamento no BigQuery. A calculadora também permite calcular o custo de armazenamento, que varia para o armazenamento ativo e o armazenamento a longo prazo, consoante as modificações da tabela durante o período analisado. Para mais informações, consulte os preços de armazenamento.

A secção Anexo contém esta vista:

Resumo da execução da avaliação
Fornece os detalhes da execução da avaliação, incluindo a lista de ficheiros processados, erros e integridade do relatório. Pode usar esta página para investigar dados em falta no relatório e para compreender melhor a integridade do relatório.

Floco de neve

O relatório é composto por diferentes secções que podem ser usadas separadamente ou em conjunto. O diagrama seguinte organiza estas secções em três objetivos comuns dos utilizadores para ajudar a avaliar as suas necessidades de migração:

Fluxograma do relatório de avaliação da migração para o Snowflake

Migração de vistas de destaques

A secção Destaques da migração contém as seguintes visualizações:

Modelos de preços do Snowflake versus BigQuery
Apresentação dos preços com diferentes níveis/edições. Também inclui uma ilustração de como o ajuste de escala automático do BigQuery pode ajudar a poupar mais custos em comparação com o Snowflake.
Custo total de propriedade
Tabela interativa que permite ao utilizador definir: edição do BigQuery, compromisso, compromisso de slots de base, percentagem de armazenamento ativo e percentagem de dados carregados ou alterados. Ajuda a estimar melhor o custo para caixas personalizadas.
Realces de tradução automática
Rácio de tradução agregado, agrupado por utilizador ou base de dados, ordenado por ordem ascendente ou descendente. Também inclui a mensagem de erro mais comum para a tradução automática com falhas.

Vistas do sistema existentes

A secção Sistema existente contém as seguintes vistas:

Vista geral do sistema
A vista geral do sistema apresenta as métricas de volume de nível elevado dos componentes principais no sistema existente durante um período especificado. A cronologia avaliada depende dos registos que foram analisados pela avaliação da migração do BigQuery. Esta vista oferece estatísticas rápidas sobre a utilização do armazém de dados de origem, que pode usar para o planeamento da migração.
Vista geral dos armazéns virtuais
Mostra o custo do Snowflake por armazém, bem como o reescalonamento baseado em nós ao longo do período.
Volume da tabela
A vista Volume da tabela fornece estatísticas sobre as maiores tabelas e bases de dados encontradas pela avaliação da migração do BigQuery. Uma vez que as tabelas grandes podem demorar mais tempo a extrair do sistema de armazém de dados de origem, esta vista pode ser útil no planeamento e na sequenciação da migração.
Utilização de tabelas
A vista Utilização da tabela fornece estatísticas sobre as tabelas que são muito usadas no sistema de data warehouse de origem. As tabelas muito usadas podem ajudar a compreender que tabelas podem ter muitas dependências e exigir planeamento adicional durante o processo de migração.
Consultas
A vista Consultas apresenta uma análise detalhada dos tipos de declarações SQL executadas e estatísticas da respetiva utilização. Pode usar o histograma de tipo de consulta e tempo para identificar períodos baixos de utilização do sistema e horas do dia ideais para transferir dados. Também pode usar esta vista para identificar consultas executadas com frequência e os utilizadores que invocam essas execuções.
Bases de dados
A vista Bases de dados fornece métricas sobre o tamanho, as tabelas, as vistas e os procedimentos definidos no sistema de data warehouse de origem. Esta vista fornece informações sobre o volume de objetos que tem de migrar.

Vistas de estado estável do BigQuery

A secção Estado estável do BigQuery contém as seguintes vistas:

Tabelas sem utilização
A vista Tabelas sem utilização apresenta tabelas nas quais a avaliação da migração do BigQuery não conseguiu encontrar nenhuma utilização durante o período dos registos que foi analisado. Isto pode indicar que tabelas podem não precisar de ser transferidas para o BigQuery durante a migração ou que os custos de armazenamento de dados no BigQuery podem ser inferiores. Tem de validar a lista de tabelas não usadas, uma vez que podem ter utilização fora do período dos registos analisados, como uma tabela que só é usada uma vez por trimestre ou semestre.
Tabelas sem gravações
A vista Tabelas sem gravações apresenta tabelas nas quais a avaliação da migração do BigQuery não conseguiu encontrar atualizações durante o período dos registos que foi analisado. Isto pode indicar que os custos de armazenamento de dados no BigQuery podem ser inferiores.

Visualizações do plano de migração

A secção Plano de migração do relatório contém as seguintes vistas:

Tradução de SQL
A vista Tradução de SQL apresenta a quantidade e os detalhes das consultas que foram convertidas automaticamente pela avaliação da migração do BigQuery e não requerem intervenção manual. Normalmente, a tradução automática de SQL alcança taxas de tradução elevadas se forem fornecidos metadados. Esta vista é interativa e permite a análise de consultas comuns e como estas são traduzidas.
Esforço offline de tradução de SQL
A vista Esforço offline capta as áreas que precisam de intervenção manual, incluindo UDFs específicas e potenciais violações da estrutura lexical e da sintaxe para tabelas ou colunas.
Avisos de SQL – Para rever
A vista Avisos a rever capta as áreas que estão maioritariamente traduzidas, mas requerem alguma inspeção humana.
Palavras-chave reservadas do BigQuery
A vista Palavras-chave reservadas do BigQuery apresenta a utilização detetada de palavras-chave que têm um significado especial na linguagem GoogleSQL e não podem ser usadas como identificadores, a menos que estejam entre carateres de acento grave (`).
Associação de bases de dados e tabelas
A vista de união de bases de dados oferece uma vista de alto nível das bases de dados e das tabelas acedidas em conjunto numa única consulta. Esta vista pode mostrar as tabelas e as bases de dados que são frequentemente referenciadas e o que pode ser usado para o planeamento da migração.
Horário das atualizações de tabelas
A vista Horário de atualizações das tabelas mostra quando e com que frequência as tabelas são atualizadas para ajudar a planear como e quando as mover.

Visualizações de validação de conceito

A secção PoC (prova de conceito) contém as seguintes vistas:

PoC para demonstrar as poupanças do BigQuery em estado estacionário
Inclui as consultas mais frequentes, as consultas que leem mais dados, as consultas mais lentas e as tabelas afetadas pelas consultas mencionadas acima.
PoC para demonstrar o plano de migração do BigQuery
Mostra como o BigQuery traduz as consultas mais complexas e as tabelas que afetam.

Oracle

Para pedir feedback ou apoio técnico para esta funcionalidade, envie um email para bq-edw-migration-support@google.com.

Destaques da migração

A secção Destaques da migração contém as seguintes visualizações:

  • Sistema existente: uma captura do sistema Oracle existente e da utilização, incluindo o número de bases de dados, esquemas, tabelas e tamanho total em GB. Também fornece o resumo da classificação da carga de trabalho para cada base de dados para ajudar a decidir se o BigQuery é o destino de migração adequado.
  • Compatibilidade: fornece informações sobre o esforço de migração propriamente dito. Para cada base de dados analisada, mostra o tempo esperado para a migração e o número de objetos da base de dados que podem ser migrados automaticamente com as ferramentas fornecidas pela Google.
  • Estado estacionário do BigQuery: contém informações sobre o aspeto dos seus dados após a migração para o BigQuery, incluindo os custos de armazenamento dos dados no BigQuery com base na taxa de carregamento de dados anual e na estimativa de custos de computação. Além disso, fornece estatísticas sobre tabelas subutilizadas.

Sistema existente

A secção Sistema existente contém as seguintes vistas:

  • Workloads Characteristic: descreve o tipo de carga de trabalho para cada base de dados com base nas métricas de desempenho analisadas. Cada base de dados é classificada como OLAP, mista ou OLTP. Estas informações podem ajudar a tomar uma decisão sobre que bases de dados podem ser migradas para o BigQuery.
  • Bases de dados e esquemas: apresenta uma discriminação do tamanho total do armazenamento em GB para cada base de dados, esquema ou tabela. Além disso, pode usar esta vista para identificar vistas materializadas e tabelas externas.
  • Funcionalidades e links da base de dados: mostra a lista de funcionalidades do Oracle usadas na sua base de dados, juntamente com as funcionalidades ou os serviços equivalentes do BigQuery que podem ser usados após a migração. Além disso, pode explorar os links da base de dados para compreender melhor as ligações entre as bases de dados.
  • Ligações à base de dados: fornece estatísticas sobre as sessões da base de dados iniciadas pelo utilizador ou pela aplicação. A análise destes dados pode ajudar a identificar aplicações externas que podem exigir um esforço adicional durante a migração.
  • Tipos de consultas: apresenta uma discriminação dos tipos de declarações SQL executadas e estatísticas da respetiva utilização. Pode usar o histograma por hora de execuções de consultas ou tempo de CPU de consultas para identificar períodos baixos de utilização do sistema e horas do dia ideais para transferir dados.
  • Código fonte PL/SQL: fornece estatísticas sobre os objetos PL/SQL, como funções ou procedimentos, e o respetivo tamanho para cada base de dados e esquema. Além disso, o histograma de execuções por hora pode ser usado para identificar as horas de pico com mais execuções de PL/SQL.
  • Utilização do sistema: fornece informações gerais sobre a utilização do sistema do histórico. Esta vista apresenta a utilização horária da CPU e o consumo de armazenamento diário. Esta vista pode ajudar a compreender a reserva de capacidade do sistema.

Estado estacionário do BigQuery

A secção Estado estacionário do BigQuery contém as seguintes vistas:

  • Preços do Exadata versus BigQuery: fornece a comparação geral dos modelos de preços do Exadata e do BigQuery para ajudar a compreender as vantagens e as potenciais poupanças de custos após a migração para o BigQuery.
  • Leituras/escritas na base de dados do BigQuery: fornece estatísticas sobre as operações de disco físico da base de dados. A análise destes dados pode ajudar a encontrar a melhor altura para fazer a migração de dados do Oracle para o BigQuery.
  • Custo de computação do BigQuery: permite-lhe estimar o custo de computação no BigQuery. Existem quatro entradas manuais na calculadora: BigQuery Edition, Região, Período de compromisso e Base. Por predefinição, a calculadora oferece um compromisso base ideal e rentável que pode substituir manualmente. O valor Horas de intervalo da escalabilidade automática anual indica o número de horas de intervalo usadas fora do compromisso. Este valor é calculado com base na utilização do sistema. A explicação visual das relações entre a base, o dimensionamento automático e a utilização é fornecida no final da página. Cada estimativa mostra o número provável e um intervalo de estimativa.
  • Custo total de propriedade (TCO): permite-lhe estimar o valor anual do contrato (ACV), ou seja, o custo de computação e armazenamento no BigQuery. A calculadora também permite calcular o custo de armazenamento. A calculadora também lhe permite calcular o custo de armazenamento, que varia para o armazenamento ativo e o armazenamento a longo prazo, dependendo das modificações da tabela durante o período analisado. Para mais informações sobre os preços de armazenamento, consulte o artigo Preços de armazenamento.
  • Tabelas subutilizadas: fornece informações sobre tabelas não usadas e só de leitura com base nas métricas de utilização do período analisado. A falta de utilização pode indicar que não precisa de transferir a tabela para o BigQuery durante uma migração ou que os custos de armazenamento de dados no BigQuery podem ser mais baixos (faturados como armazenamento a longo prazo). Recomendamos que valide a lista de tabelas não usadas caso tenham utilização fora do período analisado.

Sugestões de migração

A secção Sugestões de migração contém as seguintes vistas:

  • Compatibilidade de objetos de base de dados: fornece a vista geral da compatibilidade de objetos de base de dados com o BigQuery, incluindo o número de objetos que podem ser migrados automaticamente com ferramentas fornecidas pela Google ou que requerem ação manual. Estas informações são apresentadas para cada base de dados, esquema e tipo de objeto da base de dados.
  • Esforço de migração de objetos da base de dados: mostra a estimativa do esforço de migração em horas para cada base de dados, esquema ou tipo de objeto da base de dados. Além disso, mostra a percentagem de objetos pequenos, médios e grandes com base no esforço de migração.
  • Esforço de migração do esquema da base de dados: apresenta a lista de todos os tipos de objetos da base de dados detetados, o respetivo número, a compatibilidade com o BigQuery e o esforço de migração estimado em horas.
  • Esforço de migração do esquema da base de dados detalhado: fornece estatísticas mais detalhadas sobre o esforço de migração do esquema da base de dados, incluindo as informações de cada objeto individual.

Visualizações de validação de conceito

A secção Visualizações de prova de conceito contém as seguintes visualizações:

  • Migração de prova de conceito: mostra a lista sugerida de bases de dados com o menor esforço de migração que são boas candidatas para a migração inicial. Além disso, mostra as principais consultas que podem ajudar a demonstrar a poupança de tempo e custos, e o valor do BigQuery através de uma prova de conceito.

Anexo

A secção Apêndice contém as seguintes vistas:

  • Resumo da execução da avaliação: fornece os detalhes da execução da avaliação, incluindo a lista de ficheiros processados, erros e a integridade do relatório. Pode usar esta página para investigar dados em falta no relatório e compreender melhor a integridade geral do relatório.

Apache Hive

O relatório composto por uma narrativa de três partes é precedido de uma página de destaques de resumo que inclui as seguintes secções:

  • Sistema existente: Apache Hive. Esta secção consiste numa imagem do sistema e da utilização do Apache Hive existentes, incluindo o número de bases de dados, tabelas, o respetivo tamanho total em GB e o número de registos de consultas processados. Esta secção também apresenta as bases de dados por tamanho e indica uma potencial utilização de recursos abaixo do ideal (tabelas sem escritas ou com poucas leituras) e aprovisionamento. Os detalhes desta secção incluem o seguinte:

    • Calcular e consultar
      • Utilização da CPU:
        • Consultas por hora e dia com utilização da CPU
        • Consultas por tipo (leitura/escrita)
        • Filas e aplicações
        • Sobreposição da utilização da CPU por hora com o desempenho das consultas por hora médio e o desempenho das aplicações por hora médio
      • Histograma de consultas por tipo e durações das consultas
      • Página de colocação em fila e espera
      • Vista detalhada das filas (fila, utilizador, consultas únicas, relatórios versus análise detalhada de ETL, por métricas)
    • Vista geral do armazenamento
      • Bases de dados por volume, visualizações e taxas de acesso
      • Tabelas com taxas de acesso por utilizadores, consultas, gravações e criações de tabelas temporárias
    • Filas e aplicações: taxas de acesso e endereços IP do cliente
  • Estado estacionário do BigQuery. Esta secção mostra o aspeto do sistema no BigQuery após a migração. Inclui sugestões para otimizar as cargas de trabalho no BigQuery (e evitar o desperdício). Os detalhes desta secção incluem o seguinte:

    • Tabelas identificadas como candidatas a visualizações materializadas.
    • Agrupamento e divisão de candidatos com base nos metadados e na utilização.
    • Consultas de baixa latência identificadas como candidatas ao BigQuery BI Engine.
    • Tabelas sem utilização de leitura nem de escrita.
    • Tabelas particionadas com a assimetria de dados.
  • Plano de migração. Esta secção fornece informações sobre o esforço de migração propriamente dito. Por exemplo, passar do sistema existente para o estado estável do BigQuery. Esta secção contém destinos de armazenamento identificados para cada tabela, tabelas identificadas como significativas para a migração e a quantidade de consultas que foram traduzidas automaticamente. Os detalhes desta secção incluem o seguinte:

    • Vista detalhada com consultas traduzidas automaticamente
      • Contagem do total de consultas com a capacidade de filtrar por utilizador, aplicação, tabelas afetadas, tabelas consultadas e tipo de consulta.
      • Recipientes de consultas com padrões semelhantes agrupados, o que permite aos utilizadores ver a filosofia de tradução por tipos de consultas.
    • Consultas que requerem intervenção humana
      • Consultas com violações da estrutura lexical do BigQuery
      • Funções e procedimentos definidos pelo utilizador
      • Palavras-chave reservadas do BigQuery
    • Consulta que requer revisão
    • Tabelas agendadas por escritas e leituras (para as agrupar para mover)
    • Destino de armazenamento identificado para tabelas externas e geridas

A secção Sistema existente – Hive contém as seguintes vistas:

Vista geral do sistema
Esta vista fornece as métricas de volume de alto nível dos componentes principais no sistema existente durante um período especificado. A cronologia avaliada depende dos registos que foram analisados pela avaliação da migração do BigQuery. Esta vista dá-lhe estatísticas rápidas sobre a utilização do armazém de dados de origem, que pode usar para o planeamento da migração.
Volume da tabela
Esta vista fornece estatísticas sobre as maiores tabelas e bases de dados encontradas pela avaliação da migração do BigQuery. Uma vez que as tabelas grandes podem demorar mais tempo a extrair do sistema de armazém de dados de origem, esta vista pode ser útil no planeamento e na sequenciação da migração.
Utilização de tabelas
Esta vista fornece estatísticas sobre as tabelas que são muito usadas no sistema de armazém de dados de origem. As tabelas muito usadas podem ajudar a compreender que tabelas podem ter muitas dependências e exigir um planeamento adicional durante o processo de migração.
Utilização das filas
Esta vista fornece estatísticas sobre a utilização de filas do YARN encontrada durante o processamento de registos. Estas vistas permitem aos utilizadores compreender a utilização de filas e aplicações específicas ao longo do tempo e o impacto na utilização de recursos. Estas vistas também ajudam a identificar e dar prioridade às cargas de trabalho para migração. Durante uma migração, é importante visualizar o carregamento e o consumo de dados para compreender melhor as dependências do data warehouse e analisar o impacto da movimentação de várias aplicações dependentes em conjunto. A tabela de endereços IP pode ser útil para identificar a aplicação exata que usa o data warehouse através de ligações JDBC.
Métricas de filas
Esta vista apresenta uma discriminação das diferentes métricas nas filas do YARN encontradas durante o processamento dos registos. Esta vista permite aos utilizadores compreender os padrões de utilização em filas específicas e o impacto na migração. Também pode usar esta vista para identificar associações entre tabelas acedidas em consultas e filas onde a consulta foi executada.
Colocação em fila e espera
Esta vista fornece informações sobre o tempo de colocação em fila de consultas no data warehouse de origem. Os tempos de fila indicam uma degradação do desempenho devido ao aprovisionamento insuficiente, e o aprovisionamento adicional requer um aumento dos custos de hardware e manutenção.
Consultas
Esta vista apresenta uma análise detalhada dos tipos de declarações SQL executadas e estatísticas da respetiva utilização. Pode usar o histograma de tipo de consulta e hora para identificar períodos de baixa utilização do sistema e horas do dia ideais para transferir dados. Também pode usar esta vista para identificar os motores de execução do Hive mais usados e as consultas executadas com frequência, juntamente com os detalhes do utilizador.
Bases de dados
Esta vista fornece métricas sobre o tamanho, as tabelas, as vistas e os procedimentos definidos no sistema de data warehouse de origem. Esta vista pode dar estatísticas sobre o volume de objetos que tem de migrar.
Associação de bases de dados e tabelas
Esta vista oferece uma vista geral das bases de dados e das tabelas acedidas em conjunto numa única consulta. Esta vista pode mostrar que tabelas e bases de dados são referenciadas com frequência e o que pode usar para o planeamento da migração.

A secção Estado estacionário do BigQuery contém as seguintes vistas:

Tabelas sem utilização
A vista Tabelas sem utilização apresenta tabelas nas quais a avaliação da migração do BigQuery não conseguiu encontrar nenhuma utilização durante o período dos registos que foi analisado. A falta de utilização pode indicar que não precisa de transferir essa tabela para o BigQuery durante a migração ou que os custos de armazenamento de dados no BigQuery podem ser inferiores. Tem de validar a lista de tabelas não usadas porque podem ter utilização fora do período dos registos, como uma tabela que só é usada uma vez a cada três ou seis meses.
Tabelas sem gravações
A vista Tabelas sem gravações apresenta tabelas nas quais a avaliação da migração do BigQuery não conseguiu encontrar atualizações durante o período dos registos que foi analisado. A falta de gravações pode indicar onde pode reduzir os custos de armazenamento no BigQuery.
Recomendações de clustering e particionamento

Esta vista apresenta tabelas que beneficiariam da partição, da agrupagem ou de ambas.

As sugestões de metadados são alcançadas através da análise do esquema do armazém de dados de origem (como a partição e a chave primária na tabela de origem) e da procura do equivalente mais próximo no BigQuery para alcançar características de otimização semelhantes.

As sugestões de carga de trabalho são alcançadas através da análise dos registos de consultas de origem. A recomendação é determinada através da análise das cargas de trabalho, especialmente as cláusulas WHERE ou JOIN nos registos de consultas analisados.

Partições convertidas em clusters

Esta vista apresenta tabelas com mais de 10 000 partições, com base na respetiva definição de restrição de partição. Estas tabelas tendem a ser boas candidatas para a agrupamento do BigQuery, que permite partições de tabelas detalhadas.

Partições enviesadas

A vista Partições enviesadas apresenta tabelas baseadas na análise de metadados e com enviesamento de dados numa ou várias partições. Estas tabelas são boas candidatas para a alteração do esquema, uma vez que as consultas em partições enviesadas podem não ter um bom desempenho.

BI Engine e vistas materializadas

A vista Consultas de baixa latência e vistas materializadas apresenta uma distribuição dos tempos de execução de consultas com base nos dados de registo analisados e sugestões de otimização adicionais para aumentar o desempenho no BigQuery. Se o gráfico de distribuição da duração da consulta apresentar um grande número de consultas com um tempo de execução inferior a 1 segundo, considere ativar o BI Engine para acelerar a inteligência empresarial e outras cargas de trabalho de baixa latência.

A secção Plano de migração do relatório contém as seguintes vistas:

Tradução de SQL
A vista Tradução de SQL apresenta a quantidade e os detalhes das consultas que foram convertidas automaticamente pela avaliação da migração do BigQuery e não requerem intervenção manual. Normalmente, a tradução automática de SQL alcança taxas de tradução elevadas se forem fornecidos metadados. Esta vista é interativa e permite a análise de consultas comuns e como estas são traduzidas.
Esforço offline de tradução de SQL
A vista Esforço offline capta as áreas que precisam de intervenção manual, incluindo UDFs específicas e potenciais violações da estrutura lexical e da sintaxe para tabelas ou colunas.
Avisos de SQL
A vista Avisos de SQL capta áreas que são traduzidas com êxito, mas que requerem uma revisão.
Palavras-chave reservadas do BigQuery
A vista Palavras-chave reservadas do BigQuery apresenta a utilização detetada de palavras-chave que têm um significado especial na linguagem GoogleSQL. Não é possível usar estas palavras-chave como identificadores, a menos que estejam entre carateres de acento grave (`).
Horário das atualizações de tabelas
A vista de agendamento de atualizações de tabelas mostra quando e com que frequência as tabelas são atualizadas para ajudar a planear como e quando as mover.
Tabelas externas do BigLake
A vista de tabelas externas do BigLake descreve as tabelas que são identificadas como destinos para migração para o BigLake em vez do BigQuery.

A secção Apêndice do relatório contém as seguintes vistas:

Análise detalhada do esforço offline de tradução de SQL
A vista de análise detalhada do esforço offline oferece uma estatística adicional das áreas de SQL que requerem intervenção manual.
Análise detalhada de avisos SQL
A vista Análise detalhada de avisos fornece uma estatística adicional das áreas de SQL que foram traduzidas com êxito, mas que requerem uma revisão.

Partilhe o relatório

O relatório do Looker Studio é um painel de controlo de frontend para a avaliação da migração. Baseia-se nas autorizações de acesso ao conjunto de dados subjacente. Para partilhar o relatório, o destinatário tem de ter acesso ao próprio relatório do Looker Studio e ao conjunto de dados do BigQuery que contém os resultados da avaliação.

Quando abre o relatório a partir da Google Cloud consola, está a ver o relatório no modo de pré-visualização. Para criar e partilhar o relatório com outros utilizadores, siga estes passos:

  1. Clique em Editar e partilhar. O Looker Studio pede-lhe para anexar conetores do Looker Studio recém-criados ao novo relatório.
  2. Clique em Adicionar ao relatório. O relatório recebe um ID do relatório individual, que pode usar para aceder ao relatório.
  3. Para partilhar o relatório do Looker Studio com outros utilizadores, siga os passos indicados em Partilhe relatórios com visitantes e editores.
  4. Conceda aos utilizadores autorização para ver o conjunto de dados do BigQuery que foi usado para executar a tarefa de avaliação. Para mais informações, consulte o artigo Conceder acesso a um conjunto de dados.

Consulte as tabelas de resultados da avaliação da migração

Embora os relatórios do Looker Studio sejam a forma mais conveniente de ver os resultados da avaliação, também pode ver e consultar os dados subjacentes no conjunto de dados do BigQuery.

Exemplo de consulta

O exemplo seguinte obtém o número total de consultas únicas, o número de consultas cuja tradução falhou e a percentagem de consultas únicas cuja tradução falhou.

  SELECT
    QueryCount.v AS QueryCount,
    ErrorCount.v as ErrorCount,
    (ErrorCount.v * 100) / QueryCount.v AS FailurePercentage
  FROM
  (
    SELECT
     COUNT(*) AS v
    FROM
      `your_project.your_dataset.TranslationErrors`
    WHERE Severity = "ERROR"
  ) AS ErrorCount,
  (
    SELECT
      COUNT(DISTINCT(QueryHash)) AS v
    FROM
      `your_project.your_dataset.Queries`
  ) AS QueryCount;

Partilhe o seu conjunto de dados com utilizadores noutros projetos

Depois de inspecionar o conjunto de dados, se quiser partilhá-lo com um utilizador que não esteja no seu projeto, pode fazê-lo através do fluxo de trabalho de publicador da partilha do BigQuery (anteriormente, o Analytics Hub).

  1. Na Google Cloud consola, aceda à página BigQuery.

    Aceder ao BigQuery

  2. Clique no conjunto de dados para ver os respetivos detalhes.

  3. Clique em Partilhar > Publicar como ficha.

  4. Na caixa de diálogo apresentada, crie uma ficha conforme indicado.

    Se já tiver uma troca de dados, ignore o passo 5.

  5. Crie uma troca de dados e defina autorizações. Para permitir que um utilizador veja as suas fichas nesta troca, adicione-o à lista de Subscritores.

  6. Introduza os detalhes da ficha.

    O nome a apresentar é o nome desta ficha e é obrigatório. Os outros campos são opcionais.

  7. Clique em Publicar.

    É criada uma ficha privada.

  8. Para a sua ficha, selecione Mais ações em Ações.

  9. Clique em Copiar link de partilha.

    Pode partilhar o link com os utilizadores que têm acesso por subscrição à sua bolsa de trocas ou ficha.

Esquemas das tabelas de avaliação

Para ver as tabelas e os respetivos esquemas que a avaliação da migração do BigQuery escreve no BigQuery, selecione o seu armazém de dados:

Teradata

AllRIChildren

Esta tabela fornece as informações de integridade referencial dos elementos secundários da tabela.

Coluna Tipo Descrição
IndexId INTEGER O número do índice de referência.
IndexName STRING O nome do índice.
ChildDB STRING O nome da base de dados de referência, convertido em minúsculas.
ChildDBOriginal STRING O nome da base de dados de referência com a capitalização preservada.
ChildTable STRING O nome da tabela de referência, convertido em minúsculas.
ChildTableOriginal STRING O nome da tabela de referência com a capitalização preservada.
ChildKeyColumn STRING O nome de uma coluna na chave de referência, convertido em minúsculas.
ChildKeyColumnOriginal STRING O nome de uma coluna na chave de referência com a capitalização preservada.
ParentDB STRING O nome da base de dados referenciada, convertido em minúsculas.
ParentDBOriginal STRING O nome da base de dados referenciada com a capitalização preservada.
ParentTable STRING O nome da tabela referenciada, convertido em minúsculas.
ParentTableOriginal STRING O nome da tabela referenciada com a capitalização preservada.
ParentKeyColumn STRING O nome da coluna numa chave referenciada, convertido em minúsculas.
ParentKeyColumnOriginal STRING O nome da coluna numa chave referenciada com a capitalização preservada.

AllRIParents

Esta tabela fornece as informações de integridade referencial dos pais da tabela.

Coluna Tipo Descrição
IndexId INTEGER O número do índice de referência.
IndexName STRING O nome do índice.
ChildDB STRING O nome da base de dados de referência, convertido em minúsculas.
ChildDBOriginal STRING O nome da base de dados de referência com a capitalização preservada.
ChildTable STRING O nome da tabela de referência, convertido em minúsculas.
ChildTableOriginal STRING O nome da tabela de referência com a capitalização preservada.
ChildKeyColumn STRING O nome de uma coluna na chave de referência, convertido em minúsculas.
ChildKeyColumnOriginal STRING O nome de uma coluna na chave de referência com a capitalização preservada.
ParentDB STRING O nome da base de dados referenciada, convertido em minúsculas.
ParentDBOriginal STRING O nome da base de dados referenciada com a capitalização preservada.
ParentTable STRING O nome da tabela referenciada, convertido em minúsculas.
ParentTableOriginal STRING O nome da tabela referenciada com a capitalização preservada.
ParentKeyColumn STRING O nome da coluna numa chave referenciada, convertido em minúsculas.
ParentKeyColumnOriginal STRING O nome da coluna numa chave referenciada com a capitalização preservada.

Columns

Esta tabela fornece informações sobre as colunas.

Coluna Tipo Descrição
DatabaseName STRING O nome da base de dados, convertido em minúsculas.
DatabaseNameOriginal STRING O nome da base de dados com a capitalização preservada.
TableName STRING O nome da tabela, convertido em minúsculas.
TableNameOriginal STRING O nome da tabela com a capitalização preservada.
ColumnName STRING O nome da coluna, convertido em minúsculas.
ColumnNameOriginal STRING O nome da coluna com a capitalização preservada.
ColumnType STRING O tipo do BigQuery da coluna, como STRING.
OriginalColumnType STRING O tipo original da coluna, como VARCHAR.
ColumnLength INTEGER O número máximo de bytes da coluna, como 30 para VARCHAR(30).
DefaultValue STRING O valor predefinido, se existir.
Nullable BOOLEAN Se a coluna permite valores nulos.

DiskSpace

Esta tabela fornece informações sobre a utilização do espaço em disco para cada base de dados.

Coluna Tipo Descrição
DatabaseName STRING O nome da base de dados, convertido em minúsculas.
DatabaseNameOriginal STRING O nome da base de dados com a capitalização preservada.
MaxPerm INTEGER O número máximo de bytes atribuídos ao espaço permanente.
MaxSpool INTEGER O número máximo de bytes atribuídos ao espaço de spool.
MaxTemp INTEGER O número máximo de bytes atribuídos ao espaço temporário.
CurrentPerm INTEGER O número de bytes atribuídos ao espaço permanente.
CurrentSpool INTEGER O número de bytes atribuídos ao espaço de spool.
CurrentTemp INTEGER O número de bytes atribuídos ao espaço temporário.
PeakPerm INTEGER Número máximo de bytes usados desde a última reposição para o espaço permanente.
PeakSpool INTEGER Número máximo de bytes usados desde a última reposição para o espaço de spool.
PeakPersistentSpool INTEGER Número máximo de bytes usados desde a última reposição para o espaço persistente.
PeakTemp INTEGER Número máximo de bytes usados desde a última reposição para o espaço temporário.
MaxProfileSpool INTEGER O limite do espaço de spool para o utilizador.
MaxProfileTemp INTEGER O limite de espaço temporário para o utilizador.
AllocatedPerm INTEGER Atribuição atual de espaço permanente.
AllocatedSpool INTEGER Atribuição atual do espaço de spool.
AllocatedTemp INTEGER Atribuição atual de espaço temporário.

Functions

Esta tabela fornece informações sobre as funções.

Coluna Tipo Descrição
DatabaseName STRING O nome da base de dados, convertido em minúsculas.
DatabaseNameOriginal STRING O nome da base de dados com a capitalização preservada.
FunctionName STRING O nome da função.
LanguageName STRING O nome do idioma.

Indices

Esta tabela fornece informações sobre os índices.

Coluna Tipo Descrição
DatabaseName STRING O nome da base de dados, convertido em minúsculas.
DatabaseNameOriginal STRING O nome da base de dados com a capitalização preservada.
TableName STRING O nome da tabela, convertido em minúsculas.
TableNameOriginal STRING O nome da tabela com a capitalização preservada.
IndexName STRING O nome do índice.
ColumnName STRING O nome da coluna, convertido em minúsculas.
ColumnNameOriginal STRING O nome da coluna com a capitalização preservada.
OrdinalPosition INTEGER A posição da coluna.
UniqueFlag BOOLEAN Indica se o índice aplica a unicidade.

Queries

Esta tabela fornece informações sobre as consultas extraídas.

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
QueryText STRING O texto da consulta.

QueryLogs

Esta tabela apresenta algumas estatísticas de execução sobre as consultas extraídas.

Coluna Tipo Descrição
QueryText STRING O texto da consulta.
QueryHash STRING O hash da consulta.
QueryId STRING O ID da consulta.
QueryType STRING O tipo de consulta, Query ou DDL.
UserId BYTES O ID do utilizador que executou a consulta.
UserName STRING O nome do utilizador que executou a consulta.
StartTime TIMESTAMP Data/hora em que a consulta foi enviada.
Duration STRING Duração da consulta em milissegundos.
AppId STRING O ID da aplicação que executou a consulta.
ProxyUser STRING O utilizador proxy quando usado através de uma camada intermédia.
ProxyRole STRING A função de proxy quando usada através de um nível intermédio.

QueryTypeStatistics

Esta tabela fornece estatísticas sobre os tipos de consultas.

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
QueryType STRING O tipo de consulta.
UpdatedTable STRING A tabela que foi atualizada pela consulta, se existir.
QueriedTables ARRAY<STRING> Uma lista das tabelas que foram consultadas.

ResUsageScpu

Esta tabela fornece informações sobre a utilização de recursos da CPU.

Coluna Tipo Descrição
EventTime TIMESTAMP A hora do evento.
NodeId INTEGER ID do nó
CabinetId INTEGER O número do armário físico do nó.
ModuleId INTEGER O número do módulo físico do nó.
NodeType STRING Tipo de nó.
CpuId INTEGER ID da CPU neste nó.
MeasurementPeriod INTEGER O período da medição expresso em centésimos de segundo.
SummaryFlag STRING S: linha de resumo, N: linha sem resumo
CpuFrequency FLOAT Frequência da CPU em MHz.
CpuIdle FLOAT O tempo em que a CPU está inativa expresso em centésimos de segundo.
CpuIoWait FLOAT O tempo que a CPU está a aguardar a E/S expresso em centisegundos.
CpuUServ FLOAT O tempo que a CPU está a executar o código do utilizador expresso em centésimos de segundo.
CpuUExec FLOAT O tempo que a CPU está a executar o código de serviço expresso em centésimos de segundo.

Roles

Esta tabela fornece informações sobre as funções.

Coluna Tipo Descrição
RoleName STRING O nome da função.
Grantor STRING O nome da base de dados que concedeu a função.
Grantee STRING O utilizador ao qual é concedida a função.
WhenGranted TIMESTAMP Quando a função foi concedida.
WithAdmin BOOLEAN A opção de administrador está definida para a função concedida.

SchemaConversion

Esta tabela fornece informações sobre conversões de esquemas relacionadas com o agrupamento e a partição.

Nome da coluna Tipo de coluna Descrição
DatabaseName STRING O nome da base de dados de origem para a qual a sugestão é feita. Uma base de dados é mapeada para um conjunto de dados no BigQuery.
TableName STRING O nome da tabela para a qual a sugestão é feita.
PartitioningColumnName STRING O nome da coluna de partição sugerida no BigQuery.
ClusteringColumnNames ARRAY Os nomes das colunas de agrupamento sugeridas no BigQuery.
CreateTableDDL STRING O CREATE TABLE statement para criar a tabela no BigQuery.

TableInfo

Esta tabela fornece informações sobre tabelas.

Coluna Tipo Descrição
DatabaseName STRING O nome da base de dados, convertido em minúsculas.
DatabaseNameOriginal STRING O nome da base de dados com a capitalização preservada.
TableName STRING O nome da tabela, convertido em minúsculas.
TableNameOriginal STRING O nome da tabela com a capitalização preservada.
LastAccessTimestamp TIMESTAMP A última vez que a tabela foi acedida.
LastAlterTimestamp TIMESTAMP A última vez que a tabela foi alterada.
TableKind STRING O tipo de tabela.

TableRelations

Esta tabela fornece informações sobre tabelas.

Coluna Tipo Descrição
QueryHash STRING O hash da consulta que estabeleceu a relação.
DatabaseName1 STRING O nome da primeira base de dados.
TableName1 STRING O nome da primeira tabela.
DatabaseName2 STRING O nome da segunda base de dados.
TableName2 STRING O nome da segunda tabela.
Relation STRING O tipo de relação entre as duas tabelas.

TableSizes

Esta tabela fornece informações sobre os tamanhos das tabelas.

Coluna Tipo Descrição
DatabaseName STRING O nome da base de dados, convertido em minúsculas.
DatabaseNameOriginal STRING O nome da base de dados com a capitalização preservada.
TableName STRING O nome da tabela, convertido em minúsculas.
TableNameOriginal STRING O nome da tabela com a capitalização preservada.
TableSizeInBytes INTEGER O tamanho da tabela em bytes.

Users

Esta tabela fornece informações sobre os utilizadores.

Coluna Tipo Descrição
UserName STRING O nome do utilizador.
CreatorName STRING O nome da entidade que criou este utilizador.
CreateTimestamp TIMESTAMP A data/hora em que este utilizador foi criado.
LastAccessTimestamp TIMESTAMP A data/hora em que este utilizador acedeu pela última vez a uma base de dados.

Redshift

Columns

A tabela Columns provém de uma das seguintes tabelas: SVV_COLUMNS, INFORMATION_SCHEMA.COLUMNS ou PG_TABLE_DEF, ordenadas por prioridade. A ferramenta tenta carregar primeiro os dados da tabela de prioridade mais alta. Se esta ação falhar, tenta carregar dados da tabela de prioridade seguinte mais alta. Consulte a documentação do Amazon Redshift ou do PostgreSQL para ver mais detalhes acerca do esquema e da utilização.

Coluna Tipo Descrição
DatabaseName STRING O nome da base de dados.
SchemaName STRING O nome do esquema.
TableName STRING O nome da tabela.
ColumnName STRING O nome da coluna.
DefaultValue STRING O valor predefinido, se disponível.
Nullable BOOLEAN Se uma coluna pode ou não ter um valor nulo.
ColumnType STRING O tipo da coluna, como VARCHAR.
ColumnLength INTEGER O tamanho da coluna, como 30 para um VARCHAR(30).

CreateAndDropStatistic

Esta tabela fornece informações sobre a criação e a eliminação de tabelas.

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
DefaultDatabase STRING A base de dados predefinida.
EntityType STRING O tipo de entidade, por exemplo, TABLE.
EntityName STRING O nome da entidade.
Operation STRING A operação: CREATE ou DROP.

Databases

Esta tabela provém diretamente da tabela PG_DATABASE_INFO do Amazon Redshift. Os nomes dos campos originais da tabela PG são incluídos nas descrições. Consulte a documentação do Amazon Redshift e do PostgreSQL para ver mais detalhes acerca do esquema e da utilização.

Coluna Tipo Descrição
DatabaseName STRING O nome da base de dados. Nome da origem: datname
Owner STRING O proprietário da base de dados. Por exemplo, o utilizador que criou a base de dados. Nome da origem: datdba

ExternalColumns

Esta tabela contém informações da tabela SVV_EXTERNAL_COLUMNS do Amazon Redshift diretamente. Consulte a documentação do Amazon Redshift para ver mais detalhes acerca do esquema e da utilização.

Coluna Tipo Descrição
SchemaName STRING O nome do esquema externo.
TableName STRING O nome da tabela externa.
ColumnName STRING O nome da coluna externa.
ColumnType STRING O tipo de coluna.
Nullable BOOLEAN Se uma coluna pode ou não ter um valor nulo.

ExternalDatabases

Esta tabela contém informações da tabela SVV_EXTERNAL_DATABASES do Amazon Redshift diretamente. Consulte a documentação do Amazon Redshift para ver mais detalhes acerca do esquema e da utilização.

Coluna Tipo Descrição
DatabaseName STRING O nome da base de dados externa.
Location STRING A localização da base de dados.

ExternalPartitions

Esta tabela contém informações da tabela SVV_EXTERNAL_PARTITIONS do Amazon Redshift diretamente. Consulte a documentação do Amazon Redshift para ver mais detalhes acerca do esquema e da utilização.

Coluna Tipo Descrição
SchemaName STRING O nome do esquema externo.
TableName STRING O nome da tabela externa.
Location STRING A localização da partição. O tamanho da coluna está limitado a 128 carateres. Os valores mais longos são truncados.

ExternalSchemas

Esta tabela contém informações da tabela SVV_EXTERNAL_SCHEMAS do Amazon Redshift diretamente. Consulte a documentação do Amazon Redshift para ver mais detalhes acerca do esquema e da utilização.

Coluna Tipo Descrição
SchemaName STRING O nome do esquema externo.
DatabaseName STRING O nome da base de dados externa.

ExternalTables

Esta tabela contém informações da tabela SVV_EXTERNAL_TABLES do Amazon Redshift diretamente. Consulte a documentação do Amazon Redshift para ver mais detalhes acerca do esquema e da utilização.

Coluna Tipo Descrição
SchemaName STRING O nome do esquema externo.
TableName STRING O nome da tabela externa.

Functions

Esta tabela contém informações da tabela PG_PROC do Amazon Redshift diretamente. Consulte a documentação do Amazon Redshift e do PostgreSQL para ver mais detalhes acerca do esquema e da utilização.

Coluna Tipo Descrição
SchemaName STRING O nome do esquema.
FunctionName STRING O nome da função.
LanguageName STRING A linguagem de implementação ou a interface de chamadas desta função.

Queries

Esta tabela é gerada com as informações da tabela QueryLogs. Ao contrário da tabela QueryLogs, cada linha na tabela Queries contém apenas uma declaração de consulta armazenada na coluna QueryText. Esta tabela fornece os dados de origem para gerar as tabelas de estatísticas e os resultados da tradução.

Coluna Tipo Descrição
QueryText STRING O texto da consulta.
QueryHash STRING O hash da consulta.

QueryLogs

Esta tabela fornece informações sobre a execução de consultas.

Coluna Tipo Descrição
QueryText STRING O texto da consulta.
QueryHash STRING O hash da consulta.
QueryID STRING O ID da consulta.
UserID STRING O ID do utilizador.
StartTime TIMESTAMP A hora de início.
Duration INTEGER Duração em milissegundos.

QueryTypeStatistics

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
DefaultDatabase STRING A base de dados predefinida.
QueryType STRING O tipo de consulta.
UpdatedTable STRING A tabela atualizada.
QueriedTables ARRAY<STRING> As tabelas consultadas.

TableInfo

Esta tabela contém informações extraídas da tabela SVV_TABLE_INFO no Amazon Redshift.

Coluna Tipo Descrição
DatabaseName STRING O nome da base de dados.
SchemaName STRING O nome do esquema.
TableId INTEGER O ID da tabela.
TableName STRING O nome da tabela.
SortKey1 STRING Primeira coluna na chave de ordenação.
SortKeyNum INTEGER Número de colunas definidas como chaves de ordenação.
MaxVarchar INTEGER Tamanho da maior coluna que usa um VARCHAR tipo de dados.
Size INTEGER Tamanho da tabela, em blocos de dados de 1 MB.
TblRows INTEGER Número total de linhas na tabela.

TableRelations

Coluna Tipo Descrição
QueryHash STRING O hash da consulta que estabeleceu a relação (por exemplo, uma consulta JOIN).
DefaultDatabase STRING A base de dados predefinida.
TableName1 STRING A primeira tabela da relação.
TableName2 STRING A segunda tabela da relação.
Relation STRING O tipo de relação. Assume um dos seguintes valores: COMMA_JOIN, CROSS_JOIN, FULL_OUTER_JOIN, INNER_JOIN, LEFT_OUTER_JOIN, RIGHT_OUTER_JOIN, CREATED_FROM ou INSERT_INTO.
Count INTEGER A frequência com que esta relação foi observada.

TableSizes

Esta tabela fornece informações sobre os tamanhos das tabelas.

Coluna Tipo Descrição
DatabaseName STRING O nome da base de dados.
SchemaName STRING O nome do esquema.
TableName STRING O nome da tabela.
TableSizeInBytes INTEGER O tamanho da tabela em bytes.

Tables

Esta tabela contém informações extraídas da tabela SVV_TABLES no Amazon Redshift. Consulte a documentação do Amazon Redshift para ver mais detalhes sobre o esquema e a utilização.

Coluna Tipo Descrição
DatabaseName STRING O nome da base de dados.
SchemaName STRING O nome do esquema.
TableName STRING O nome da tabela.
TableType STRING O tipo de tabela.

TranslatedQueries

Esta tabela fornece traduções de consultas.

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
TranslatedQueryText STRING Resultado da tradução do dialeto de origem para GoogleSQL.

TranslationErrors

Esta tabela fornece informações sobre erros de tradução de consultas.

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
Severity STRING A gravidade do erro, como ERROR.
Category STRING A categoria do erro, como AttributeNotFound.
Message STRING A mensagem com os detalhes sobre o erro.
LocationOffset INTEGER A posição do caráter da localização do erro.
LocationLine INTEGER O número da linha do erro.
LocationColumn INTEGER O número da coluna do erro.
LocationLength INTEGER O comprimento do caráter da localização do erro.

UserTableRelations

Coluna Tipo Descrição
UserID STRING O ID do utilizador.
TableName STRING O nome da tabela.
Relation STRING A relação.
Count INTEGER A contagem.

Users

Esta tabela contém informações extraídas da tabela PG_USER no Amazon Redshift. Consulte a documentação do PostgreSQL para ver mais detalhes sobre o esquema e a utilização.

Coluna Tipo Descrição
UserName STRING O nome do utilizador.
UserId STRING O ID do utilizador.

Floco de neve

Warehouses

Coluna Tipo Descrição Presença
WarehouseName STRING O nome do armazém. Sempre
State STRING O estado do armazém. Valores possíveis: STARTED, SUSPENDED, RESIZING. Sempre
Type STRING Tipo de armazém. Valores possíveis: STANDARD, SNOWPARK-OPTIMIZED. Sempre
Size STRING Tamanho do armazém. Valores possíveis: X-Small, Small, Medium, Large, X-Large, 2X-Large ... 6X-Large. Sempre

Databases

Coluna Tipo Descrição Presença
DatabaseNameOriginal STRING O nome da base de dados, com a capitalização preservada. Sempre
DatabaseName STRING O nome da base de dados, convertido em minúsculas. Sempre

Schemata

Coluna Tipo Descrição Presença
DatabaseNameOriginal STRING O nome da base de dados à qual o esquema pertence, com a capitalização preservada. Sempre
DatabaseName STRING O nome da base de dados à qual o esquema pertence, convertido em letras minúsculas. Sempre
SchemaNameOriginal STRING O nome do esquema, com a capitalização preservada. Sempre
SchemaName STRING O nome do esquema, convertido em minúsculas. Sempre

Tables

Coluna Tipo Descrição Presença
DatabaseNameOriginal STRING O nome da base de dados à qual a tabela pertence, com a capitalização preservada. Sempre
DatabaseName STRING O nome da base de dados à qual a tabela pertence, convertido em minúsculas. Sempre
SchemaNameOriginal STRING O nome do esquema ao qual a tabela pertence, com a capitalização preservada. Sempre
SchemaName STRING O nome do esquema ao qual a tabela pertence, convertido em minúsculas. Sempre
TableNameOriginal STRING O nome da tabela, com a capitalização preservada. Sempre
TableName STRING O nome da tabela, convertido em minúsculas. Sempre
TableType STRING Tipo da tabela (vista / vista materializada / tabela base). Sempre
RowCount BIGNUMERIC Número de linhas na tabela. Sempre

Columns

Coluna Tipo Descrição Presença
DatabaseName STRING O nome da base de dados, convertido em minúsculas. Sempre
DatabaseNameOriginal STRING O nome da base de dados, com a capitalização preservada. Sempre
SchemaName STRING O nome do esquema, convertido em minúsculas. Sempre
SchemaNameOriginal STRING O nome do esquema, com a capitalização preservada. Sempre
TableName STRING O nome da tabela, convertido em minúsculas. Sempre
TableNameOriginal STRING O nome da tabela com a capitalização preservada. Sempre
ColumnName STRING O nome da coluna, convertido em minúsculas. Sempre
ColumnNameOriginal STRING O nome da coluna com a capitalização preservada. Sempre
ColumnType STRING O tipo de coluna. Sempre

CreateAndDropStatistics

Coluna Tipo Descrição Presença
QueryHash STRING O hash da consulta. Sempre
DefaultDatabase STRING A base de dados predefinida. Sempre
EntityType STRING O tipo de entidade, por exemplo, TABLE. Sempre
EntityName STRING O nome da entidade. Sempre
Operation STRING A operação: CREATE ou DROP. Sempre

Queries

Coluna Tipo Descrição Presença
QueryText STRING O texto da consulta. Sempre
QueryHash STRING O hash da consulta. Sempre

QueryLogs

Coluna Tipo Descrição Presença
QueryText STRING O texto da consulta. Sempre
QueryHash STRING O hash da consulta. Sempre
QueryID STRING O ID da consulta. Sempre
UserID STRING O ID do utilizador. Sempre
StartTime TIMESTAMP A hora de início. Sempre
Duration INTEGER Duração em milissegundos. Sempre

QueryTypeStatistics

Coluna Tipo Descrição Presença
QueryHash STRING O hash da consulta. Sempre
DefaultDatabase STRING A base de dados predefinida. Sempre
QueryType STRING O tipo de consulta. Sempre
UpdatedTable STRING A tabela atualizada. Sempre
QueriedTables REPEATED STRING As tabelas consultadas. Sempre

TableRelations

Coluna Tipo Descrição Presença
QueryHash STRING O hash da consulta que estabeleceu a relação (por exemplo, uma consulta JOIN). Sempre
DefaultDatabase STRING A base de dados predefinida. Sempre
TableName1 STRING A primeira tabela da relação. Sempre
TableName2 STRING A segunda tabela da relação. Sempre
Relation STRING O tipo de relação. Sempre
Count INTEGER A frequência com que esta relação foi observada. Sempre

TranslatedQueries

Coluna Tipo Descrição Presença
QueryHash STRING O hash da consulta. Sempre
TranslatedQueryText STRING Resultado da tradução do dialeto de origem para SQL do BigQuery. Sempre

TranslationErrors

Coluna Tipo Descrição Presença
QueryHash STRING O hash da consulta. Sempre
Severity STRING A gravidade do erro, por exemplo, ERROR. Sempre
Category STRING A categoria do erro, por exemplo, AttributeNotFound. Sempre
Message STRING A mensagem com os detalhes sobre o erro. Sempre
LocationOffset INTEGER A posição do caráter da localização do erro. Sempre
LocationLine INTEGER O número da linha do erro. Sempre
LocationColumn INTEGER O número da coluna do erro. Sempre
LocationLength INTEGER O comprimento do caráter da localização do erro. Sempre

UserTableRelations

Coluna Tipo Descrição Presença
UserID STRING ID do utilizador. Sempre
TableName STRING O nome da tabela. Sempre
Relation STRING A relação. Sempre
Count INTEGER A contagem. Sempre

Apache Hive

Columns

Esta tabela fornece informações sobre as colunas:

Coluna Tipo Descrição
DatabaseName STRING O nome da base de dados com a capitalização preservada.
TableName STRING O nome da tabela com a capitalização preservada.
ColumnName STRING O nome da coluna com a capitalização preservada.
ColumnType STRING O tipo do BigQuery da coluna, como STRING.
OriginalColumnType STRING O tipo original da coluna, como VARCHAR.

CreateAndDropStatistic

Esta tabela fornece informações sobre a criação e a eliminação de tabelas:

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
DefaultDatabase STRING A base de dados predefinida.
EntityType STRING O tipo de entidade, por exemplo, TABLE.
EntityName STRING O nome da entidade.
Operation STRING A operação realizada na tabela (CREATE ou DROP).

Databases

Esta tabela fornece informações sobre as bases de dados:

Coluna Tipo Descrição
DatabaseName STRING O nome da base de dados com a capitalização preservada.
Owner STRING O proprietário da base de dados. Por exemplo, o utilizador que criou a base de dados.
Location STRING Localização da base de dados no sistema de ficheiros.

Functions

Esta tabela fornece informações sobre as funções:

Coluna Tipo Descrição
DatabaseName STRING O nome da base de dados com a capitalização preservada.
FunctionName STRING O nome da função.
LanguageName STRING O nome do idioma.
ClassName STRING O nome da classe da função.

ObjectReferences

Esta tabela fornece informações sobre os objetos referenciados nas consultas:

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
DefaultDatabase STRING A base de dados predefinida.
Clause STRING A cláusula onde o objeto aparece. Por exemplo, SELECT.
ObjectName STRING O nome do objeto.
Type STRING O tipo de objeto.
Subtype STRING O subtipo do objeto.

PartitionKeys

Esta tabela fornece informações sobre as chaves de partição:

Coluna Tipo Descrição
DatabaseName STRING O nome da base de dados com a capitalização preservada.
TableName STRING O nome da tabela com a capitalização preservada.
ColumnName STRING O nome da coluna com a capitalização preservada.
ColumnType STRING O tipo do BigQuery da coluna, como STRING.

Partitions

Esta tabela fornece informações sobre as partições de tabelas:

Coluna Tipo Descrição
DatabaseName STRING O nome da base de dados com a capitalização preservada.
TableName STRING O nome da tabela com a capitalização preservada.
PartitionName STRING O nome da partição.
CreateTimestamp TIMESTAMP A data/hora em que esta partição foi criada.
LastAccessTimestamp TIMESTAMP A data/hora em que esta partição foi acedida pela última vez.
LastDdlTimestamp TIMESTAMP A data/hora em que esta partição foi alterada pela última vez.
TotalSize INTEGER O tamanho comprimido da partição em bytes.

Queries

Esta tabela é gerada com as informações da tabela QueryLogs. Ao contrário da tabela QueryLogs, cada linha na tabela Queries contém apenas uma declaração de consulta armazenada na coluna QueryText. Esta tabela fornece os dados de origem para gerar as tabelas de estatísticas e os resultados da tradução:

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
QueryText STRING O texto da consulta.

QueryLogs

Esta tabela fornece algumas estatísticas de execução sobre as consultas extraídas:

Coluna Tipo Descrição
QueryText STRING O texto da consulta.
QueryHash STRING O hash da consulta.
QueryId STRING O ID da consulta.
QueryType STRING O tipo de consulta, Query ou DDL.
UserName STRING O nome do utilizador que executou a consulta.
StartTime TIMESTAMP A data/hora em que a consulta foi enviada.
Duration STRING A duração da consulta em milissegundos.

QueryTypeStatistics

Esta tabela apresenta estatísticas sobre os tipos de consultas:

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
QueryType STRING O tipo de consulta.
UpdatedTable STRING A tabela que foi atualizada pela consulta, se existir.
QueriedTables ARRAY<STRING> Uma lista das tabelas que foram consultadas.

QueryTypes

Esta tabela apresenta estatísticas sobre os tipos de consultas:

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
Category STRING A categoria da consulta.
Type STRING O tipo de consulta.
Subtype STRING O subtipo da consulta.

SchemaConversion

Esta tabela fornece informações sobre conversões de esquemas relacionadas com o agrupamento e a partição:

Nome da coluna Tipo de coluna Descrição
DatabaseName STRING O nome da base de dados de origem para a qual a sugestão é feita. Uma base de dados é mapeada para um conjunto de dados no BigQuery.
TableName STRING O nome da tabela para a qual a sugestão é feita.
PartitioningColumnName STRING O nome da coluna de partição sugerida no BigQuery.
ClusteringColumnNames ARRAY Os nomes das colunas de agrupamento sugeridas no BigQuery.
CreateTableDDL STRING O CREATE TABLE statement para criar a tabela no BigQuery.

TableRelations

Esta tabela fornece informações sobre tabelas:

Coluna Tipo Descrição
QueryHash STRING O hash da consulta que estabeleceu a relação.
DatabaseName1 STRING O nome da primeira base de dados.
TableName1 STRING O nome da primeira tabela.
DatabaseName2 STRING O nome da segunda base de dados.
TableName2 STRING O nome da segunda tabela.
Relation STRING O tipo de relação entre as duas tabelas.

TableSizes

Esta tabela fornece informações sobre os tamanhos das tabelas:

Coluna Tipo Descrição
DatabaseName STRING O nome da base de dados com a capitalização preservada.
TableName STRING O nome da tabela com a capitalização preservada.
TotalSize INTEGER O tamanho da tabela em bytes.

Tables

Esta tabela fornece informações sobre tabelas:

Coluna Tipo Descrição
DatabaseName STRING O nome da base de dados com a capitalização preservada.
TableName STRING O nome da tabela com a capitalização preservada.
Type STRING O tipo de tabela.

TranslatedQueries

Esta tabela fornece traduções de consultas:

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
TranslatedQueryText STRING O resultado da tradução do dialeto de origem para GoogleSQL.

TranslationErrors

Esta tabela fornece informações sobre erros de tradução de consultas:

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
Severity STRING A gravidade do erro, como ERROR.
Category STRING A categoria do erro, como AttributeNotFound.
Message STRING A mensagem com os detalhes sobre o erro.
LocationOffset INTEGER A posição do caráter da localização do erro.
LocationLine INTEGER O número da linha do erro.
LocationColumn INTEGER O número da coluna do erro.
LocationLength INTEGER O comprimento do caráter da localização do erro.

UserTableRelations

Coluna Tipo Descrição
UserID STRING O ID do utilizador.
TableName STRING O nome da tabela.
Relation STRING A relação.
Count INTEGER A contagem.

Resolução de problemas

Esta secção explica alguns problemas comuns e técnicas de resolução de problemas para migrar o seu armazém de dados para o BigQuery.

dwh-migration-dumper erros de ferramentas

Para resolver problemas de erros e avisos no resultado do terminal da ferramenta dwh-migration-dumper que ocorreram durante a extração de metadados ou registos de consultas, consulte o artigo gerar resolução de problemas de metadados.

Erros de migração do Hive

Esta secção descreve problemas comuns que pode encontrar quando planeia migrar o seu armazém de dados do Hive para o BigQuery.

O gancho de registo escreve mensagens de registo de depuração nos seus registos hive-server2. Se tiver problemas, reveja os registos de depuração do gancho de registo, que contêm a string MigrationAssessmentLoggingHook.

Resolva o erro ClassNotFoundException

O erro pode ser causado pela colocação incorreta do ficheiro JAR do gancho de registo. Certifique-se de que adicionou o ficheiro JAR à pasta auxlib no cluster do Hive. Em alternativa, pode especificar o caminho completo para o ficheiro JAR na propriedade hive.aux.jars.path, por exemplo, file:///HiveMigrationAssessmentQueryLogsHooks_deploy.jar.

As subpastas não aparecem na pasta configurada

Este problema pode dever-se à configuração incorreta ou a problemas durante a inicialização do gancho de registo.

Pesquise nos seus registos de depuração hive-server2 as seguintes mensagens de gancho de registo:

Unable to initialize logger, logging disabled
Log dir configuration key 'dwhassessment.hook.base-directory' is not set,
logging disabled.
Error while trying to set permission

Reveja os detalhes do problema e verifique se existe algo que precise de corrigir para resolver o problema.

Os ficheiros não aparecem na pasta

Este problema pode ser causado pelos problemas encontrados durante o processamento de um evento ou ao escrever num ficheiro.

Pesquise nos seus registos de depuração hive-server2 as seguintes mensagens de gancho de registo:

Failed to close writer for file
Got exception while processing event
Error writing record for query

Reveja os detalhes do problema e verifique se existe algo que precise de corrigir para resolver o problema.

Alguns eventos de consulta são perdidos

Este problema pode ser causado pelo excesso de capacidade da fila de threads do gancho de registo.

Pesquise nos seus registos de depuração hive-server2 a seguinte mensagem de gancho de registo:

Writer queue is full. Ignoring event

Se existirem mensagens deste tipo, considere aumentar o parâmetro dwhassessment.hook.queue.capacity.

O que se segue?

Para mais informações sobre a dwh-migration-dumperferramenta, consulte dwh-migration-tools.

Também pode saber mais acerca dos seguintes passos na migração do armazém de dados: