Avaliação da migração

A avaliação de migração do BigQuery permite planejar e revisar a migração do seu data warehouse atual para o BigQuery. É possível executar a avaliação de migração do BigQuery para gerar um relatório e avaliar o custo de armazenamento dos dados no BigQuery, ver como o BigQuery pode otimizar a carga de trabalho atual para economizar e preparar um plano de migração que descreve o tempo e o esforço necessários para concluir a migração do data warehouse para o BigQuery.

Neste documento, descrevemos como usar a avaliação de migração do BigQuery e as diferentes maneiras de analisar os resultados da avaliação. Este documento é destinado a usuários que conhecem o Console do Google Cloud e o tradutor de SQL em lote.

Antes de começar

Para preparar e executar uma avaliação de migração do BigQuery, siga estas etapas:

  1. Crie um bucket do Cloud Storage.

  2. Extraia metadados e registros de consulta do seu data warehouse usando a ferramenta dwh-migration-dumper.

  3. Faça o upload dos seus metadados e registros de consulta para o bucket do Cloud Storage.

  4. Execute a avaliação de migração.

  5. Analise o relatório do Looker Studio.

  6. Opcional: consulte os resultados da avaliação para encontrar informações detalhadas ou específicas.

Extrair metadados e registros de consulta do seu armazenamento de dados

Os metadados e os registros de consulta são necessários para preparar a avaliação com recomendações.

Para extrair os metadados e os registros de consulta necessários para executar a avaliação, selecione seu armazenamento de dados:

Teradata

Requisitos

  • Uma máquina conectada ao seu armazenamento de dados de origem do Teradata (o Teradata 15 e versões mais recentes são compatíveis)
  • Uma conta do Google Cloud com um bucket do Cloud Storage para armazenar os dados
  • Um conjunto de dados do BigQuery vazio para armazenar os resultados
  • Permissões de leitura no conjunto de dados para ver os resultados
  • Recomendado: direitos de acesso no nível do administrador ao banco de dados de origem ao usar a ferramenta de extração para acessar tabelas do sistema

Requisito: ativar a geração de registros

A ferramenta dwh-migration-dumper extrai três tipos de registros: de consulta, de utilitários e de uso de recursos. É necessário ativar a geração de registros para os seguintes tipos de registros para ver insights mais completos:

Execute a ferramenta dwh-migration-dumper

Fazer o download da ferramenta dwh-migration-dumper

Faça o download do arquivo SHA256SUMS.txt e execute o seguinte comando para verificar a exatidão do ZIP:

Bash

sha256sum --check SHA256SUMS.txt

Windows PowerShell

(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]

Substitua RELEASE_ZIP_FILENAME pelo nome de arquivo zip baixado da versão da ferramenta de extração de linha de comando dwh-migration-dumper, por exemplo, dwh-migration-tools-v1.0.52.zip

O resultado True confirma a verificação com êxito do checksum.

O resultado False indica um erro de verificação. Verifique se o checksum e os arquivos ZIP são da mesma versão de lançamento ao fazer o download e foram colocados no mesmo diretório.

Para saber detalhes sobre como configurar e usar a ferramenta de extração, consulte Gerar metadados para tradução e avaliação.

Use a ferramenta de extração para extrair registros e metadados do armazenamento de dados do Teradata como dois arquivos ZIP. Execute os comandos a seguir em uma máquina com acesso ao data warehouse de origem para gerar os arquivos.

Gere o arquivo ZIP de metadados:

dwh-migration-dumper \
  --connector teradata \
  --database DATABASES \
  --driver path/terajdbc4.jar \
  --host HOST \
  --assessment \
  --user USER \
  --password PASSWORD

Gere o arquivo ZIP com os registros de consulta:

dwh-migration-dumper \
  --connector teradata-logs \
  --driver path/terajdbc4.jar \
  --host HOST \
  --assessment \
  --user USER \
  --password PASSWORD

Substitua:

  • DATABASES: a lista separada por vírgulas de nomes de bancos de dados a extrair
  • PATH: o caminho absoluto ou relativo para o arquivo JAR do driver a ser usado para essa conexão;
  • VERSION: a versão do driver;
  • HOST: o endereço do host;
  • USER: o nome de usuário a ser usado na conexão do banco de dados;
  • PASSWORD: a senha a ser usada na conexão do banco de dados.

    Se ficar em branco, o usuário precisará informar a senha.

Só é possível usar a sinalização --database para o conector teradata. Essa sinalização permite extrair os metadados de um ou mais bancos de dados. Quando você extrai os registros de consulta usando o conector teradata-logs, a sinalização --database não está disponível. Os registros de consulta são sempre extraídos para todos os bancos de dados.

Por padrão, os registros de consulta são extraídos da visualização dbc.QryLogV e da tabela dbc.DBQLSqlTbl. Se você precisar extrair os registros de consulta de um local alternativo, especifique os nomes das tabelas ou visualizações usando as sinalizações -Dteradata-logs.query-logs-table e -Dteradata-logs.sql-logs-table.

Por padrão, os registros do utilitário são extraídos da tabela dbc.DBQLUtilityTbl. Se você precisar extrair os registros utilitários de um local alternativo, especifique o nome da tabela usando a flag -Dteradata-logs.utility-logs-table.

Por padrão, os registros de uso de recursos são extraídos das tabelas dbc.ResUsageScpu e dbc.ResUsageSpma. Se você precisar extrair os registros de uso de recursos de um local alternativo, especifique os nomes das tabelas usando as sinalizações -Dteradata-logs.res-usage-scpu-table e -Dteradata-logs.res-usage-spma-table.

Exemplo:

Bash

dwh-migration-dumper \
  --connector teradata-logs \
  --driver path/terajdbc4.jar \
  --host HOST \
  --assessment \
  --user USER \
  --password PASSWORD \
  -Dteradata-logs.query-logs-table=pdcrdata.QryLogV_hst \
  -Dteradata-logs.sql-logs-table=pdcrdata.DBQLSqlTbl_hst \
  -Dteradata-logs.log-date-column=LogDate \
  -Dteradata-logs.utility-logs-table=pdcrdata.DBQLUtilityTbl_hst \
  -Dteradata-logs.res-usage-scpu-table=pdcrdata.ResUsageScpu_hst \
  -Dteradata-logs.res-usage-spma-table=pdcrdata.ResUsageSpma_hst

Windows PowerShell

dwh-migration-dumper `
  --connector teradata-logs `
  --driver path\terajdbc4.jar `
  --host HOST `
  --assessment `
  --user USER `
  --password PASSWORD `
  "-Dteradata-logs.query-logs-table=pdcrdata.QryLogV_hst" `
  "-Dteradata-logs.sql-logs-table=pdcrdata.DBQLSqlTbl_hst" `
  "-Dteradata-logs.log-date-column=LogDate" `
  "-Dteradata-logs.utility-logs-table=pdcrdata.DBQLUtilityTbl_hst" `
  "-Dteradata-logs.res-usage-scpu-table=pdcrdata.ResUsageScpu_hst" `
  "-Dteradata-logs.res-usage-spma-table=pdcrdata.ResUsageSpma_hst"

Por padrão, a ferramenta dwh-migration-dumper extrai os últimos sete dias de registros de consulta. O Google recomenda que você forneça pelo menos duas semanas de registros de consulta para visualizar insights mais completos. É possível especificar um intervalo de tempo personalizado usando as flags --query-log-start e --query-log-end. Exemplo:

dwh-migration-dumper \
  --connector teradata-logs \
  --driver path/terajdbc4.jar \
  --host HOST \
  --assessment \
  --user USER \
  --password PASSWORD \
  --query-log-start "2023-01-01 00:00:00" \
  --query-log-end "2023-01-15 00:00:00"

Também é possível gerar vários arquivos ZIP contendo registros de consulta abrangendo diferentes períodos e fornecer todos eles para avaliação.

Amazon Redshift

Requisitos

  • Uma máquina conectada ao seu data warehouse de origem do Amazon Redshift
  • Uma conta do Google Cloud com um bucket do Cloud Storage para armazenar os dados
  • Um conjunto de dados do BigQuery vazio para armazenar os resultados
  • Permissões de leitura no conjunto de dados para ver os resultados
  • Recomendado: acesso de superusuário ao banco de dados ao usar a ferramenta de extração para acessar tabelas do sistema

Execute a ferramenta dwh-migration-dumper

Faça o download da ferramenta de extração da linha de comando dwh-migration-dumper.

Faça o download do arquivo SHA256SUMS.txt e execute o seguinte comando para verificar a exatidão do ZIP:

Bash

sha256sum --check SHA256SUMS.txt

Windows PowerShell

(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]

Substitua RELEASE_ZIP_FILENAME pelo nome de arquivo zip baixado da versão da ferramenta de extração de linha de comando dwh-migration-dumper, por exemplo, dwh-migration-tools-v1.0.52.zip

O resultado True confirma a verificação com êxito do checksum.

O resultado False indica um erro de verificação. Verifique se o checksum e os arquivos ZIP são da mesma versão de lançamento ao fazer o download e foram colocados no mesmo diretório.

Para detalhes sobre como usar a ferramenta dwh-migration-dumper, consulte a página Gerar metadados.

Use a ferramenta dwh-migration-dumper para extrair registros e metadados do armazenamento de dados do Amazon Redshift como dois arquivos ZIP. Execute os comandos a seguir em uma máquina com acesso ao data warehouse de origem para gerar os arquivos.

Gere o arquivo ZIP de metadados:

dwh-migration-dumper \
  --connector redshift \
  --database DATABASE \
  --driver PATH/redshift-jdbc42-VERSION.jar \
  --host host.region.redshift.amazonaws.com \
  --assessment \
  --user USER \
  --iam-profile IAM_PROFILE_NAME

Gere o arquivo ZIP com os registros de consulta:

dwh-migration-dumper \
  --connector redshift-raw-logs \
  --database DATABASE \
  --driver PATH/redshift-jdbc42-VERSION.jar \
  --host host.region.redshift.amazonaws.com \
  --assessment \
  --user USER \
  --iam-profile IAM_PROFILE_NAME

Substitua:

  • DATABASE: o nome do banco de dados a ser conectado;
  • PATH: o caminho absoluto ou relativo para o arquivo JAR do driver a ser usado para essa conexão;
  • VERSION: a versão do driver;
  • USER: o nome de usuário a ser usado na conexão do banco de dados;
  • IAM_PROFILE_NAME: o Nome do perfil do IAM do Amazon Redshift. Obrigatório para autenticação do Amazon Redshift e para acesso à API da AWS. Para conferir a descrição dos clusters do Amazon Redshift, use a API da AWS.

Por padrão, o Amazon Redshift armazena de três a cinco dias de registros de consulta.

Por padrão, a ferramenta dwh-migration-dumper extrai os últimos sete dias de registros de consulta.

O Google recomenda que você forneça pelo menos duas semanas de registros de consulta para visualizar insights mais completos. Talvez seja necessário executar a ferramenta de extração algumas vezes ao longo de duas semanas para ter os melhores resultados. É possível especificar um intervalo personalizado usando as sinalizações --query-log-start e --query-log-end. Exemplo:

dwh-migration-dumper \
  --connector redshift-raw-logs \
  --database DATABASE \
  --driver PATH/redshift-jdbc42-VERSION.jar \
  --host host.region.redshift.amazonaws.com \
  --assessment \
  --user USER \
  --iam-profile IAM_PROFILE_NAME \
  --query-log-start "2023-01-01 00:00:00" \
  --query-log-end "2023-01-02 00:00:00"

Também é possível gerar vários arquivos ZIP contendo registros de consulta abrangendo diferentes períodos e fornecer todos eles para avaliação.

Apache Hive

Requisitos

  • Uma máquina conectada ao seu data warehouse do Apache Hive de origem. A avaliação de migração do BigQuery é compatível com o Hive no Tez e MapReduce, além de ser compatível com o Apache Hive da versão 2.2 até a 3.1.
  • Uma conta do Google Cloud com um bucket do Cloud Storage para armazenar os dados
  • Um conjunto de dados do BigQuery vazio para armazenar os resultados
  • Permissões de leitura no conjunto de dados para ver os resultados
  • Acesso ao seu data warehouse de origem do Apache Hive para configurar a extração de registros de consulta
  • Estatísticas atualizadas de tabelas, partições e colunas

A avaliação de migração do BigQuery usa estatísticas de tabelas, partições e colunas para entender melhor seu data warehouse do Apache Hive e fornecer insights detalhados. Quando a configuração de hive.stats.autogather está definida como false no data warehouse de origem do Apache Hive, o Google recomenda ativar ou atualizar as estatísticas manualmente antes de executar a ferramenta dwh-migration-dumper.

Execute a ferramenta dwh-migration-dumper

Faça o download da ferramenta de extração da linha de comando dwh-migration-dumper.

Faça o download do arquivo SHA256SUMS.txt e execute o seguinte comando para verificar a exatidão do ZIP:

Bash

sha256sum --check SHA256SUMS.txt

Windows PowerShell

(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]

Substitua RELEASE_ZIP_FILENAME pelo nome de arquivo zip baixado da versão da ferramenta de extração de linha de comando dwh-migration-dumper, por exemplo, dwh-migration-tools-v1.0.52.zip

O resultado True confirma a verificação com êxito do checksum.

O resultado False indica um erro de verificação. Verifique se o checksum e os arquivos ZIP são da mesma versão de lançamento ao fazer o download e foram colocados no mesmo diretório.

Para detalhes sobre como usar a ferramenta dwh-migration-dumper, consulte Gerar metadados para tradução e avaliação.

Use a ferramenta dwh-migration-dumper para gerar metadados do seu data warehouse do Hive como um arquivo ZIP.

Sem autenticação

Para gerar o arquivo ZIP de metadados, execute o seguinte comando em uma máquina com acesso ao data warehouse de origem:

dwh-migration-dumper \
  --connector hiveql \
  --database DATABASES \
  --host hive.cluster.host \
  --port 9083 \
  --assessment

Com a autenticação do Kerberos

Para autenticar-se no metastore, faça login como um usuário que tenha acesso ao metastore Hive e gere um tíquete do Kerberos. Em seguida, gere o arquivo ZIP de metadados com o seguinte comando:

JAVA_OPTS="-Djavax.security.auth.useSubjectCredsOnly=false" \
  dwh-migration-dumper \
  --connector hiveql \
  --database DATABASES \
  --host hive.cluster.host \
  --port 9083 \
  --hive-kerberos-url PRINCIPAL/HOST \
  -Dhiveql.rpc.protection=hadoop.rpc.protection \
  --assessment

Substitua:

  • DATABASES: a lista separada por vírgulas de nomes de bancos de dados a extrair. Se não for fornecido, todos os bancos de dados serão extraídos.
  • PRINCIPAL: o principal do Kerberos para onde o tíquete foi emitido.
  • HOST: o nome do host do Kerberos para onde o tíquete é emitido.
  • hadoop.rpc.protection: a qualidade de proteção (QOP, na sigla em inglês) do nível de configuração da Camada de Autenticação e Segurança Simples (SASL), igual ao valor do parâmetro hadoop.rpc.protection dentro do /etc/hadoop/conf/core-site.xml com um dos seguintes valores:
    • authentication
    • integrity
    • privacy

Extrair registros de consulta com o hook de geração de registros hadoop-migration-assessment

Para extrair registros de consulta, siga estas etapas:

  1. Faça upload do hook de geração de registros hadoop-migration-assessment.
  2. Configure as propriedades do hook de geração de registros.
  3. Verifique o hook de geração de registros.

Fazer upload do hook de geração de registros hadoop-migration-assessment

  1. Faça o download do hook de geração de registros para extração de registros de consulta hadoop-migration-assessment que contém o arquivo JAR desse hook do Hive.

  2. Extraia o arquivo JAR.

    Se você precisar auditar a ferramenta para garantir que ela atende aos requisitos de conformidade, revise o código-fonte no repositório do GitHub de hooks de geração de registros hadoop-migration-assessment e compile seu próprio binário.

  3. Copie o arquivo JAR na pasta da biblioteca auxiliar em todos os clusters em que você planeja ativar a geração de registros de consulta. Dependendo do seu fornecedor, você precisará localizar a pasta da biblioteca auxiliar nas configurações do cluster e transferir o arquivo JAR para a pasta da biblioteca auxiliar no cluster do Hive.

  4. Defina as propriedades de configuração para o hook de geração de registros hadoop-migration-assessment. Dependendo do seu fornecedor do Hadoop, você precisará usar o console da interface para editar as configurações do cluster. Modifique o arquivo /etc/hive/conf/hive-site.xml ou aplique a configuração com o gerenciador de configuração.

Configurar propriedades

Se você já tiver outros valores para as chaves de configuração a seguir, acrescente as configurações usando uma vírgula (,). Para configurar o hook de geração de registros hadoop-migration-assessment, as seguintes definições são necessárias:

  • hive.exec.failure.hooks: com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
  • hive.exec.post.hooks : com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
  • hive.exec.pre.hooks: com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
  • hive.aux.jars.path: inclua o caminho para o arquivo JAR do hook de geração de registros, por exemplo, file:///HiveMigrationAssessmentQueryLogsHooks_deploy.jar.
  • dwhassessment.hook.base-directory: o caminho para a pasta de saída dos registros de consulta. Por exemplo, hdfs://tmp/logs/.
  • Também é possível definir as seguintes configurações opcionais:

    • dwhassessment.hook.queue.capacity: a capacidade de fila para as linhas de execução de log de eventos de consulta. O valor padrão é 64.
    • dwhassessment.hook.rollover-interval: a frequência em que o rollover de arquivos precisa ser realizado. Por exemplo, 600s. O valor padrão é de 3.600 segundos (1 hora).
    • dwhassessment.hook.rollover-eligibility-check-interval: a frequência em que a verificação de elegibilidade do rollover de arquivos é acionada em segundo plano. Por exemplo, 600s. O valor padrão é de 600 segundos (10 minutos).

Verificar o hook de geração de registros

Depois de reiniciar o processo hive-server2, execute uma consulta de teste e analise os registros de depuração. A seguinte mensagem será exibida:

Logger successfully started, waiting for query events. Log directory is '[dwhassessment.hook.base-directory value]'; rollover interval is '60' minutes;
rollover eligibility check is '10' minutes

O hook de geração de registros cria uma subpasta particionada por data na pasta configurada. O arquivo Avro com eventos de consulta aparecerá nessa pasta após o intervalo dwhassessment.hook.rollover-interval ou o encerramento do processo hive-server2. É possível procurar mensagens semelhantes nos registros de depuração para ver o status da operação de rollover:

Updated rollover time for logger ID 'my_logger_id' to '2023-12-25T10:15:30'
Performed rollover check for logger ID 'my_logger_id'. Expected rollover time
is '2023-12-25T10:15:30'

O rollover ocorre nos intervalos especificados ou quando o dia é alterado. Quando a data é alterada, o hook de geração de registros também cria uma nova subpasta para essa data.

O Google recomenda que você forneça pelo menos duas semanas de registros de consulta para visualizar insights mais completos.

Também é possível gerar pastas que contêm registros de consulta de diferentes clusters do Hive e fornecer todos eles para uma única avaliação.

Snowflake

Requisitos

Você precisa atender aos seguintes requisitos para extrair metadados e registros de consulta do Snowflake:

  • Uma máquina que pode se conectar às instâncias do Snowflake.
  • Uma conta do Google Cloud com um bucket do Cloud Storage para armazenar os dados
  • Um conjunto de dados do BigQuery vazio para armazenar os resultados. Também é possível criar um conjunto de dados do BigQuery ao criar o job de avaliação usando a IU do console do Google Cloud.
  • Acesso ao papel ACCOUNTADMIN para a instância do Snowflake ou receber um papel com os privilégios IMPORTED PRIVILEGES no banco de dados Snowflake de um administrador da conta.

Execute a ferramenta dwh-migration-dumper

Faça o download da ferramenta de extração da linha de comando dwh-migration-dumper.

Faça o download do arquivo SHA256SUMS.txt e execute o seguinte comando para verificar a exatidão do ZIP:

Bash

sha256sum --check SHA256SUMS.txt

Windows PowerShell

(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]

Substitua RELEASE_ZIP_FILENAME pelo nome de arquivo zip baixado da versão da ferramenta de extração de linha de comando dwh-migration-dumper, por exemplo, dwh-migration-tools-v1.0.52.zip

O resultado True confirma a verificação com êxito do checksum.

O resultado False indica um erro de verificação. Verifique se o checksum e os arquivos ZIP são da mesma versão de lançamento ao fazer o download e foram colocados no mesmo diretório.

Para detalhes sobre como usar a ferramenta dwh-migration-dumper, consulte a página Gerar metadados.

Use a ferramenta dwh-migration-dumper para extrair registros e metadados do armazenamento de dados no Snowflake como dois arquivos ZIP. Execute os comandos a seguir em um computador com acesso ao data warehouse de origem para gerar os arquivos.

Gere o arquivo ZIP de metadados:

dwh-migration-dumper \
  --connector snowflake \
  --host HOST_NAME \
  --database SNOWFLAKE \
  --user USER_NAME \
  --role ROLE_NAME \
  --warehouse WAREHOUSE \
  --assessment \
  --password PASSWORD

Gere o arquivo ZIP com os registros de consulta:

dwh-migration-dumper \
  --connector snowflake-logs \
  --host HOST_NAME \
  --database SNOWFLAKE \
  --user USER_NAME \
  --role ROLE_NAME \
  --warehouse WAREHOUSE \
  --query-log-start STARTING_DATE \
  --query-log-end ENDING_DATE \
  --assessment \
  --password PASSWORD

Substitua:

  • HOST_NAME: o nome do host da sua instância do Snowflake.
  • USER_NAME: o nome de usuário a ser usado para a conexão do banco de dados, em que o usuário precisa ter as permissões de acesso conforme detalhado na seção de requisitos.
  • ROLE_NAME: (opcional) a função do usuário ao executar a ferramenta dwh-migration-dumper, por exemplo, ACCOUNTADMIN.
  • WAREHOUSE: o warehouse usado para executar as operações de despejo. Se você tiver vários warehouses virtuais, poderá especificar qualquer warehouse para executar essa consulta. A execução dessa consulta com as permissões de acesso detalhadas na seção de requisitos extrai todos os artefatos de warehouse da conta.
  • STARTING_DATE: (opcional) usado para indicar a data de início em um período de registros de consulta, gravado no formato YYYY-MM-DD.
  • ENDING_DATE: (opcional) usado para indicar a data de término em um período de registros de consulta, escrito no formato YYYY-MM-DD.

Também é possível gerar vários arquivos ZIP contendo registros de consulta abrangendo períodos não sobrepostos e fornecer todos eles para avaliação.

Fazer upload de metadados e consultar registros para o Cloud Storage

Depois de extrair os metadados e os registros de consulta do data warehouse, faça o upload dos arquivos em um bucket do Cloud Storage para continuar com a avaliação de migração.

Teradata

Faça upload dos metadados e de um ou mais arquivos ZIP contendo registros de consulta para o bucket do Cloud Storage. Para mais informações sobre como criar buckets e fazer upload de arquivos para o Cloud Storage, consulte Criar buckets e Fazer upload de objetos de um sistema de arquivos. O limite para o tamanho total descompactado de todos os arquivos dentro do arquivo ZIP de metadados é de 50 GB.

As entradas em todos os arquivos ZIP que contêm registros de consulta são divididas da seguinte maneira:

  • Arquivos do histórico de consultas com o prefixo query_history_.
  • Arquivos de série temporal com os prefixos utility_logs_, dbc.ResUsageScpu_ e dbc.ResUsageSpma_.

O limite para o tamanho total descompactado de todos os arquivos do histórico de consultas é de 5 TB. O limite para o tamanho total descompactado de todos os arquivos de série temporal é de 1 TB.

Caso os registros de consulta sejam arquivados em um banco de dados diferente, consulte a descrição das sinalizações -Dteradata-logs.query-logs-table e -Dteradata-logs.sql-logs-table anteriormente nesta seção, que explica como fornecer um local alternativo para os registros de consulta.

Amazon Redshift

Faça upload dos metadados e de um ou mais arquivos ZIP contendo registros de consulta para o bucket do Cloud Storage. Para mais informações sobre como criar buckets e fazer upload de arquivos para o Cloud Storage, consulte Criar buckets e Fazer upload de objetos de um sistema de arquivos. O limite para o tamanho total descompactado de todos os arquivos dentro do arquivo ZIP de metadados é de 50 GB.

As entradas em todos os arquivos ZIP que contêm registros de consulta são divididas da seguinte maneira:

  • Arquivos do histórico de consultas com os prefixos querytext_ e ddltext_.
  • Arquivos de série temporal com os prefixos query_queue_info_, wlm_query_ e querymetrics_.

O limite para o tamanho total descompactado de todos os arquivos do histórico de consultas é de 5 TB. O limite para o tamanho total descompactado de todos os arquivos de série temporal é de 1 TB.

Apache Hive

Faça upload dos metadados e das pastas que contêm registros de consulta de um ou vários clusters do Hive para o bucket do Cloud Storage. Para mais informações sobre como criar buckets e fazer upload de arquivos para o Cloud Storage, consulte Criar buckets e Fazer upload de objetos de um sistema de arquivos.

O limite para o tamanho total descompactado de todos os arquivos dentro do arquivo ZIP de metadados é de 50 GB.

É possível usar o conector do Cloud Storage para copiar os registros diretamente para a pasta do Cloud Storage. As pastas que contêm subpastas com registros de consulta precisam ser transferidas para a mesma pasta do Cloud Storage em que o arquivo ZIP de metadados é transferido.

As pastas de registros de consulta têm arquivos de histórico de consultas com o prefixo dwhassessment_. O limite para o tamanho total descompactado de todos os arquivos de histórico de consultas é de 5 TB.

Snowflake

Faça upload dos metadados e dos arquivos ZIP que contêm registros de consulta e históricos de uso para o bucket do Cloud Storage. Ao fazer o upload desses arquivos para o Cloud Storage, os seguintes requisitos precisam ser atendidos:

  • O tamanho total descompactado de todos os arquivos dentro do arquivo ZIP de metadados precisa ser inferior a 50 GB.
  • O arquivo ZIP de metadados e o arquivo ZIP que contém os registros de consulta precisam ser enviados para uma pasta do Cloud Storage. Se você tiver vários arquivos ZIP contendo registros de consulta não sobrepostos, faça upload de todos eles.
  • Faça upload de todos os arquivos para a mesma pasta do Cloud Storage.
  • É preciso fazer upload de todos os arquivos ZIP de registros de consulta e metadados exatamente como eles são gerados pela ferramenta dwh-migration-dumper. Não descompacte, combine ou modifique de outra forma.
  • O tamanho total descompactado de todos os arquivos de histórico de consultas precisa ser menor que 5 TB.

Para mais informações sobre como criar buckets e fazer upload de arquivos para o Cloud Storage, consulte Criar buckets e Fazer upload de objetos de um sistema de arquivos.

Executar uma avaliação de migração do BigQuery

Siga estas etapas para executar a avaliação de migração do BigQuery. Para seguir estas etapas, você fez o upload dos arquivos de metadados para um bucket do Cloud Storage, conforme descrito na seção anterior.

Permissões necessárias

Para ativar o serviço de migração do BigQuery, você precisa das seguintes permissões de gerenciamento de identidade e acesso (IAM):

  • resourcemanager.projects.get
  • resourcemanager.projects.update
  • serviceusage.services.enable
  • serviceusage.services.get

Para acessar e usar o serviço de migração do BigQuery, você precisa das seguintes permissões no projeto:

  • bigquerymigration.workflows.create
  • bigquerymigration.workflows.get
  • bigquerymigration.workflows.list
  • bigquerymigration.workflows.delete
  • bigquerymigration.subtasks.get
  • bigquerymigration.subtasks.list

Para executar o serviço de migração do BigQuery, você precisa das seguintes permissões adicionais.

  • Para acessar os buckets do Cloud Storage para arquivos de entrada e saída:

    • storage.objects.get no bucket de origem do Cloud Storage
    • storage.objects.list no bucket de origem do Cloud Storage
    • storage.objects.create no bucket de destino do Cloud Storage
    • storage.objects.delete no bucket de destino do Cloud Storage
    • storage.objects.update no bucket de destino do Cloud Storage
    • storage.buckets.get
    • storage.buckets.list
  • Permissão para ler e atualizar o conjunto de dados do BigQuery em que o serviço de migração do BigQuery grava os resultados:

    • bigquery.datasets.update
    • bigquery.datasets.get
    • bigquery.datasets.create
    • bigquery.datasets.delete
    • bigquery.jobs.create
    • bigquery.jobs.delete
    • bigquery.jobs.list
    • bigquery.jobs.update
    • bigquery.tables.create
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.tables.list
    • bigquery.tables.updateData

Para compartilhar o relatório do Looker Studio com um usuário, você precisa conceder os seguintes papéis:

  • roles/bigquery.dataViewer
  • roles/bigquery.jobUser

Para personalizar este documento e usar seu próprio projeto e usuário nos comandos, edite estas variáveis: PROJECT, USER_EMAIL.

Crie um papel personalizado com as permissões necessárias para usar a avaliação de migração do BigQuery:

gcloud iam roles create BQMSrole \
  --project=PROJECT \
  --title=BQMSrole \
  --permissions=bigquerymigration.subtasks.get,bigquerymigration.subtasks.list,bigquerymigration.workflows.create,bigquerymigration.workflows.get,bigquerymigration.workflows.list,bigquerymigration.workflows.delete,resourcemanager.projects.update,resourcemanager.projects.get,serviceusage.services.enable,serviceusage.services.get,storage.objects.get,storage.objects.list,storage.objects.create,storage.objects.delete,storage.objects.update,bigquery.datasets.get,bigquery.datasets.update,bigquery.datasets.create,bigquery.datasets.delete,bigquery.tables.get,bigquery.tables.create,bigquery.tables.updateData,bigquery.tables.getData,bigquery.tables.list,bigquery.jobs.create,bigquery.jobs.update,bigquery.jobs.list,bigquery.jobs.delete,storage.buckets.list,storage.buckets.get

Atribuir a função personalizada BQMSrole a um usuário:

gcloud projects add-iam-policy-binding \
  PROJECT \
  --member=user:USER_EMAIL \
  --role=projects/PROJECT/roles/BQMSrole

Conceda os papéis necessários a um usuário com quem você quer compartilhar o relatório:

gcloud projects add-iam-policy-binding \
  PROJECT \
  --member=user:USER_EMAIL \
  --role=roles/bigquery.dataViewer

gcloud projects add-iam-policy-binding \
  PROJECT \
  --member=user:USER_EMAIL \
  --role=roles/bigquery.jobUser

Locais suportados

O recurso de avaliação de migração do BigQuery é compatível com dois tipos de locais:

  • Uma região é um lugar geográfico específico, como Londres.

  • Um local multirregional é uma área geográfica grande, como os Estados Unidos, que contém duas ou mais regiões. Os locais multirregionais podem fornecer cotas maiores do que regiões únicas.

Para mais informações sobre regiões e zonas, consulte Geografia e regiões.

Regiões

A tabela a seguir lista as regiões nas Américas em que a avaliação de migração do BigQuery está disponível.
Descrição da região Nome da região Detalhes
Columbus, Ohio us-east5
Dallas us-south1 Ícone de folha Baixo CO2
Iowa us-central1 Ícone de folha CO2 baixo
Carolina do Sul us-east1
Virgínia do Norte us-east4
Oregon us-west1 Ícone de folha Baixo CO2
Los Angeles us-west2
Salt Lake City us-west3
A tabela a seguir lista as regiões na Ásia-Pacífico em que a avaliação de migração do BigQuery está disponível.
Descrição da região Nome da região Detalhes
Singapura asia-southeast1
Tóquio asia-northeast1
A tabela a seguir lista as regiões na Europa em que a avaliação de migração do BigQuery está disponível.
Descrição da região Nome da região Detalhes
Bélgica europe-west1 Ícone de folha Baixo CO2
Finlândia europe-north1 Ícone de folha CO2 baixo
Frankfurt europe-west3 ícone de folha Baixo CO2
Londres europe-west2 ícone de folha Baixo CO2
Madri europe-southwest1 Ícone de folha Baixo CO2
Países Baixos europe-west4 Ícone de folha Baixo CO2
Paris europe-west9 Ícone de folha Baixo CO2
Turim europe-west12
Varsóvia europe-central2
Zurique europe-west6 Ícone de folha Baixo CO2

Locais multirregionais

A tabela a seguir lista as multirregiões em que a avaliação de migração do BigQuery está disponível.
Descrição multirregional Nome multirregional
Data centers dentro de estados membro da União Europeia EU
Data centers nos Estados Unidos US

Antes de começar

Antes de executar a avaliação, é necessário ativar a API e criar um conjunto de dados do BigQuery para armazenar os resultados da avaliação.

Ativar a API BigQuery Migration

Ative a API BigQuery Migration da seguinte maneira:

  1. No console do Google Cloud, acesse a página da API BigQuery Migration.

    Acesse a API BigQuery Migration

  2. Clique em Ativar.

Criar um conjunto de dados para os resultados da avaliação

A avaliação de migração do BigQuery grava os resultados da avaliação nas tabelas do BigQuery. Antes de começar, crie um conjunto de dados para armazenar essas tabelas. Ao compartilhar o relatório do Looker Studio, você também precisa permitir que os usuários leiam esse conjunto de dados. Para mais informações, consulte Disponibilizar o relatório aos usuários.

Executar a avaliação de migração

Console

  1. No Console do Google Cloud, acesse a página BigQuery.

    Ir para o BigQuery

  2. No painel de navegação, acesse Avaliação.

  3. Clique em Iniciar avaliação.

  4. Preencha a caixa de diálogo de configuração da avaliação.

    1. Em Nome de exibição, digite um nome que pode conter letras, números ou sublinhados. Esse nome é usado somente para fins de exibição e não precisa ser exclusivo.
    2. Na lista Local dos dados, escolha um local para o job de avaliação. O job de avaliação precisa estar no mesmo local que os arquivos extraídos do bucket do Cloud Storage de entrada e do conjunto de dados de saíd do BigQuery.

      No entanto, se for uma multirregião US ou EU, o local do bucket do Cloud Storage e o local do conjunto de dados do BigQuery podem estar em qualquer uma das regiões dentro dessa multirregião. O bucket do Cloud Storage e o conjunto de dados do BigQuery podem estar em locais diferentes na mesma multirregião. Por exemplo, se você selecionar a multirregião US, o bucket do Cloud Storage poderá estar na região us-central1, enquanto o conjunto de dados do BigQuery poderá estar na região us-east1.

    3. Em Fonte de dados de avaliação, escolha seu data warehouse.

    4. Em Caminho para arquivos de entrada, insira o caminho para o bucket do Cloud Storage que contém os arquivos extraídos.

    5. Para escolher como os resultados da avaliação serão armazenados, siga uma destas opções:

      • Mantenha a caixa de seleção Criar automaticamente o novo conjunto de dados do BigQuery marcada para que o conjunto de dados do BigQuery seja criado automaticamente. O nome do conjunto de dados será gerado automaticamente.
      • Desmarque a caixa de seleção Criar automaticamente o novo conjunto de dados do BigQuery e escolha o conjunto de dados vazio do BigQuery usando o formato projectId.datasetId ou crie um novo nome de conjunto de dados. Nesta opção, escolha o nome do conjunto de dados do BigQuery.

    Opção 1: geração automática de conjuntos de dados do BigQuery (padrão) Caixa de diálogo de configuração da avaliação.

    Opção 2: criação manual do conjunto de dados do BigQuery: Caixa de diálogo de configuração da avaliação com a criação manual do conjunto de dados.

  5. Clique em Criar. Veja o status do job na lista de jobs de tradução.

    Enquanto a avaliação é realizada, você pode verificar o progresso e a estimativa de tempo de conclusão na dica do ícone de status.

    Progresso da avaliação na dica.

  6. Enquanto a avaliação estiver em execução, você poderá clicar no link Ver relatório na a lista de trabalhos de avaliação para ver o relatório com dados parciais no Looker Studio. O link Visualizar relatório pode levar algum tempo para aparecer durante a avaliação. O relatório é aberto em uma nova guia.

    O relatório é atualizado com novos dados conforme eles são processados. Atualize a guia com o relatório ou clique em Visualizar relatório novamente para ver o relatório atualizado.

  7. Após a avaliação, clique em Ver relatório para conferir o relatório completo de avaliação no Looker Studio. O relatório é aberto em uma nova guia.

API

Chame o método create com um fluxo de trabalho definido.

Em seguida, chame o método start para iniciar o fluxo de trabalho de tradução.

A avaliação cria tabelas no conjunto de dados do BigQuery que você criou anteriormente. Você pode consultá-las para saber mais sobre as tabelas e consultas usadas no seu datawarehouse atual. Para mais informações sobre os arquivos de saída da tradução, consulte Verificador de lotes do SQL.

Resultado da avaliação agregado compartilhável

Para avaliações do Amazon Redshift, Teradata e Snowflake, além do conjunto de dados do BigQuery criado anteriormente, o fluxo de trabalho cria outro conjunto de dados leve com o mesmo nome, além do sufixo _shareableRedactedAggregate. Este conjunto de dados contém dados altamente agregados derivados do conjunto de dados de saída e que não contêm informações de identificação pessoal (PII).

Para encontrar, inspecionar e compartilhar o conjunto de dados de forma segura com outros usuários, acesse Consultar as tabelas de saída da avaliação de migração.

O recurso fica ativado por padrão, mas é possível desativá-lo usando a API pública.

Detalhes da avaliação

Para acessar a página "Detalhes da avaliação", clique no nome de exibição na lista de trabalhos de avaliação.

Página de lista de avaliações

A página de detalhes da avaliação contém a guia Configuração, em que é possível conferir mais informações sobre um job de avaliação, bem como a guia Erros, em que você pode analisar os erros ocorridos durante o processamento da avaliação.

Acesse a guia Configuração para conferir as propriedades da avaliação.

Página de detalhes da avaliação: guia "Configuração".

Acesse a guia Erros para conferir os erros ocorridos durante o processo de avaliação.

Página de detalhes da avaliação: guia de erros.

Revisar e compartilhar o relatório do Looker Studio

Após a conclusão da tarefa de avaliação, você pode criar e compartilhar um relatório do Looker Studio com os resultados.

Analisar o relatório

Clique no link Conferir relatório listado ao lado da tarefa de avaliação individual. O relatório do Looker Studio é aberto em uma nova guia, em um modo de visualização. É possível usar o modo de visualização para revisar o conteúdo do relatório antes de compartilhá-lo mais.

O relatório é parecido com a seguinte captura de tela:

Relatório de avaliação.

Para ver quais visualizações aparecem no relatório, selecione o data warehouse:

Teradata

O relatório é uma narrativa de três partes precedida por uma página de destaques. Essa página inclui as seguintes seções:

  • Sistema atual. Esta seção é um snapshot do sistema e uso atuais do Teradata, incluindo o número de bancos de dados, esquemas, tabelas e tamanho total (em TB). Ele também lista os esquemas por tamanho e aponta para o potencial de utilização de recursos abaixo do ideal (tabelas sem gravações ou poucas leituras).
  • Transformações de estado estável do BigQuery (sugestões). Esta seção mostra como ficará o sistema no BigQuery após a migração. Ele inclui sugestões para otimizar cargas de trabalho no BigQuery (e evitar desperdício).
  • Plano de migração. Nesta seção, fornecemos informações sobre o esforço de migração propriamente dito, por exemplo, como passar do sistema atual para o estado estável do BigQuery. Esta seção inclui a contagem de consultas que foram traduzidas automaticamente e o tempo esperado para mover cada tabela para o BigQuery.

Os detalhes de cada seção incluem o seguinte:

Sistema atual

  • Computação e consultas
    • Utilização de CPU:
      • Mapa de calor da utilização média da CPU por hora (visualização geral da utilização de recursos do sistema)
      • Consultas por hora e dia com utilização da CPU
      • Consultas por tipo (leitura/gravação) com utilização da CPU
      • Aplicativos com utilização da CPU
      • Sobreposição da utilização de CPU por hora com o desempenho médio da consulta por hora e o desempenho médio do aplicativo por hora
    • Histograma de consultas por tipo e durações de consulta
    • Visualização de detalhes dos aplicativos (app, usuário, consultas únicas, relatórios e detalhamento de ETL)
  • Visão geral de armazenamento
    • Bancos de dados por volume, visualizações e taxas de acesso
    • Tabelas com taxas de acesso por usuários, consultas, gravações e criações de tabelas temporárias
  • Aplicativos: taxas de acesso e endereços IP

Transformações de estado estável do BigQuery (sugestões)

  • Unir índices convertidos em visualizações materializadas
  • Clustering e particionamento de candidatos com base em metadados e uso
  • Consultas de baixa latência identificadas como candidatas ao BigQuery BI Engine
  • Colunas configuradas com valores padrão que usam o recurso de descrição para armazenar valores padrão
  • Os índices exclusivos no Teradata (para evitar linhas com chaves não exclusivas em uma tabela) usam tabelas de preparo e uma instrução MERGE para inserir apenas registros exclusivos nas tabelas de destino e descartar cópias
  • Consultas restantes e esquema traduzidos como estão

Plano de migração

  • Visualização detalhada com consultas traduzidas automaticamente
    • Contagem do total de consultas com capacidade de filtrar por usuário, aplicativo, tabelas afetadas, tabelas consultadas e tipo de consulta
    • Buckets de consultas com padrões semelhantes agrupados e mostrados juntos para que o usuário possa ver a filosofia de tradução por tipos de consulta
  • Consultas que exigem intervenção humana
    • Consultas com violações da estrutura lexical do BigQuery
    • Funções e procedimentos definidos pelo usuário
    • Palavras-chave reservadas no BigQuery
  • Programação de tabelas por gravações e leituras (para agrupá-las para movimentação)
  • Migração de dados com o serviço de transferência de dados do BigQuery: tempo estimado para migrar por tabela

A seção Sistema atual contém as seguintes visualizações:

Visão geral do sistema
A visualização Visão geral do sistema fornece métricas de volume de alto nível dos principais componentes no sistema atual por um período especificado. O cronograma avaliado depende dos registros que foram analisados pela avaliação de migração do BigQuery. Essa visualização oferece insights rápidos sobre o uso do data warehouse de origem, que podem ser usados para planejamento de migração.
Volume da tabela
A visualização "Volume da tabela" apresenta estatísticas sobre as maiores tabelas e bancos de dados encontrados pela avaliação de migração do BigQuery. Como tabelas grandes podem levar mais tempo para extrair do sistema de armazenamento de dados de origem, essa visualização pode ser útil no planejamento e no sequenciamento de migração.
Uso da tabela
A visualização "Uso da tabela" mostra estatísticas sobre quais tabelas são muito usadas no sistema de armazenamento de dados de origem. Tabelas muito usadas podem ajudar a entender quais tabelas podem ter muitas dependências e exigir planejamento adicional durante o processo de migração.
Aplicativos
A visualização "Uso de aplicativos" e a visualização "Padrões de aplicativos" fornecem estatísticas sobre aplicativos encontrados durante o processamento de registros. Essas visualizações permitem que os usuários entendam o uso de aplicativos específicos ao longo do tempo e o impacto no uso de recursos. Durante uma migração, é importante visualizar a ingestão e o consumo de dados para entender melhor as dependências do data warehouse e analisar o impacto da transferência de vários aplicativos dependentes. A tabela de endereços IP pode ser útil para identificar o aplicativo exato usando o armazenamento de dados em conexões JDBC.
Consultas
A visualização "Consultas" detalha os tipos de instruções SQL executadas e as estatísticas de uso. Você pode usar o histograma de "Tipo de consulta" e "Tempo para identificar" períodos baixos de utilização do sistema e horários ideais do dia para transferir dados. Também é possível usar essa visualização para identificar consultas executadas com frequência e que os usuários invocam essas execuções.
Bancos de dados
A visualização dos bancos de dados fornece métricas sobre tamanho, tabelas, visualizações e procedimentos definidos no sistema de armazenamento de dados de origem. Essa visualização pode fornecer insights sobre o volume de objetos que você precisa migrar.
Acoplamento de banco de dados
A visualização "Acoplamento de banco de dados" oferece uma visão de alto nível sobre bancos de dados e tabelas acessados em conjunto em uma única consulta. Essa visualização pode mostrar quais tabelas e bancos de dados são referenciadas com frequência e o que é possível usar para o planejamento de migração.

A seção Estado estável do BigQuery contém as seguintes visualizações:

Tabelas sem uso
A visualização Tabelas sem uso exibe tabelas em que a avaliação de migração do BigQuery não encontrou nenhum uso durante o período de registros que foi analisado. A falta de uso pode indicar que você não precisa transferir essa tabela para o BigQuery durante a migração ou que os custos de armazenamento de dados no BigQuery podem ser menores. Valide a lista de tabelas não utilizadas porque elas podem ter uso fora do período de registros, como uma tabela usada apenas uma vez a cada três ou seis meses.
Tabelas sem gravações
A visualização Tabelas sem gravações exibe as tabelas em que a avaliação de migração do BigQuery não encontrou atualizações durante o período de registros que foi analisado. A falta de gravações pode indicar onde você pode reduzir os custos de armazenamento no BigQuery.
Consultas de baixa latência
A visualização de consultas de baixa latência exibe uma distribuição dos ambientes de execução da consulta com base nos dados de registro analisados. Se o gráfico de distribuição de duração da consulta exibir um grande número de consultas com menos de 1 segundo no ambiente de execução, considere permitir que o BigQuery BI Engine acelere o BI e outras cargas de trabalho de baixa latência.
Visualizações materializadas
A visualização materializada fornece mais sugestões de otimização para melhorar o desempenho no BigQuery.
Clustering e particionamento

A visualização de particionamento e clustering exibe tabelas que podem se beneficiar do particionamento, clustering ou ambos.

As sugestões de metadados são alcançadas ao analisar o esquema do armazenamento de dados de origem (como particionamento e chave primária na tabela de origem) e encontrar o equivalente mais próximo do BigQuery para conseguir características de otimização semelhantes.

As sugestões de carga de trabalho são analisadas com a análise dos registros de consulta de origem. A recomendação é determinada pela análise das cargas de trabalho, especialmente das cláusulas WHERE ou JOIN nos registros de consulta analisados.

Recomendação de clustering

A visualização "Particionamento" exibe tabelas que podem ter mais de 10.000 partições, com base na definição de restrição do particionamento. Essas tabelas costumam ser boas candidatas para o clustering do BigQuery, o que permite partições de tabela refinadas.

Restrições exclusivas:

A visualização Restrições exclusivas exibe as tabelas SET e os índices exclusivos definidos no data warehouse de origem. No BigQuery, é recomendável usar tabelas de preparo e uma instrução MERGE para inserir somente registros exclusivos em uma tabela de destino. Use o conteúdo dessa visualização para determinar para quais tabelas você pode precisar ajustar o ETL durante a migração.

Valores padrão / restrições de verificação

Essa visualização mostra tabelas que usam restrições de verificação para definir valores de coluna padrão. No BigQuery, consulte Especificar valores de coluna padrão.

A seção Caminho de migração do relatório contém as seguintes visualizações:

Tradução de SQL
A visualização Tradução do SQL lista a quantidade e os detalhes de consultas que foram convertidas automaticamente pela avaliação de migração do BigQuery e não precisam de intervenção manual. A tradução automática do SQL geralmente atinge altas taxas de tradução se os metadados forem fornecidos. Essa visualização é interativa e permite analisar consultas comuns e entender como elas são traduzidas.
Esforço off-line
A visualização "Esforço off-line" captura as áreas que precisam de intervenção manual, incluindo UDFs específicas e possíveis violações de estrutura léxica e sintaxe de tabelas ou colunas.
Palavras-chave reservadas no BigQuery
A visualização "Palavras-chave reservadas do BigQuery" exibe o uso detectado de palavras-chave que têm um significado especial na linguagem do GoogleSQL e não podem ser usadas como identificadores, a menos que estejam entre acentos graves (`).
Programação das atualizações da tabela
A visualização "Programação das atualizações da tabela" mostra quando e com que frequência as tabelas são atualizadas para ajudar você a planejar como e quando movê-las.
Migração de dados para o BigQuery
A visualização "Migração de dados para o BigQuery" descreve o caminho de migração com o tempo esperado para migrar os dados usando o serviço de transferência de dados do BigQuery. Para mais informações, consulte o Guia do serviço de transferência de dados do BigQuery para Teradata.

A seção "Apêndice" contém as seguintes visualizações:

Diferenciação entre maiúsculas e minúsculas
A visualização "Diferenciação de caso" mostra tabelas no armazenamento de dados de origem configuradas para realizar comparações indiferentes a maiúsculas. Por padrão, as comparações de strings no BigQuery diferenciam maiúsculas de minúsculas. Para mais informações, consulte Agrupamento.

Amazon Redshift

Destaques da migração
A visualização "Destaques da migração" mostra um resumo executivo das três seções do relatório:
  1. O painel Sistema atual fornece informações sobre o número de bancos de dados, esquemas, tabelas e o tamanho total do sistema do Redshift. Ele também lista os esquemas por tamanho e possível utilização abaixo do ideal. Use essas informações para otimizar os dados removendo, particionando ou agrupando em cluster suas tabelas.
  2. O painel Estado estável do BigQuery fornece informações sobre como serão seus dados após a migração no BigQuery, incluindo o número de consultas que podem ser traduzidas automaticamente usando o serviço de migração do BigQuery. Esta seção também mostra os custos de armazenamento de dados no BigQuery com base na taxa de ingestão de dados anual, além de sugestões de otimização para tabelas, provisionamento e espaço.
  3. O painel Caminho de migração contém informações sobre a iniciativa de migração. Para cada tabela, é mostrado o tempo esperado para migrar, o número de linhas na tabela e o tamanho dela.

A seção Sistema atual contém as seguintes visualizações:

Consultas por tipo e programação
A visualização "Consultas por tipo" e "Programação" categoriza suas consultas em ETL/gravação e relatórios/agregação. Ver a combinação de consultas ao longo do tempo ajuda a entender os padrões de uso atuais e identificar o bursting e o possível provisionamento excessivo que podem afetar o custo e o desempenho.
Enfileiramento de consultas
A visualização da fila de consultas fornece mais detalhes sobre a carga do sistema, incluindo volume de consultas, mistura e possíveis impactos no desempenho devido ao enfileiramento, como recursos insuficientes.
Consultas e escalonamento do WLM
A visualização de consultas e escalonamento do WLM identifica o escalonamento de simultaneidade como um custo adicional e complexidade de configuração. Ela mostra como o sistema do Redshift encaminha as consultas com base nas regras especificadas e o desempenho é afetado devido às filas, ao escalonamento de simultaneidade e às consultas removidas.
Enfileiramento e espera
A visualização de enfileiramento e espera é uma análise mais profunda da fila e dos tempos de espera das consultas ao longo do tempo.
Classes e desempenho do WLM
A visualização de classes e desempenho do WLM oferece uma maneira opcional de mapear suas regras para o BigQuery. No entanto, recomendamos permitir que o BigQuery roteie automaticamente suas consultas.
Insights sobre volume de consultas e tabelas
A visualização de insights de volume de consultas e tabelas lista as consultas por tamanho, frequência e principais usuários. Isso ajuda a categorizar as origens da carga no sistema e a planejar a migração das cargas de trabalho.
Bancos de dados e esquemas
A visualização dos bancos de dados fornece métricas sobre tamanho, tabelas, visualizações e procedimentos definidos no sistema do datawarehouse de origem. Isso fornece insights sobre o volume de objetos que precisam ser migrados.
Volume da tabela
A visualização do volume de tabela fornece estatísticas sobre as maiores tabelas e bancos de dados, mostrando como são acessados. Como as tabelas grandes podem demorar mais para serem extraídas no sistema de data warehouse de origem, essa visualização ajuda no planejamento e no sequenciamento de migração.
Uso da tabela
A visualização "Uso da tabela" mostra estatísticas sobre quais tabelas são muito usadas no sistema de armazenamento de dados de origem. As tabelas muito usadas podem ser usadas para entender as tabelas que podem ter muitas dependências e garantir um planejamento adicional durante o processo de migração.
Importadores e Exportadores
A visualização de importadores e exportadores mostra informações sobre dados e usuários envolvidos na importação de dados (usando consultas COPY) e na exportação de dados (usando consultas UNLOAD). Essa visualização ajuda a identificar a camada de preparo e os processos relacionados à ingestão e as exportações.
Uso do cluster
A visualização "Utilização do cluster" fornece informações gerais sobre todos os clusters disponíveis e exibe a utilização da CPU para cada um deles. Essa visualização pode ajudar a entender a reserva de capacidade do sistema.

A seção Estado estável do BigQuery contém as seguintes visualizações:

Clustering e Particionamento

A visualização de particionamento e clustering exibe tabelas que podem se beneficiar do particionamento, clustering ou ambos.

As sugestões de metadados são alcançadas ao analisar o esquema do armazenamento de dados de origem (como ordenamento de chave e chave dist na tabela de origem) e encontrar o equivalente mais próximo do BigQuery para conseguir características de otimização semelhantes.

As sugestões de carga de trabalho são analisadas com a análise dos registros de consulta de origem. A recomendação é determinada pela análise das cargas de trabalho, especialmente das cláusulas WHERE ou JOIN nos registros de consulta analisados.

Na parte de baixo da página, há uma instrução "create table" traduzida com todas as otimizações fornecidas. Todas as instruções DDL convertidas podem ser também extraídos do conjunto de dados. As instruções DDL convertidas são armazenadas na tabela SchemaConversion na coluna CreateTableDDL.

As recomendações no relatório são fornecidas apenas para tabelas com mais de 1 GB porque tabelas pequenas não se beneficiam do clustering e o particionamento de dados. No entanto, DDL para todas as tabelas (incluindo tabelas menores que 1 GB) estão disponíveis na tabela SchemaConversion.

Tabelas sem uso

A visualização "Tabelas sem uso" mostra as tabelas em que a avaliação de migração do BigQuery não identificou nenhum uso durante o período de análise dos registros. A falta de uso pode indicar que não é preciso transferir a tabela para o BigQuery durante a migração ou que os custos de armazenamento de dados no BigQuery podem ser menores (faturado como Armazenamento de longo prazo). Valide a lista de tabelas não utilizadas porque elas podem ter uso fora do período de registros, como uma tabela usada apenas uma vez a cada três ou seis meses.

Tabelas sem gravações

A visualização "Tabelas sem gravações" mostra as tabelas em que a avaliação de migração do BigQuery não identificou nenhuma atualização durante o período de análise dos registros. A falta de gravações pode indicar onde você pode diminuir seus custos de armazenamento no BigQuery (faturado como Armazenamento de longo prazo).

BI Engine e visualizações materializadas

O BI Engine e as visualizações materializadas oferecem mais sugestões de otimização para melhorar o desempenho no BigQuery.

A seção Caminho de migração contém as seguintes visualizações:

Tradução de SQL
A visualização Tradução do SQL lista a quantidade e os detalhes de consultas que foram convertidas automaticamente pela avaliação de migração do BigQuery e não precisam de intervenção manual. A tradução automática do SQL geralmente atinge altas taxas de tradução se os metadados forem fornecidos.
Esforço off-line de tradução do SQL
A visualização Esforço off-line do SQL Translation captura as áreas que precisam de intervenção manual, incluindo UDFs específicas e consultas com possíveis ambiguidades de tradução.
Alterar suporte para adição ao final de tabelas
A visualização "Alterar suporte de adição ao final de tabela" mostra detalhes sobre construções comuns do Redshift SQL que não têm uma contraparte direta do BigQuery.
Suporte a comandos de cópia
A visualização "Suporte ao comando de cópia" mostra detalhes sobre um construções SQL comuns do Redshift que não tenham uma contraparte direta do BigQuery.
Avisos SQL
A visualização "Avisos SQL" capta áreas que foram traduzidas com sucesso, mas precisam de uma revisão.
Estrutura léxica e violações de sintaxe
A visualização de estrutura léxica e violações de sintaxe mostra os nomes das colunas, tabelas, funções e procedimentos que violem a sintaxe do BigQuery.
Palavras-chave reservadas no BigQuery
A visualização "Palavras-chave reservadas do BigQuery" exibe o uso detectado de palavras-chave que têm um significado especial na linguagem do GoogleSQL e não podem ser usadas como identificadores, a menos que estejam entre acentos graves (`).
Acoplamento de esquema
A visualização "Acoplamento de esquema" apresenta um panorama geral dos bancos de dados, esquemas e tabelas que são acessados juntos em uma única consulta. Essa visualização pode mostrar quais tabelas, esquemas e bancos de dados são referenciados com frequência e o que é possível usar para o planejamento de migração.
Programação das atualizações da tabela
A visualização "Programação das atualizações da tabela" mostra como, quando e com que frequência as tabelas são atualizadas para ajudar você a planejar como e quando movê-las.
Escala da tabela
A visualização Escala da tabela lista suas tabelas com mais colunas.
Migração de dados para o BigQuery
A visualização "Migração de dados para o BigQuery" descreve o caminho de migração com o tempo esperado para migrar os dados usando o Serviço de transferência de dados do Serviço de migração do BigQuery. Para mais informações, consulte o Guia do serviço de transferência de dados do BigQuery para Redshift.
Resumo da execução da avaliação

O resumo de execução da avaliação contém a integridade do relatório, o progresso da avaliação em andamento e o status dos arquivos processados e erros.

A integridade do relatório representa a porcentagem de dados processados com sucesso que são recomendados para exibir insights significativos no relatório de avaliação. Se os dados de uma seção específica do relatório estiverem ausentes, essas informações serão listadas na tabela Módulos de avaliação no indicador Integridade do relatório.

A métrica de progresso indica a porcentagem de dados processados até o momento com a estimativa do tempo restante para processar todos os dados. Após a conclusão do processamento, a métrica de progresso não é exibida.

Resumo da execução da avaliação.

Apache Hive

O relatório, que consiste em uma narrativa de três partes, é precedido por uma página de destaques de resumo que contém as seguintes seções:

  • Sistema atual - Hive. Esta seção consiste em um snapshot do sistema e uso atuais do Hive, incluindo o número de bancos de dados, tabelas, o tamanho total (em GB) e o número de registros de consulta processados. Esta seção também lista os bancos de dados por tamanho e aponta para um possível provisionamento e utilização de recursos abaixo do ideal (tabelas sem gravações ou poucas leituras). Esta seção contém os seguintes detalhes:

    • Computação e consultas
      • Utilização de CPU:
        • Consultas por hora e dia com utilização da CPU
        • Consultas por tipo (leitura/gravação)
        • Filas e aplicativos
        • Sobreposição da utilização de CPU por hora com o desempenho médio da consulta por hora e o desempenho médio do aplicativo por hora
      • Histograma de consultas por tipo e durações de consulta
      • Página de enfileiramento e espera
      • Visualização detalhada de filas (fila, usuário, consultas únicas, detalhamento de relatórios x ETL por métricas)
    • Visão geral de armazenamento
      • Bancos de dados por volume, visualizações e taxas de acesso
      • Tabelas com taxas de acesso por usuários, consultas, gravações e criações de tabelas temporárias
    • Filas e aplicativos: taxas de acesso e endereços IP do cliente
  • Estado estável do BigQuery. Esta seção mostra como ficará o sistema no BigQuery após a migração. Ele inclui sugestões para otimizar cargas de trabalho no BigQuery (e evitar desperdício). Esta seção contém os seguintes detalhes:

    • Tabelas identificadas como candidatas a visualizações materializadas
    • Clustering e particionamento de candidatos com base em metadados e uso
    • Consultas de baixa latência identificadas como candidatas ao BigQuery BI Engine
    • Tabelas sem uso de leitura ou gravação
    • Tabelas particionadas com o desvio de dados
  • Plano de migração. Esta seção contém informações sobre o próprio esforço da migração. Por exemplo, ir do sistema atual para o estado estável do BigQuery. Esta seção contém destinos de armazenamento identificados para cada tabela, tabelas identificadas como significativas para migração, e a contagem de consultas que foram traduzidas automaticamente. Esta seção contém os seguintes detalhes:

    • Visualização detalhada com consultas traduzidas automaticamente
      • Contagem do total de consultas com capacidade de filtrar por usuário, aplicativo, tabelas afetadas, tabelas consultadas e tipo de consulta
      • Buckets de consulta com padrões semelhantes agrupados, permitindo que os usuários vejam a filosofia de tradução por tipos de consulta
    • Consultas que exigem intervenção humana
      • Consultas com violações da estrutura lexical do BigQuery
      • Funções e procedimentos definidos pelo usuário
      • Palavras-chave reservadas no BigQuery
    • Consulta que requer revisão
    • Programação de tabelas por gravações e leituras (para agrupá-las para movimentação)
    • Destino de armazenamento identificado para tabelas externas e gerenciadas

A seção Sistema atual - Hive contém as seguintes visualizações:

Visão geral do sistema
Essa visualização mostra as métricas de volume de alto nível dos principais componentes no sistema atual por um período especificado. O cronograma avaliado depende dos registros que foram analisados pela avaliação de migração do BigQuery. Essa visualização oferece insights rápidos sobre o uso do data warehouse de origem, que podem ser usados para planejamento de migração.
Volume da tabela
Essa visualização mostra estatísticas sobre as maiores tabelas e bancos de dados encontrados pela avaliação de migração do BigQuery. Como tabelas grandes podem levar mais tempo para extrair do sistema de armazenamento de dados de origem, essa visualização pode ser útil no planejamento e no sequenciamento de migração.
Uso da tabela
Essa visualização mostra estatísticas sobre quais tabelas são muito usadas no sistema de data warehouse de origem. Tabelas muito usadas podem ajudar a entender quais tabelas podem ter muitas dependências e exigir planejamento adicional durante o processo de migração.
Utilização de filas
Essa visualização mostra estatísticas sobre o uso de filas YARN encontrado durante o processamento de registros. Essas visualizações permitem que os usuários entendam o uso de filas e aplicativos específicos ao longo do tempo e o impacto no uso de recursos. Essas visualizações também ajudam a identificar e priorizar cargas de trabalho para migração. Durante uma migração, é importante visualizar a ingestão e o consumo de dados para entender melhor as dependências do data warehouse e analisar o impacto da transferência de vários aplicativos dependentes. A tabela de endereços IP pode ser útil para identificar o aplicativo exato que usa o data warehouse em conexões JDBC.
Métricas de filas
Essa visualização mostra um detalhamento das diferentes métricas sobre filas YARN encontradas durante o processamento de registros. Essa visualização permite que os usuários entendam os padrões de uso em filas específicas e o impacto na migração. Também é possível usar essa visualização para identificar conexões entre tabelas acessadas em consultas e filas em que a consulta foi executada.
Enfileiramento e espera
Essa visualização mostra um insight sobre o tempo de enfileiramento de consultas no data warehouse de origem. Os tempos de enfileiramento indicam degradação do desempenho devido ao provisionamento insuficiente, e o provisionamento extra requer maiores custos de hardware e de manutenção.
Consultas
Essa visualização mostra um detalhamento dos tipos de instruções SQL executadas e as estatísticas de uso. Você pode usar o histograma de "Tipo de consulta" e "Tempo para identificar" períodos baixos de utilização do sistema e horários ideais do dia para transferir dados. Também é possível usar essa visualização para identificar os mecanismos de execução do Hive mais usados e as consultas executadas com frequência, além dos detalhes do usuário.
Bancos de dados
Essa visualização mostra métricas sobre tamanho, tabelas, visualizações e procedimentos definidos no sistema do data warehouse de origem. Essa visualização pode fornecer insights sobre o volume de objetos que você precisa migrar.
Combinação de bancos de dados e tabelas
Essa visualização traz uma visão de alto nível sobre bancos de dados e tabelas que são acessados juntos em uma única consulta. Essa visualização pode mostrar quais tabelas e bancos de dados são referenciadas com frequência e o que é possível usar para o planejamento de migração.

A seção Estado estável do BigQuery contém as seguintes visualizações:

Tabelas sem uso
A visualização Tabelas sem uso exibe tabelas em que a avaliação de migração do BigQuery não encontrou nenhum uso durante o período de registros que foi analisado. A falta de uso pode indicar que você não precisa transferir essa tabela para o BigQuery durante a migração ou que os custos de armazenamento de dados no BigQuery podem ser menores. É preciso validar a lista de tabelas não utilizadas porque elas podem ter uso fora do período de registros, como uma tabela usada apenas uma vez a cada três ou seis meses.
Tabelas sem gravações
A visualização Tabelas sem gravações exibe as tabelas em que a avaliação de migração do BigQuery não encontrou atualizações durante o período de registros que foi analisado. A falta de gravações pode indicar onde você pode reduzir os custos de armazenamento no BigQuery.
Recomendações de clustering e particionamento

Essa visualização exibe tabelas que se beneficiariam de particionamento, clustering ou de ambos.

As sugestões de metadados são alcançadas ao analisar o esquema do armazenamento de dados de origem (como particionamento e chave primária na tabela de origem) e encontrar o equivalente mais próximo do BigQuery para conseguir características de otimização semelhantes.

As sugestões de carga de trabalho são analisadas com a análise dos registros de consulta de origem. A recomendação é determinada pela análise das cargas de trabalho, especialmente das cláusulas WHERE ou JOIN nos registros de consulta analisados.

Partições convertidas em clusters

Essa visualização mostra tabelas com mais de 10.000 partições, com base na definição de restrição de particionamento. Essas tabelas costumam ser boas candidatas para o clustering do BigQuery, o que permite partições de tabela refinadas.

Partições desviadas

A visualização "Partições desviadas" exibe tabelas que são baseadas na análise de metadados e apresentam desvios de dados em uma ou várias partições. Essas tabelas são boas candidatas para alteração de esquema, já que as consultas em partições desviadas podem não apresentar um bom desempenho.

BI Engine e visualizações materializadas

A visualização "Consultas de baixa latência e visualizações materializadas" exibe uma distribuição dos tempos de execução de consultas com base nos dados de registro analisados e sugestões de otimização para melhorar o desempenho no BigQuery. Se o gráfico de distribuição de duração da consulta exibir um grande número de consultas com ambiente de execução menor que um segundo, considere ativar o BI Engine para acelerar o BI e outras cargas de trabalho de baixa latência.

A seção Plano de migração do relatório contém as seguintes visualizações:

Tradução de SQL
A visualização Tradução do SQL lista a quantidade e os detalhes de consultas que foram convertidas automaticamente pela avaliação de migração do BigQuery e não precisam de intervenção manual. A tradução automática do SQL geralmente atinge altas taxas de tradução se os metadados forem fornecidos. Essa visualização é interativa e permite analisar consultas comuns e entender como elas são traduzidas.
Esforço off-line de tradução do SQL
A visualização "Esforço off-line" captura as áreas que precisam de intervenção manual, incluindo UDFs específicas e possíveis violações de estrutura léxica e sintaxe de tabelas ou colunas.
Avisos SQL
A visualização "Avisos SQL" capta áreas que foram traduzidas com sucesso, mas precisam de uma revisão.
Palavras-chave reservadas no BigQuery
A visualização "Palavras-chave reservadas do BigQuery" exibe o uso detectado de palavras-chave que têm um significado especial na linguagem GoogleSQL. Essas palavras-chave não podem ser usadas como identificadores, a menos que estejam entre caracteres de crase (`).
Programação das atualizações da tabela
A visualização "Programação das atualizações da tabela" mostra quando e com que frequência as tabelas são atualizadas para ajudar você a planejar como e quando movê-las.
Tabelas externas do BigLake
A visualização "Tabelas externas do BigLake" descreve as tabelas identificadas como destinos de migração para o BigLake no lugar do BigQuery.

A seção Apêndice do relatório contém as seguintes visualizações:

Análise detalhada do esforço off-line de tradução do SQL
A visualização "Análise detalhada do esforço off-line de tradução" mostra um insight extra sobre as áreas do SQL que precisam de intervenção manual.
Análise detalhada de avisos SQL
A visualização "Análise detalhada de avisos" mostra um insight extra das áreas do SQL que foram traduzidas com sucesso, mas precisam de uma revisão.

Snowflake

O relatório consiste em seções diferentes que podem ser usadas juntas ou separadas. O diagrama a seguir organiza essas seções em três metas comuns do usuário para ajudar você a avaliar as necessidades de migração:

Fluxograma do relatório de avaliação de migração do Snowflake

Visualizações de destaques da migração

A seção Destaques da migração contém as seguintes visualizações:

Snowflake versus modelos de preços do BigQuery
Lista de preços com diferentes níveis/edições. Também inclui uma ilustração de como o escalonamento automático do BigQuery pode ajudar a economizar mais custos em comparação com o do Snowflake.
Custo total de propriedade
Tabela interativa, que permite ao usuário definir: edição do BigQuery, compromisso, compromisso de slot do valor de referência, porcentagem de armazenamento ativo e porcentagem de dados carregados ou alterados. Ajuda a estimar melhor o custo para casos personalizados.
Destaques da tradução automática
Proporção de tradução agregada, agrupada por usuário ou banco de dados, ordenada de forma crescente ou decrescente. Também inclui a mensagem de erro mais comum de falha na tradução automática.

Visualizações do sistema atuais

A seção Sistema atual contém as seguintes visualizações:

Visão geral do sistema
A visualização Visão geral do sistema fornece métricas de volume de alto nível dos principais componentes no sistema atual por um período especificado. O cronograma avaliado depende dos registros que foram analisados pela avaliação de migração do BigQuery. Essa visualização oferece insights rápidos sobre o uso do data warehouse de origem, que podem ser usados para planejamento de migração.
Visão geral dos warehouses virtuais
Exibe o custo do Snowflake por warehouse, assim como o redimensionamento baseado em nó ao longo do período.
Volume da tabela
A visualização "Volume da tabela" apresenta estatísticas sobre as maiores tabelas e bancos de dados encontrados pela avaliação de migração do BigQuery. Como tabelas grandes podem levar mais tempo para extrair do sistema de armazenamento de dados de origem, essa visualização pode ser útil no planejamento e no sequenciamento de migração.
Uso da tabela
A visualização "Uso da tabela" mostra estatísticas sobre quais tabelas são muito usadas no sistema de armazenamento de dados de origem. Tabelas muito usadas podem ajudar a entender quais tabelas podem ter muitas dependências e exigir planejamento adicional durante o processo de migração.
Consultas
A visualização "Consultas" detalha os tipos de instruções SQL executadas e as estatísticas de uso. Você pode usar o histograma de "Tipo de consulta" e "Tempo para identificar" períodos baixos de utilização do sistema e horários ideais do dia para transferir dados. Também é possível usar essa visualização para identificar consultas executadas com frequência e que os usuários invocam essas execuções.
Bancos de dados
A visualização dos bancos de dados fornece métricas sobre tamanho, tabelas, visualizações e procedimentos definidos no sistema de armazenamento de dados de origem. Essa visualização fornece insights sobre o volume de objetos que você precisa migrar.

Visualizações de estado estável do BigQuery

A seção Estado estável do BigQuery contém as seguintes visualizações:

Tabelas sem uso
A visualização "Tabelas sem uso" exibe tabelas em que a avaliação de migração do BigQuery não encontrou nenhum uso durante o período de registros que foi analisado. Isso pode indicar quais tabelas não precisam ser transferidas para o BigQuery durante a migração ou que os custos de armazenamento de dados no BigQuery podem ser menores. Valide a lista de tabelas não usadas porque elas podem ter uso fora do período de registros analisado, como uma tabela que é usada apenas uma vez por trimestre ou semestre.
Tabelas sem gravações
A visualização Tabelas sem gravações exibe as tabelas em que a avaliação de migração do BigQuery não encontrou atualizações durante o período de registros que foi analisado. Isso pode indicar que os custos de armazenamento de dados no BigQuery podem ser menores.

Visualizações do plano de migração

A seção Plano de migração do relatório contém as seguintes visualizações:

Tradução de SQL
A visualização Tradução do SQL lista a quantidade e os detalhes de consultas que foram convertidas automaticamente pela avaliação de migração do BigQuery e não precisam de intervenção manual. A tradução automática do SQL geralmente atinge altas taxas de tradução se os metadados forem fornecidos. Essa visualização é interativa e permite analisar consultas comuns e entender como elas são traduzidas.
Esforço off-line de tradução do SQL
A visualização "Esforço off-line" captura as áreas que precisam de intervenção manual, incluindo UDFs específicas e possíveis violações de estrutura léxica e sintaxe de tabelas ou colunas.
Avisos SQL - Para revisar
A visualização "Avisos para revisar" captura as áreas que são mais traduzidas, mas exigem alguma inspeção humana.
Palavras-chave reservadas no BigQuery
A visualização "Palavras-chave reservadas do BigQuery" exibe o uso detectado de palavras-chave que têm um significado especial na linguagem do GoogleSQL e não podem ser usadas como identificadores, a menos que estejam entre acentos graves (`).
Acoplamento de banco de dados e tabela
A visualização "Acoplamento de banco de dados" oferece uma visão de alto nível sobre bancos de dados e tabelas acessados em conjunto em uma única consulta. Ela mostra quais tabelas e bancos de dados são referenciados com frequência e o que pode ser usado para o planejamento da migração.
Programação das atualizações da tabela
A visualização "Programação das atualizações da tabela" mostra quando e com que frequência as tabelas são atualizadas para ajudar você a planejar como e quando movê-las.

Visualizações da prova de conceito

A seção PoC (prova de conceito) contém as seguintes visualizações:

PoC para demonstrar a economia no estado estável do BigQuery
Ela inclui as consultas mais frequentes, as que leem a maior parte dos dados, as consultas mais lentas e as tabelas afetadas por essas consultas mencionadas acima.
PoC para demonstrar o plano de migração do BigQuery
ela mostra como o BigQuery traduz as consultas mais complexas e as tabelas que elas afetam.

Compartilhar o relatório

O relatório do Looker Studio é um painel de front-end para a avaliação de migração. Isso depende das permissões subjacentes de acesso ao conjunto de dados. Para compartilhá-lo, o destinatário precisa ter acesso ao relatório do Looker Studio e ao conjunto de dados do BigQuery que contém os resultados da avaliação.

Ao abrir o relatório no console do Google Cloud, você está vendo o relatório no modo de visualização. Para criar e compartilhar o relatório com outros usuários, execute as seguintes etapas:

  1. Clique em Editar e compartilhar. O Looker Studio solicita que você anexe novos conectores do Looker Studio ao novo relatório.
  2. Clique em Adicionar ao relatório. O relatório recebe um ID de relatório individual, que pode ser usado para acessar o relatório.
  3. Para compartilhar o relatório do Looker Studio com outros usuários, siga as etapas da seção Compartilhar relatórios com leitores e editores.
  4. Conceda aos usuários permissão para visualizar o conjunto de dados do BigQuery que foi usado para executar a tarefa de avaliação. Para mais informações, consulte Como conceder acesso a um conjunto de dados.

Consultar as tabelas de saída da avaliação de migração

Embora os relatórios do Looker Studio informe sejam a maneira mais conveniente de visualizar os resultados da avaliação, também é possível visualizar e consultar os dados subjacentes no conjunto de dados do BigQuery.

Exemplo de consulta

O exemplo a seguir recebe o número total de consultas únicas, o número de consultas que falharam na tradução e a porcentagem de consultas únicas que falharam na tradução.

  SELECT
    QueryCount.v AS QueryCount,
    ErrorCount.v as ErrorCount,
    (ErrorCount.v * 100) / QueryCount.v AS FailurePercentage
  FROM
  (
    SELECT
     COUNT(*) AS v
    FROM
      `your_project.your_dataset.TranslationErrors`
    WHERE Type = "ERROR"
  ) AS ErrorCount,
  (
    SELECT
      COUNT(DISTINCT(QueryHash)) AS v
    FROM
      `your_project.your_dataset.Queries`
  ) AS QueryCount;

Compartilhar seu conjunto de dados com usuários em outros projetos

Depois de inspecionar o conjunto de dados, se você quiser compartilhá-lo com um usuário que não está em seu projeto, você pode fazer isso utilizando o fluxo de trabalho do editor do Analytics Hub.

  1. No Console do Google Cloud, acesse a página BigQuery.

    Acessar o BigQuery

  2. Clique no conjunto de dados para conferir os detalhes.

  3. Clique em Compartilhamento > Publicar como listagem.

  4. Na caixa de diálogo exibida, crie uma listagem conforme solicitado.

    Se você já tiver uma troca de dados, pule a etapa 5.

  5. Criar uma troca e definir permissões. Para permitir que um usuário veja suas listagens nesta troca, adicione-o à lista de assinantes.

  6. Insira os detalhes da listagem.

    Nome de exibição é o nome da listagem e é obrigatório. Outros campos são opcionais.

  7. Clique em Publicar.

    Uma listagem particular é criada.

  8. Na sua página de detalhes, selecione . Mais ações em Ações.

  9. Clique em Copiar link de compartilhamento.

    Você pode compartilhar o link com usuários que têm acesso de assinatura à sua troca ou listagem.

Schemata de tabelas de avaliação

Para ver as tabelas e os esquemas que a avaliação de migração do BigQuery grava no BigQuery, selecione seu data warehouse:

Teradata

AllRIChildren

Essa tabela apresenta as informações de integridade referencial dos filhos da tabela.

Coluna Tipo Descrição
IndexId INTEGER O número do índice de referência.
IndexName STRING O nome do índice.
ChildDB STRING O nome do banco de dados da referência, convertido em letras minúsculas.
ChildDBOriginal STRING O nome do banco de dados da referência com o caso preservado.
ChildTable STRING O nome da tabela da referência, convertido em letras minúsculas.
ChildTableOriginal STRING O nome da tabela da referência com o caso preservado.
ChildKeyColumn STRING O nome de uma coluna na chave da referência, convertida em minúsculas.
ChildKeyColumnOriginal STRING O nome de uma coluna na chave de referência com o caso preservado.
ParentDB STRING O nome do banco de dados referenciado, convertido em letras minúsculas.
ParentDBOriginal STRING O nome do banco de dados referenciado com o caso preservado.
ParentTable STRING O nome da tabela referenciada, convertido em letras minúsculas.
ParentTableOriginal STRING O nome da tabela referenciada com o caso preservado.
ParentKeyColumn STRING O nome da coluna em uma chave referenciada, convertido em letras minúsculas.
ParentKeyColumnOriginal STRING O nome da coluna em uma chave referenciada com o caso preservado.

AllRIParents

Essa tabela apresenta as informações de integridade referencial dos pais da tabela.

Coluna Tipo Descrição
IndexId INTEGER O número do índice de referência.
IndexName STRING O nome do índice.
ChildDB STRING O nome do banco de dados da referência, convertido em letras minúsculas.
ChildDBOriginal STRING O nome do banco de dados da referência com o caso preservado.
ChildTable STRING O nome da tabela da referência, convertido em letras minúsculas.
ChildTableOriginal STRING O nome da tabela da referência com o caso preservado.
ChildKeyColumn STRING O nome de uma coluna na chave da referência, convertida em minúsculas.
ChildKeyColumnOriginal STRING O nome de uma coluna na chave de referência com o caso preservado.
ParentDB STRING O nome do banco de dados referenciado, convertido em letras minúsculas.
ParentDBOriginal STRING O nome do banco de dados referenciado com o caso preservado.
ParentTable STRING O nome da tabela referenciada, convertido em letras minúsculas.
ParentTableOriginal STRING O nome da tabela referenciada com o caso preservado.
ParentKeyColumn STRING O nome da coluna em uma chave referenciada, convertido em letras minúsculas.
ParentKeyColumnOriginal STRING O nome da coluna em uma chave referenciada com o caso preservado.

Columns

Essa tabela fornece informações sobre as colunas.

Coluna Tipo Descrição
DatabaseName STRING O nome do banco de dados, convertido em letras minúsculas.
DatabaseNameOriginal STRING O nome do banco de dados com o caso preservado.
TableName STRING O nome da tabela, convertido em letras minúsculas.
TableNameOriginal STRING O nome da tabela com o caso preservado.
ColumnName STRING O nome da coluna, convertido em letras minúsculas.
ColumnNameOriginal STRING O nome da coluna com o caso preservado.
ColumnType STRING O tipo do BigQuery da coluna, como STRING.
OriginalColumnType STRING O tipo original da coluna, como VARCHAR.
ColumnLength INTEGER Número máximo de bytes da coluna, como 30 para VARCHAR(30).
DefaultValue STRING O valor padrão, se existir.
Nullable BOOLEAN Indica se a coluna é anulável.

DiskSpace

Nesta tabela, você encontra informações sobre o uso do espaço em disco para cada banco de dados.

Coluna Tipo Descrição
DatabaseName STRING O nome do banco de dados, convertido em letras minúsculas.
DatabaseNameOriginal STRING O nome do banco de dados com o caso preservado.
MaxPerm INTEGER O número máximo de bytes alocados ao espaço permanente.
MaxSpool INTEGER O número máximo de bytes alocados ao espaço de spool.
MaxTemp INTEGER O número máximo de bytes alocados ao espaço temporário.
CurrentPerm INTEGER O número de bytes atualmente alocados ao espaço permanente.
CurrentSpool INTEGER O número de bytes atualmente alocados ao espaço do spool.
CurrentTemp INTEGER O número de bytes atualmente alocados ao espaço temporário.
PeakPerm INTEGER Número máximo de bytes usados desde a última redefinição para o espaço permanente.
PeakSpool INTEGER Número máximo de bytes usados desde a última redefinição para o espaço de spool.
PeakPersistentSpool INTEGER Número máximo de bytes usados desde a última redefinição para o espaço persistente.
PeakTemp INTEGER Número máximo de bytes usados desde a última redefinição para o espaço temporário.
MaxProfileSpool INTEGER O limite do espaço de spool para o usuário.
MaxProfileTemp INTEGER É o limite de espaço temporário para o usuário.
AllocatedPerm INTEGER Alocação atual de espaço permanente.
AllocatedSpool INTEGER Alocação atual do espaço do spool.
AllocatedTemp INTEGER Alocação atual de espaço temporário.

Functions

Esta tabela fornece informações sobre as funções.

Coluna Tipo Descrição
DatabaseName STRING O nome do banco de dados, convertido em letras minúsculas.
DatabaseNameOriginal STRING O nome do banco de dados com o caso preservado.
FunctionName STRING O nome da função.
LanguageName STRING O nome do idioma.

Indices

Esta tabela fornece informações sobre os índices.

Coluna Tipo Descrição
DatabaseName STRING O nome do banco de dados, convertido em letras minúsculas.
DatabaseNameOriginal STRING O nome do banco de dados com o caso preservado.
TableName STRING O nome da tabela, convertido em letras minúsculas.
TableNameOriginal STRING O nome da tabela com o caso preservado.
IndexName STRING O nome do índice.
ColumnName STRING O nome da coluna, convertido em letras minúsculas.
ColumnNameOriginal STRING O nome da coluna com o caso preservado.
OrdinalPosition INTEGER A posição da coluna.
UniqueFlag BOOLEAN Indica se o índice impõe exclusividade.

Queries

Nesta tabela, você encontra informações sobre as consultas extraídas.

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
QueryText STRING O texto da consulta.

QueryLogs

Esta tabela mostra algumas estatísticas de execução sobre as consultas extraídas.

Coluna Tipo Descrição
QueryText STRING O texto da consulta.
QueryHash STRING O hash da consulta.
QueryId STRING O ID da consulta.
QueryType STRING O tipo de consulta, seja Query ou DDL.
UserId BYTES O ID do usuário que executou a consulta.
UserName STRING O nome do usuário que executou a consulta.
StartTime TIMESTAMP Carimbo de data/hora em que a consulta foi enviada.
Duration STRING Duração da consulta em milissegundos.
AppId STRING O ID do aplicativo que executou a consulta.
ProxyUser STRING O usuário do proxy quando usado por um nível intermediário.
ProxyRole STRING O papel de proxy quando usado por um nível intermediário.

QueryTypeStatistics

Esta tabela mostra estatísticas sobre tipos de consultas.

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
QueryType STRING O tipo da consulta.
UpdatedTable STRING Tabela atualizada pela consulta, se houver.
QueriedTables ARRAY<STRING> Uma lista das tabelas que foram consultadas.

ResUsageScpu

Nesta tabela, você encontra informações sobre o uso de recursos da CPU.

Coluna Tipo Descrição
EventTime TIMESTAMP A hora do evento.
NodeId INTEGER ID de nó
CabinetId INTEGER O número do gabinete físico do nó.
ModuleId INTEGER O número do módulo físico do nó.
NodeType STRING Tipo de nó.
CpuId INTEGER ID da CPU nesse nó.
MeasurementPeriod INTEGER O período da medida expresso em nanosegundos.
SummaryFlag STRING S - linha de resumo, N - linha de resumo
CpuFrequency FLOAT Frequência da CPU em MHz.
CpuIdle FLOAT O tempo de inatividade da CPU expresso em nanosegundos.
CpuIoWait FLOAT O tempo que a CPU está aguardando E/S expressa em nanosegundos.
CpuUServ FLOAT O tempo que a CPU está executando o código do usuário expresso em nanosegundos.
CpuUExec FLOAT A hora em que a CPU está executando o código de serviço expresso em nanosegundos.

Roles

Esta tabela fornece informações sobre papéis.

Coluna Tipo Descrição
RoleName STRING O nome do papel.
Grantor STRING O nome do banco de dados que concedeu o papel.
Grantee STRING O usuário que recebeu o papel.
WhenGranted TIMESTAMP Quando o papel foi concedido.
WithAdmin BOOLEAN A opção "Administrador" está definida para o papel concedido.

SchemaConversion

Esta tabela fornece informações sobre conversões de esquema relacionadas a clustering e particionamento.

Nome da coluna Tipo de coluna Descrição
DatabaseName STRING Nome do banco de dados de origem em que a sugestão é feita. Um banco de dados é mapeado para um conjunto de dados no BigQuery.
TableName STRING É o nome da tabela em que a sugestão é feita.
PartitioningColumnName STRING O nome da coluna de particionamento sugerida no BigQuery.
ClusteringColumnNames ARRAY Os nomes das colunas de clustering sugeridas no BigQuery.
CreateTableDDL STRING O CREATE TABLE statement para criar a tabela no BigQuery.

TableInfo

Nesta tabela, você encontra informações sobre tabelas.

Coluna Tipo Descrição
DatabaseName STRING O nome do banco de dados, convertido em letras minúsculas.
DatabaseNameOriginal STRING O nome do banco de dados com o caso preservado.
TableName STRING O nome da tabela, convertido em letras minúsculas.
TableNameOriginal STRING O nome da tabela com o caso preservado.
LastAccessTimestamp TIMESTAMP A última vez que a tabela foi acessada.
LastAlterTimestamp TIMESTAMP A última vez que a tabela foi alterada.
TableKind STRING O tipo de tabela.

TableRelations

Nesta tabela, você encontra informações sobre tabelas.

Coluna Tipo Descrição
QueryHash STRING O hash da consulta que estabeleceu a relação.
DatabaseName1 STRING Nome do primeiro banco de dados.
TableName1 STRING Nome da primeira tabela.
DatabaseName2 STRING O nome do segundo banco de dados.
TableName2 STRING O nome da segunda tabela.
Relation STRING O tipo de relação entre as duas tabelas.

TableSizes

Nesta tabela, você encontra informações sobre os tamanhos das tabelas.

Coluna Tipo Descrição
DatabaseName STRING O nome do banco de dados, convertido em letras minúsculas.
DatabaseNameOriginal STRING O nome do banco de dados com o caso preservado.
TableName STRING O nome da tabela, convertido em letras minúsculas.
TableNameOriginal STRING O nome da tabela com o caso preservado.
TableSizeInBytes INTEGER O tamanho da tabela em bytes.

Users

Esta tabela fornece informações sobre usuários.

Coluna Tipo Descrição
UserName STRING O nome do User.
CreatorName STRING O nome da entidade que criou esse usuário.
CreateTimestamp TIMESTAMP O carimbo de data/hora em que o usuário foi criado.
LastAccessTimestamp TIMESTAMP O carimbo de data/hora em que esse usuário acessou um banco de dados pela última vez.

Amazon Redshift

Columns

A tabela Columns vem de uma das seguintes tabelas: SVV_COLUMNS, INFORMATION_SCHEMA.COLUMNS ou PG_TABLE_DEF, ordenadas por prioridade. A ferramenta primeiro carrega dados a partir da tabela de prioridade mais alta. Se falhar, ela tentará carregar dados a partir da próxima tabela de prioridade mais alta. Consulte a documentação do Amazon Redshift ou do PostgreSQL para mais detalhes sobre o esquema e o uso.

Coluna Tipo Descrição
DatabaseName STRING : o nome do banco de dados.
SchemaName STRING O nome do esquema.
TableName STRING O nome da tabela.
ColumnName STRING O nome da coluna.
DefaultValue STRING O valor padrão, se disponível.
Nullable BOOLEAN Indica se uma coluna pode ou não ter um valor nulo.
ColumnType STRING O tipo da coluna, como VARCHAR.
ColumnLength INTEGER O tamanho da coluna, como 30 para um VARCHAR(30).

CreateAndDropStatistic

Essa tabela fornece informações sobre a criação e a exclusão de tabelas.

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
DefaultDatabase STRING O banco de dados padrão.
EntityType STRING O tipo de entidade. Por exemplo, TABELA.
EntityName STRING É o nome da entidade.
Operation STRING A operação: CRIAR ou REMOVER.

Databases

Esta tabela vem diretamente da tabela PG_DATABASE_INFO do Amazon Redshift. Os nomes dos campos originais da tabela PG estão incluídos nas descrições. Consulte a documentação do Amazon Redshift e do PostgreSQL para mais detalhes sobre o esquema e o uso.

Coluna Tipo Descrição
DatabaseName STRING : o nome do banco de dados. Nome da origem: datname
Owner STRING O proprietário do banco de dados. Por exemplo, o usuário que criou o banco de dados. Nome da origem: datdba

ExternalColumns

Esta tabela contém informações diretamente da tabela SVV_EXTERNAL_COLUMNS do Amazon Redshift. Consulte a documentação do Amazon Redshift para ver mais detalhes sobre o esquema e o uso.

Coluna Tipo Descrição
SchemaName STRING O nome do esquema externo.
TableName STRING O nome da tabela externa.
ColumnName STRING O nome da coluna externa.
ColumnType STRING O tipo da coluna.
Nullable BOOLEAN Indica se uma coluna pode ou não ter um valor nulo.

ExternalDatabases

Esta tabela contém informações diretamente da tabela SVV_EXTERNAL_DATABASES do Amazon Redshift. Consulte a documentação do Amazon Redshift para ver mais detalhes sobre o esquema e o uso.

Coluna Tipo Descrição
DatabaseName STRING O nome do banco de dados externo.
Location STRING O local do banco de dados.

ExternalPartitions

Esta tabela contém informações diretamente da tabela SVV_EXTERNAL_PARTITIONS do Amazon Redshift. Consulte a documentação do Amazon Redshift para ver mais detalhes sobre o esquema e o uso.

Coluna Tipo Descrição
SchemaName STRING O nome do esquema externo.
TableName STRING O nome da tabela externa.
Location STRING O local da partição. O tamanho da coluna é limitado a 128 caracteres. Valores mais longos são truncados.

ExternalSchemas

Esta tabela contém informações diretamente da tabela SVV_EXTERNAL_SCHEMAS do Amazon Redshift. Consulte a documentação do Amazon Redshift para ver mais detalhes sobre o esquema e o uso.

Coluna Tipo Descrição
SchemaName STRING O nome do esquema externo.
DatabaseName STRING O nome do banco de dados externo.

ExternalTables

Esta tabela contém informações diretamente da tabela SVV_EXTERNAL_TABLES do Amazon Redshift. Consulte a documentação do Amazon Redshift para ver mais detalhes sobre o esquema e o uso.

Coluna Tipo Descrição
SchemaName STRING O nome do esquema externo.
TableName STRING O nome da tabela externa.

Functions

Esta tabela contém informações da tabela PG_PROC do Amazon Redshift diretamente. Consulte a documentação do Amazon Redshift e do PostgreSQL para mais detalhes sobre o esquema e o uso.

Coluna Tipo Descrição
SchemaName STRING O nome do esquema.
FunctionName STRING O nome da função.
LanguageName STRING Idioma de implementação ou interface de chamada dessa função.

Queries

Essa tabela é gerada usando as informações da tabela QueryLogs. Ao contrário da tabela QueryLogs, cada linha na tabela "Queries" contém apenas uma instrução de consulta armazenada na coluna QueryText. Essa tabela fornece os dados de origem para gerar as tabelas de estatísticas e as saídas de tradução.

Coluna Tipo Descrição
QueryText STRING O texto da consulta.
QueryHash STRING O hash da consulta.

QueryLogs

Essa tabela mostra informações sobre a execução da consulta.

Coluna Tipo Descrição
QueryText STRING O texto da consulta.
QueryHash STRING O hash da consulta.
QueryID STRING O ID da consulta.
UserID STRING O ID do usuário.
StartTime TIMESTAMP O horário de início.
Duration INTEGER Duração em milissegundos.

QueryTypeStatistics

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
DefaultDatabase STRING O banco de dados padrão.
QueryType STRING O tipo da consulta.
UpdatedTable STRING A tabela atualizada.
QueriedTables ARRAY<STRING> As tabelas consultadas.

TableInfo

Esta tabela contém informações extraídas da tabela SVGV_TABLE_INFO no Amazon Redshift.

Coluna Tipo Descrição
DatabaseName STRING : o nome do banco de dados.
SchemaName STRING O nome do esquema.
TableId INTEGER O ID da tabela.
TableName STRING O nome da tabela.
SortKey1 STRING Primeira coluna na chave de classificação.
SortKeyNum INTEGER Número de colunas definidas como chaves de classificação.
MaxVarchar INTEGER Tamanho da maior coluna que usa um tipo de dados VARCHAR.
Size INTEGER Tamanho da tabela, em blocos de dados de 1 MB.
TblRows INTEGER Número total de linhas na tabela.

TableRelations

Coluna Tipo Descrição
QueryHash STRING O hash da consulta que estabeleceu a relação (por exemplo, uma consulta JOIN).
DefaultDatabase STRING O banco de dados padrão.
TableName1 STRING A primeira tabela da relação.
TableName2 STRING A segunda tabela da relação.
Relation STRING O tipo de relação. Usa um destes valores: COMMA_JOIN, CROSS_JOIN, FULL_OUTER_JOIN, INNER_JOIN, LEFT_OUTER_JOIN, RIGHT_OUTER_JOIN e CREATED_FROM ou INSERT_INTO.
Count INTEGER A frequência com que essa relação foi observada.

TableSizes

Essa tabela fornece informações sobre os tamanhos das tabelas.

Coluna Tipo Descrição
DatabaseName STRING : o nome do banco de dados.
SchemaName STRING O nome do esquema.
TableName STRING O nome da tabela.
TableSizeInBytes INTEGER O tamanho da tabela em bytes.

Tables

Esta tabela contém informações extraídas da tabela SVGV_TABLES no Amazon Redshift. Consulte a documentação do Amazon Redshift para mais detalhes sobre o esquema e o uso.

Coluna Tipo Descrição
DatabaseName STRING : o nome do banco de dados.
SchemaName STRING O nome do esquema.
TableName STRING O nome da tabela.
TableType STRING O tipo de tabela.

TranslatedQueries

Esta tabela fornece traduções de consulta.

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
TranslatedQueryText STRING Resultado da tradução do dialeto de origem para o GoogleSQL.

TranslationErrors

Esta tabela fornece informações sobre erros de conversão de consulta.

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
Severity STRING A gravidade do erro, como ERROR.
Category STRING A categoria do erro, como AttributeNotFound.
Message STRING A mensagem com os detalhes do erro.
LocationOffset INTEGER A posição do caractere do local do erro.
LocationLine INTEGER O número da linha do erro.
LocationColumn INTEGER O número da coluna do erro.
LocationLength INTEGER A quantidade de caracteres do local do erro.

UserTableRelations

Coluna Tipo Descrição
UserID STRING O ID do usuário.
TableName STRING O nome da tabela.
Relation STRING A relação.
Count INTEGER A contagem.

Users

Esta tabela contém informações extraídas da tabela PG_USER no Amazon Redshift. Consulte a documentação do PostgreSQL para mais detalhes sobre o esquema e o uso.

Coluna Tipo Descrição
UserName STRING O nome do User.
UserId STRING O ID do usuário.

Apache Hive

Columns

Essa tabela contém informações sobre as colunas:

Coluna Tipo Descrição
DatabaseName STRING O nome do banco de dados com o caso preservado.
TableName STRING O nome da tabela com o caso preservado.
ColumnName STRING O nome da coluna com o caso preservado.
ColumnType STRING O tipo do BigQuery da coluna, como STRING.
OriginalColumnType STRING O tipo original da coluna, como VARCHAR.

CreateAndDropStatistic

Essa tabela contém informações sobre a criação e a exclusão de tabelas:

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
DefaultDatabase STRING O banco de dados padrão.
EntityType STRING O tipo da entidade como, por exemplo, TABLE.
EntityName STRING É o nome da entidade.
Operation STRING A operação realizada na tabela (CREATE ou DROP).

Databases

Essa tabela contém informações sobre os bancos de dados:

Coluna Tipo Descrição
DatabaseName STRING O nome do banco de dados com o caso preservado.
Owner STRING O proprietário do banco de dados. Por exemplo, o usuário que criou o banco de dados.
Location STRING Localização do banco de dados nos sistemas de arquivos.

Functions

Essa tabela contém informações sobre as funções:

Coluna Tipo Descrição
DatabaseName STRING O nome do banco de dados com o caso preservado.
FunctionName STRING O nome da função.
LanguageName STRING O nome do idioma.
ClassName STRING O nome da classe da função.

ObjectReferences

Essa tabela contém informações sobre os objetos referenciados nas consultas:

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
DefaultDatabase STRING O banco de dados padrão.
Clause STRING A cláusula em que o objeto aparece. Por exemplo, SELECT.
ObjectName STRING O nome do objeto.
Type STRING O tipo do objeto.
Subtype STRING O subtipo do objeto.

ParititionKeys

Essa tabela contém informações sobre as chaves de partição:

Coluna Tipo Descrição
DatabaseName STRING O nome do banco de dados com o caso preservado.
TableName STRING O nome da tabela com o caso preservado.
ColumnName STRING O nome da coluna com o caso preservado.
ColumnType STRING O tipo do BigQuery da coluna, como STRING.

Parititions

Essa tabela contém informações sobre as partições de tabelas:

Coluna Tipo Descrição
DatabaseName STRING O nome do banco de dados com o caso preservado.
TableName STRING O nome da tabela com o caso preservado.
PartitionName STRING O nome da partição.
CreateTimestamp TIMESTAMP O carimbo de data/hora de quando a partição foi criada.
LastAccessTimestamp TIMESTAMP O carimbo de data/hora de quando a partição foi acessada pela última vez.
LastDdlTimestamp TIMESTAMP O carimbo de data/hora de quando essa partição foi alterada pela última vez.
TotalSize INTEGER O tamanho compactado da partição em bytes.

Queries

Essa tabela é gerada usando as informações da tabela QueryLogs. Ao contrário da tabela QueryLogs, cada linha na tabela "Queries" contém apenas uma instrução de consulta armazenada na coluna QueryText. Essa tabela contém os dados de origem para gerar as tabelas de estatísticas e as saídas de tradução:

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
QueryText STRING O texto da consulta.

QueryLogs

Essa tabela mostra algumas estatísticas de execução sobre as consultas extraídas:

Coluna Tipo Descrição
QueryText STRING O texto da consulta.
QueryHash STRING O hash da consulta.
QueryId STRING O ID da consulta.
QueryType STRING O tipo da consulta, Query ou DDL.
UserName STRING O nome do usuário que executou a consulta.
StartTime TIMESTAMP O carimbo de data/hora de quando a consulta foi enviada.
Duration STRING A duração da consulta em milissegundos.

QueryTypeStatistics

Essa tabela mostra estatísticas sobre tipos de consultas:

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
QueryType STRING O tipo da consulta.
UpdatedTable STRING A tabela atualizada pela consulta, se houver.
QueriedTables ARRAY<STRING> Uma lista das tabelas que foram consultadas.

QueryTypes

Essa tabela mostra estatísticas sobre tipos de consultas:

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
Category STRING A categoria da consulta.
Type STRING O tipo da consulta.
Subtype STRING O subtipo da consulta.

SchemaConversion

Essa tabela contém informações sobre conversões de esquema relacionadas a clustering e particionamento:

Nome da coluna Tipo de coluna Descrição
DatabaseName STRING Nome do banco de dados de origem em que a sugestão é feita. Um banco de dados é mapeado para um conjunto de dados no BigQuery.
TableName STRING É o nome da tabela em que a sugestão é feita.
PartitioningColumnName STRING O nome da coluna de particionamento sugerida no BigQuery.
ClusteringColumnNames ARRAY Os nomes das colunas de clustering sugeridas no BigQuery.
CreateTableDDL STRING O CREATE TABLE statement para criar a tabela no BigQuery.

TableRelations

Essa tabela contém informações sobre tabelas:

Coluna Tipo Descrição
QueryHash STRING O hash da consulta que estabeleceu a relação.
DatabaseName1 STRING Nome do primeiro banco de dados.
TableName1 STRING Nome da primeira tabela.
DatabaseName2 STRING O nome do segundo banco de dados.
TableName2 STRING O nome da segunda tabela.
Relation STRING O tipo de relação entre as duas tabelas.

TableSizes

Essa tabela contém informações sobre os tamanhos das tabelas:

Coluna Tipo Descrição
DatabaseName STRING O nome do banco de dados com o caso preservado.
TableName STRING O nome da tabela com o caso preservado.
TotalSize INTEGER O tamanho da tabela em bytes.

Tables

Essa tabela contém informações sobre tabelas:

Coluna Tipo Descrição
DatabaseName STRING O nome do banco de dados com o caso preservado.
TableName STRING O nome da tabela com o caso preservado.
Type STRING O tipo de tabela.

TranslatedQueries

Esta tabela contém traduções de consultas:

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
TranslatedQueryText STRING O resultado da tradução do dialeto de origem para o GoogleSQL.

TranslationErrors

Essa tabela contém informações sobre erros de tradução de consultas:

Coluna Tipo Descrição
QueryHash STRING O hash da consulta.
Severity STRING A gravidade do erro, como ERROR.
Category STRING A categoria do erro, como AttributeNotFound.
Message STRING A mensagem com os detalhes do erro.
LocationOffset INTEGER A posição do caractere do local do erro.
LocationLine INTEGER O número da linha do erro.
LocationColumn INTEGER O número da coluna do erro.
LocationLength INTEGER A quantidade de caracteres do local do erro.

UserTableRelations

Coluna Tipo Descrição
UserID STRING O ID do usuário.
TableName STRING O nome da tabela.
Relation STRING A relação.
Count INTEGER A contagem.

Snowflake

Warehouses

Coluna Tipo Descrição Presence
WarehouseName STRING O nome do warehouse. Sempre
State STRING O estado do warehouse. Valores possíveis: STARTED, SUSPENDED, RESIZING. Sempre
Type STRING Tipo de warehouse. Valores possíveis: STANDARD, SNOWPARK-OPTIMIZED. Sempre
Size STRING Tamanho do warehouse. Valores possíveis: X-Small, Small, Medium, Large, X-Large, 2X-Large ... 6X-Large. Sempre

Databases

Coluna Tipo Descrição Presence
DatabaseNameOriginal STRING O nome do banco de dados com o caso preservado. Sempre
DatabaseName STRING O nome do banco de dados, convertido em letras minúsculas. Sempre

Schemata

Coluna Tipo Descrição Presence
DatabaseNameOriginal STRING O nome do banco de dados ao qual o esquema pertence, com o caso preservado. Sempre
DatabaseName STRING O nome do banco de dados ao qual o esquema pertence, convertido em letras minúsculas. Sempre
SchemaNameOriginal STRING O nome do esquema, com letras maiúsculas e minúsculas preservadas. Sempre
SchemaName STRING O nome do esquema, convertido em letras minúsculas. Sempre

Tables

Coluna Tipo Descrição Presence
DatabaseNameOriginal STRING O nome do banco de dados ao qual a tabela pertence, com letras maiúsculas e minúsculas preservadas. Sempre
DatabaseName STRING O nome do banco de dados ao qual a tabela pertence, convertido em letras minúsculas. Sempre
SchemaNameOriginal STRING O nome do esquema a que a tabela pertence, com letras maiúsculas e minúsculas preservadas. Sempre
SchemaName STRING O nome do esquema ao qual a tabela pertence, convertido em letras minúsculas. Sempre
TableNameOriginal STRING O nome da tabela com o caso preservado. Sempre
TableName STRING O nome da tabela, convertido em letras minúsculas. Sempre
TableType STRING Tipo da tabela (visualização / visualização materializada / tabela base). Sempre
RowCount BIGNUMERIC Número de linhas na tabela. Sempre

Columns

Coluna Tipo Descrição Presence
DatabaseName STRING O nome do banco de dados, convertido em letras minúsculas. Sempre
DatabaseNameOriginal STRING O nome do banco de dados com o caso preservado. Sempre
SchemaName STRING O nome do esquema, convertido em letras minúsculas. Sempre
SchemaNameOriginal STRING O nome do esquema, com letras maiúsculas e minúsculas preservadas. Sempre
TableName STRING O nome da tabela, convertido em letras minúsculas. Sempre
TableNameOriginal STRING O nome da tabela com o caso preservado. Sempre
ColumnName STRING O nome da coluna, convertido em letras minúsculas. Sempre
ColumnNameOriginal STRING O nome da coluna com o caso preservado. Sempre
ColumnType STRING O tipo da coluna. Sempre

CreateAndDropStatistics

Coluna Tipo Descrição Presence
QueryHash STRING O hash da consulta. Sempre
DefaultDatabase STRING O banco de dados padrão. Sempre
EntityType STRING O tipo da entidade como, por exemplo, TABLE. Sempre
EntityName STRING É o nome da entidade. Sempre
Operation STRING A operação: CREATE ou DROP. Sempre

Queries

Coluna Tipo Descrição Presence
QueryText STRING O texto da consulta. Sempre
QueryHash STRING O hash da consulta. Sempre

QueryLogs

Coluna Tipo Descrição Presence
QueryText STRING O texto da consulta. Sempre
QueryHash STRING O hash da consulta. Sempre
QueryID STRING O ID da consulta. Sempre
UserID STRING O ID do usuário. Sempre
StartTime TIMESTAMP O horário de início. Sempre
Duration INTEGER Duração em milissegundos. Sempre

QueryTypeStatistics

Coluna Tipo Descrição Presence
QueryHash STRING O hash da consulta. Sempre
DefaultDatabase STRING O banco de dados padrão. Sempre
QueryType STRING O tipo da consulta. Sempre
UpdatedTable STRING A tabela atualizada. Sempre
QueriedTables REPEATED STRING As tabelas consultadas. Sempre

TableRelations

Coluna Tipo Descrição Presence
QueryHash STRING O hash da consulta que estabeleceu a relação (por exemplo, uma consulta JOIN). Sempre
DefaultDatabase STRING O banco de dados padrão. Sempre
TableName1 STRING A primeira tabela da relação. Sempre
TableName2 STRING A segunda tabela da relação. Sempre
Relation STRING O tipo de relação. Sempre
Count INTEGER A frequência com que essa relação foi observada. Sempre

TranslatedQueries

Coluna Tipo Descrição Presence
QueryHash STRING O hash da consulta. Sempre
TranslatedQueryText STRING Resultado da tradução do dialeto de origem para o BigQuery SQL. Sempre

TranslationErrors

Coluna Tipo Descrição Presence
QueryHash STRING O hash da consulta. Sempre
Severity STRING A gravidade do erro como, por exemplo, ERROR. Sempre
Category STRING A categoria do erro como, por exemplo, AttributeNotFound. Sempre
Message STRING A mensagem com os detalhes do erro. Sempre
LocationOffset INTEGER A posição do caractere do local do erro. Sempre
LocationLine INTEGER O número da linha do erro. Sempre
LocationColumn INTEGER O número da coluna do erro. Sempre
LocationLength INTEGER A quantidade de caracteres do local do erro. Sempre

UserTableRelations

Coluna Tipo Descrição Presence
UserID STRING código do usuário; Sempre
TableName STRING O nome da tabela. Sempre
Relation STRING A relação. Sempre
Count INTEGER A contagem. Sempre

Solução de problemas

Nesta seção, explicamos alguns problemas comuns e técnicas de solução de problemas para migrar seu data warehouse para o BigQuery.

dwh-migration-dumper erros da ferramenta

Para solucionar erros e avisos na saída do terminal da ferramenta dwh-migration-dumper que ocorreram durante a extração de registros de consulta ou metadados, consulte Gerar solução de problemas de metadados.

Erros de migração do Hive

Esta seção descreve problemas comuns que podem ser encontrados ao planejar a migração do seu data warehouse do Hive para o BigQuery.

O hook de geração de registros grava mensagens de registro de depuração nos registros hive-server2. Se você encontrar algum problema, consulte os registros de depuração do hook de geração de registros, que contêm a string MigrationAssessmentLoggingHook.

Solucione o erro ClassNotFoundException

O erro pode ser causado pela posição incorreta do arquivo JAR do hook de geração de registros. Verifique se você adicionou o arquivo JAR à pasta auxlib no cluster do Hive. Outra possibilidade é especificar o caminho completo do arquivo JAR na propriedade hive.aux.jars.path, por exemplo, file:///HiveMigrationAssessmentQueryLogsHooks_deploy.jar.

A pasta configurada não mostra subpastas

Esse problema pode ser causado por uma configuração incorreta ou por problemas durante a inicialização do hook de geração de registros.

Nos registros de depuração hive-server2, procure as seguintes mensagens do hook de geração de registros:

Unable to initialize logger, logging disabled
Log dir configuration key 'dwhassessment.hook.base-directory' is not set,
logging disabled.
Error while trying to set permission

Analise os detalhes do problema e veja se há algo que você precisa corrigir para resolver o problema.

A pasta não mostra arquivos

Esse problema pode ser causado pelos problemas encontrados durante o processamento de um evento ou a gravação em um arquivo.

Nos registros de depuração hive-server2, procure as seguintes mensagens do hook de geração de registros:

Failed to close writer for file
Got exception while processing event
Error writing record for query

Analise os detalhes do problema e veja se há algo que você precisa corrigir para resolver o problema.

Alguns eventos de consulta estão perdidos

Esse problema pode ser causado pelo excesso de filas de linhas de execução do hook de geração de registros.

Nos registros de depuração hive-server2, procure a seguinte mensagem do hook de geração de registros:

Writer queue is full. Ignoring event

Se houver essas mensagens, aumente o parâmetro dwhassessment.hook.queue.capacity.

A seguir

Para mais informações sobre a ferramenta dwh-migration-dumper, consulte dwh-migration-tools.

Você também pode saber mais sobre as seguintes etapas na migração de data warehouses: