Avaliação da migração
A avaliação de migração do BigQuery permite planejar e revisar a migração do seu data warehouse atual para o BigQuery. É possível executar a avaliação de migração do BigQuery para gerar um relatório e avaliar o custo de armazenamento dos dados no BigQuery, ver como o BigQuery pode otimizar a carga de trabalho atual para economizar e preparar um plano de migração que descreve o tempo e o esforço necessários para concluir a migração do data warehouse para o BigQuery.
Neste documento, descrevemos como usar a avaliação de migração do BigQuery e as diferentes maneiras de analisar os resultados da avaliação. Este documento é destinado a usuários que conhecem o Console do Google Cloud e o tradutor de SQL em lote.
Antes de começar
Para preparar e executar uma avaliação de migração do BigQuery, siga estas etapas:
Extraia metadados e registros de consulta do seu data warehouse usando a ferramenta
dwh-migration-dumper
.Faça o upload dos seus metadados e registros de consulta para o bucket do Cloud Storage.
Opcional: consulte os resultados da avaliação para encontrar informações detalhadas ou específicas.
Extrair metadados e registros de consulta do seu armazenamento de dados
Os metadados e os registros de consulta são necessários para preparar a avaliação com recomendações.
Para extrair os metadados e os registros de consulta necessários para executar a avaliação, selecione seu armazenamento de dados:
Teradata
Requisitos
- Uma máquina conectada ao seu armazenamento de dados de origem do Teradata (o Teradata 15 e versões mais recentes são compatíveis)
- Uma conta do Google Cloud com um bucket do Cloud Storage para armazenar os dados
- Um conjunto de dados do BigQuery vazio para armazenar os resultados
- Permissões de leitura no conjunto de dados para ver os resultados
- Recomendado: direitos de acesso no nível do administrador ao banco de dados de origem ao usar a ferramenta de extração para acessar tabelas do sistema
Requisito: ativar a geração de registros
A ferramenta dwh-migration-dumper
extrai três tipos de registros: de consulta, de
utilitários e de uso de recursos. É necessário ativar a geração de registros para os seguintes tipos de registros para ver insights mais completos:
- Registros de consulta: extraídos da visualização
dbc.QryLogV
e da tabeladbc.DBQLSqlTbl
. Ative a geração de registros especificando a opçãoWITH SQL
. - Registros de utilitários: extraídos da tabela
dbc.DBQLUtilityTbl
. Ative a geração de registros especificando a opçãoWITH UTILITYINFO
. - Registros de uso de recursos: extraídos das tabelas
dbc.ResUsageScpu
edbc.ResUsageSpma
. Ative a geração de registros RSS para essas duas tabelas.
Execute a ferramenta dwh-migration-dumper
Fazer o download da ferramenta dwh-migration-dumper
Faça o download do
arquivo SHA256SUMS.txt
e execute o seguinte comando para verificar a exatidão do ZIP:
Bash
sha256sum --check SHA256SUMS.txt
Windows PowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Substitua RELEASE_ZIP_FILENAME
pelo nome de arquivo zip baixado da versão da ferramenta de extração de linha de comando dwh-migration-dumper
, por exemplo, dwh-migration-tools-v1.0.52.zip
O resultado True
confirma a verificação com êxito do checksum.
O resultado False
indica um erro de verificação. Verifique se o checksum e os arquivos ZIP são da mesma versão de lançamento ao fazer o download e foram colocados no mesmo diretório.
Para saber detalhes sobre como configurar e usar a ferramenta de extração, consulte Gerar metadados para tradução e avaliação.
Use a ferramenta de extração para extrair registros e metadados do armazenamento de dados do Teradata como dois arquivos ZIP. Execute os comandos a seguir em uma máquina com acesso ao data warehouse de origem para gerar os arquivos.
Gere o arquivo ZIP de metadados:
dwh-migration-dumper \ --connector teradata \ --database DATABASES \ --driver path/terajdbc4.jar \ --host HOST \ --assessment \ --user USER \ --password PASSWORD
Gere o arquivo ZIP com os registros de consulta:
dwh-migration-dumper \ --connector teradata-logs \ --driver path/terajdbc4.jar \ --host HOST \ --assessment \ --user USER \ --password PASSWORD
Substitua:
DATABASES
: a lista separada por vírgulas de nomes de bancos de dados a extrairPATH
: o caminho absoluto ou relativo para o arquivo JAR do driver a ser usado para essa conexão;VERSION
: a versão do driver;HOST
: o endereço do host;USER
: o nome de usuário a ser usado na conexão do banco de dados;PASSWORD
: a senha a ser usada na conexão do banco de dados.Se ficar em branco, o usuário precisará informar a senha.
Só é possível usar a sinalização --database
para o conector teradata
. Essa sinalização
permite extrair os metadados de um ou mais bancos de dados. Quando você extrai os registros de consulta usando o conector teradata-logs
, a sinalização --database
não está disponível. Os registros de consulta são sempre extraídos para todos os bancos de dados.
Por padrão, os registros de consulta são extraídos da visualização dbc.QryLogV
e da tabela dbc.DBQLSqlTbl
. Se você precisar extrair os registros de consulta de um local alternativo, especifique os nomes das tabelas ou visualizações usando as sinalizações -Dteradata-logs.query-logs-table
e -Dteradata-logs.sql-logs-table
.
Por padrão, os registros do utilitário são extraídos da tabela dbc.DBQLUtilityTbl
. Se você precisar extrair os registros utilitários de um
local alternativo, especifique o nome da tabela usando a
flag -Dteradata-logs.utility-logs-table
.
Por padrão, os registros de uso de recursos são extraídos das tabelas dbc.ResUsageScpu
e dbc.ResUsageSpma
. Se você precisar extrair os
registros de uso de recursos de um local alternativo, especifique os nomes
das tabelas usando as sinalizações -Dteradata-logs.res-usage-scpu-table
e
-Dteradata-logs.res-usage-spma-table
.
Exemplo:
Bash
dwh-migration-dumper \ --connector teradata-logs \ --driver path/terajdbc4.jar \ --host HOST \ --assessment \ --user USER \ --password PASSWORD \ -Dteradata-logs.query-logs-table=pdcrdata.QryLogV_hst \ -Dteradata-logs.sql-logs-table=pdcrdata.DBQLSqlTbl_hst \ -Dteradata-logs.log-date-column=LogDate \ -Dteradata-logs.utility-logs-table=pdcrdata.DBQLUtilityTbl_hst \ -Dteradata-logs.res-usage-scpu-table=pdcrdata.ResUsageScpu_hst \ -Dteradata-logs.res-usage-spma-table=pdcrdata.ResUsageSpma_hst
Windows PowerShell
dwh-migration-dumper ` --connector teradata-logs ` --driver path\terajdbc4.jar ` --host HOST ` --assessment ` --user USER ` --password PASSWORD ` "-Dteradata-logs.query-logs-table=pdcrdata.QryLogV_hst" ` "-Dteradata-logs.sql-logs-table=pdcrdata.DBQLSqlTbl_hst" ` "-Dteradata-logs.log-date-column=LogDate" ` "-Dteradata-logs.utility-logs-table=pdcrdata.DBQLUtilityTbl_hst" ` "-Dteradata-logs.res-usage-scpu-table=pdcrdata.ResUsageScpu_hst" ` "-Dteradata-logs.res-usage-spma-table=pdcrdata.ResUsageSpma_hst"
Por padrão, a ferramenta dwh-migration-dumper
extrai os últimos sete dias de registros de consulta.
O Google recomenda que você forneça pelo menos duas semanas de registros de consulta para visualizar insights mais completos. É possível especificar um intervalo de tempo personalizado usando as flags --query-log-start
e --query-log-end
. Exemplo:
dwh-migration-dumper \ --connector teradata-logs \ --driver path/terajdbc4.jar \ --host HOST \ --assessment \ --user USER \ --password PASSWORD \ --query-log-start "2023-01-01 00:00:00" \ --query-log-end "2023-01-15 00:00:00"
Também é possível gerar vários arquivos ZIP contendo registros de consulta abrangendo diferentes períodos e fornecer todos eles para avaliação.
Amazon Redshift
Requisitos
- Uma máquina conectada ao seu data warehouse de origem do Amazon Redshift
- Uma conta do Google Cloud com um bucket do Cloud Storage para armazenar os dados
- Um conjunto de dados do BigQuery vazio para armazenar os resultados
- Permissões de leitura no conjunto de dados para ver os resultados
- Recomendado: acesso de superusuário ao banco de dados ao usar a ferramenta de extração para acessar tabelas do sistema
Execute a ferramenta dwh-migration-dumper
Faça o download da ferramenta de extração da linha de comando dwh-migration-dumper
.
Faça o download do
arquivo SHA256SUMS.txt
e execute o seguinte comando para verificar a exatidão do ZIP:
Bash
sha256sum --check SHA256SUMS.txt
Windows PowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Substitua RELEASE_ZIP_FILENAME
pelo nome de arquivo zip baixado da versão da ferramenta de extração de linha de comando dwh-migration-dumper
, por exemplo, dwh-migration-tools-v1.0.52.zip
O resultado True
confirma a verificação com êxito do checksum.
O resultado False
indica um erro de verificação. Verifique se o checksum e os arquivos ZIP são da mesma versão de lançamento ao fazer o download e foram colocados no mesmo diretório.
Para detalhes sobre como usar a ferramenta dwh-migration-dumper
,
consulte a página
Gerar metadados.
Use a ferramenta dwh-migration-dumper
para extrair registros e metadados do armazenamento de dados do Amazon Redshift como dois arquivos ZIP.
Execute os comandos a seguir em uma máquina com acesso ao data warehouse
de origem para gerar os arquivos.
Gere o arquivo ZIP de metadados:
dwh-migration-dumper \ --connector redshift \ --database DATABASE \ --driver PATH/redshift-jdbc42-VERSION.jar \ --host host.region.redshift.amazonaws.com \ --assessment \ --user USER \ --iam-profile IAM_PROFILE_NAME
Gere o arquivo ZIP com os registros de consulta:
dwh-migration-dumper \ --connector redshift-raw-logs \ --database DATABASE \ --driver PATH/redshift-jdbc42-VERSION.jar \ --host host.region.redshift.amazonaws.com \ --assessment \ --user USER \ --iam-profile IAM_PROFILE_NAME
Substitua:
DATABASE
: o nome do banco de dados a ser conectado;PATH
: o caminho absoluto ou relativo para o arquivo JAR do driver a ser usado para essa conexão;VERSION
: a versão do driver;USER
: o nome de usuário a ser usado na conexão do banco de dados;IAM_PROFILE_NAME
: o Nome do perfil do IAM do Amazon Redshift. Obrigatório para autenticação do Amazon Redshift e para acesso à API da AWS. Para conferir a descrição dos clusters do Amazon Redshift, use a API da AWS.
Por padrão, o Amazon Redshift armazena de três a cinco dias de registros de consulta.
Por padrão, a ferramenta dwh-migration-dumper
extrai os últimos sete dias de registros de consulta.
O Google recomenda que você forneça pelo menos duas semanas de registros de consulta para visualizar insights mais completos. Talvez seja necessário executar a ferramenta de extração algumas vezes ao longo de duas semanas para ter os melhores resultados. É possível especificar um intervalo personalizado usando as sinalizações --query-log-start
e --query-log-end
.
Exemplo:
dwh-migration-dumper \ --connector redshift-raw-logs \ --database DATABASE \ --driver PATH/redshift-jdbc42-VERSION.jar \ --host host.region.redshift.amazonaws.com \ --assessment \ --user USER \ --iam-profile IAM_PROFILE_NAME \ --query-log-start "2023-01-01 00:00:00" \ --query-log-end "2023-01-02 00:00:00"
Também é possível gerar vários arquivos ZIP contendo registros de consulta abrangendo diferentes períodos e fornecer todos eles para avaliação.
Apache Hive
Requisitos
- Uma máquina conectada ao seu data warehouse do Apache Hive de origem. A avaliação de migração do BigQuery é compatível com o Hive no Tez e MapReduce, além de ser compatível com o Apache Hive da versão 2.2 até a 3.1.
- Uma conta do Google Cloud com um bucket do Cloud Storage para armazenar os dados
- Um conjunto de dados do BigQuery vazio para armazenar os resultados
- Permissões de leitura no conjunto de dados para ver os resultados
- Acesso ao seu data warehouse de origem do Apache Hive para configurar a extração de registros de consulta
- Estatísticas atualizadas de tabelas, partições e colunas
A avaliação de migração do BigQuery usa estatísticas de tabelas, partições e colunas para entender melhor seu data warehouse do Apache Hive e fornecer insights detalhados. Quando a configuração de hive.stats.autogather
está definida como false
no data warehouse de origem do Apache Hive, o Google recomenda ativar ou atualizar as estatísticas manualmente antes de executar a ferramenta dwh-migration-dumper
.
Execute a ferramenta dwh-migration-dumper
Faça o download da ferramenta de extração da linha de comando dwh-migration-dumper
.
Faça o download do
arquivo SHA256SUMS.txt
e execute o seguinte comando para verificar a exatidão do ZIP:
Bash
sha256sum --check SHA256SUMS.txt
Windows PowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Substitua RELEASE_ZIP_FILENAME
pelo nome de arquivo zip baixado da versão da ferramenta de extração de linha de comando dwh-migration-dumper
, por exemplo, dwh-migration-tools-v1.0.52.zip
O resultado True
confirma a verificação com êxito do checksum.
O resultado False
indica um erro de verificação. Verifique se o checksum e os arquivos ZIP são da mesma versão de lançamento ao fazer o download e foram colocados no mesmo diretório.
Para detalhes sobre como usar a ferramenta dwh-migration-dumper
, consulte Gerar metadados para tradução e avaliação.
Use a ferramenta dwh-migration-dumper
para gerar metadados do seu data warehouse
do Hive como um arquivo ZIP.
Sem autenticação
Para gerar o arquivo ZIP de metadados, execute o seguinte comando em uma máquina com acesso ao data warehouse de origem:
dwh-migration-dumper \ --connector hiveql \ --database DATABASES \ --host hive.cluster.host \ --port 9083 \ --assessment
Com a autenticação do Kerberos
Para autenticar-se no metastore, faça login como um usuário que tenha acesso ao metastore Hive e gere um tíquete do Kerberos. Em seguida, gere o arquivo ZIP de metadados com o seguinte comando:
JAVA_OPTS="-Djavax.security.auth.useSubjectCredsOnly=false" \ dwh-migration-dumper \ --connector hiveql \ --database DATABASES \ --host hive.cluster.host \ --port 9083 \ --hive-kerberos-url PRINCIPAL/HOST \ -Dhiveql.rpc.protection=hadoop.rpc.protection \ --assessment
Substitua:
DATABASES
: a lista separada por vírgulas de nomes de bancos de dados a extrair. Se não for fornecido, todos os bancos de dados serão extraídos.PRINCIPAL
: o principal do Kerberos para onde o tíquete foi emitido.HOST
: o nome do host do Kerberos para onde o tíquete é emitido.hadoop.rpc.protection
: a qualidade de proteção (QOP, na sigla em inglês) do nível de configuração da Camada de Autenticação e Segurança Simples (SASL), igual ao valor do parâmetrohadoop.rpc.protection
dentro do/etc/hadoop/conf/core-site.xml
com um dos seguintes valores:authentication
integrity
privacy
Extrair registros de consulta com o hook de geração de registros hadoop-migration-assessment
Para extrair registros de consulta, siga estas etapas:
- Faça upload do hook de geração de registros
hadoop-migration-assessment
. - Configure as propriedades do hook de geração de registros.
- Verifique o hook de geração de registros.
Fazer upload do hook de geração de registros hadoop-migration-assessment
Faça o download do hook de geração de registros para extração de registros de consulta
hadoop-migration-assessment
que contém o arquivo JAR desse hook do Hive.Extraia o arquivo JAR.
Se você precisar auditar a ferramenta para garantir que ela atende aos requisitos de conformidade, revise o código-fonte no repositório do GitHub de hooks de geração de registros
hadoop-migration-assessment
e compile seu próprio binário.Copie o arquivo JAR na pasta da biblioteca auxiliar em todos os clusters em que você planeja ativar a geração de registros de consulta. Dependendo do seu fornecedor, você precisará localizar a pasta da biblioteca auxiliar nas configurações do cluster e transferir o arquivo JAR para a pasta da biblioteca auxiliar no cluster do Hive.
Defina as propriedades de configuração para o hook de geração de registros
hadoop-migration-assessment
. Dependendo do seu fornecedor do Hadoop, você precisará usar o console da interface para editar as configurações do cluster. Modifique o arquivo/etc/hive/conf/hive-site.xml
ou aplique a configuração com o gerenciador de configuração.
Configurar propriedades
Se você já tiver outros valores para as chaves de configuração a seguir, acrescente as configurações usando uma vírgula (,
). Para configurar o hook de geração de registros hadoop-migration-assessment
, as seguintes definições são necessárias:
hive.exec.failure.hooks
:com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
hive.exec.post.hooks
:com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
hive.exec.pre.hooks
:com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
hive.aux.jars.path
: inclua o caminho para o arquivo JAR do hook de geração de registros, por exemplo,file://
./HiveMigrationAssessmentQueryLogsHooks_deploy.jar dwhassessment.hook.base-directory
: o caminho para a pasta de saída dos registros de consulta. Por exemplo,hdfs://tmp/logs/
.Também é possível definir as seguintes configurações opcionais:
dwhassessment.hook.queue.capacity
: a capacidade de fila para as linhas de execução de log de eventos de consulta. O valor padrão é64
.dwhassessment.hook.rollover-interval
: a frequência em que o rollover de arquivos precisa ser realizado. Por exemplo,600s
. O valor padrão é de 3.600 segundos (1 hora).dwhassessment.hook.rollover-eligibility-check-interval
: a frequência em que a verificação de elegibilidade do rollover de arquivos é acionada em segundo plano. Por exemplo,600s
. O valor padrão é de 600 segundos (10 minutos).
Verificar o hook de geração de registros
Depois de reiniciar o processo hive-server2
, execute uma consulta de teste e analise os registros de depuração. A seguinte mensagem será exibida:
Logger successfully started, waiting for query events. Log directory is '[dwhassessment.hook.base-directory value]'; rollover interval is '60' minutes; rollover eligibility check is '10' minutes
O hook de geração de registros cria uma subpasta particionada por data na pasta configurada. O arquivo Avro com eventos de consulta aparecerá nessa pasta após o intervalo dwhassessment.hook.rollover-interval
ou o encerramento do processo hive-server2
. É possível procurar mensagens semelhantes nos registros de depuração para ver o status da operação de rollover:
Updated rollover time for logger ID 'my_logger_id' to '2023-12-25T10:15:30'
Performed rollover check for logger ID 'my_logger_id'. Expected rollover time is '2023-12-25T10:15:30'
O rollover ocorre nos intervalos especificados ou quando o dia é alterado. Quando a data é alterada, o hook de geração de registros também cria uma nova subpasta para essa data.
O Google recomenda que você forneça pelo menos duas semanas de registros de consulta para visualizar insights mais completos.
Também é possível gerar pastas que contêm registros de consulta de diferentes clusters do Hive e fornecer todos eles para uma única avaliação.
Snowflake
Requisitos
Você precisa atender aos seguintes requisitos para extrair metadados e registros de consulta do Snowflake:
- Uma máquina que pode se conectar às instâncias do Snowflake.
- Uma conta do Google Cloud com um bucket do Cloud Storage para armazenar os dados
- Um conjunto de dados do BigQuery vazio para armazenar os resultados. Também é possível criar um conjunto de dados do BigQuery ao criar o job de avaliação usando a IU do console do Google Cloud.
- Acesso ao papel
ACCOUNTADMIN
para a instância do Snowflake ou receber um papel com os privilégiosIMPORTED PRIVILEGES
no banco de dadosSnowflake
de um administrador da conta.
Execute a ferramenta dwh-migration-dumper
Faça o download da ferramenta de extração da linha de comando dwh-migration-dumper
.
Faça o download do
arquivo SHA256SUMS.txt
e execute o seguinte comando para verificar a exatidão do ZIP:
Bash
sha256sum --check SHA256SUMS.txt
Windows PowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Substitua RELEASE_ZIP_FILENAME
pelo nome de arquivo zip baixado da versão da ferramenta de extração de linha de comando dwh-migration-dumper
, por exemplo, dwh-migration-tools-v1.0.52.zip
O resultado True
confirma a verificação com êxito do checksum.
O resultado False
indica um erro de verificação. Verifique se o checksum e os arquivos ZIP são da mesma versão de lançamento ao fazer o download e foram colocados no mesmo diretório.
Para detalhes sobre como usar a ferramenta dwh-migration-dumper
,
consulte a página
Gerar metadados.
Use a ferramenta dwh-migration-dumper
para extrair registros e metadados do
armazenamento de dados no Snowflake como dois arquivos ZIP. Execute os comandos a seguir em um computador com acesso ao data warehouse
de origem para gerar os arquivos.
Gere o arquivo ZIP de metadados:
dwh-migration-dumper \ --connector snowflake \ --host HOST_NAME \ --database SNOWFLAKE \ --user USER_NAME \ --role ROLE_NAME \ --warehouse WAREHOUSE \ --assessment \ --password PASSWORD
Gere o arquivo ZIP com os registros de consulta:
dwh-migration-dumper \ --connector snowflake-logs \ --host HOST_NAME \ --database SNOWFLAKE \ --user USER_NAME \ --role ROLE_NAME \ --warehouse WAREHOUSE \ --query-log-start STARTING_DATE \ --query-log-end ENDING_DATE \ --assessment \ --password PASSWORD
Substitua:
HOST_NAME
: o nome do host da sua instância do Snowflake.USER_NAME
: o nome de usuário a ser usado para a conexão do banco de dados, em que o usuário precisa ter as permissões de acesso conforme detalhado na seção de requisitos.ROLE_NAME
: (opcional) a função do usuário ao executar a ferramentadwh-migration-dumper
, por exemplo,ACCOUNTADMIN
.WAREHOUSE
: o warehouse usado para executar as operações de despejo. Se você tiver vários warehouses virtuais, poderá especificar qualquer warehouse para executar essa consulta. A execução dessa consulta com as permissões de acesso detalhadas na seção de requisitos extrai todos os artefatos de warehouse da conta.STARTING_DATE
: (opcional) usado para indicar a data de início em um período de registros de consulta, gravado no formatoYYYY-MM-DD
.ENDING_DATE
: (opcional) usado para indicar a data de término em um período de registros de consulta, escrito no formatoYYYY-MM-DD
.
Também é possível gerar vários arquivos ZIP contendo registros de consulta abrangendo períodos não sobrepostos e fornecer todos eles para avaliação.
Fazer upload de metadados e consultar registros para o Cloud Storage
Depois de extrair os metadados e os registros de consulta do data warehouse, faça o upload dos arquivos em um bucket do Cloud Storage para continuar com a avaliação de migração.
Teradata
Faça upload dos metadados e de um ou mais arquivos ZIP contendo registros de consulta para o bucket do Cloud Storage. Para mais informações sobre como criar buckets e fazer upload de arquivos para o Cloud Storage, consulte Criar buckets e Fazer upload de objetos de um sistema de arquivos. O limite para o tamanho total descompactado de todos os arquivos dentro do arquivo ZIP de metadados é de 50 GB.
As entradas em todos os arquivos ZIP que contêm registros de consulta são divididas da seguinte maneira:
- Arquivos do histórico de consultas com o prefixo
query_history_
. - Arquivos de série temporal com os prefixos
utility_logs_
,dbc.ResUsageScpu_
edbc.ResUsageSpma_
.
O limite para o tamanho total descompactado de todos os arquivos do histórico de consultas é de 5 TB. O limite para o tamanho total descompactado de todos os arquivos de série temporal é de 1 TB.
Caso os registros de consulta sejam arquivados em um banco de dados diferente, consulte a descrição das sinalizações -Dteradata-logs.query-logs-table
e -Dteradata-logs.sql-logs-table
anteriormente nesta seção, que explica como fornecer um local alternativo para os registros de consulta.
Amazon Redshift
Faça upload dos metadados e de um ou mais arquivos ZIP contendo registros de consulta para o bucket do Cloud Storage. Para mais informações sobre como criar buckets e fazer upload de arquivos para o Cloud Storage, consulte Criar buckets e Fazer upload de objetos de um sistema de arquivos. O limite para o tamanho total descompactado de todos os arquivos dentro do arquivo ZIP de metadados é de 50 GB.
As entradas em todos os arquivos ZIP que contêm registros de consulta são divididas da seguinte maneira:
- Arquivos do histórico de consultas com os prefixos
querytext_
eddltext_
. - Arquivos de série temporal com os prefixos
query_queue_info_
,wlm_query_
equerymetrics_
.
O limite para o tamanho total descompactado de todos os arquivos do histórico de consultas é de 5 TB. O limite para o tamanho total descompactado de todos os arquivos de série temporal é de 1 TB.
Apache Hive
Faça upload dos metadados e das pastas que contêm registros de consulta de um ou vários clusters do Hive para o bucket do Cloud Storage. Para mais informações sobre como criar buckets e fazer upload de arquivos para o Cloud Storage, consulte Criar buckets e Fazer upload de objetos de um sistema de arquivos.
O limite para o tamanho total descompactado de todos os arquivos dentro do arquivo ZIP de metadados é de 50 GB.
É possível usar o conector do Cloud Storage para copiar os registros diretamente para a pasta do Cloud Storage. As pastas que contêm subpastas com registros de consulta precisam ser transferidas para a mesma pasta do Cloud Storage em que o arquivo ZIP de metadados é transferido.
As pastas de registros de consulta têm arquivos de histórico de consultas com o prefixo dwhassessment_
. O limite para o tamanho total descompactado de todos os arquivos de histórico de consultas é de 5 TB.
Snowflake
Faça upload dos metadados e dos arquivos ZIP que contêm registros de consulta e históricos de uso para o bucket do Cloud Storage. Ao fazer o upload desses arquivos para o Cloud Storage, os seguintes requisitos precisam ser atendidos:
- O tamanho total descompactado de todos os arquivos dentro do arquivo ZIP de metadados precisa ser inferior a 50 GB.
- O arquivo ZIP de metadados e o arquivo ZIP que contém os registros de consulta precisam ser enviados para uma pasta do Cloud Storage. Se você tiver vários arquivos ZIP contendo registros de consulta não sobrepostos, faça upload de todos eles.
- Faça upload de todos os arquivos para a mesma pasta do Cloud Storage.
- É preciso fazer upload de todos os arquivos ZIP de registros de consulta e metadados exatamente como eles
são gerados pela ferramenta
dwh-migration-dumper
. Não descompacte, combine ou modifique de outra forma. - O tamanho total descompactado de todos os arquivos de histórico de consultas precisa ser menor que 5 TB.
Para mais informações sobre como criar buckets e fazer upload de arquivos para o Cloud Storage, consulte Criar buckets e Fazer upload de objetos de um sistema de arquivos.
Executar uma avaliação de migração do BigQuery
Siga estas etapas para executar a avaliação de migração do BigQuery. Para seguir estas etapas, você fez o upload dos arquivos de metadados para um bucket do Cloud Storage, conforme descrito na seção anterior.
Permissões necessárias
Para ativar o serviço de migração do BigQuery, você precisa das seguintes permissões de gerenciamento de identidade e acesso (IAM):
resourcemanager.projects.get
resourcemanager.projects.update
serviceusage.services.enable
serviceusage.services.get
Para acessar e usar o serviço de migração do BigQuery, você precisa das seguintes permissões no projeto:
bigquerymigration.workflows.create
bigquerymigration.workflows.get
bigquerymigration.workflows.list
bigquerymigration.workflows.delete
bigquerymigration.subtasks.get
bigquerymigration.subtasks.list
Para executar o serviço de migração do BigQuery, você precisa das seguintes permissões adicionais.
Para acessar os buckets do Cloud Storage para arquivos de entrada e saída:
storage.objects.get
no bucket de origem do Cloud Storagestorage.objects.list
no bucket de origem do Cloud Storagestorage.objects.create
no bucket de destino do Cloud Storagestorage.objects.delete
no bucket de destino do Cloud Storagestorage.objects.update
no bucket de destino do Cloud Storagestorage.buckets.get
storage.buckets.list
Permissão para ler e atualizar o conjunto de dados do BigQuery em que o serviço de migração do BigQuery grava os resultados:
bigquery.datasets.update
bigquery.datasets.get
bigquery.datasets.create
bigquery.datasets.delete
bigquery.jobs.create
bigquery.jobs.delete
bigquery.jobs.list
bigquery.jobs.update
bigquery.tables.create
bigquery.tables.get
bigquery.tables.getData
bigquery.tables.list
bigquery.tables.updateData
Para compartilhar o relatório do Looker Studio com um usuário, você precisa conceder os seguintes papéis:
roles/bigquery.dataViewer
roles/bigquery.jobUser
Para personalizar este documento e usar seu próprio projeto e usuário nos comandos, edite estas variáveis:
PROJECT
,
USER_EMAIL
.
Crie um papel personalizado com as permissões necessárias para usar a avaliação de migração do BigQuery:
gcloud iam roles create BQMSrole \ --project=PROJECT \ --title=BQMSrole \ --permissions=bigquerymigration.subtasks.get,bigquerymigration.subtasks.list,bigquerymigration.workflows.create,bigquerymigration.workflows.get,bigquerymigration.workflows.list,bigquerymigration.workflows.delete,resourcemanager.projects.update,resourcemanager.projects.get,serviceusage.services.enable,serviceusage.services.get,storage.objects.get,storage.objects.list,storage.objects.create,storage.objects.delete,storage.objects.update,bigquery.datasets.get,bigquery.datasets.update,bigquery.datasets.create,bigquery.datasets.delete,bigquery.tables.get,bigquery.tables.create,bigquery.tables.updateData,bigquery.tables.getData,bigquery.tables.list,bigquery.jobs.create,bigquery.jobs.update,bigquery.jobs.list,bigquery.jobs.delete,storage.buckets.list,storage.buckets.get
Atribuir a função personalizada BQMSrole
a um usuário:
gcloud projects add-iam-policy-binding \ PROJECT \ --member=user:USER_EMAIL \ --role=projects/PROJECT/roles/BQMSrole
Conceda os papéis necessários a um usuário com quem você quer compartilhar o relatório:
gcloud projects add-iam-policy-binding \ PROJECT \ --member=user:USER_EMAIL \ --role=roles/bigquery.dataViewer gcloud projects add-iam-policy-binding \ PROJECT \ --member=user:USER_EMAIL \ --role=roles/bigquery.jobUser
Locais suportados
O recurso de avaliação de migração do BigQuery é compatível com dois tipos de locais:
Uma região é um lugar geográfico específico, como Londres.
Um local multirregional é uma área geográfica grande, como os Estados Unidos, que contém duas ou mais regiões. Os locais multirregionais podem fornecer cotas maiores do que regiões únicas.
Para mais informações sobre regiões e zonas, consulte Geografia e regiões.
Regiões
A tabela a seguir lista as regiões nas Américas em que a avaliação de migração do BigQuery está disponível.Descrição da região | Nome da região | Detalhes |
---|---|---|
Columbus, Ohio | us-east5 |
|
Dallas | us-south1 |
Baixo CO2 |
Iowa | us-central1 |
CO2 baixo |
Carolina do Sul | us-east1 |
|
Virgínia do Norte | us-east4 |
|
Oregon | us-west1 |
Baixo CO2 |
Los Angeles | us-west2 |
|
Salt Lake City | us-west3 |
Descrição da região | Nome da região | Detalhes |
---|---|---|
Singapura | asia-southeast1 |
|
Tóquio | asia-northeast1 |
Descrição da região | Nome da região | Detalhes |
---|---|---|
Bélgica | europe-west1 |
Baixo CO2 |
Finlândia | europe-north1 |
CO2 baixo |
Frankfurt | europe-west3 |
Baixo CO2 |
Londres | europe-west2 |
Baixo CO2 |
Madri | europe-southwest1 |
Baixo CO2 |
Países Baixos | europe-west4 |
Baixo CO2 |
Paris | europe-west9 |
Baixo CO2 |
Turim | europe-west12 |
|
Varsóvia | europe-central2 |
|
Zurique | europe-west6 |
Baixo CO2 |
Locais multirregionais
A tabela a seguir lista as multirregiões em que a avaliação de migração do BigQuery está disponível.Descrição multirregional | Nome multirregional |
---|---|
Data centers dentro de estados membro da União Europeia | EU |
Data centers nos Estados Unidos | US |
Antes de começar
Antes de executar a avaliação, é necessário ativar a API e criar um conjunto de dados do BigQuery para armazenar os resultados da avaliação.
Ativar a API BigQuery Migration
Ative a API BigQuery Migration da seguinte maneira:
No console do Google Cloud, acesse a página da API BigQuery Migration.
Clique em Ativar.
Criar um conjunto de dados para os resultados da avaliação
A avaliação de migração do BigQuery grava os resultados da avaliação nas tabelas do BigQuery. Antes de começar, crie um conjunto de dados para armazenar essas tabelas. Ao compartilhar o relatório do Looker Studio, você também precisa permitir que os usuários leiam esse conjunto de dados. Para mais informações, consulte Disponibilizar o relatório aos usuários.
Executar a avaliação de migração
Console
No Console do Google Cloud, acesse a página BigQuery.
No painel de navegação, acesse Avaliação.
Clique em Iniciar avaliação.
Preencha a caixa de diálogo de configuração da avaliação.
- Em Nome de exibição, digite um nome que pode conter letras, números ou sublinhados. Esse nome é usado somente para fins de exibição e não precisa ser exclusivo.
Na lista Local dos dados, escolha um local para o job de avaliação. O job de avaliação precisa estar no mesmo local que os arquivos extraídos do bucket do Cloud Storage de entrada e do conjunto de dados de saíd do BigQuery.
No entanto, se for uma multirregião
US
ouEU
, o local do bucket do Cloud Storage e o local do conjunto de dados do BigQuery podem estar em qualquer uma das regiões dentro dessa multirregião. O bucket do Cloud Storage e o conjunto de dados do BigQuery podem estar em locais diferentes na mesma multirregião. Por exemplo, se você selecionar a multirregiãoUS
, o bucket do Cloud Storage poderá estar na regiãous-central1
, enquanto o conjunto de dados do BigQuery poderá estar na regiãous-east1
.Em Fonte de dados de avaliação, escolha seu data warehouse.
Em Caminho para arquivos de entrada, insira o caminho para o bucket do Cloud Storage que contém os arquivos extraídos.
Para escolher como os resultados da avaliação serão armazenados, siga uma destas opções:
- Mantenha a caixa de seleção Criar automaticamente o novo conjunto de dados do BigQuery marcada para que o conjunto de dados do BigQuery seja criado automaticamente. O nome do conjunto de dados será gerado automaticamente.
- Desmarque a caixa de seleção Criar automaticamente o novo conjunto de dados do BigQuery e escolha o
conjunto de dados vazio do BigQuery usando o formato
projectId.datasetId
ou crie um novo nome de conjunto de dados. Nesta opção, escolha o nome do conjunto de dados do BigQuery.
Opção 1: geração automática de conjuntos de dados do BigQuery (padrão)
Opção 2: criação manual do conjunto de dados do BigQuery:
Clique em Criar. Veja o status do job na lista de jobs de tradução.
Enquanto a avaliação é realizada, você pode verificar o progresso e a estimativa de tempo de conclusão na dica do ícone de status.
Enquanto a avaliação estiver em execução, você poderá clicar no link Ver relatório na a lista de trabalhos de avaliação para ver o relatório com dados parciais no Looker Studio. O link Visualizar relatório pode levar algum tempo para aparecer durante a avaliação. O relatório é aberto em uma nova guia.
O relatório é atualizado com novos dados conforme eles são processados. Atualize a guia com o relatório ou clique em Visualizar relatório novamente para ver o relatório atualizado.
Após a avaliação, clique em Ver relatório para conferir o relatório completo de avaliação no Looker Studio. O relatório é aberto em uma nova guia.
API
Chame o método
create
com um fluxo de trabalho definido.
Em seguida, chame o método start
para iniciar o fluxo de trabalho de tradução.
A avaliação cria tabelas no conjunto de dados do BigQuery que você criou anteriormente. Você pode consultá-las para saber mais sobre as tabelas e consultas usadas no seu datawarehouse atual. Para mais informações sobre os arquivos de saída da tradução, consulte Verificador de lotes do SQL.
Resultado da avaliação agregado compartilhável
Para avaliações do Amazon Redshift, Teradata e Snowflake, além do
conjunto de dados do BigQuery criado anteriormente, o fluxo de trabalho cria outro
conjunto de dados leve com o mesmo nome, além do sufixo
_shareableRedactedAggregate
. Este conjunto de dados contém
dados altamente agregados derivados do conjunto de dados de saída e que não contêm
informações de identificação pessoal (PII).
Para encontrar, inspecionar e compartilhar o conjunto de dados de forma segura com outros usuários, acesse Consultar as tabelas de saída da avaliação de migração.
O recurso fica ativado por padrão, mas é possível desativá-lo usando a API pública.
Detalhes da avaliação
Para acessar a página "Detalhes da avaliação", clique no nome de exibição na lista de trabalhos de avaliação.
A página de detalhes da avaliação contém a guia Configuração, em que é possível conferir mais informações sobre um job de avaliação, bem como a guia Erros, em que você pode analisar os erros ocorridos durante o processamento da avaliação.
Acesse a guia Configuração para conferir as propriedades da avaliação.
Acesse a guia Erros para conferir os erros ocorridos durante o processo de avaliação.
Revisar e compartilhar o relatório do Looker Studio
Após a conclusão da tarefa de avaliação, você pode criar e compartilhar um relatório do Looker Studio com os resultados.
Analisar o relatório
Clique no link Conferir relatório listado ao lado da tarefa de avaliação individual. O relatório do Looker Studio é aberto em uma nova guia, em um modo de visualização. É possível usar o modo de visualização para revisar o conteúdo do relatório antes de compartilhá-lo mais.
O relatório é parecido com a seguinte captura de tela:
Para ver quais visualizações aparecem no relatório, selecione o data warehouse:
Teradata
O relatório é uma narrativa de três partes precedida por uma página de destaques. Essa página inclui as seguintes seções:
- Sistema atual. Esta seção é um snapshot do sistema e uso atuais do Teradata, incluindo o número de bancos de dados, esquemas, tabelas e tamanho total (em TB). Ele também lista os esquemas por tamanho e aponta para o potencial de utilização de recursos abaixo do ideal (tabelas sem gravações ou poucas leituras).
- Transformações de estado estável do BigQuery (sugestões). Esta seção mostra como ficará o sistema no BigQuery após a migração. Ele inclui sugestões para otimizar cargas de trabalho no BigQuery (e evitar desperdício).
- Plano de migração. Nesta seção, fornecemos informações sobre o esforço de migração propriamente dito, por exemplo, como passar do sistema atual para o estado estável do BigQuery. Esta seção inclui a contagem de consultas que foram traduzidas automaticamente e o tempo esperado para mover cada tabela para o BigQuery.
Os detalhes de cada seção incluem o seguinte:
Sistema atual
- Computação e consultas
- Utilização de CPU:
- Mapa de calor da utilização média da CPU por hora (visualização geral da utilização de recursos do sistema)
- Consultas por hora e dia com utilização da CPU
- Consultas por tipo (leitura/gravação) com utilização da CPU
- Aplicativos com utilização da CPU
- Sobreposição da utilização de CPU por hora com o desempenho médio da consulta por hora e o desempenho médio do aplicativo por hora
- Histograma de consultas por tipo e durações de consulta
- Visualização de detalhes dos aplicativos (app, usuário, consultas únicas, relatórios e detalhamento de ETL)
- Utilização de CPU:
- Visão geral de armazenamento
- Bancos de dados por volume, visualizações e taxas de acesso
- Tabelas com taxas de acesso por usuários, consultas, gravações e criações de tabelas temporárias
- Aplicativos: taxas de acesso e endereços IP
Transformações de estado estável do BigQuery (sugestões)
- Unir índices convertidos em visualizações materializadas
- Clustering e particionamento de candidatos com base em metadados e uso
- Consultas de baixa latência identificadas como candidatas ao BigQuery BI Engine
- Colunas configuradas com valores padrão que usam o recurso de descrição para armazenar valores padrão
- Os índices exclusivos no Teradata (para evitar linhas com chaves não exclusivas em uma tabela) usam tabelas de preparo e uma instrução
MERGE
para inserir apenas registros exclusivos nas tabelas de destino e descartar cópias - Consultas restantes e esquema traduzidos como estão
Plano de migração
- Visualização detalhada com consultas traduzidas automaticamente
- Contagem do total de consultas com capacidade de filtrar por usuário, aplicativo, tabelas afetadas, tabelas consultadas e tipo de consulta
- Buckets de consultas com padrões semelhantes agrupados e mostrados juntos para que o usuário possa ver a filosofia de tradução por tipos de consulta
- Consultas que exigem intervenção humana
- Consultas com violações da estrutura lexical do BigQuery
- Funções e procedimentos definidos pelo usuário
- Palavras-chave reservadas no BigQuery
- Programação de tabelas por gravações e leituras (para agrupá-las para movimentação)
- Migração de dados com o serviço de transferência de dados do BigQuery: tempo estimado para migrar por tabela
A seção Sistema atual contém as seguintes visualizações:
- Visão geral do sistema
- A visualização Visão geral do sistema fornece métricas de volume de alto nível dos principais componentes no sistema atual por um período especificado. O cronograma avaliado depende dos registros que foram analisados pela avaliação de migração do BigQuery. Essa visualização oferece insights rápidos sobre o uso do data warehouse de origem, que podem ser usados para planejamento de migração.
- Volume da tabela
- A visualização "Volume da tabela" apresenta estatísticas sobre as maiores tabelas e bancos de dados encontrados pela avaliação de migração do BigQuery. Como tabelas grandes podem levar mais tempo para extrair do sistema de armazenamento de dados de origem, essa visualização pode ser útil no planejamento e no sequenciamento de migração.
- Uso da tabela
- A visualização "Uso da tabela" mostra estatísticas sobre quais tabelas são muito usadas no sistema de armazenamento de dados de origem. Tabelas muito usadas podem ajudar a entender quais tabelas podem ter muitas dependências e exigir planejamento adicional durante o processo de migração.
- Aplicativos
- A visualização "Uso de aplicativos" e a visualização "Padrões de aplicativos" fornecem estatísticas sobre aplicativos encontrados durante o processamento de registros. Essas visualizações permitem que os usuários entendam o uso de aplicativos específicos ao longo do tempo e o impacto no uso de recursos. Durante uma migração, é importante visualizar a ingestão e o consumo de dados para entender melhor as dependências do data warehouse e analisar o impacto da transferência de vários aplicativos dependentes. A tabela de endereços IP pode ser útil para identificar o aplicativo exato usando o armazenamento de dados em conexões JDBC.
- Consultas
- A visualização "Consultas" detalha os tipos de instruções SQL executadas e as estatísticas de uso. Você pode usar o histograma de "Tipo de consulta" e "Tempo para identificar" períodos baixos de utilização do sistema e horários ideais do dia para transferir dados. Também é possível usar essa visualização para identificar consultas executadas com frequência e que os usuários invocam essas execuções.
- Bancos de dados
- A visualização dos bancos de dados fornece métricas sobre tamanho, tabelas, visualizações e procedimentos definidos no sistema de armazenamento de dados de origem. Essa visualização pode fornecer insights sobre o volume de objetos que você precisa migrar.
- Acoplamento de banco de dados
- A visualização "Acoplamento de banco de dados" oferece uma visão de alto nível sobre bancos de dados e tabelas acessados em conjunto em uma única consulta. Essa visualização pode mostrar quais tabelas e bancos de dados são referenciadas com frequência e o que é possível usar para o planejamento de migração.
A seção Estado estável do BigQuery contém as seguintes visualizações:
- Tabelas sem uso
- A visualização Tabelas sem uso exibe tabelas em que a avaliação de migração do BigQuery não encontrou nenhum uso durante o período de registros que foi analisado. A falta de uso pode indicar que você não precisa transferir essa tabela para o BigQuery durante a migração ou que os custos de armazenamento de dados no BigQuery podem ser menores. Valide a lista de tabelas não utilizadas porque elas podem ter uso fora do período de registros, como uma tabela usada apenas uma vez a cada três ou seis meses.
- Tabelas sem gravações
- A visualização Tabelas sem gravações exibe as tabelas em que a avaliação de migração do BigQuery não encontrou atualizações durante o período de registros que foi analisado. A falta de gravações pode indicar onde você pode reduzir os custos de armazenamento no BigQuery.
- Consultas de baixa latência
- A visualização de consultas de baixa latência exibe uma distribuição dos ambientes de execução da consulta com base nos dados de registro analisados. Se o gráfico de distribuição de duração da consulta exibir um grande número de consultas com menos de 1 segundo no ambiente de execução, considere permitir que o BigQuery BI Engine acelere o BI e outras cargas de trabalho de baixa latência.
- Visualizações materializadas
- A visualização materializada fornece mais sugestões de otimização para melhorar o desempenho no BigQuery.
- Clustering e particionamento
A visualização de particionamento e clustering exibe tabelas que podem se beneficiar do particionamento, clustering ou ambos.
As sugestões de metadados são alcançadas ao analisar o esquema do armazenamento de dados de origem (como particionamento e chave primária na tabela de origem) e encontrar o equivalente mais próximo do BigQuery para conseguir características de otimização semelhantes.
As sugestões de carga de trabalho são analisadas com a análise dos registros de consulta de origem. A recomendação é determinada pela análise das cargas de trabalho, especialmente das cláusulas
WHERE
ouJOIN
nos registros de consulta analisados.- Recomendação de clustering
A visualização "Particionamento" exibe tabelas que podem ter mais de 10.000 partições, com base na definição de restrição do particionamento. Essas tabelas costumam ser boas candidatas para o clustering do BigQuery, o que permite partições de tabela refinadas.
- Restrições exclusivas:
A visualização Restrições exclusivas exibe as tabelas
SET
e os índices exclusivos definidos no data warehouse de origem. No BigQuery, é recomendável usar tabelas de preparo e uma instruçãoMERGE
para inserir somente registros exclusivos em uma tabela de destino. Use o conteúdo dessa visualização para determinar para quais tabelas você pode precisar ajustar o ETL durante a migração.- Valores padrão / restrições de verificação
Essa visualização mostra tabelas que usam restrições de verificação para definir valores de coluna padrão. No BigQuery, consulte Especificar valores de coluna padrão.
A seção Caminho de migração do relatório contém as seguintes visualizações:
- Tradução de SQL
- A visualização Tradução do SQL lista a quantidade e os detalhes de consultas que foram convertidas automaticamente pela avaliação de migração do BigQuery e não precisam de intervenção manual. A tradução automática do SQL geralmente atinge altas taxas de tradução se os metadados forem fornecidos. Essa visualização é interativa e permite analisar consultas comuns e entender como elas são traduzidas.
- Esforço off-line
- A visualização "Esforço off-line" captura as áreas que precisam de intervenção manual, incluindo UDFs específicas e possíveis violações de estrutura léxica e sintaxe de tabelas ou colunas.
- Palavras-chave reservadas no BigQuery
- A visualização "Palavras-chave reservadas do BigQuery" exibe o uso
detectado de palavras-chave que têm um significado especial na linguagem do GoogleSQL
e não podem ser usadas como identificadores, a menos que estejam entre acentos graves (
`
). - Programação das atualizações da tabela
- A visualização "Programação das atualizações da tabela" mostra quando e com que frequência as tabelas são atualizadas para ajudar você a planejar como e quando movê-las.
- Migração de dados para o BigQuery
- A visualização "Migração de dados para o BigQuery" descreve o caminho de migração com o tempo esperado para migrar os dados usando o serviço de transferência de dados do BigQuery. Para mais informações, consulte o Guia do serviço de transferência de dados do BigQuery para Teradata.
A seção "Apêndice" contém as seguintes visualizações:
- Diferenciação entre maiúsculas e minúsculas
- A visualização "Diferenciação de caso" mostra tabelas no armazenamento de dados de origem configuradas para realizar comparações indiferentes a maiúsculas. Por padrão, as comparações de strings no BigQuery diferenciam maiúsculas de minúsculas. Para mais informações, consulte Agrupamento.
Amazon Redshift
- Destaques da migração
- A visualização "Destaques da migração" mostra um resumo executivo das três seções do relatório:
- O painel Sistema atual fornece informações sobre o número de bancos de dados, esquemas, tabelas e o tamanho total do sistema do Redshift. Ele também lista os esquemas por tamanho e possível utilização abaixo do ideal. Use essas informações para otimizar os dados removendo, particionando ou agrupando em cluster suas tabelas.
- O painel Estado estável do BigQuery fornece informações sobre como serão seus dados após a migração no BigQuery, incluindo o número de consultas que podem ser traduzidas automaticamente usando o serviço de migração do BigQuery. Esta seção também mostra os custos de armazenamento de dados no BigQuery com base na taxa de ingestão de dados anual, além de sugestões de otimização para tabelas, provisionamento e espaço.
- O painel Caminho de migração contém informações sobre a iniciativa de migração. Para cada tabela, é mostrado o tempo esperado para migrar, o número de linhas na tabela e o tamanho dela.
A seção Sistema atual contém as seguintes visualizações:
- Consultas por tipo e programação
- A visualização "Consultas por tipo" e "Programação" categoriza suas consultas em ETL/gravação e relatórios/agregação. Ver a combinação de consultas ao longo do tempo ajuda a entender os padrões de uso atuais e identificar o bursting e o possível provisionamento excessivo que podem afetar o custo e o desempenho.
- Enfileiramento de consultas
- A visualização da fila de consultas fornece mais detalhes sobre a carga do sistema, incluindo volume de consultas, mistura e possíveis impactos no desempenho devido ao enfileiramento, como recursos insuficientes.
- Consultas e escalonamento do WLM
- A visualização de consultas e escalonamento do WLM identifica o escalonamento de simultaneidade como um custo adicional e complexidade de configuração. Ela mostra como o sistema do Redshift encaminha as consultas com base nas regras especificadas e o desempenho é afetado devido às filas, ao escalonamento de simultaneidade e às consultas removidas.
- Enfileiramento e espera
- A visualização de enfileiramento e espera é uma análise mais profunda da fila e dos tempos de espera das consultas ao longo do tempo.
- Classes e desempenho do WLM
- A visualização de classes e desempenho do WLM oferece uma maneira opcional de mapear suas regras para o BigQuery. No entanto, recomendamos permitir que o BigQuery roteie automaticamente suas consultas.
- Insights sobre volume de consultas e tabelas
- A visualização de insights de volume de consultas e tabelas lista as consultas por tamanho, frequência e principais usuários. Isso ajuda a categorizar as origens da carga no sistema e a planejar a migração das cargas de trabalho.
- Bancos de dados e esquemas
- A visualização dos bancos de dados fornece métricas sobre tamanho, tabelas, visualizações e procedimentos definidos no sistema do datawarehouse de origem. Isso fornece insights sobre o volume de objetos que precisam ser migrados.
- Volume da tabela
- A visualização do volume de tabela fornece estatísticas sobre as maiores tabelas e bancos de dados, mostrando como são acessados. Como as tabelas grandes podem demorar mais para serem extraídas no sistema de data warehouse de origem, essa visualização ajuda no planejamento e no sequenciamento de migração.
- Uso da tabela
- A visualização "Uso da tabela" mostra estatísticas sobre quais tabelas são muito usadas no sistema de armazenamento de dados de origem. As tabelas muito usadas podem ser usadas para entender as tabelas que podem ter muitas dependências e garantir um planejamento adicional durante o processo de migração.
- Importadores e Exportadores
- A visualização de importadores e exportadores mostra informações sobre dados e usuários
envolvidos na importação de dados (usando consultas
COPY
) e na exportação de dados (usando consultasUNLOAD
). Essa visualização ajuda a identificar a camada de preparo e os processos relacionados à ingestão e as exportações. - Uso do cluster
- A visualização "Utilização do cluster" fornece informações gerais sobre todos os clusters disponíveis e exibe a utilização da CPU para cada um deles. Essa visualização pode ajudar a entender a reserva de capacidade do sistema.
A seção Estado estável do BigQuery contém as seguintes visualizações:
- Clustering e Particionamento
A visualização de particionamento e clustering exibe tabelas que podem se beneficiar do particionamento, clustering ou ambos.
As sugestões de metadados são alcançadas ao analisar o esquema do armazenamento de dados de origem (como ordenamento de chave e chave dist na tabela de origem) e encontrar o equivalente mais próximo do BigQuery para conseguir características de otimização semelhantes.
As sugestões de carga de trabalho são analisadas com a análise dos registros de consulta de origem. A recomendação é determinada pela análise das cargas de trabalho, especialmente das cláusulas
WHERE
ouJOIN
nos registros de consulta analisados.Na parte de baixo da página, há uma instrução "create table" traduzida com todas as otimizações fornecidas. Todas as instruções DDL convertidas podem ser também extraídos do conjunto de dados. As instruções DDL convertidas são armazenadas na tabela
SchemaConversion
na colunaCreateTableDDL
.As recomendações no relatório são fornecidas apenas para tabelas com mais de 1 GB porque tabelas pequenas não se beneficiam do clustering e o particionamento de dados. No entanto, DDL para todas as tabelas (incluindo tabelas menores que 1 GB) estão disponíveis na tabela
SchemaConversion
.- Tabelas sem uso
A visualização "Tabelas sem uso" mostra as tabelas em que a avaliação de migração do BigQuery não identificou nenhum uso durante o período de análise dos registros. A falta de uso pode indicar que não é preciso transferir a tabela para o BigQuery durante a migração ou que os custos de armazenamento de dados no BigQuery podem ser menores (faturado como Armazenamento de longo prazo). Valide a lista de tabelas não utilizadas porque elas podem ter uso fora do período de registros, como uma tabela usada apenas uma vez a cada três ou seis meses.
- Tabelas sem gravações
A visualização "Tabelas sem gravações" mostra as tabelas em que a avaliação de migração do BigQuery não identificou nenhuma atualização durante o período de análise dos registros. A falta de gravações pode indicar onde você pode diminuir seus custos de armazenamento no BigQuery (faturado como Armazenamento de longo prazo).
- BI Engine e visualizações materializadas
O BI Engine e as visualizações materializadas oferecem mais sugestões de otimização para melhorar o desempenho no BigQuery.
A seção Caminho de migração contém as seguintes visualizações:
- Tradução de SQL
- A visualização Tradução do SQL lista a quantidade e os detalhes de consultas que foram convertidas automaticamente pela avaliação de migração do BigQuery e não precisam de intervenção manual. A tradução automática do SQL geralmente atinge altas taxas de tradução se os metadados forem fornecidos.
- Esforço off-line de tradução do SQL
- A visualização Esforço off-line do SQL Translation captura as áreas que precisam de intervenção manual, incluindo UDFs específicas e consultas com possíveis ambiguidades de tradução.
- Alterar suporte para adição ao final de tabelas
- A visualização "Alterar suporte de adição ao final de tabela" mostra detalhes sobre construções comuns do Redshift SQL que não têm uma contraparte direta do BigQuery.
- Suporte a comandos de cópia
- A visualização "Suporte ao comando de cópia" mostra detalhes sobre um construções SQL comuns do Redshift que não tenham uma contraparte direta do BigQuery.
- Avisos SQL
- A visualização "Avisos SQL" capta áreas que foram traduzidas com sucesso, mas precisam de uma revisão.
- Estrutura léxica e violações de sintaxe
- A visualização de estrutura léxica e violações de sintaxe mostra os nomes das colunas, tabelas, funções e procedimentos que violem a sintaxe do BigQuery.
- Palavras-chave reservadas no BigQuery
- A visualização "Palavras-chave reservadas do BigQuery" exibe o uso
detectado de palavras-chave que têm um significado especial na linguagem do GoogleSQL
e não podem ser usadas como identificadores, a menos que estejam entre acentos graves (
`
). - Acoplamento de esquema
- A visualização "Acoplamento de esquema" apresenta um panorama geral dos bancos de dados, esquemas e tabelas que são acessados juntos em uma única consulta. Essa visualização pode mostrar quais tabelas, esquemas e bancos de dados são referenciados com frequência e o que é possível usar para o planejamento de migração.
- Programação das atualizações da tabela
- A visualização "Programação das atualizações da tabela" mostra como, quando e com que frequência as tabelas são atualizadas para ajudar você a planejar como e quando movê-las.
- Escala da tabela
- A visualização Escala da tabela lista suas tabelas com mais colunas.
- Migração de dados para o BigQuery
- A visualização "Migração de dados para o BigQuery" descreve o caminho de migração com o tempo esperado para migrar os dados usando o Serviço de transferência de dados do Serviço de migração do BigQuery. Para mais informações, consulte o Guia do serviço de transferência de dados do BigQuery para Redshift.
- Resumo da execução da avaliação
O resumo de execução da avaliação contém a integridade do relatório, o progresso da avaliação em andamento e o status dos arquivos processados e erros.
A integridade do relatório representa a porcentagem de dados processados com sucesso que são recomendados para exibir insights significativos no relatório de avaliação. Se os dados de uma seção específica do relatório estiverem ausentes, essas informações serão listadas na tabela Módulos de avaliação no indicador Integridade do relatório.
A métrica de progresso indica a porcentagem de dados processados até o momento com a estimativa do tempo restante para processar todos os dados. Após a conclusão do processamento, a métrica de progresso não é exibida.
Apache Hive
O relatório, que consiste em uma narrativa de três partes, é precedido por uma página de destaques de resumo que contém as seguintes seções:
Sistema atual - Hive. Esta seção consiste em um snapshot do sistema e uso atuais do Hive, incluindo o número de bancos de dados, tabelas, o tamanho total (em GB) e o número de registros de consulta processados. Esta seção também lista os bancos de dados por tamanho e aponta para um possível provisionamento e utilização de recursos abaixo do ideal (tabelas sem gravações ou poucas leituras). Esta seção contém os seguintes detalhes:
- Computação e consultas
- Utilização de CPU:
- Consultas por hora e dia com utilização da CPU
- Consultas por tipo (leitura/gravação)
- Filas e aplicativos
- Sobreposição da utilização de CPU por hora com o desempenho médio da consulta por hora e o desempenho médio do aplicativo por hora
- Histograma de consultas por tipo e durações de consulta
- Página de enfileiramento e espera
- Visualização detalhada de filas (fila, usuário, consultas únicas, detalhamento de relatórios x ETL por métricas)
- Utilização de CPU:
- Visão geral de armazenamento
- Bancos de dados por volume, visualizações e taxas de acesso
- Tabelas com taxas de acesso por usuários, consultas, gravações e criações de tabelas temporárias
- Filas e aplicativos: taxas de acesso e endereços IP do cliente
- Computação e consultas
Estado estável do BigQuery. Esta seção mostra como ficará o sistema no BigQuery após a migração. Ele inclui sugestões para otimizar cargas de trabalho no BigQuery (e evitar desperdício). Esta seção contém os seguintes detalhes:
- Tabelas identificadas como candidatas a visualizações materializadas
- Clustering e particionamento de candidatos com base em metadados e uso
- Consultas de baixa latência identificadas como candidatas ao BigQuery BI Engine
- Tabelas sem uso de leitura ou gravação
- Tabelas particionadas com o desvio de dados
Plano de migração. Esta seção contém informações sobre o próprio esforço da migração. Por exemplo, ir do sistema atual para o estado estável do BigQuery. Esta seção contém destinos de armazenamento identificados para cada tabela, tabelas identificadas como significativas para migração, e a contagem de consultas que foram traduzidas automaticamente. Esta seção contém os seguintes detalhes:
- Visualização detalhada com consultas traduzidas automaticamente
- Contagem do total de consultas com capacidade de filtrar por usuário, aplicativo, tabelas afetadas, tabelas consultadas e tipo de consulta
- Buckets de consulta com padrões semelhantes agrupados, permitindo que os usuários vejam a filosofia de tradução por tipos de consulta
- Consultas que exigem intervenção humana
- Consultas com violações da estrutura lexical do BigQuery
- Funções e procedimentos definidos pelo usuário
- Palavras-chave reservadas no BigQuery
- Consulta que requer revisão
- Programação de tabelas por gravações e leituras (para agrupá-las para movimentação)
- Destino de armazenamento identificado para tabelas externas e gerenciadas
- Visualização detalhada com consultas traduzidas automaticamente
A seção Sistema atual - Hive contém as seguintes visualizações:
- Visão geral do sistema
- Essa visualização mostra as métricas de volume de alto nível dos principais componentes no sistema atual por um período especificado. O cronograma avaliado depende dos registros que foram analisados pela avaliação de migração do BigQuery. Essa visualização oferece insights rápidos sobre o uso do data warehouse de origem, que podem ser usados para planejamento de migração.
- Volume da tabela
- Essa visualização mostra estatísticas sobre as maiores tabelas e bancos de dados encontrados pela avaliação de migração do BigQuery. Como tabelas grandes podem levar mais tempo para extrair do sistema de armazenamento de dados de origem, essa visualização pode ser útil no planejamento e no sequenciamento de migração.
- Uso da tabela
- Essa visualização mostra estatísticas sobre quais tabelas são muito usadas no sistema de data warehouse de origem. Tabelas muito usadas podem ajudar a entender quais tabelas podem ter muitas dependências e exigir planejamento adicional durante o processo de migração.
- Utilização de filas
- Essa visualização mostra estatísticas sobre o uso de filas YARN encontrado durante o processamento de registros. Essas visualizações permitem que os usuários entendam o uso de filas e aplicativos específicos ao longo do tempo e o impacto no uso de recursos. Essas visualizações também ajudam a identificar e priorizar cargas de trabalho para migração. Durante uma migração, é importante visualizar a ingestão e o consumo de dados para entender melhor as dependências do data warehouse e analisar o impacto da transferência de vários aplicativos dependentes. A tabela de endereços IP pode ser útil para identificar o aplicativo exato que usa o data warehouse em conexões JDBC.
- Métricas de filas
- Essa visualização mostra um detalhamento das diferentes métricas sobre filas YARN encontradas durante o processamento de registros. Essa visualização permite que os usuários entendam os padrões de uso em filas específicas e o impacto na migração. Também é possível usar essa visualização para identificar conexões entre tabelas acessadas em consultas e filas em que a consulta foi executada.
- Enfileiramento e espera
- Essa visualização mostra um insight sobre o tempo de enfileiramento de consultas no data warehouse de origem. Os tempos de enfileiramento indicam degradação do desempenho devido ao provisionamento insuficiente, e o provisionamento extra requer maiores custos de hardware e de manutenção.
- Consultas
- Essa visualização mostra um detalhamento dos tipos de instruções SQL executadas e as estatísticas de uso. Você pode usar o histograma de "Tipo de consulta" e "Tempo para identificar" períodos baixos de utilização do sistema e horários ideais do dia para transferir dados. Também é possível usar essa visualização para identificar os mecanismos de execução do Hive mais usados e as consultas executadas com frequência, além dos detalhes do usuário.
- Bancos de dados
- Essa visualização mostra métricas sobre tamanho, tabelas, visualizações e procedimentos definidos no sistema do data warehouse de origem. Essa visualização pode fornecer insights sobre o volume de objetos que você precisa migrar.
- Combinação de bancos de dados e tabelas
- Essa visualização traz uma visão de alto nível sobre bancos de dados e tabelas que são acessados juntos em uma única consulta. Essa visualização pode mostrar quais tabelas e bancos de dados são referenciadas com frequência e o que é possível usar para o planejamento de migração.
A seção Estado estável do BigQuery contém as seguintes visualizações:
- Tabelas sem uso
- A visualização Tabelas sem uso exibe tabelas em que a avaliação de migração do BigQuery não encontrou nenhum uso durante o período de registros que foi analisado. A falta de uso pode indicar que você não precisa transferir essa tabela para o BigQuery durante a migração ou que os custos de armazenamento de dados no BigQuery podem ser menores. É preciso validar a lista de tabelas não utilizadas porque elas podem ter uso fora do período de registros, como uma tabela usada apenas uma vez a cada três ou seis meses.
- Tabelas sem gravações
- A visualização Tabelas sem gravações exibe as tabelas em que a avaliação de migração do BigQuery não encontrou atualizações durante o período de registros que foi analisado. A falta de gravações pode indicar onde você pode reduzir os custos de armazenamento no BigQuery.
- Recomendações de clustering e particionamento
Essa visualização exibe tabelas que se beneficiariam de particionamento, clustering ou de ambos.
As sugestões de metadados são alcançadas ao analisar o esquema do armazenamento de dados de origem (como particionamento e chave primária na tabela de origem) e encontrar o equivalente mais próximo do BigQuery para conseguir características de otimização semelhantes.
As sugestões de carga de trabalho são analisadas com a análise dos registros de consulta de origem. A recomendação é determinada pela análise das cargas de trabalho, especialmente das cláusulas
WHERE
ouJOIN
nos registros de consulta analisados.- Partições convertidas em clusters
Essa visualização mostra tabelas com mais de 10.000 partições, com base na definição de restrição de particionamento. Essas tabelas costumam ser boas candidatas para o clustering do BigQuery, o que permite partições de tabela refinadas.
- Partições desviadas
A visualização "Partições desviadas" exibe tabelas que são baseadas na análise de metadados e apresentam desvios de dados em uma ou várias partições. Essas tabelas são boas candidatas para alteração de esquema, já que as consultas em partições desviadas podem não apresentar um bom desempenho.
- BI Engine e visualizações materializadas
A visualização "Consultas de baixa latência e visualizações materializadas" exibe uma distribuição dos tempos de execução de consultas com base nos dados de registro analisados e sugestões de otimização para melhorar o desempenho no BigQuery. Se o gráfico de distribuição de duração da consulta exibir um grande número de consultas com ambiente de execução menor que um segundo, considere ativar o BI Engine para acelerar o BI e outras cargas de trabalho de baixa latência.
A seção Plano de migração do relatório contém as seguintes visualizações:
- Tradução de SQL
- A visualização Tradução do SQL lista a quantidade e os detalhes de consultas que foram convertidas automaticamente pela avaliação de migração do BigQuery e não precisam de intervenção manual. A tradução automática do SQL geralmente atinge altas taxas de tradução se os metadados forem fornecidos. Essa visualização é interativa e permite analisar consultas comuns e entender como elas são traduzidas.
- Esforço off-line de tradução do SQL
- A visualização "Esforço off-line" captura as áreas que precisam de intervenção manual, incluindo UDFs específicas e possíveis violações de estrutura léxica e sintaxe de tabelas ou colunas.
- Avisos SQL
- A visualização "Avisos SQL" capta áreas que foram traduzidas com sucesso, mas precisam de uma revisão.
- Palavras-chave reservadas no BigQuery
- A visualização "Palavras-chave reservadas do BigQuery" exibe o uso detectado de palavras-chave que têm um significado especial na linguagem GoogleSQL.
Essas palavras-chave não podem ser usadas como identificadores, a menos que estejam entre caracteres de crase (
`
). - Programação das atualizações da tabela
- A visualização "Programação das atualizações da tabela" mostra quando e com que frequência as tabelas são atualizadas para ajudar você a planejar como e quando movê-las.
- Tabelas externas do BigLake
- A visualização "Tabelas externas do BigLake" descreve as tabelas identificadas como destinos de migração para o BigLake no lugar do BigQuery.
A seção Apêndice do relatório contém as seguintes visualizações:
- Análise detalhada do esforço off-line de tradução do SQL
- A visualização "Análise detalhada do esforço off-line de tradução" mostra um insight extra sobre as áreas do SQL que precisam de intervenção manual.
- Análise detalhada de avisos SQL
- A visualização "Análise detalhada de avisos" mostra um insight extra das áreas do SQL que foram traduzidas com sucesso, mas precisam de uma revisão.
Snowflake
O relatório consiste em seções diferentes que podem ser usadas juntas ou separadas. O diagrama a seguir organiza essas seções em três metas comuns do usuário para ajudar você a avaliar as necessidades de migração:
Visualizações de destaques da migração
A seção Destaques da migração contém as seguintes visualizações:
- Snowflake versus modelos de preços do BigQuery
- Lista de preços com diferentes níveis/edições. Também inclui uma ilustração de como o escalonamento automático do BigQuery pode ajudar a economizar mais custos em comparação com o do Snowflake.
- Custo total de propriedade
- Tabela interativa, que permite ao usuário definir: edição do BigQuery, compromisso, compromisso de slot do valor de referência, porcentagem de armazenamento ativo e porcentagem de dados carregados ou alterados. Ajuda a estimar melhor o custo para casos personalizados.
- Destaques da tradução automática
- Proporção de tradução agregada, agrupada por usuário ou banco de dados, ordenada de forma crescente ou decrescente. Também inclui a mensagem de erro mais comum de falha na tradução automática.
Visualizações do sistema atuais
A seção Sistema atual contém as seguintes visualizações:
- Visão geral do sistema
- A visualização Visão geral do sistema fornece métricas de volume de alto nível dos principais componentes no sistema atual por um período especificado. O cronograma avaliado depende dos registros que foram analisados pela avaliação de migração do BigQuery. Essa visualização oferece insights rápidos sobre o uso do data warehouse de origem, que podem ser usados para planejamento de migração.
- Visão geral dos warehouses virtuais
- Exibe o custo do Snowflake por warehouse, assim como o redimensionamento baseado em nó ao longo do período.
- Volume da tabela
- A visualização "Volume da tabela" apresenta estatísticas sobre as maiores tabelas e bancos de dados encontrados pela avaliação de migração do BigQuery. Como tabelas grandes podem levar mais tempo para extrair do sistema de armazenamento de dados de origem, essa visualização pode ser útil no planejamento e no sequenciamento de migração.
- Uso da tabela
- A visualização "Uso da tabela" mostra estatísticas sobre quais tabelas são muito usadas no sistema de armazenamento de dados de origem. Tabelas muito usadas podem ajudar a entender quais tabelas podem ter muitas dependências e exigir planejamento adicional durante o processo de migração.
- Consultas
- A visualização "Consultas" detalha os tipos de instruções SQL executadas e as estatísticas de uso. Você pode usar o histograma de "Tipo de consulta" e "Tempo para identificar" períodos baixos de utilização do sistema e horários ideais do dia para transferir dados. Também é possível usar essa visualização para identificar consultas executadas com frequência e que os usuários invocam essas execuções.
- Bancos de dados
- A visualização dos bancos de dados fornece métricas sobre tamanho, tabelas, visualizações e procedimentos definidos no sistema de armazenamento de dados de origem. Essa visualização fornece insights sobre o volume de objetos que você precisa migrar.
Visualizações de estado estável do BigQuery
A seção Estado estável do BigQuery contém as seguintes visualizações:
- Tabelas sem uso
- A visualização "Tabelas sem uso" exibe tabelas em que a avaliação de migração do BigQuery não encontrou nenhum uso durante o período de registros que foi analisado. Isso pode indicar quais tabelas não precisam ser transferidas para o BigQuery durante a migração ou que os custos de armazenamento de dados no BigQuery podem ser menores. Valide a lista de tabelas não usadas porque elas podem ter uso fora do período de registros analisado, como uma tabela que é usada apenas uma vez por trimestre ou semestre.
- Tabelas sem gravações
- A visualização Tabelas sem gravações exibe as tabelas em que a avaliação de migração do BigQuery não encontrou atualizações durante o período de registros que foi analisado. Isso pode indicar que os custos de armazenamento de dados no BigQuery podem ser menores.
Visualizações do plano de migração
A seção Plano de migração do relatório contém as seguintes visualizações:
- Tradução de SQL
- A visualização Tradução do SQL lista a quantidade e os detalhes de consultas que foram convertidas automaticamente pela avaliação de migração do BigQuery e não precisam de intervenção manual. A tradução automática do SQL geralmente atinge altas taxas de tradução se os metadados forem fornecidos. Essa visualização é interativa e permite analisar consultas comuns e entender como elas são traduzidas.
- Esforço off-line de tradução do SQL
- A visualização "Esforço off-line" captura as áreas que precisam de intervenção manual, incluindo UDFs específicas e possíveis violações de estrutura léxica e sintaxe de tabelas ou colunas.
- Avisos SQL - Para revisar
- A visualização "Avisos para revisar" captura as áreas que são mais traduzidas, mas exigem alguma inspeção humana.
- Palavras-chave reservadas no BigQuery
- A visualização "Palavras-chave reservadas do BigQuery" exibe o uso
detectado de palavras-chave que têm um significado especial na linguagem do GoogleSQL
e não podem ser usadas como identificadores, a menos que estejam entre acentos graves (
`
). - Acoplamento de banco de dados e tabela
- A visualização "Acoplamento de banco de dados" oferece uma visão de alto nível sobre bancos de dados e tabelas acessados em conjunto em uma única consulta. Ela mostra quais tabelas e bancos de dados são referenciados com frequência e o que pode ser usado para o planejamento da migração.
- Programação das atualizações da tabela
- A visualização "Programação das atualizações da tabela" mostra quando e com que frequência as tabelas são atualizadas para ajudar você a planejar como e quando movê-las.
Visualizações da prova de conceito
A seção PoC (prova de conceito) contém as seguintes visualizações:
- PoC para demonstrar a economia no estado estável do BigQuery
- Ela inclui as consultas mais frequentes, as que leem a maior parte dos dados, as consultas mais lentas e as tabelas afetadas por essas consultas mencionadas acima.
- PoC para demonstrar o plano de migração do BigQuery
- ela mostra como o BigQuery traduz as consultas mais complexas e as tabelas que elas afetam.
Compartilhar o relatório
O relatório do Looker Studio é um painel de front-end para a avaliação de migração. Isso depende das permissões subjacentes de acesso ao conjunto de dados. Para compartilhá-lo, o destinatário precisa ter acesso ao relatório do Looker Studio e ao conjunto de dados do BigQuery que contém os resultados da avaliação.
Ao abrir o relatório no console do Google Cloud, você está vendo o relatório no modo de visualização. Para criar e compartilhar o relatório com outros usuários, execute as seguintes etapas:
- Clique em Editar e compartilhar. O Looker Studio solicita que você anexe novos conectores do Looker Studio ao novo relatório.
- Clique em Adicionar ao relatório. O relatório recebe um ID de relatório individual, que pode ser usado para acessar o relatório.
- Para compartilhar o relatório do Looker Studio com outros usuários, siga as etapas da seção Compartilhar relatórios com leitores e editores.
- Conceda aos usuários permissão para visualizar o conjunto de dados do BigQuery que foi usado para executar a tarefa de avaliação. Para mais informações, consulte Como conceder acesso a um conjunto de dados.
Consultar as tabelas de saída da avaliação de migração
Embora os relatórios do Looker Studio informe sejam a maneira mais conveniente de visualizar os resultados da avaliação, também é possível visualizar e consultar os dados subjacentes no conjunto de dados do BigQuery.
Exemplo de consulta
O exemplo a seguir recebe o número total de consultas únicas, o número de consultas que falharam na tradução e a porcentagem de consultas únicas que falharam na tradução.
SELECT QueryCount.v AS QueryCount, ErrorCount.v as ErrorCount, (ErrorCount.v * 100) / QueryCount.v AS FailurePercentage FROM ( SELECT COUNT(*) AS v FROM `your_project.your_dataset.TranslationErrors` WHERE Type = "ERROR" ) AS ErrorCount, ( SELECT COUNT(DISTINCT(QueryHash)) AS v FROM `your_project.your_dataset.Queries` ) AS QueryCount;
Compartilhar seu conjunto de dados com usuários em outros projetos
Depois de inspecionar o conjunto de dados, se você quiser compartilhá-lo com um usuário que não está em seu projeto, você pode fazer isso utilizando o fluxo de trabalho do editor do Analytics Hub.
No Console do Google Cloud, acesse a página BigQuery.
Clique no conjunto de dados para conferir os detalhes.
Clique em > Publicar como listagem.
CompartilhamentoNa caixa de diálogo exibida, crie uma listagem conforme solicitado.
Se você já tiver uma troca de dados, pule a etapa 5.
Criar uma troca e definir permissões. Para permitir que um usuário veja suas listagens nesta troca, adicione-o à lista de assinantes.
Insira os detalhes da listagem.
Nome de exibição é o nome da listagem e é obrigatório. Outros campos são opcionais.
Clique em Publicar.
Uma listagem particular é criada.
Na sua página de detalhes, selecione
. Mais ações em Ações.Clique em Copiar link de compartilhamento.
Você pode compartilhar o link com usuários que têm acesso de assinatura à sua troca ou listagem.
Schemata de tabelas de avaliação
Para ver as tabelas e os esquemas que a avaliação de migração do BigQuery grava no BigQuery, selecione seu data warehouse:
Teradata
AllRIChildren
Essa tabela apresenta as informações de integridade referencial dos filhos da tabela.
Coluna | Tipo | Descrição |
---|---|---|
IndexId |
INTEGER |
O número do índice de referência. |
IndexName |
STRING |
O nome do índice. |
ChildDB |
STRING |
O nome do banco de dados da referência, convertido em letras minúsculas. |
ChildDBOriginal |
STRING |
O nome do banco de dados da referência com o caso preservado. |
ChildTable |
STRING |
O nome da tabela da referência, convertido em letras minúsculas. |
ChildTableOriginal |
STRING |
O nome da tabela da referência com o caso preservado. |
ChildKeyColumn |
STRING |
O nome de uma coluna na chave da referência, convertida em minúsculas. |
ChildKeyColumnOriginal |
STRING |
O nome de uma coluna na chave de referência com o caso preservado. |
ParentDB |
STRING |
O nome do banco de dados referenciado, convertido em letras minúsculas. |
ParentDBOriginal |
STRING |
O nome do banco de dados referenciado com o caso preservado. |
ParentTable |
STRING |
O nome da tabela referenciada, convertido em letras minúsculas. |
ParentTableOriginal |
STRING |
O nome da tabela referenciada com o caso preservado. |
ParentKeyColumn |
STRING |
O nome da coluna em uma chave referenciada, convertido em letras minúsculas. |
ParentKeyColumnOriginal |
STRING |
O nome da coluna em uma chave referenciada com o caso preservado. |
AllRIParents
Essa tabela apresenta as informações de integridade referencial dos pais da tabela.
Coluna | Tipo | Descrição |
---|---|---|
IndexId |
INTEGER |
O número do índice de referência. |
IndexName |
STRING |
O nome do índice. |
ChildDB |
STRING |
O nome do banco de dados da referência, convertido em letras minúsculas. |
ChildDBOriginal |
STRING |
O nome do banco de dados da referência com o caso preservado. |
ChildTable |
STRING |
O nome da tabela da referência, convertido em letras minúsculas. |
ChildTableOriginal |
STRING |
O nome da tabela da referência com o caso preservado. |
ChildKeyColumn |
STRING |
O nome de uma coluna na chave da referência, convertida em minúsculas. |
ChildKeyColumnOriginal |
STRING |
O nome de uma coluna na chave de referência com o caso preservado. |
ParentDB |
STRING |
O nome do banco de dados referenciado, convertido em letras minúsculas. |
ParentDBOriginal |
STRING |
O nome do banco de dados referenciado com o caso preservado. |
ParentTable |
STRING |
O nome da tabela referenciada, convertido em letras minúsculas. |
ParentTableOriginal |
STRING |
O nome da tabela referenciada com o caso preservado. |
ParentKeyColumn |
STRING |
O nome da coluna em uma chave referenciada, convertido em letras minúsculas. |
ParentKeyColumnOriginal |
STRING |
O nome da coluna em uma chave referenciada com o caso preservado. |
Columns
Essa tabela fornece informações sobre as colunas.
Coluna | Tipo | Descrição |
---|---|---|
DatabaseName |
STRING |
O nome do banco de dados, convertido em letras minúsculas. |
DatabaseNameOriginal |
STRING |
O nome do banco de dados com o caso preservado. |
TableName |
STRING |
O nome da tabela, convertido em letras minúsculas. |
TableNameOriginal |
STRING |
O nome da tabela com o caso preservado. |
ColumnName |
STRING |
O nome da coluna, convertido em letras minúsculas. |
ColumnNameOriginal |
STRING |
O nome da coluna com o caso preservado. |
ColumnType |
STRING |
O tipo do BigQuery da coluna, como STRING . |
OriginalColumnType |
STRING |
O tipo original da coluna, como VARCHAR . |
ColumnLength |
INTEGER |
Número máximo de bytes da coluna, como 30 para VARCHAR(30) . |
DefaultValue |
STRING |
O valor padrão, se existir. |
Nullable |
BOOLEAN |
Indica se a coluna é anulável. |
DiskSpace
Nesta tabela, você encontra informações sobre o uso do espaço em disco para cada banco de dados.
Coluna | Tipo | Descrição |
---|---|---|
DatabaseName |
STRING |
O nome do banco de dados, convertido em letras minúsculas. |
DatabaseNameOriginal |
STRING |
O nome do banco de dados com o caso preservado. |
MaxPerm |
INTEGER |
O número máximo de bytes alocados ao espaço permanente. |
MaxSpool |
INTEGER |
O número máximo de bytes alocados ao espaço de spool. |
MaxTemp |
INTEGER |
O número máximo de bytes alocados ao espaço temporário. |
CurrentPerm |
INTEGER |
O número de bytes atualmente alocados ao espaço permanente. |
CurrentSpool |
INTEGER |
O número de bytes atualmente alocados ao espaço do spool. |
CurrentTemp |
INTEGER |
O número de bytes atualmente alocados ao espaço temporário. |
PeakPerm |
INTEGER |
Número máximo de bytes usados desde a última redefinição para o espaço permanente. |
PeakSpool |
INTEGER |
Número máximo de bytes usados desde a última redefinição para o espaço de spool. |
PeakPersistentSpool |
INTEGER |
Número máximo de bytes usados desde a última redefinição para o espaço persistente. |
PeakTemp |
INTEGER |
Número máximo de bytes usados desde a última redefinição para o espaço temporário. |
MaxProfileSpool |
INTEGER |
O limite do espaço de spool para o usuário. |
MaxProfileTemp |
INTEGER |
É o limite de espaço temporário para o usuário. |
AllocatedPerm |
INTEGER |
Alocação atual de espaço permanente. |
AllocatedSpool |
INTEGER |
Alocação atual do espaço do spool. |
AllocatedTemp |
INTEGER |
Alocação atual de espaço temporário. |
Functions
Esta tabela fornece informações sobre as funções.
Coluna | Tipo | Descrição |
---|---|---|
DatabaseName |
STRING |
O nome do banco de dados, convertido em letras minúsculas. |
DatabaseNameOriginal |
STRING |
O nome do banco de dados com o caso preservado. |
FunctionName |
STRING |
O nome da função. |
LanguageName |
STRING |
O nome do idioma. |
Indices
Esta tabela fornece informações sobre os índices.
Coluna | Tipo | Descrição |
---|---|---|
DatabaseName |
STRING |
O nome do banco de dados, convertido em letras minúsculas. |
DatabaseNameOriginal |
STRING |
O nome do banco de dados com o caso preservado. |
TableName |
STRING |
O nome da tabela, convertido em letras minúsculas. |
TableNameOriginal |
STRING |
O nome da tabela com o caso preservado. |
IndexName |
STRING |
O nome do índice. |
ColumnName |
STRING |
O nome da coluna, convertido em letras minúsculas. |
ColumnNameOriginal |
STRING |
O nome da coluna com o caso preservado. |
OrdinalPosition |
INTEGER |
A posição da coluna. |
UniqueFlag |
BOOLEAN |
Indica se o índice impõe exclusividade. |
Queries
Nesta tabela, você encontra informações sobre as consultas extraídas.
Coluna | Tipo | Descrição |
---|---|---|
QueryHash |
STRING |
O hash da consulta. |
QueryText |
STRING |
O texto da consulta. |
QueryLogs
Esta tabela mostra algumas estatísticas de execução sobre as consultas extraídas.
Coluna | Tipo | Descrição |
---|---|---|
QueryText |
STRING |
O texto da consulta. |
QueryHash |
STRING |
O hash da consulta. |
QueryId |
STRING |
O ID da consulta. |
QueryType |
STRING |
O tipo de consulta, seja Query ou DDL. |
UserId |
BYTES |
O ID do usuário que executou a consulta. |
UserName |
STRING |
O nome do usuário que executou a consulta. |
StartTime |
TIMESTAMP |
Carimbo de data/hora em que a consulta foi enviada. |
Duration |
STRING |
Duração da consulta em milissegundos. |
AppId |
STRING |
O ID do aplicativo que executou a consulta. |
ProxyUser |
STRING |
O usuário do proxy quando usado por um nível intermediário. |
ProxyRole |
STRING |
O papel de proxy quando usado por um nível intermediário. |
QueryTypeStatistics
Esta tabela mostra estatísticas sobre tipos de consultas.
Coluna | Tipo | Descrição |
---|---|---|
QueryHash |
STRING |
O hash da consulta. |
QueryType |
STRING |
O tipo da consulta. |
UpdatedTable |
STRING |
Tabela atualizada pela consulta, se houver. |
QueriedTables |
ARRAY<STRING> |
Uma lista das tabelas que foram consultadas. |
ResUsageScpu
Nesta tabela, você encontra informações sobre o uso de recursos da CPU.
Coluna | Tipo | Descrição |
---|---|---|
EventTime |
TIMESTAMP |
A hora do evento. |
NodeId |
INTEGER |
ID de nó |
CabinetId |
INTEGER |
O número do gabinete físico do nó. |
ModuleId |
INTEGER |
O número do módulo físico do nó. |
NodeType |
STRING |
Tipo de nó. |
CpuId |
INTEGER |
ID da CPU nesse nó. |
MeasurementPeriod |
INTEGER |
O período da medida expresso em nanosegundos. |
SummaryFlag |
STRING |
S - linha de resumo, N - linha de resumo |
CpuFrequency |
FLOAT |
Frequência da CPU em MHz. |
CpuIdle |
FLOAT |
O tempo de inatividade da CPU expresso em nanosegundos. |
CpuIoWait |
FLOAT |
O tempo que a CPU está aguardando E/S expressa em nanosegundos. |
CpuUServ |
FLOAT |
O tempo que a CPU está executando o código do usuário expresso em nanosegundos. |
CpuUExec |
FLOAT |
A hora em que a CPU está executando o código de serviço expresso em nanosegundos. |
Roles
Esta tabela fornece informações sobre papéis.
Coluna | Tipo | Descrição |
---|---|---|
RoleName |
STRING |
O nome do papel. |
Grantor |
STRING |
O nome do banco de dados que concedeu o papel. |
Grantee |
STRING |
O usuário que recebeu o papel. |
WhenGranted |
TIMESTAMP |
Quando o papel foi concedido. |
WithAdmin |
BOOLEAN |
A opção "Administrador" está definida para o papel concedido. |
SchemaConversion
Esta tabela fornece informações sobre conversões de esquema relacionadas a clustering e particionamento.
Nome da coluna | Tipo de coluna | Descrição |
---|---|---|
DatabaseName |
STRING |
Nome do banco de dados de origem em que a sugestão é feita. Um banco de dados é mapeado para um conjunto de dados no BigQuery. |
TableName |
STRING |
É o nome da tabela em que a sugestão é feita. |
PartitioningColumnName |
STRING |
O nome da coluna de particionamento sugerida no BigQuery. |
ClusteringColumnNames |
ARRAY |
Os nomes das colunas de clustering sugeridas no BigQuery. |
CreateTableDDL |
STRING |
O CREATE TABLE statement para criar a tabela no BigQuery. |
TableInfo
Nesta tabela, você encontra informações sobre tabelas.
Coluna | Tipo | Descrição |
---|---|---|
DatabaseName |
STRING |
O nome do banco de dados, convertido em letras minúsculas. |
DatabaseNameOriginal |
STRING |
O nome do banco de dados com o caso preservado. |
TableName |
STRING |
O nome da tabela, convertido em letras minúsculas. |
TableNameOriginal |
STRING |
O nome da tabela com o caso preservado. |
LastAccessTimestamp |
TIMESTAMP |
A última vez que a tabela foi acessada. |
LastAlterTimestamp |
TIMESTAMP |
A última vez que a tabela foi alterada. |
TableKind |
STRING |
O tipo de tabela. |
TableRelations
Nesta tabela, você encontra informações sobre tabelas.
Coluna | Tipo | Descrição |
---|---|---|
QueryHash |
STRING |
O hash da consulta que estabeleceu a relação. |
DatabaseName1 |
STRING |
Nome do primeiro banco de dados. |
TableName1 |
STRING |
Nome da primeira tabela. |
DatabaseName2 |
STRING |
O nome do segundo banco de dados. |
TableName2 |
STRING |
O nome da segunda tabela. |
Relation |
STRING |
O tipo de relação entre as duas tabelas. |
TableSizes
Nesta tabela, você encontra informações sobre os tamanhos das tabelas.
Coluna | Tipo | Descrição |
---|---|---|
DatabaseName |
STRING |
O nome do banco de dados, convertido em letras minúsculas. |
DatabaseNameOriginal |
STRING |
O nome do banco de dados com o caso preservado. |
TableName |
STRING |
O nome da tabela, convertido em letras minúsculas. |
TableNameOriginal |
STRING |
O nome da tabela com o caso preservado. |
TableSizeInBytes |
INTEGER |
O tamanho da tabela em bytes. |
Users
Esta tabela fornece informações sobre usuários.
Coluna | Tipo | Descrição |
---|---|---|
UserName |
STRING |
O nome do User. |
CreatorName |
STRING |
O nome da entidade que criou esse usuário. |
CreateTimestamp |
TIMESTAMP |
O carimbo de data/hora em que o usuário foi criado. |
LastAccessTimestamp |
TIMESTAMP |
O carimbo de data/hora em que esse usuário acessou um banco de dados pela última vez. |
Amazon Redshift
Columns
A tabela Columns
vem de uma das seguintes tabelas:
SVV_COLUMNS,
INFORMATION_SCHEMA.COLUMNS
ou
PG_TABLE_DEF, ordenadas por prioridade. A ferramenta primeiro carrega dados a partir da tabela
de prioridade mais alta. Se falhar, ela tentará carregar dados a partir da
próxima tabela de prioridade mais alta. Consulte a documentação
do Amazon Redshift ou do PostgreSQL para mais detalhes sobre o esquema e o uso.
Coluna | Tipo | Descrição |
---|---|---|
DatabaseName |
STRING |
: o nome do banco de dados. |
SchemaName |
STRING |
O nome do esquema. |
TableName |
STRING |
O nome da tabela. |
ColumnName |
STRING |
O nome da coluna. |
DefaultValue |
STRING |
O valor padrão, se disponível. |
Nullable |
BOOLEAN |
Indica se uma coluna pode ou não ter um valor nulo. |
ColumnType |
STRING |
O tipo da coluna, como VARCHAR . |
ColumnLength |
INTEGER |
O tamanho da coluna, como 30 para um
VARCHAR(30) . |
CreateAndDropStatistic
Essa tabela fornece informações sobre a criação e a exclusão de tabelas.
Coluna | Tipo | Descrição |
---|---|---|
QueryHash |
STRING |
O hash da consulta. |
DefaultDatabase |
STRING |
O banco de dados padrão. |
EntityType |
STRING |
O tipo de entidade. Por exemplo, TABELA. |
EntityName |
STRING |
É o nome da entidade. |
Operation |
STRING |
A operação: CRIAR ou REMOVER. |
Databases
Esta tabela vem diretamente da tabela PG_DATABASE_INFO do Amazon Redshift. Os nomes dos campos originais da tabela PG estão incluídos nas descrições. Consulte a documentação do Amazon Redshift e do PostgreSQL para mais detalhes sobre o esquema e o uso.
Coluna | Tipo | Descrição |
---|---|---|
DatabaseName |
STRING |
: o nome do banco de dados. Nome da origem: datname |
Owner |
STRING |
O proprietário do banco de dados. Por exemplo, o usuário que criou o banco de dados. Nome da origem: datdba |
ExternalColumns
Esta tabela contém informações diretamente da tabela SVV_EXTERNAL_COLUMNS do Amazon Redshift. Consulte a documentação do Amazon Redshift para ver mais detalhes sobre o esquema e o uso.
Coluna | Tipo | Descrição |
---|---|---|
SchemaName |
STRING |
O nome do esquema externo. |
TableName |
STRING |
O nome da tabela externa. |
ColumnName |
STRING |
O nome da coluna externa. |
ColumnType |
STRING |
O tipo da coluna. |
Nullable |
BOOLEAN |
Indica se uma coluna pode ou não ter um valor nulo. |
ExternalDatabases
Esta tabela contém informações diretamente da tabela SVV_EXTERNAL_DATABASES do Amazon Redshift. Consulte a documentação do Amazon Redshift para ver mais detalhes sobre o esquema e o uso.
Coluna | Tipo | Descrição |
---|---|---|
DatabaseName |
STRING |
O nome do banco de dados externo. |
Location |
STRING |
O local do banco de dados. |
ExternalPartitions
Esta tabela contém informações diretamente da tabela SVV_EXTERNAL_PARTITIONS do Amazon Redshift. Consulte a documentação do Amazon Redshift para ver mais detalhes sobre o esquema e o uso.
Coluna | Tipo | Descrição |
---|---|---|
SchemaName |
STRING |
O nome do esquema externo. |
TableName |
STRING |
O nome da tabela externa. |
Location |
STRING |
O local da partição. O tamanho da coluna é limitado a 128 caracteres. Valores mais longos são truncados. |
ExternalSchemas
Esta tabela contém informações diretamente da tabela SVV_EXTERNAL_SCHEMAS do Amazon Redshift. Consulte a documentação do Amazon Redshift para ver mais detalhes sobre o esquema e o uso.
Coluna | Tipo | Descrição |
---|---|---|
SchemaName |
STRING |
O nome do esquema externo. |
DatabaseName |
STRING |
O nome do banco de dados externo. |
ExternalTables
Esta tabela contém informações diretamente da tabela SVV_EXTERNAL_TABLES do Amazon Redshift. Consulte a documentação do Amazon Redshift para ver mais detalhes sobre o esquema e o uso.
Coluna | Tipo | Descrição |
---|---|---|
SchemaName |
STRING |
O nome do esquema externo. |
TableName |
STRING |
O nome da tabela externa. |
Functions
Esta tabela contém informações da tabela PG_PROC do Amazon Redshift diretamente. Consulte a documentação do Amazon Redshift e do PostgreSQL para mais detalhes sobre o esquema e o uso.
Coluna | Tipo | Descrição |
---|---|---|
SchemaName |
STRING |
O nome do esquema. |
FunctionName |
STRING |
O nome da função. |
LanguageName |
STRING |
Idioma de implementação ou interface de chamada dessa função. |
Queries
Essa tabela é gerada usando as informações da tabela QueryLogs
. Ao contrário da tabela QueryLogs
, cada linha na tabela "Queries" contém apenas uma instrução de consulta armazenada na coluna QueryText. Essa tabela fornece os dados de origem
para gerar as tabelas de estatísticas e as saídas de tradução.
Coluna | Tipo | Descrição |
---|---|---|
QueryText |
STRING |
O texto da consulta. |
QueryHash |
STRING |
O hash da consulta. |
QueryLogs
Essa tabela mostra informações sobre a execução da consulta.
Coluna | Tipo | Descrição |
---|---|---|
QueryText |
STRING |
O texto da consulta. |
QueryHash |
STRING |
O hash da consulta. |
QueryID |
STRING |
O ID da consulta. |
UserID |
STRING |
O ID do usuário. |
StartTime |
TIMESTAMP |
O horário de início. |
Duration |
INTEGER |
Duração em milissegundos. |
QueryTypeStatistics
Coluna | Tipo | Descrição |
---|---|---|
QueryHash |
STRING |
O hash da consulta. |
DefaultDatabase |
STRING |
O banco de dados padrão. |
QueryType |
STRING |
O tipo da consulta. |
UpdatedTable |
STRING |
A tabela atualizada. |
QueriedTables |
ARRAY<STRING> |
As tabelas consultadas. |
TableInfo
Esta tabela contém informações extraídas da tabela SVGV_TABLE_INFO no Amazon Redshift.
Coluna | Tipo | Descrição |
---|---|---|
DatabaseName |
STRING |
: o nome do banco de dados. |
SchemaName |
STRING |
O nome do esquema. |
TableId |
INTEGER |
O ID da tabela. |
TableName |
STRING |
O nome da tabela. |
SortKey1 |
STRING |
Primeira coluna na chave de classificação. |
SortKeyNum |
INTEGER |
Número de colunas definidas como chaves de classificação. |
MaxVarchar |
INTEGER |
Tamanho da maior coluna que usa um tipo de dados
VARCHAR . |
Size |
INTEGER |
Tamanho da tabela, em blocos de dados de 1 MB. |
TblRows |
INTEGER |
Número total de linhas na tabela. |
TableRelations
Coluna | Tipo | Descrição |
---|---|---|
QueryHash |
STRING |
O hash da consulta que estabeleceu a relação (por exemplo, uma consulta JOIN). |
DefaultDatabase |
STRING |
O banco de dados padrão. |
TableName1 |
STRING |
A primeira tabela da relação. |
TableName2 |
STRING |
A segunda tabela da relação. |
Relation |
STRING |
O tipo de relação. Usa um destes valores:
COMMA_JOIN , CROSS_JOIN ,
FULL_OUTER_JOIN , INNER_JOIN ,
LEFT_OUTER_JOIN ,
RIGHT_OUTER_JOIN e CREATED_FROM ou
INSERT_INTO . |
Count |
INTEGER |
A frequência com que essa relação foi observada. |
TableSizes
Essa tabela fornece informações sobre os tamanhos das tabelas.
Coluna | Tipo | Descrição |
---|---|---|
DatabaseName |
STRING |
: o nome do banco de dados. |
SchemaName |
STRING |
O nome do esquema. |
TableName |
STRING |
O nome da tabela. |
TableSizeInBytes |
INTEGER |
O tamanho da tabela em bytes. |
Tables
Esta tabela contém informações extraídas da tabela SVGV_TABLES no Amazon Redshift. Consulte a documentação do Amazon Redshift para mais detalhes sobre o esquema e o uso.
Coluna | Tipo | Descrição |
---|---|---|
DatabaseName |
STRING |
: o nome do banco de dados. |
SchemaName |
STRING |
O nome do esquema. |
TableName |
STRING |
O nome da tabela. |
TableType |
STRING |
O tipo de tabela. |
TranslatedQueries
Esta tabela fornece traduções de consulta.
Coluna | Tipo | Descrição |
---|---|---|
QueryHash |
STRING |
O hash da consulta. |
TranslatedQueryText |
STRING |
Resultado da tradução do dialeto de origem para o GoogleSQL. |
TranslationErrors
Esta tabela fornece informações sobre erros de conversão de consulta.
Coluna | Tipo | Descrição |
---|---|---|
QueryHash |
STRING |
O hash da consulta. |
Severity |
STRING |
A gravidade do erro, como ERROR . |
Category |
STRING |
A categoria do erro, como
AttributeNotFound . |
Message |
STRING |
A mensagem com os detalhes do erro. |
LocationOffset |
INTEGER |
A posição do caractere do local do erro. |
LocationLine |
INTEGER |
O número da linha do erro. |
LocationColumn |
INTEGER |
O número da coluna do erro. |
LocationLength |
INTEGER |
A quantidade de caracteres do local do erro. |
UserTableRelations
Coluna | Tipo | Descrição |
---|---|---|
UserID |
STRING |
O ID do usuário. |
TableName |
STRING |
O nome da tabela. |
Relation |
STRING |
A relação. |
Count |
INTEGER |
A contagem. |
Users
Esta tabela contém informações extraídas da tabela PG_USER no Amazon Redshift. Consulte a documentação do PostgreSQL para mais detalhes sobre o esquema e o uso.
Coluna | Tipo | Descrição | |
---|---|---|---|
UserName |
STRING |
O nome do User. | |
UserId |
STRING |
O ID do usuário. |
Apache Hive
Columns
Essa tabela contém informações sobre as colunas:
Coluna | Tipo | Descrição |
---|---|---|
DatabaseName |
STRING |
O nome do banco de dados com o caso preservado. |
TableName |
STRING |
O nome da tabela com o caso preservado. |
ColumnName |
STRING |
O nome da coluna com o caso preservado. |
ColumnType |
STRING |
O tipo do BigQuery da coluna, como STRING . |
OriginalColumnType |
STRING |
O tipo original da coluna, como VARCHAR . |
CreateAndDropStatistic
Essa tabela contém informações sobre a criação e a exclusão de tabelas:
Coluna | Tipo | Descrição |
---|---|---|
QueryHash |
STRING |
O hash da consulta. |
DefaultDatabase |
STRING |
O banco de dados padrão. |
EntityType |
STRING |
O tipo da entidade como, por exemplo, TABLE . |
EntityName |
STRING |
É o nome da entidade. |
Operation |
STRING |
A operação realizada na tabela (CREATE ou DROP ). |
Databases
Essa tabela contém informações sobre os bancos de dados:
Coluna | Tipo | Descrição |
---|---|---|
DatabaseName |
STRING |
O nome do banco de dados com o caso preservado. |
Owner |
STRING |
O proprietário do banco de dados. Por exemplo, o usuário que criou o banco de dados. |
Location |
STRING |
Localização do banco de dados nos sistemas de arquivos. |
Functions
Essa tabela contém informações sobre as funções:
Coluna | Tipo | Descrição |
---|---|---|
DatabaseName |
STRING |
O nome do banco de dados com o caso preservado. |
FunctionName |
STRING |
O nome da função. |
LanguageName |
STRING |
O nome do idioma. |
ClassName |
STRING |
O nome da classe da função. |
ObjectReferences
Essa tabela contém informações sobre os objetos referenciados nas consultas:
Coluna | Tipo | Descrição |
---|---|---|
QueryHash |
STRING |
O hash da consulta. |
DefaultDatabase |
STRING |
O banco de dados padrão. |
Clause |
STRING |
A cláusula em que o objeto aparece. Por exemplo, SELECT . |
ObjectName |
STRING |
O nome do objeto. |
Type |
STRING |
O tipo do objeto. |
Subtype |
STRING |
O subtipo do objeto. |
ParititionKeys
Essa tabela contém informações sobre as chaves de partição:
Coluna | Tipo | Descrição |
---|---|---|
DatabaseName |
STRING |
O nome do banco de dados com o caso preservado. |
TableName |
STRING |
O nome da tabela com o caso preservado. |
ColumnName |
STRING |
O nome da coluna com o caso preservado. |
ColumnType |
STRING |
O tipo do BigQuery da coluna, como STRING . |
Parititions
Essa tabela contém informações sobre as partições de tabelas:
Coluna | Tipo | Descrição |
---|---|---|
DatabaseName |
STRING |
O nome do banco de dados com o caso preservado. |
TableName |
STRING |
O nome da tabela com o caso preservado. |
PartitionName |
STRING |
O nome da partição. |
CreateTimestamp |
TIMESTAMP |
O carimbo de data/hora de quando a partição foi criada. |
LastAccessTimestamp |
TIMESTAMP |
O carimbo de data/hora de quando a partição foi acessada pela última vez. |
LastDdlTimestamp |
TIMESTAMP |
O carimbo de data/hora de quando essa partição foi alterada pela última vez. |
TotalSize |
INTEGER |
O tamanho compactado da partição em bytes. |
Queries
Essa tabela é gerada usando as informações da tabela QueryLogs
. Ao contrário da tabela QueryLogs
, cada linha na tabela "Queries" contém apenas uma instrução de consulta armazenada na coluna QueryText
. Essa tabela contém os dados de origem para gerar as tabelas de estatísticas e as saídas de tradução:
Coluna | Tipo | Descrição |
---|---|---|
QueryHash |
STRING |
O hash da consulta. |
QueryText |
STRING |
O texto da consulta. |
QueryLogs
Essa tabela mostra algumas estatísticas de execução sobre as consultas extraídas:
Coluna | Tipo | Descrição |
---|---|---|
QueryText |
STRING |
O texto da consulta. |
QueryHash |
STRING |
O hash da consulta. |
QueryId |
STRING |
O ID da consulta. |
QueryType |
STRING |
O tipo da consulta, Query ou DDL . |
UserName |
STRING |
O nome do usuário que executou a consulta. |
StartTime |
TIMESTAMP |
O carimbo de data/hora de quando a consulta foi enviada. |
Duration |
STRING |
A duração da consulta em milissegundos. |
QueryTypeStatistics
Essa tabela mostra estatísticas sobre tipos de consultas:
Coluna | Tipo | Descrição |
---|---|---|
QueryHash |
STRING |
O hash da consulta. |
QueryType |
STRING |
O tipo da consulta. |
UpdatedTable |
STRING |
A tabela atualizada pela consulta, se houver. |
QueriedTables |
ARRAY<STRING> |
Uma lista das tabelas que foram consultadas. |
QueryTypes
Essa tabela mostra estatísticas sobre tipos de consultas:
Coluna | Tipo | Descrição |
---|---|---|
QueryHash |
STRING |
O hash da consulta. |
Category |
STRING |
A categoria da consulta. |
Type |
STRING |
O tipo da consulta. |
Subtype |
STRING |
O subtipo da consulta. |
SchemaConversion
Essa tabela contém informações sobre conversões de esquema relacionadas a clustering e particionamento:
Nome da coluna | Tipo de coluna | Descrição |
---|---|---|
DatabaseName |
STRING |
Nome do banco de dados de origem em que a sugestão é feita. Um banco de dados é mapeado para um conjunto de dados no BigQuery. |
TableName |
STRING |
É o nome da tabela em que a sugestão é feita. |
PartitioningColumnName |
STRING |
O nome da coluna de particionamento sugerida no BigQuery. |
ClusteringColumnNames |
ARRAY |
Os nomes das colunas de clustering sugeridas no BigQuery. |
CreateTableDDL |
STRING |
O CREATE TABLE statement para criar a tabela no BigQuery. |
TableRelations
Essa tabela contém informações sobre tabelas:
Coluna | Tipo | Descrição |
---|---|---|
QueryHash |
STRING |
O hash da consulta que estabeleceu a relação. |
DatabaseName1 |
STRING |
Nome do primeiro banco de dados. |
TableName1 |
STRING |
Nome da primeira tabela. |
DatabaseName2 |
STRING |
O nome do segundo banco de dados. |
TableName2 |
STRING |
O nome da segunda tabela. |
Relation |
STRING |
O tipo de relação entre as duas tabelas. |
TableSizes
Essa tabela contém informações sobre os tamanhos das tabelas:
Coluna | Tipo | Descrição |
---|---|---|
DatabaseName |
STRING |
O nome do banco de dados com o caso preservado. |
TableName |
STRING |
O nome da tabela com o caso preservado. |
TotalSize |
INTEGER |
O tamanho da tabela em bytes. |
Tables
Essa tabela contém informações sobre tabelas:
Coluna | Tipo | Descrição |
---|---|---|
DatabaseName |
STRING |
O nome do banco de dados com o caso preservado. |
TableName |
STRING |
O nome da tabela com o caso preservado. |
Type |
STRING |
O tipo de tabela. |
TranslatedQueries
Esta tabela contém traduções de consultas:
Coluna | Tipo | Descrição |
---|---|---|
QueryHash |
STRING |
O hash da consulta. |
TranslatedQueryText |
STRING |
O resultado da tradução do dialeto de origem para o GoogleSQL. |
TranslationErrors
Essa tabela contém informações sobre erros de tradução de consultas:
Coluna | Tipo | Descrição |
---|---|---|
QueryHash |
STRING |
O hash da consulta. |
Severity |
STRING |
A gravidade do erro, como ERROR . |
Category |
STRING |
A categoria do erro, como
AttributeNotFound . |
Message |
STRING |
A mensagem com os detalhes do erro. |
LocationOffset |
INTEGER |
A posição do caractere do local do erro. |
LocationLine |
INTEGER |
O número da linha do erro. |
LocationColumn |
INTEGER |
O número da coluna do erro. |
LocationLength |
INTEGER |
A quantidade de caracteres do local do erro. |
UserTableRelations
Coluna | Tipo | Descrição |
---|---|---|
UserID |
STRING |
O ID do usuário. |
TableName |
STRING |
O nome da tabela. |
Relation |
STRING |
A relação. |
Count |
INTEGER |
A contagem. |
Snowflake
Warehouses
Coluna | Tipo | Descrição | Presence |
---|---|---|---|
WarehouseName |
STRING |
O nome do warehouse. | Sempre |
State |
STRING |
O estado do warehouse. Valores possíveis: STARTED , SUSPENDED , RESIZING . |
Sempre |
Type |
STRING |
Tipo de warehouse. Valores possíveis: STANDARD , SNOWPARK-OPTIMIZED . |
Sempre |
Size |
STRING |
Tamanho do warehouse. Valores possíveis: X-Small , Small , Medium , Large , X-Large , 2X-Large ... 6X-Large . |
Sempre |
Databases
Coluna | Tipo | Descrição | Presence |
---|---|---|---|
DatabaseNameOriginal |
STRING |
O nome do banco de dados com o caso preservado. | Sempre |
DatabaseName |
STRING |
O nome do banco de dados, convertido em letras minúsculas. | Sempre |
Schemata
Coluna | Tipo | Descrição | Presence |
---|---|---|---|
DatabaseNameOriginal |
STRING |
O nome do banco de dados ao qual o esquema pertence, com o caso preservado. | Sempre |
DatabaseName |
STRING |
O nome do banco de dados ao qual o esquema pertence, convertido em letras minúsculas. | Sempre |
SchemaNameOriginal |
STRING |
O nome do esquema, com letras maiúsculas e minúsculas preservadas. | Sempre |
SchemaName |
STRING |
O nome do esquema, convertido em letras minúsculas. | Sempre |
Tables
Coluna | Tipo | Descrição | Presence |
---|---|---|---|
DatabaseNameOriginal |
STRING |
O nome do banco de dados ao qual a tabela pertence, com letras maiúsculas e minúsculas preservadas. | Sempre |
DatabaseName |
STRING |
O nome do banco de dados ao qual a tabela pertence, convertido em letras minúsculas. | Sempre |
SchemaNameOriginal |
STRING |
O nome do esquema a que a tabela pertence, com letras maiúsculas e minúsculas preservadas. | Sempre |
SchemaName |
STRING |
O nome do esquema ao qual a tabela pertence, convertido em letras minúsculas. | Sempre |
TableNameOriginal |
STRING |
O nome da tabela com o caso preservado. | Sempre |
TableName |
STRING |
O nome da tabela, convertido em letras minúsculas. | Sempre |
TableType |
STRING |
Tipo da tabela (visualização / visualização materializada / tabela base). | Sempre |
RowCount |
BIGNUMERIC |
Número de linhas na tabela. | Sempre |
Columns
Coluna | Tipo | Descrição | Presence |
---|---|---|---|
DatabaseName |
STRING |
O nome do banco de dados, convertido em letras minúsculas. | Sempre |
DatabaseNameOriginal |
STRING |
O nome do banco de dados com o caso preservado. | Sempre |
SchemaName |
STRING |
O nome do esquema, convertido em letras minúsculas. | Sempre |
SchemaNameOriginal |
STRING |
O nome do esquema, com letras maiúsculas e minúsculas preservadas. | Sempre |
TableName |
STRING |
O nome da tabela, convertido em letras minúsculas. | Sempre |
TableNameOriginal |
STRING |
O nome da tabela com o caso preservado. | Sempre |
ColumnName |
STRING |
O nome da coluna, convertido em letras minúsculas. | Sempre |
ColumnNameOriginal |
STRING |
O nome da coluna com o caso preservado. | Sempre |
ColumnType |
STRING |
O tipo da coluna. | Sempre |
CreateAndDropStatistics
Coluna | Tipo | Descrição | Presence |
---|---|---|---|
QueryHash |
STRING |
O hash da consulta. | Sempre |
DefaultDatabase |
STRING |
O banco de dados padrão. | Sempre |
EntityType |
STRING |
O tipo da entidade como, por exemplo, TABLE . |
Sempre |
EntityName |
STRING |
É o nome da entidade. | Sempre |
Operation |
STRING |
A operação: CREATE ou DROP . |
Sempre |
Queries
Coluna | Tipo | Descrição | Presence |
---|---|---|---|
QueryText |
STRING |
O texto da consulta. | Sempre |
QueryHash |
STRING |
O hash da consulta. | Sempre |
QueryLogs
Coluna | Tipo | Descrição | Presence |
---|---|---|---|
QueryText |
STRING |
O texto da consulta. | Sempre |
QueryHash |
STRING |
O hash da consulta. | Sempre |
QueryID |
STRING |
O ID da consulta. | Sempre |
UserID |
STRING |
O ID do usuário. | Sempre |
StartTime |
TIMESTAMP |
O horário de início. | Sempre |
Duration |
INTEGER |
Duração em milissegundos. | Sempre |
QueryTypeStatistics
Coluna | Tipo | Descrição | Presence |
---|---|---|---|
QueryHash |
STRING |
O hash da consulta. | Sempre |
DefaultDatabase |
STRING |
O banco de dados padrão. | Sempre |
QueryType |
STRING |
O tipo da consulta. | Sempre |
UpdatedTable |
STRING |
A tabela atualizada. | Sempre |
QueriedTables |
REPEATED STRING |
As tabelas consultadas. | Sempre |
TableRelations
Coluna | Tipo | Descrição | Presence |
---|---|---|---|
QueryHash |
STRING |
O hash da consulta que estabeleceu a relação (por exemplo, uma consulta JOIN ). |
Sempre |
DefaultDatabase |
STRING |
O banco de dados padrão. | Sempre |
TableName1 |
STRING |
A primeira tabela da relação. | Sempre |
TableName2 |
STRING |
A segunda tabela da relação. | Sempre |
Relation |
STRING |
O tipo de relação. | Sempre |
Count |
INTEGER |
A frequência com que essa relação foi observada. | Sempre |
TranslatedQueries
Coluna | Tipo | Descrição | Presence |
---|---|---|---|
QueryHash |
STRING |
O hash da consulta. | Sempre |
TranslatedQueryText |
STRING |
Resultado da tradução do dialeto de origem para o BigQuery SQL. | Sempre |
TranslationErrors
Coluna | Tipo | Descrição | Presence |
---|---|---|---|
QueryHash |
STRING |
O hash da consulta. | Sempre |
Severity |
STRING |
A gravidade do erro como, por exemplo, ERROR . |
Sempre |
Category |
STRING |
A categoria do erro como, por exemplo, AttributeNotFound . |
Sempre |
Message |
STRING |
A mensagem com os detalhes do erro. | Sempre |
LocationOffset |
INTEGER |
A posição do caractere do local do erro. | Sempre |
LocationLine |
INTEGER |
O número da linha do erro. | Sempre |
LocationColumn |
INTEGER |
O número da coluna do erro. | Sempre |
LocationLength |
INTEGER |
A quantidade de caracteres do local do erro. | Sempre |
UserTableRelations
Coluna | Tipo | Descrição | Presence |
---|---|---|---|
UserID |
STRING |
código do usuário; | Sempre |
TableName |
STRING |
O nome da tabela. | Sempre |
Relation |
STRING |
A relação. | Sempre |
Count |
INTEGER |
A contagem. | Sempre |
Solução de problemas
Nesta seção, explicamos alguns problemas comuns e técnicas de solução de problemas para migrar seu data warehouse para o BigQuery.
dwh-migration-dumper
erros da ferramenta
Para solucionar erros e avisos na saída do terminal da ferramenta dwh-migration-dumper
que ocorreram durante a extração de registros de consulta ou metadados, consulte
Gerar solução de problemas de metadados.
Erros de migração do Hive
Esta seção descreve problemas comuns que podem ser encontrados ao planejar a migração do seu data warehouse do Hive para o BigQuery.
O hook de geração de registros grava mensagens de registro de depuração nos registros hive-server2
. Se você encontrar algum problema, consulte os registros de depuração do hook de geração de registros, que contêm a string MigrationAssessmentLoggingHook
.
Solucione o erro ClassNotFoundException
O erro pode ser causado pela posição incorreta do arquivo JAR do hook de geração de registros. Verifique se você adicionou o arquivo JAR à pasta auxlib no cluster do Hive. Outra possibilidade é especificar o caminho completo do arquivo JAR na propriedade hive.aux.jars.path
, por exemplo, file://
.
A pasta configurada não mostra subpastas
Esse problema pode ser causado por uma configuração incorreta ou por problemas durante a inicialização do hook de geração de registros.
Nos registros de depuração hive-server2
, procure as seguintes mensagens do hook de geração de registros:
Unable to initialize logger, logging disabled
Log dir configuration key 'dwhassessment.hook.base-directory' is not set, logging disabled.
Error while trying to set permission
Analise os detalhes do problema e veja se há algo que você precisa corrigir para resolver o problema.
A pasta não mostra arquivos
Esse problema pode ser causado pelos problemas encontrados durante o processamento de um evento ou a gravação em um arquivo.
Nos registros de depuração hive-server2
, procure as seguintes mensagens do hook de geração de registros:
Failed to close writer for file
Got exception while processing event
Error writing record for query
Analise os detalhes do problema e veja se há algo que você precisa corrigir para resolver o problema.
Alguns eventos de consulta estão perdidos
Esse problema pode ser causado pelo excesso de filas de linhas de execução do hook de geração de registros.
Nos registros de depuração hive-server2
, procure a seguinte mensagem do hook de geração de registros:
Writer queue is full. Ignoring event
Se houver essas mensagens, aumente o parâmetro dwhassessment.hook.queue.capacity
.
A seguir
Para mais informações sobre a ferramenta dwh-migration-dumper
, consulte
dwh-migration-tools.
Você também pode saber mais sobre as seguintes etapas na migração de data warehouses:
- Visão geral da migração
- Visão geral de esquema e transferência de dados
- Pipelines de dados
- Tradução de SQL em lote
- Tradução de SQL interativo
- Segurança e governança de dados
- Ferramenta de validação de dados