Apache Hive

Esta página contém informações sobre como conectar o Looker ao Apache Hive 2.3 ou mais recente e ao Apache Hive 3.1.2 ou mais recente.

Observe o seguinte sobre o suporte do Looker para as diferentes versões do Apache Hive:

  • O Looker oferece suporte a conexões com o Apache Hive 2.3 ou mais recente e o Apache Hive 3.1.2 ou mais recente.
  • Para o Apache Hive 3.1.2 ou mais recente, o Looker pode ser totalmente integrado aos bancos de dados do Apache Hive 3 apenas nas versões posteriores à 3.1.2. Isso ocorre devido a um problema de análise de consulta nas versões 2.4.0 a 3.1.2 do Hive, que resultou em tempos de análise extremamente longos para SQL gerado pelo Looker.
  • O Looker não oferece suporte a conexões com o Apache Hive 2. As consultas em conexões com o Apache Hive 2 vão retornar um erro.

Como criptografar o tráfego de rede

É recomendável criptografar o tráfego de rede entre o aplicativo Looker e seu banco de dados. Considere uma das opções descritas na página de documentação Ativar o acesso seguro ao banco de dados.

Introdução

O Looker foi projetado para se conectar a um servidor de banco de dados usando JDBC. No caso do Hive, esse é o servidor thrift (HiveServer2). Consulte a documentação do Apache para mais informações.

Por padrão, esse servidor vai detectar na porta 10000.

O Looker é uma ferramenta de consulta interativa, então ele precisa funcionar com um mecanismo SQL interativo. Se o Hive estiver em execução no MapReduce (hive.execution.engine estiver definido como mr), ele retornará os resultados da consulta muito lentamente para ser prático.

O Looker foi testado com o Hive no Tez (hive.execution.engine=tez), mas também é possível executar o Looker no Hive no Spark. O suporte ao Spark foi adicionado na versão 1.1 do Hive. O Looker oferece suporte ao Hive 1.2.1 e versões mais recentes.

Tabelas derivadas persistentes (TDPs)

Para ativar as tabelas derivadas persistentes (PDTs, na sigla em inglês) no Looker usando uma conexão do Hive, crie um esquema inicial para o Looker usar. Confira a seguir um exemplo de comando que pode ser usado para criar um esquema looker_scratch:

 CREATE SCHEMA looker_scratch;

A conta de usuário que o Looker usa para se conectar ao Hive (que pode ser anônima se nenhuma autenticação for usada) precisa ter as seguintes capacidades no esquema de scratch:

  • crie tabelas
  • Alterar tabelas
  • Tabelas de exclusão

Teste isso com um cliente JDBC antes de tentar criar PDTs com o Hive.

Filas

Se você quiser que as consultas do Looker sejam enviadas para uma fila específica, insira o parâmetro de nome da fila no campo Parâmetros JDBC adicionais na página Configurações de conexão:

?tez.queue.name=the_bi_queue

Outros parâmetros do Hive podem ser definidos dessa forma no campo Parâmetros JDBC adicionais na página Configurações de conexão.

Com os atributos do usuário, é possível que consultas de diferentes usuários ou grupos de usuários sejam enviadas para filas diferentes. Para fazer isso, crie um atributo do usuário com o nome queue_name. Em seguida, no campo Parâmetros JDBC adicionais, adicione o seguinte:

?tez.queue.name={{ _user_attributes['queue_name'] }}

Você pode usar isso para personalizar outros parâmetros hive-site.xml por usuário ou grupo.

Criar a conexão do Looker com seu banco de dados

Siga estas etapas para criar a conexão do Looker com seu banco de dados:

  1. Na seção Administrador do Looker, selecione Conexões e clique em Adicionar conexão.
  2. Selecione Apache Hive 2.3 ou mais ou Apache Hive 3.1.2 ou mais no menu suspenso Dialect.

  3. Preencher os detalhes de conexão. A maioria das configurações é comum para a maioria dos dialetos de banco de dados. Consulte a página de documentação Como conectar o Looker ao seu banco de dados para mais informações. Confira a seguir algumas das configurações:

    • Nome: especifique o nome da conexão. É assim que você vai se referir à conexão nos projetos do LookML.
    • Host: especifique o nome do host.
    • Porta: especifique a porta do banco de dados.
    • Banco de dados: especifique o nome do banco de dados.
    • Nome de usuário: especifique o nome de usuário do banco de dados.
    • Senha: especifique a senha do usuário do banco de dados.
    • Ativar TDPs: use essa opção para ativar as TDPs. Quando os TDPs estão ativados, a janela Conexão mostra outras configurações de TDP e a seção Substituições de TDP.
    • Banco de dados temporário: especifique o nome do esquema de rascunho criado na seção Tabelas derivadas persistentes (PDTs, na sigla em inglês) desta página de documentação.
    • Número máximo de conexões do builder da TDP: especifique o número de builds simultâneos possíveis da TDP nessa conexão. Definir esse valor muito alto pode afetar negativamente os tempos de consulta. Para mais informações, consulte a página de documentação Como conectar o Looker ao seu banco de dados.
    • Parâmetros JDBC adicionais: especifique outros parâmetros de string do JDBC.
    • Programação de manutenção de grupos de dados e PDT: especifique uma expressão cron que indique quando o Looker precisa verificar grupos de dados e tabelas derivadas persistentes. Documentação sobre a Programação de manutenção de grupos de dados e PDTs.
    • SSL: verifique se as conexões SSL estão sendo usadas.
    • Verificar SSL: verifique a verificação de nome de host.
    • Conexões máximas por nó: essa configuração pode ser deixada com o valor padrão inicialmente. Consulte a página de documentação Como conectar o Looker ao seu banco de dados para mais informações.
    • Tempo limite do pool de conexões: essa configuração pode ser deixada com o valor padrão inicialmente. Leia mais sobre essa configuração na seção Connection Pool Timeout da página de documentação Como conectar o Looker ao seu banco de dados.
    • Pré-cache do SQL Runner: desmarque essa opção para que o SQL Runner não pré-carregue as informações da tabela e as carregue apenas quando uma tabela for selecionada. Leia mais sobre essa configuração na seção SQL Runner Precache da página de documentação Como conectar o Looker ao seu banco de dados.
    • Fuso horário do banco de dados: especifique o fuso horário usado no banco de dados. Deixe esse campo em branco se você não quiser a conversão de fuso horário. Consulte a página de documentação Como usar as configurações de fuso horário para mais informações.
  4. Para verificar se a conexão foi bem-sucedida, clique em Testar. Consulte a página de documentação Teste de conectividade do banco de dados para informações sobre solução de problemas.

  5. Para salvar essas configurações, clique em Conectar.

Suporte a recursos

Para que o Looker ofereça suporte a alguns recursos, o dialeto do banco de dados também precisa oferecer suporte a eles.

Apache Hive 2.3 ou mais recente

O Apache Hive 2.3 e versões mais recentes oferecem suporte aos seguintes recursos do Looker 25.0:

Recurso Compatível?
Nível de suporte
Integração
Looker (Google Cloud Core)
Não
Agregações simétricas
Não
Tabelas derivadas
Sim
Tabelas derivadas SQL persistentes
Sim
Tabelas derivadas nativas nativas
Sim
Visualizações estáveis
Sim
Consulta de interrupção
Sim
Pivots baseados em SQL
Não
Fusos horários
Sim
SSL
Sim
Subtotais
Sim
Parâmetros adicionais do JDBC
Sim
Diferenciar maiúsculas e minúsculas
Sim
Tipo de local
Sim
Tipo de lista
Sim
Percentil
Sim
Percentil distinto
Não
SQL Runner Show Processes
Não
Tabela de descrição do SQL Runner
Sim
Índices de exibição do SQL Runner
Sim
SQL Runner Select 10
Sim
Contagem do SQL Runner
Sim
SQL Explain
Sim
Credenciais do OAuth
Não
Comentários de contexto
Sim
Pooling de conexão
Não
Esboços HLL
Não
Conscientização agregada
Sim
PDTs incrementais
Não
Milissegundos
Sim
Microssegundos
Sim
Visualizações materializadas
Não
Contagem aproximada de valores distintos
Não

Apache Hive 3.1.2 ou mais recente

O Apache Hive 3.1.2 e versões mais recentes oferecem suporte aos seguintes recursos do Looker 25.0:

Recurso Compatível?
Nível de suporte
Compatível
Looker (Google Cloud Core)
Sim
Agregações simétricas
Não
Tabelas derivadas
Sim
Tabelas derivadas SQL persistentes
Sim
Tabelas derivadas nativas nativas
Sim
Visualizações estáveis
Sim
Consulta de interrupção
Sim
Pivots baseados em SQL
Não
Fusos horários
Sim
SSL
Sim
Subtotais
Sim
Parâmetros adicionais do JDBC
Sim
Diferenciar maiúsculas e minúsculas
Sim
Tipo de local
Sim
Tipo de lista
Sim
Percentil
Sim
Percentil distinto
Não
SQL Runner Show Processes
Não
Tabela de descrição do SQL Runner
Sim
Índices de exibição do SQL Runner
Não
SQL Runner Select 10
Sim
Contagem do SQL Runner
Sim
SQL Explain
Sim
Credenciais do OAuth
Não
Comentários de contexto
Sim
Pooling de conexão
Não
Esboços HLL
Não
Conscientização agregada
Sim
PDTs incrementais
Não
Milissegundos
Sim
Microssegundos
Sim
Visualizações materializadas
Não
Contagem aproximada de valores distintos
Não

Próximas etapas

Depois de conectar seu banco de dados ao Looker, configure as opções de login para seus usuários.