Apache Hive

Nesta página, você verá informações sobre como conectar o Looker ao Apache Hive.

Introdução

O Looker é arquitetado para se conectar a um servidor de banco de dados via JDBC. No caso do Hive, este é o servidor brechó (HiveServer2). Consulte a documentação do Apache para mais informações.

Por padrão, esse servidor escuta a porta 10000.

O Looker é uma ferramenta de consulta interativa, por isso espera-se que funcione com um mecanismo SQL interativo. Se o Hive estiver em execução no MapReduce, quando hive.execution.engine estiver definido como mr, ele retornará os resultados da consulta de maneira muito lenta para que sejam práticos.

O Looker foi testado com o Hive no Tez (hive.execution.engine=tez), embora também seja possível executar o Looker no Hive no Spark. Foi adicionado suporte ao Spark na versão Hive 1.1. O Looker é compatível com o Hive 1.2.1+.

Tabelas derivadas permanentes (PDTs, na sigla em inglês)

Para ativar as tabelas derivadas permanentes (PDTs, na sigla em inglês) no Looker usando uma conexão Hive, crie um esquema de raspadinha para o Looker usar. Veja um exemplo de um comando que pode ser usado para criar um esquema looker_scratch:

 CREATE SCHEMA looker_scratch;

A conta de usuário que o Looker usa para se conectar ao Hive (que pode ser anônimo se nenhuma autenticação for usada) deve ter as seguintes capacidades no esquema de rascunho:

  • crie tabelas
  • Alterar tabelas
  • Soltar tabelas

Teste isso com um cliente JDBC antes de tentar criar PDTs com o Hive.

Filas

Se você quiser que as consultas do Looker entrem em uma fila específica, insira o parâmetro do nome da fila no campo Additional Params na página Connection Settings:

?tez.queue.name=the_bi_queue

Outros parâmetros do Hive podem ser definidos dessa forma no campo Additional Params na página Connection Settings.

Com os atributos de usuário, é possível que consultas de diferentes usuários ou grupos de usuários entrem em filas distintas. Para fazer isso, crie um atributo de usuário chamado algo como queue_name e, no campo Outros parâmetros, adicione:

?tez.queue.name={{ _user_attributes['queue_name'] }}

Também é possível personalizar esse parâmetro hive-site.xml para cada usuário ou grupo.

Como adicionar a conexão

Na seção Administrador do Looker, selecione Conexões e, em seguida, clique em Adicionar conexão.

Preencha os detalhes de conexão. Para mais informações, consulte a página de documentação Como conectar o Looker ao seu banco de dados:

  • Name: especifica o nome da conexão. É assim que você vai se referir à conexão em projetos LookML.
  • Dialeto: especifique o dialeto: Apache Hive 2, Apache Hive 2.3+ ou Apache Hive 3.1.2+.

    Para o Apache Hive 3.1.2+, o Looker pode ser totalmente integrado aos bancos de dados do Apache Hive 3 apenas em versões especificamente 3.1.2+. Isso se deve a um problema de análise de consulta das versões 2.4.0 - 3.1.2 do Hive, o que resultou em tempos de análise extremamente longos para SQL gerado pelo Looker.

  • Host: especifica o nome do host.

  • Porta: especifique a porta do banco de dados.

  • Banco de dados: especifique o nome do banco de dados.

  • Nome de usuário: especifique o nome de usuário do banco de dados.

  • Password: especifique a senha do usuário do banco de dados.

  • Tabelas derivadas permanentes: marque esta caixa para ativar tabelas derivadas permanentes. Essa configuração revela o campo Temp Database e a coluna PDT Overrides.

  • Banco de dados temporário: especifique o nome do esquema de raspadinha criado na seção PDTs acima.

  • Max PDT Builder Connections: especifica o número de possíveis builds simultâneos de PDT nessa conexão. Definir um valor muito alto pode afetar negativamente os tempos de consulta. Para mais informações, consulte a página de documentação Como conectar o Looker ao seu banco de dados.

  • Parâmetros adicionais: especifique outros parâmetros de string JDBC.

  • PDT e programação de manutenção do grupo de dados: especifique uma expressão cron que indique quando o Looker deve verificar grupos de dados e tabelas derivadas permanentes. Leia mais sobre essa configuração na documentação de Programação de manutenção do data center e do grupo de dados.

  • SSL: marque para usar conexões SSL.

  • Verificar SSL Cert: confira a verificação do nome do host.

  • Max Connections: esta configuração pode ser deixada no valor padrão. Leia mais sobre essa configuração na seção Max Connections da página de documentação Como conectar o Looker ao seu banco de dados.

  • Tempo limite do pool de conexões: inicialmente, essa configuração pode ser mantida no valor padrão. Saiba mais sobre essa configuração na seção Tempo limite do pool de conexões da página de documentação Como conectar o Looker ao seu banco de dados.

  • Pré-cache do SQL Runner: para fazer com que o SQL Runner não pré-carregue as informações da tabela e carregue informações da tabela somente quando uma tabela for selecionada, desmarque essa opção. Saiba mais sobre essa configuração na seção Pré-cache do executor do SQL da página de documentação Como conectar o Looker ao seu banco de dados.

  • Fuso horário do banco de dados: especifique o fuso horário usado no banco de dados. Deixe este campo em branco se não quiser uma conversão de fuso horário. Consulte a página de documentação Usar configurações de fuso horário para mais informações.

Suporte a recursos

Para que o Looker ofereça suporte a alguns recursos, seu dialeto do banco de dados também precisa aceitá-los.

Na versão mais recente do Looker, o Apache Hive 2 é compatível com os seguintes recursos do Looker:

Na versão mais recente do Looker, o Apache Hive 2.3+ é compatível com os seguintes recursos do Looker:

Na versão mais recente do Looker, o Apache Hive 3.1.2+ é compatível com os seguintes recursos do Looker:

Próximas etapas

Depois de conectar seu banco de dados ao Looker, configure as opções de login dos usuários.