Apache Hive

Esta página contiene información para conectar Looker a Apache Hive 2.3+ y Apache Hive 3.1.2+.

Ten en cuenta lo siguiente sobre la compatibilidad de Looker con las diferentes versiones de Apache Hive:

  • Looker admite conexiones a Apache Hive 2.3+ y Apache Hive 3.1.2+.
  • Para Apache Hive 3.1.2+, Looker puede integrarse por completo con bases de datos de Apache Hive 3 solo en versiones posteriores a la 3.1.2. Esto se debe a un problema de análisis de consultas de las versiones de Hive 2.4.0 a 3.1.2 que dio como resultado tiempos de análisis extremadamente largos para SQL generado por Looker.
  • Looker no admite conexiones a Apache Hive 2. Las consultas sobre conexiones a Apache Hive 2 mostrarán un error.

Encripta el tráfico de red

Una práctica recomendada es encriptar el tráfico de red entre la aplicación de Looker y tu base de datos. Considera una de las opciones que se describen en la página de documentación Habilita el acceso seguro a bases de datos.

Introducción

Looker está diseñado para conectarse a un servidor de base de datos con JDBC. En el caso de Hive, este es el servidor de segunda mano (HiveServer2). Consulta la documentación de Apache para obtener más información.

De forma predeterminada, este servidor escuchará en el puerto 10000.

Looker es una herramienta de consultas interactiva, por lo que espera funcionar con un motor SQL interactivo. Si Hive se ejecuta en MapReduce, hive.execution.engine se configura como mr, entonces Hive devolverá resultados de la consulta demasiado lento para ser práctico.

Se probó Looker con Hive en Tez (hive.execution.engine=tez), aunque también es posible ejecutar Looker con Hive en Spark. Se agregó compatibilidad con Spark en la versión 1.1 de Hive. (Looker es compatible con Hive 1.2.1 y versiones posteriores).

Tablas derivadas persistentes (PDT)

Si quieres habilitar las tablas derivadas persistentes (PDT) en Looker con una conexión de Hive, crea un esquema temporal para que lo use Looker. El siguiente es un ejemplo de un comando que puedes usar para crear un esquema looker_scratch:

 CREATE SCHEMA looker_scratch;

La cuenta de usuario que Looker usa para conectarse a Hive (que puede ser anónima si no se usa autenticación) debe tener las siguientes habilidades en el esquema temporal:

  • Crea tablas
  • Modificar tablas
  • Eliminar tablas

Prueba esto con un cliente de JDBC antes de intentar crear PDT con Hive.

Colas

Si quieres que las consultas de Looker se dirijan a una cola específica, ingresa el parámetro del nombre de la cola en el campo Parámetros adicionales de JDBC de la página Configuración de conexión:

?tez.queue.name=the_bi_queue

Otros parámetros de Hive se pueden configurar de esta manera en el campo Additional JDBC parameters en la página Connection Settings.

Con los atributos de usuario, es posible que las consultas de diferentes usuarios o grupos de usuarios se incluyan en diferentes colas. Para ello, crea un atributo de usuario con un nombre similar a queue_name; luego, en el campo Parámetros de JDBC adicionales, agrega lo siguiente:

?tez.queue.name={{ _user_attributes['queue_name'] }}

Puedes usar esto para personalizar otros parámetros hive-site.xml por usuario o por grupo.

Crea la conexión de Looker a tu base de datos

Sigue estos pasos para crear la conexión de Looker a tu base de datos:

  1. En la sección Administrador de Looker, selecciona Conexiones y, luego, haz clic en Agregar conexión.
  2. Selecciona Apache Hive 2.3+ o Apache Hive 3.1.2+ en el menú desplegable Dialec.

  3. Completa los detalles de la conexión. La mayoría de los parámetros de configuración son comunes a la mayoría de los dialectos de bases de datos. Consulta la página de documentación Conecta Looker a tu base de datos para obtener más información. Algunos de los parámetros de configuración se describen a continuación:

    • Nombre: Especifica el nombre de la conexión. Así es como te referirás a la conexión en proyectos de LookML.
    • Host: Especifica el nombre de host.
    • Puerto: Especifica el puerto de la base de datos.
    • Base de datos: especifica el nombre de la base de datos.
    • Nombre de usuario: Especifica el nombre de usuario de la base de datos.
    • Contraseña: Especifica la contraseña de usuario de la base de datos.
    • Habilitar PDT: Usa este botón de activación para habilitar las tablas derivadas persistentes. Cuando las PDT están habilitadas, la ventana Conexión revela la configuración adicional de las PDT y la sección Anulaciones de PDT.
    • Base de datos temporal: Especifica el nombre del esquema temporal creado en la sección Tablas derivadas persistentes (PDT) de esta página de documentación.
    • Cantidad máxima de conexiones del compilador de PDT: Especifica la cantidad de compilaciones de PDT simultáneas en esta conexión. Establecer este valor demasiado alto podría afectar los tiempos de consulta de forma negativa. Para obtener más información, consulta la página de documentación Conecta Looker a tu base de datos.
    • Parámetros adicionales de JDBC: Especifica cualquier parámetro de cadena de JDBC adicional.
    • Programa de mantenimiento de grupos de datos y PDT: Especifica una expresión cron que indique cuándo Looker debe verificar los grupos de datos y las tablas derivadas persistentes. Documentación del programa de mantenimiento de PDT y grupos de datos.
    • SSL: marca esta opción para usar conexiones SSL.
    • Verificar SSL: Comprueba la verificación del nombre de host.
    • Máximo de conexiones por nodo: Este parámetro de configuración se puede dejar en el valor inicial predeterminado. Consulta la página de documentación Conecta Looker a tu base de datos para obtener más información.
    • Tiempo de espera del grupo de conexiones: Este parámetro de configuración se puede dejar en el valor inicial predeterminado. Obtén más información sobre este parámetro de configuración en la sección Tiempo de espera del grupo de conexiones de la página de documentación Conecta Looker a tu base de datos.
    • Almacenamiento previo en caché del Runner de SQL: Para hacer que el Ejecutor de SQL no precargue la información de la tabla y que cargue la información de la tabla solo cuando una tabla está seleccionada, desmarca esta opción. Obtén más información sobre este parámetro de configuración en la sección Precaché de SQL Runner de la página de documentación Conecta Looker a tu base de datos.
    • Zona horaria de la base de datos: Especifica la zona horaria que se usa en la base de datos. Deje este campo en blanco si no desea realizar la conversión de zona horaria. Consulta la página de documentación Cómo utilizar la configuración de zona horaria para obtener más información.
  4. Para verificar que la conexión se haya realizado correctamente, haz clic en Probar. Consulta la página de documentación Prueba la conectividad de la base de datos para obtener información sobre la solución de problemas.

  5. Para guardar esta configuración, haz clic en Conectar.

Compatibilidad de características

Para que Looker admita algunas funciones, el dialecto de la base de datos también debe admitirlas.

Apache Hive 2.3 y versiones posteriores

Apache Hive 2.3 y versiones posteriores admite las siguientes funciones a partir de Looker 24.10:

Atributo ¿Es compatible?
Nivel de asistencia
Integración
Looker (Google Cloud Core)
No
Agregados simétricos
No
Tablas derivadas
Tablas derivadas de SQL persistentes
Tablas derivadas persistentes nativas
Vistas estables
Cierre de consultas
Tablas dinámicas basadas en SQL
No
Zonas horarias
SSL
Subtotales
Parámetros adicionales de JDBC
Distingue mayúsculas de minúsculas
Tipo de ubicación
Tipo de lista
Percentil
Percentil distintivo
No
Procesos de presentación del ejecutor de SQL
No
Tabla de descripción del ejecutor de SQL
Índices de programas del ejecutor de SQL
Selección del ejecutor de SQL 10
Recuento de ejecutores de SQL
Explicación de SQL
Credenciales de OAuth
No
Comentarios contextuales
Agrupación de conexiones
No
Bocetos de HLL
No
Reconocimiento agregado
PDT incrementales
No
Milisegundos
Microsegundos
Vistas materializadas
No
Recuento aproximado de valores distintos
No

Apache Hive 3.1.2 y versiones posteriores

Apache Hive 3.1.2+ admite las siguientes funciones a partir de Looker 24.10:

Atributo ¿Es compatible?
Nivel de asistencia
Admitido
Looker (Google Cloud Core)
Agregados simétricos
No
Tablas derivadas
Tablas derivadas de SQL persistentes
Tablas derivadas persistentes nativas
Vistas estables
Cierre de consultas
Tablas dinámicas basadas en SQL
No
Zonas horarias
SSL
Subtotales
Parámetros adicionales de JDBC
Distingue mayúsculas de minúsculas
Tipo de ubicación
Tipo de lista
Percentil
Percentil distintivo
No
Procesos de presentación del ejecutor de SQL
No
Tabla de descripción del ejecutor de SQL
Índices de programas del ejecutor de SQL
No
Selección del ejecutor de SQL 10
Recuento de ejecutores de SQL
Explicación de SQL
Credenciales de OAuth
No
Comentarios contextuales
Agrupación de conexiones
No
Bocetos de HLL
No
Reconocimiento agregado
PDT incrementales
No
Milisegundos
Microsegundos
Vistas materializadas
No
Recuento aproximado de valores distintos
No

Próximos pasos

Después de conectar tu base de datos a Looker, configura las opciones de acceso para tus usuarios.