Esta página contiene información sobre cómo conectar Looker a Apache Hive.
Introducción
Looker está diseñado para conectarse a un servidor de base de datos a través de JDBC. En el caso de Hive, este es el servidor de segunda mano (HiveServer2). Consulta la documentación de Apache para obtener más información.
De forma predeterminada, este servidor escuchará en el puerto 10000.
Looker es una herramienta de consultas interactivas, por lo que espera trabajar con un motor interactivo de SQL. Si Hive se ejecuta en MapReduce, hive.execution.engine
se configura como mr
, entonces Hive mostrará los resultados de las consultas demasiado lento para ser práctico.
Looker se probó con Hive en Tez (hive.execution.engine=tez
), aunque también es posible ejecutar Looker en Hive en Spark. Se agregó compatibilidad con Spark en la versión 1.1 de Hive. (Looker es compatible con Hive 1.2.1 y versiones posteriores).
Tablas derivadas persistentes (PDT)
Para habilitar las tablas derivadas persistentes (PDT) en Looker con una conexión de Hive, crea un esquema temporal para que Looker lo use. Este es un ejemplo de un comando que puedes usar para crear un esquema looker_scratch
:
CREATE SCHEMA looker_scratch;
La cuenta de usuario que usa Looker para conectarse a Hive (que puede ser anónima si no se utiliza la autenticación) debe tener las siguientes habilidades en el esquema temporal:
- Crear tablas
- Modificar tablas
- Descartar tablas
Pruebe esto con un cliente de JDBC antes de intentar crear PDT con Hive.
Colas
Si deseas que las consultas de Looker se agreguen a una cola específica, ingresa el parámetro de nombre de cola en el campo Parámetros de JDBC adicionales de la página Configuración de conexión:
?tez.queue.name=the_bi_queue
Se pueden establecer otros parámetros de Hive de esta manera en el campo Parámetros de JDBC adicionales de la página Configuración de conexión.
Con los atributos, las consultas de diferentes usuarios o diferentes grupos de usuarios pueden incluirse en colas diferentes. Para ello, crea un atributo de usuario llamado queue_name
. Luego, en el campo Parámetros de JDBC adicionales, agrega lo siguiente:
?tez.queue.name={{ _user_attributes['queue_name'] }}
Puedes usarlo para personalizar otros parámetros de hive-site.xml
por usuario o por grupo.
Crea la conexión de Looker a tu base de datos
En la sección Administrador de Looker, seleccione Conexiones y, luego, haga clic en Agregar conexión.
Completa los detalles de la conexión. La mayoría de las opciones de configuración son comunes en la mayoría de los dialectos de las bases de datos. Consulta la página de documentación Conecta Looker a tu base de datos para obtener más información. Algunos de los parámetros de configuración se describen a continuación:
- Nombre: Especifica el nombre de la conexión. Así es como te referirás a la conexión en los proyectos de LookML.
Dialect: Especifica el dialecto Apache Hive 2, Apache Hive 2.3+ o Apache Hive 3.1.2+.
Para Apache Hive 3.1.2 y versiones posteriores, Looker puede integrarse por completo con las bases de datos de Apache Hive 3 solo en las versiones específicamente 3.1.2 y posteriores. Esto se debe a un problema de análisis de consultas de las versiones 2.4.0 a 3.1.2 de Hive que dio como resultado tiempos de análisis muy largos para SQL generado por Looker.
Host: Especifica el nombre de host.
Puerto: especifica el puerto de la base de datos.
Base de datos: Especifica el nombre de la base de datos.
Nombre de usuario: Especifica el nombre de usuario de la base de datos.
Contraseña: Especifica la contraseña de usuario de la base de datos.
Habilitar PDT: Usa este botón de activación para habilitar las tablas derivadas persistentes. Cuando las PDT están habilitadas, la ventana Connection muestra la configuración adicional de PDT y la sección Overrides PDT.
Base de datos temporal: Especifica el nombre del esquema temporal creado anteriormente en la sección PDT.
Número máximo de conexiones del compilador de PDT: especifique la cantidad de compilaciones PDT simultáneas posibles en esta conexión. Configurar este valor demasiado alto puede afectar negativamente los tiempos de consulta. Para obtener más información, consulta la página de documentación Conecta Looker a tu base de datos.
Parámetros de JDBC adicionales: Especifica los parámetros de string de JDBC adicionales.
Programa de mantenimiento de grupos de datos y PDT: Especifica una expresión
cron
que indique cuándo Looker debe verificar los grupos de datos y las tablas derivadas persistentes. Documentación del Programa de mantenimiento de PDT y grupos de datos.SSL: Marca esta opción para usar las conexiones SSL.
Verificar SSL: Comprueba la verificación del nombre del host.
Cantidad máxima de conexiones por nodo: Esta configuración se puede dejar en el valor predeterminado inicialmente. Consulta la página de documentación Conecta Looker a tu base de datos para obtener más información.
Tiempo de espera del grupo de conexiones: Esta configuración se puede dejar en el valor predeterminado al principio. Obtén más información sobre esta configuración en la sección Tiempo de espera del grupo de conexiones de la página de documentación Conecta Looker a tu base de datos.
Almacenamiento previo en caché de SQL Runner: Si quieres que SQL Runner no cargue previamente la información de la tabla y que solo se cargue la tabla, desmarca esta opción. Obtén más información sobre este parámetro de configuración en la sección Almacenamiento previo en caché de SQL Runner de la página de documentación Conecta Looker a tu base de datos.
Zona horaria de la base de datos: Especifica la zona horaria que se usa en la base de datos. Deja este campo en blanco si no quieres que se convierta una zona horaria. Consulta la página de documentación Cómo usar la configuración de zona horaria para obtener más información.
Para verificar que la conexión se realice de forma correcta, haz clic en Probar. Consulta la página de documentación sobre cómo probar la conectividad de la base de datos para obtener información sobre la solución de problemas.
Para guardar esta configuración, haz clic en Conectar.
Compatibilidad de características
Para que Looker admita algunas funciones, tu dialecto de base de datos también debe admitirlas.
Apache Hive 2
Apache Hive 2 admite las siguientes funciones a partir de Looker 23.8:
Atributo | ¿Es compatible? |
---|---|
Nivel de asistencia | Admitido |
Looker (Google Cloud Core) | No |
Agregaciones simétricas | No |
Tablas derivadas | Sí |
Tablas derivadas de SQL persistente | Sí |
Tablas derivadas persistentes nativas | Sí |
Vistas estables | Sí |
Asesinato de consultas | Sí |
Pivotes basados en SQL | No |
Zonas horarias | Sí |
SSL | Sí |
Subtotales | Sí |
Parámetros adicionales de JDBC | Sí |
Distingue mayúsculas de minúsculas | Sí |
Tipo de ubicación | Sí |
Tipo de lista | Sí |
Percentil | Sí |
Percentil distintivo | No |
Procesos de Show del ejecutor de SQL | No |
Tabla de descripción del ejecutor de SQL | Sí |
Índices de SQL Runner Show | Sí |
Ejecutor de SQL Select 10 | Sí |
Recuento de ejecutores de SQL | Sí |
Explicación de SQL | Sí |
Credenciales de OAuth | No |
Comentarios de contexto | Sí |
Agrupación de conexiones | No |
Bocetos de HLL | No |
Reconocimiento global | Sí |
PDT incrementales | No |
Milisegundos | Sí |
Microsegundos | Sí |
Vistas materializadas | No |
Distinto del recuento aproximado | No |
Apache Hive 2.3 y versiones posteriores
Apache Hive 2.3 y las versiones posteriores admiten las siguientes funciones a partir de Looker 23.8:
Atributo | ¿Es compatible? |
---|---|
Nivel de asistencia | Integración |
Looker (Google Cloud Core) | No |
Agregaciones simétricas | No |
Tablas derivadas | Sí |
Tablas derivadas de SQL persistente | Sí |
Tablas derivadas persistentes nativas | Sí |
Vistas estables | Sí |
Asesinato de consultas | Sí |
Pivotes basados en SQL | No |
Zonas horarias | Sí |
SSL | Sí |
Subtotales | Sí |
Parámetros adicionales de JDBC | Sí |
Distingue mayúsculas de minúsculas | Sí |
Tipo de ubicación | Sí |
Tipo de lista | Sí |
Percentil | Sí |
Percentil distintivo | No |
Procesos de Show del ejecutor de SQL | No |
Tabla de descripción del ejecutor de SQL | Sí |
Índices de SQL Runner Show | Sí |
Ejecutor de SQL Select 10 | Sí |
Recuento de ejecutores de SQL | Sí |
Explicación de SQL | Sí |
Credenciales de OAuth | No |
Comentarios de contexto | Sí |
Agrupación de conexiones | No |
Bocetos de HLL | No |
Reconocimiento global | Sí |
PDT incrementales | No |
Milisegundos | Sí |
Microsegundos | Sí |
Vistas materializadas | No |
Distinto del recuento aproximado | No |
Apache Hive 3.1.2+
Apache Hive 3.1.2+ es compatible con las siguientes funciones a partir de Looker 23.8:
Atributo | ¿Es compatible? |
---|---|
Nivel de asistencia | Admitido |
Looker (Google Cloud Core) | Sí |
Agregaciones simétricas | No |
Tablas derivadas | Sí |
Tablas derivadas de SQL persistente | Sí |
Tablas derivadas persistentes nativas | Sí |
Vistas estables | Sí |
Asesinato de consultas | Sí |
Pivotes basados en SQL | No |
Zonas horarias | Sí |
SSL | Sí |
Subtotales | Sí |
Parámetros adicionales de JDBC | Sí |
Distingue mayúsculas de minúsculas | Sí |
Tipo de ubicación | Sí |
Tipo de lista | Sí |
Percentil | Sí |
Percentil distintivo | No |
Procesos de Show del ejecutor de SQL | No |
Tabla de descripción del ejecutor de SQL | Sí |
Índices de SQL Runner Show | No |
Ejecutor de SQL Select 10 | Sí |
Recuento de ejecutores de SQL | Sí |
Explicación de SQL | Sí |
Credenciales de OAuth | No |
Comentarios de contexto | Sí |
Agrupación de conexiones | No |
Bocetos de HLL | No |
Reconocimiento global | Sí |
PDT incrementales | No |
Milisegundos | Sí |
Microsegundos | Sí |
Vistas materializadas | No |
Distinto del recuento aproximado | No |
Próximos pasos
Después de conectar tu base de datos con Looker, configura opciones de acceso para tus usuarios.