Esta página contiene información sobre cómo conectar Looker a Apache Hive 2.3+ y Apache Hive 3.1.2+.
Ten en cuenta lo siguiente sobre la compatibilidad de Looker con las diferentes versiones de Apache Hive:
- Looker admite conexiones a Apache Hive 2.3 y versiones posteriores, así como a Apache Hive 3.1.2 y versiones posteriores.
- En el caso de Apache Hive 3.1.2 o versiones posteriores, Looker solo puede integrarse completamente con bases de datos de Apache Hive en versiones posteriores a 3.1.2. Esto se debe a un problema de análisis de consultas de las versiones de Hive 2.4.0 a 3.1.2, que provocó tiempos de análisis extremadamente largos para el SQL generado por Looker.
- Looker no admite conexiones a Apache Hive 2. Las consultas en conexiones a Apache Hive 2 devolverán un error.
Cifrar el tráfico de red
Te recomendamos que cifres el tráfico de red entre la aplicación Looker y tu base de datos. Considera una de las opciones descritas en la página de documentación Habilitar el acceso seguro a la base de datos.
Introducción
Looker se ha diseñado para conectarse a un servidor de bases de datos mediante JDBC. En el caso de Hive, se trata del servidor Thrift (HiveServer2). Consulta más información en la documentación de Apache.
De forma predeterminada, este servidor escuchará en el puerto 10000.
Looker es una herramienta de consulta interactiva, por lo que espera trabajar con un motor de SQL interactivo. Si Hive se ejecuta en MapReduce (hive.execution.engine
tiene el valor mr
), Hive devolverá los resultados de las consultas demasiado lentamente para ser práctico.
Looker se ha probado con Hive en Tez (hive.execution.engine=tez
), aunque también se puede ejecutar Looker con Hive en Spark. La compatibilidad con Spark se añadió en la versión 1.1 de Hive. Looker es compatible con Hive 1.2.1 y versiones posteriores.
Tablas derivadas persistentes (PDTs)
Para habilitar las tablas derivadas persistentes (PDTs) en Looker mediante una conexión de Hive, crea un esquema temporal para que lo use Looker. A continuación, se muestra un ejemplo de un comando que puedes usar para crear un esquema looker_scratch
:
CREATE SCHEMA looker_scratch;
La cuenta de usuario que usa Looker para conectarse a Hive (que puede ser anónima si no se usa ninguna autenticación) debe tener las siguientes funciones en el esquema temporal:
- Creación de tablas
- Modificar tablas
- Eliminar tablas
Prueba esto con un cliente JDBC antes de intentar crear PDTs con Hive.
Colas
Si quiere que las consultas de Looker se dirijan a una cola específica, introduzca el parámetro del nombre de la cola en el campo Additional JDBC parameters (Parámetros JDBC adicionales) de la página Connection Settings (Ajustes de conexión):
?tez.queue.name=the_bi_queue
Otros parámetros de Hive se pueden definir de esta forma en el campo Additional JDBC parameters (Parámetros JDBC adicionales) de la página Connection Settings (Ajustes de conexión).
Con los atributos de usuario, las consultas de diferentes usuarios o grupos de usuarios pueden ir a diferentes colas. Para ello, cree un atributo de usuario con un nombre como queue_name
y, a continuación, en el campo Parámetros JDBC adicionales, añada lo siguiente:
?tez.queue.name={{ _user_attributes['queue_name'] }}
También puedes usarlo para personalizar otros parámetros de hive-site.xml
por usuario o por grupo.
Crear la conexión de Looker a tu base de datos
Sigue estos pasos para crear la conexión de Looker a tu base de datos:
- En la sección Administrar de Looker, selecciona Conexiones y, a continuación, haz clic en Añadir conexión.
Selecciona Apache Hive 2.3+ o Apache Hive 3.1.2+ en el menú desplegable Dialect (Dialecto).
Rellena los detalles de la conexión. La mayoría de los ajustes son comunes a la mayoría de los dialectos de bases de datos. Consulta la página de documentación Conectar Looker a tu base de datos para obtener información. A continuación, se describen algunos de los ajustes:
- Nombre: especifica el nombre de la conexión. Así es como harás referencia a la conexión en los proyectos de LookML.
- Host: especifica el nombre de host.
- Puerto: especifica el puerto de la base de datos.
- Base de datos: especifica el nombre de la base de datos.
- Nombre de usuario: especifica el nombre de usuario de la base de datos.
- Contraseña: especifica la contraseña del usuario de la base de datos.
- Habilitar PDTs: usa este interruptor para habilitar las tablas derivadas persistentes. Cuando se habilitan los PDTs, en la ventana Conexión se muestran ajustes adicionales de PDTs y la sección Sustituciones de PDTs.
- Temp Database: especifica el nombre del esquema temporal creado en la sección Tablas derivadas persistentes (PDTs) de esta página de documentación.
- Número máximo de conexiones del creador de PDT: especifica el número de compilaciones de PDT simultáneas posibles en esta conexión. Si este valor es demasiado alto, los tiempos de consulta podrían verse afectados negativamente. Para obtener más información, consulta la página de documentación Conectar Looker a tu base de datos.
- Parámetros JDBC adicionales: especifica los parámetros de cadena JDBC adicionales.
- Programación de mantenimiento: especifica una expresión
cron
que indique cuándo debe comprobar Looker los grupos de datos y las tablas derivadas persistentes. Consulta más información sobre este ajuste en la documentación Programación de mantenimiento. - SSL marca esta casilla para usar conexiones SSL.
- Verificar SSL: comprueba si se ha verificado el nombre de host.
- Máximo de conexiones por nodo: este ajuste se puede dejar con el valor predeterminado al principio. Consulta la página de documentación Conectar Looker a tu base de datos para obtener más información.
- Tiempo de espera del grupo de conexiones: este ajuste se puede dejar con el valor predeterminado al principio. Consulta más información sobre este ajuste en la sección Tiempo de espera del grupo de conexiones de la página de documentación Conectar Looker a tu base de datos.
- Precaché de SQL Runner: para que SQL Runner no precargue la información de las tablas y solo la cargue cuando se seleccione una tabla, desmarca esta opción. Consulta más información sobre este ajuste en la sección Precaché de SQL Runner de la página de documentación Conectar Looker a tu base de datos.
- Zona horaria de la base de datos: especifica la zona horaria que se usa en la base de datos. Deje este campo en blanco si no quiere que se convierta la zona horaria. Para obtener más información, consulta la página de documentación Usar la configuración de zona horaria.
Para verificar que la conexión se ha realizado correctamente, haz clic en Probar. Consulta la página de documentación Probar la conectividad de la base de datos para obtener información sobre cómo solucionar problemas.
Para guardar estos ajustes, haz clic en Conectar.
Funciones admitidas
Para que Looker admita algunas funciones, el dialecto de tu base de datos también debe admitirlas.
Apache Hive 2.3 o versiones posteriores
Apache Hive 2.3+ admite las siguientes funciones a partir de Looker 25.14:
Función | ¿Es compatible? |
---|---|
Nivel de asistencia | Integración |
Looker (servicio principal de Google Cloud) | No |
Agregados simétricos | No |
Tablas derivadas | Sí |
Tablas derivadas de SQL persistentes | Sí |
Tablas derivadas nativas persistentes | Sí |
Vistas estables | Sí |
Eliminación de consultas | Sí |
Pivotes basados en SQL | No |
Zonas horarias | Sí |
SSL | Sí |
Subtotales | Sí |
Parámetros adicionales de JDBC | Sí |
Distingue entre mayúsculas y minúsculas | Sí |
Tipo de ubicación | Sí |
Tipo de lista | Sí |
Percentil | Sí |
Percentil de valores distintos | No |
SQL Runner Show Processes | No |
SQL Runner Describe Table | Sí |
SQL Runner Show Indexes | Sí |
SQL Runner Select 10 | Sí |
Recuento de SQL Runner | Sí |
Explicación de SQL | Sí |
Credenciales de OAuth 2.0 | No |
Comentarios contextuales | Sí |
Grupo de conexiones | No |
Esquemas HLL | No |
Notoriedad agregada | Sí |
PDTs incrementales | No |
Milisegundos | Sí |
Microsegundos | Sí |
Vistas materializadas | No |
Métricas de comparación con el periodo anterior | No |
Recuento aproximado de valores distintos | No |
Apache Hive 3.1.2 o versiones posteriores
Apache Hive 3.1.2 y versiones posteriores admiten las siguientes funciones a partir de Looker 25.14:
Función | ¿Es compatible? |
---|---|
Nivel de asistencia | Compatible |
Looker (servicio principal de Google Cloud) | Sí |
Agregados simétricos | No |
Tablas derivadas | Sí |
Tablas derivadas de SQL persistentes | Sí |
Tablas derivadas nativas persistentes | Sí |
Vistas estables | Sí |
Eliminación de consultas | Sí |
Pivotes basados en SQL | No |
Zonas horarias | Sí |
SSL | Sí |
Subtotales | Sí |
Parámetros adicionales de JDBC | Sí |
Distingue entre mayúsculas y minúsculas | Sí |
Tipo de ubicación | Sí |
Tipo de lista | Sí |
Percentil | Sí |
Percentil de valores distintos | No |
SQL Runner Show Processes | No |
SQL Runner Describe Table | Sí |
SQL Runner Show Indexes | No |
SQL Runner Select 10 | Sí |
Recuento de SQL Runner | Sí |
Explicación de SQL | Sí |
Credenciales de OAuth 2.0 | No |
Comentarios contextuales | Sí |
Grupo de conexiones | No |
Esquemas HLL | No |
Notoriedad agregada | Sí |
PDTs incrementales | No |
Milisegundos | Sí |
Microsegundos | Sí |
Vistas materializadas | No |
Métricas de comparación con el periodo anterior | No |
Recuento aproximado de valores distintos | No |
Pasos siguientes
Una vez que hayas conectado tu base de datos a Looker, configura las opciones de inicio de sesión para tus usuarios.