Apache Hive

Esta página contiene información sobre cómo conectar Looker a Apache Hive 2.3+ y Apache Hive 3.1.2+.

Ten en cuenta lo siguiente sobre la compatibilidad de Looker con las diferentes versiones de Apache Hive:

Looker admite conexiones con Apache Hive 2.3 y versiones posteriores, así como con Apache Hive 3.1.2 y versiones posteriores.
En el caso de Apache Hive 3.1.2 o versiones posteriores, Looker solo puede integrarse completamente con bases de datos de Apache Hive en versiones posteriores a 3.1.2. Esto se debe a un problema de análisis de consultas de las versiones de Hive 2.4.0 a 3.1.2, que provocó tiempos de análisis extremadamente largos para el SQL generado por Looker.
Looker no admite conexiones a Apache Hive 2. Las consultas en conexiones a Apache Hive 2 devolverán un error.

Cifrar el tráfico de red

Te recomendamos que cifres el tráfico de red entre la aplicación de Looker y tu base de datos. Considera una de las opciones descritas en la página de documentación Habilitar el acceso seguro a la base de datos.

Introducción

Looker se ha diseñado para conectarse a un servidor de bases de datos mediante JDBC. En el caso de Hive, se trata del servidor Thrift (HiveServer2). Consulta más información en la documentación de Apache.

De forma predeterminada, este servidor escuchará en el puerto 10000.

Looker es una herramienta de consultas interactivas, por lo que espera trabajar con un motor de SQL interactivo. Si Hive se ejecuta en MapReduce (hive.execution.engine está definido como mr), Hive devolverá los resultados de las consultas demasiado lentamente para ser práctico.

Looker se probó con Hive en Tez (hive.execution.engine=tez), aunque también se puede ejecutar Looker con Hive en Spark. La compatibilidad con Spark se añadió en la versión 1.1 de Hive. Looker es compatible con Hive 1.2.1 y versiones posteriores.

Tablas derivadas persistentes (PDTs)

Para habilitar las tablas derivadas persistentes (PDTs) en Looker mediante una conexión de Hive, crea un esquema temporal para que lo use Looker. A continuación, se muestra un ejemplo de un comando que puedes usar para crear un esquema looker_scratch:

 CREATE SCHEMA looker_scratch;

La cuenta de usuario que usa Looker para conectarse a Hive (que puede ser anónima si no se usa ninguna autenticación) debe tener las siguientes funciones en el esquema temporal:

Creación de tablas
Modificar tablas
Eliminar tablas

Prueba esto con un cliente JDBC antes de intentar crear PDTs con Hive.

Colas

Si quiere que las consultas de Looker se dirijan a una cola específica, introduzca el parámetro del nombre de la cola en el campo Additional JDBC parameters (Parámetros JDBC adicionales) de la página Connection Settings (Ajustes de conexión):

?tez.queue.name=the_bi_queue

Otros parámetros de Hive se pueden definir de esta forma en el campo Additional JDBC parameters (Parámetros JDBC adicionales) de la página Connection Settings (Ajustes de conexión).

Con los atributos de usuario, las consultas de diferentes usuarios o grupos de usuarios pueden ir a diferentes colas. Para ello, cree un atributo de usuario con un nombre como queue_name y, a continuación, en el campo Parámetros JDBC adicionales, añada lo siguiente:

?tez.queue.name={{ _user_attributes['queue_name'] }}

También puedes usarlo para personalizar otros parámetros de hive-site.xml por usuario o por grupo.

Crear la conexión de Looker a tu base de datos

Sigue estos pasos para crear la conexión de Looker a tu base de datos:

En la sección Administrar de Looker, selecciona Conexiones y, a continuación, haz clic en Añadir conexión.
Selecciona Apache Hive 2.3+ o Apache Hive 3.1.2+ en el menú desplegable Dialect (Dialecto).

Nota: Si estás en una instancia de Looker (Google Cloud core) y no ves tu dialecto en el menú desplegable Dialecto, consulta la documentación de Looker (Google Cloud core) para verificar que el dialecto sea compatible con las instancias de Looker (Google Cloud core).
Rellena los detalles de la conexión. La mayoría de los ajustes son comunes a la mayoría de los dialectos de bases de datos. Consulta la página de documentación Conectar Looker a tu base de datos para obtener información. A continuación, se describen algunos de los ajustes:
- Nombre: especifica el nombre de la conexión. Así es como harás referencia a la conexión en los proyectos de LookML.
- Host: especifica el nombre de host.
- Puerto: especifica el puerto de la base de datos.
- Base de datos: especifica el nombre de la base de datos.
- Nombre de usuario: especifica el nombre de usuario de la base de datos.
- Contraseña: especifica la contraseña del usuario de la base de datos.
- Habilitar PDTs: usa este interruptor para habilitar las tablas derivadas persistentes. Cuando se habilitan los PDTs, en la ventana Conexión se muestran ajustes adicionales de PDTs y la sección Sustituciones de PDTs.
- Temp Database: especifica el nombre del esquema temporal creado en la sección Tablas derivadas persistentes (PDTs) de esta página de documentación.
- Número máximo de conexiones del creador de PDT: especifica el número de compilaciones de PDT simultáneas posibles en esta conexión. Si este valor es demasiado alto, los tiempos de consulta podrían verse afectados negativamente. Para obtener más información, consulta la página de documentación Conectar Looker a tu base de datos.
- Parámetros JDBC adicionales: especifica los parámetros de cadena JDBC adicionales.
- Programación de mantenimiento: especifica una expresión cron que indique cuándo debe comprobar Looker los grupos de datos y las tablas derivadas persistentes. Consulta más información sobre este ajuste en la documentación Programación de mantenimiento.
- SSL marca esta casilla para usar conexiones SSL.
- Verificar SSL: comprueba si se ha verificado el nombre de host.
- Máximo de conexiones por nodo: este ajuste se puede dejar con el valor predeterminado al principio. Consulta la página de documentación Conectar Looker a tu base de datos para obtener más información.
- Tiempo de espera del grupo de conexiones: este ajuste se puede dejar con el valor predeterminado al principio. Consulta más información sobre este ajuste en la sección Tiempo de espera del grupo de conexiones de la página de documentación Conectar Looker a tu base de datos.
- Precaché de SQL Runner: para que SQL Runner no precargue la información de las tablas y solo la cargue cuando se seleccione una tabla, desmarca esta opción. Consulta más información sobre este ajuste en la sección Precaché de SQL Runner de la página de documentación Conectar Looker a tu base de datos.
- Zona horaria de la base de datos: especifica la zona horaria que se usa en la base de datos. Deje este campo en blanco si no quiere que se convierta la zona horaria. Para obtener más información, consulta la página de documentación Usar la configuración de zona horaria.
Para verificar que la conexión se ha realizado correctamente, haz clic en Probar. Consulta la página de documentación Probar la conectividad de la base de datos para obtener información sobre cómo solucionar problemas.
Para guardar estos ajustes, haz clic en Conectar.

Funciones admitidas

Para que Looker admita algunas funciones, el dialecto de tu base de datos también debe admitirlas.

Apache Hive 2.3 o versiones posteriores

Apache Hive 2.3+ admite las siguientes funciones a partir de Looker 25.16:

Función	¿Es compatible?
Nivel de asistencia	Integración
Looker (servicio principal de Google Cloud)	No
Agregados simétricos	No
Tablas derivadas	Sí
Tablas derivadas de SQL persistentes	Sí
Tablas derivadas nativas persistentes	Sí
Vistas estables	Sí
Eliminación de consultas	Sí
Pivotes basados en SQL	No
Zonas horarias	Sí
SSL	Sí
Subtotales	Sí
Parámetros adicionales de JDBC	Sí
Distingue entre mayúsculas y minúsculas	Sí
Tipo de ubicación	Sí
Tipo de lista	Sí
Percentil	Sí
Percentil de valores distintos	No
SQL Runner Show Processes	No
SQL Runner Describe Table	Sí
SQL Runner Show Indexes	Sí
SQL Runner Select 10	Sí
Recuento de ejecuciones de SQL	Sí
Explicación de SQL	Sí
Credenciales de OAuth 2.0	No
Comentarios contextuales	Sí
Grupo de conexiones	No
Esquemas HLL	No
Notoriedad agregada	Sí
PDTs incrementales	No
Milisegundos	Sí
Microsegundos	Sí
Vistas materializadas	No
Métricas de comparación con el periodo anterior	No
Recuento aproximado de valores distintos	No

Apache Hive 3.1.2 o versiones posteriores

Apache Hive 3.1.2 y versiones posteriores admiten las siguientes funciones a partir de Looker 25.16:

Función	¿Es compatible?
Nivel de asistencia	Compatible
Looker (servicio principal de Google Cloud)	Sí
Agregados simétricos	No
Tablas derivadas	Sí
Tablas derivadas de SQL persistentes	Sí
Tablas derivadas nativas persistentes	Sí
Vistas estables	Sí
Eliminación de consultas	Sí
Pivotes basados en SQL	No
Zonas horarias	Sí
SSL	Sí
Subtotales	Sí
Parámetros adicionales de JDBC	Sí
Distingue entre mayúsculas y minúsculas	Sí
Tipo de ubicación	Sí
Tipo de lista	Sí
Percentil	Sí
Percentil de valores distintos	No
SQL Runner Show Processes	No
SQL Runner Describe Table	Sí
SQL Runner Show Indexes	No
SQL Runner Select 10	Sí
Recuento de ejecuciones de SQL	Sí
Explicación de SQL	Sí
Credenciales de OAuth 2.0	No
Comentarios contextuales	Sí
Grupo de conexiones	No
Esquemas HLL	No
Notoriedad agregada	Sí
PDTs incrementales	No
Milisegundos	Sí
Microsegundos	Sí
Vistas materializadas	No
Métricas de comparación con el periodo anterior	No
Recuento aproximado de valores distintos	No

Pasos siguientes

Una vez que hayas conectado tu base de datos a Looker, configura las opciones de inicio de sesión para tus usuarios.