Apache Spark

En esta página, se incluye información para conectar Looker a Apache Spark 3.

Looker se conecta a Apache Spark 3 y versiones posteriores a través de una conexión JDBC al servidor de Spark Thrift.

Encriptación del tráfico de red

Se recomienda encriptar el tráfico de red entre la aplicación de Looker y tu base de datos. Considera una de las opciones que se describen en la página de documentación Cómo habilitar el acceso seguro a la base de datos.

Cómo crear la conexión de Looker a tu base de datos

En la sección Administrador de Looker, selecciona Conexiones y, luego, haz clic en Agregar conexión.

Completa los detalles de la conexión. La mayoría de los parámetros de configuración son comunes en la mayoría de los dialectos de bases de datos. Consulta la página de documentación Cómo conectar Looker a tu base de datos para obtener más información. A continuación, se describen algunos de los parámetros de configuración:

Nombre: Es el nombre de la conexión. Así es como se hará referencia a la conexión en el modelo de LookML.
Dialect: Selecciona Apache Spark 3+.
Host: Es el host del servidor de Thrift.
Puerto: Es el puerto del servidor de Thrift (10000 de forma predeterminada).
Base de datos: Es el esquema o la base de datos predeterminados que se modelarán. Cuando no se especifica una base de datos para una tabla, se supondrá que es esta.
Nombre de usuario: Es el usuario con el que Looker se autenticará.
Contraseña: Es la contraseña opcional para el usuario de Looker.
Habilitar PDT: Usa este botón de activación para habilitar las tablas derivadas persistentes. Cuando los PDT están habilitados, la ventana Connection revela parámetros de configuración adicionales de PDT y la sección PDT Overrides.
Base de datos temporal: Es una base de datos o un esquema temporal para almacenar PDT. Se debe crear de antemano con una instrucción como CREATE SCHEMA looker_scratch;.
Parámetros adicionales de JDBC: Agrega aquí cualquier parámetro adicional de JDBC de Hive, como los siguientes:
- ;spark.sql.inMemoryColumnarStorage.compressed=true
- ;auth=noSasl
SSL: Deja esta opción sin marcar.
Zona horaria de la base de datos: Es la zona horaria de los datos almacenados en Spark. Por lo general, se puede dejar en blanco o establecer en UTC.
Zona horaria de la consulta: Es la zona horaria en la que se muestran los datos consultados en Looker.

Para verificar que la conexión se haya realizado correctamente, haz clic en Probar. Consulta la página de documentación Prueba la conectividad de la base de datos para obtener información sobre la solución de problemas.

Para guardar esta configuración, haz clic en Conectar.

Compatibilidad de características

Para que Looker admita algunas funciones, tu dialecto de base de datos también debe admitirlas.

Apache Spark 3 y versiones posteriores

A partir de Looker 25.16, Apache Spark 3 y versiones posteriores admiten las siguientes funciones:

Función	¿Es compatible?
Nivel de asistencia	Admitido
Looker (Google Cloud Core)	Sí
Agregaciones simétricas	Sí
Tablas derivadas	Sí
Tablas derivadas persistentes basadas en SQL	Sí
Tablas derivadas persistentes nativas	Sí
Vistas estables	Sí
Cancelación de consultas	Sí
Tablas dinámicas basadas en SQL	Sí
Zonas horarias	Sí
SSL	Sí
Subtotales	Sí
Parámetros adicionales de JDBC	Sí
Distinción entre mayúsculas y minúsculas	Sí
Tipo de ubicación	Sí
Tipo de lista	Sí
Percentil	Sí
Percentil de valores distintos	No
Ejecutor de SQL: Mostrar procesos	No
Ejecutor de SQL: Describe la tabla	Sí
Ejecutor de SQL: Mostrar índices	No
Seleccionar 10 en el Ejecutor de SQL	Sí
Recuento del Ejecutor de SQL	Sí
Explicación de SQL	Sí
Credenciales de OAuth 2.0	No
Comentarios contextuales	Sí
Agrupación de conexiones	No
Esbozos de HLL	No
Conocimiento agregado	Sí
PDT incrementales	No
Milisegundos	Sí
Microsegundos	Sí
Vistas materializadas	No
Medidas de comparación entre períodos	No
Distinción de recuento aproximado	No

Próximos pasos

Después de crear la conexión, establece las opciones de autenticación.