Apache Spark

Esta página contiene información sobre cómo conectar Looker a Apache Spark 3.

Looker se conecta a Apache Spark 3 o versiones posteriores a través de una conexión JDBC al servidor Thrift de Spark.

Cifrar el tráfico de red

Te recomendamos que cifres el tráfico de red entre la aplicación de Looker y tu base de datos. Considera una de las opciones descritas en la página de documentación Habilitar el acceso seguro a la base de datos.

Crear la conexión de Looker a tu base de datos

En la sección Administrar de Looker, selecciona Conexiones y, a continuación, haz clic en Añadir conexión.

Rellena los detalles de la conexión. La mayoría de los ajustes son comunes a la mayoría de los dialectos de bases de datos. Consulta la página de documentación Conectar Looker a tu base de datos para obtener información. A continuación, se describen algunos de los ajustes:

Nombre: el nombre de la conexión. Así se hará referencia a la conexión en el modelo de LookML.
Dialecto: selecciona Apache Spark 3+.
Host: el host del servidor Thrift.
Puerto: puerto del servidor Thrift (10000 de forma predeterminada).
Base de datos: el esquema o la base de datos predeterminados que se modelizarán. Si no se especifica ninguna base de datos para una tabla, se asumirá esta.
Nombre de usuario: el usuario con el que se autenticará Looker.
Contraseña: contraseña opcional del usuario de Looker.
Habilitar PDTs: usa este interruptor para habilitar las tablas derivadas persistentes. Cuando se habilitan los PDTs, en la ventana Conexión se muestran ajustes adicionales de PDTs y la sección Sustituciones de PDTs.
Base de datos temporal: un esquema o una base de datos temporal para almacenar PDTs. Debe crearse de antemano con una instrucción como CREATE SCHEMA looker_scratch;.
Parámetros JDBC adicionales: añade aquí cualquier parámetro JDBC de Hive adicional, como:
- ;spark.sql.inMemoryColumnarStorage.compressed=true
- ;auth=noSasl
SSL deja esta opción sin marcar.
Zona horaria de la base de datos: la zona horaria de los datos almacenados en Spark. Normalmente, se puede dejar en blanco o definir como UTC.
Zona horaria de la consulta: la zona horaria en la que se mostrarán los datos consultados en Looker.

Para verificar que la conexión se ha realizado correctamente, haz clic en Probar. Consulta la página de documentación Probar la conectividad de la base de datos para obtener información sobre cómo solucionar problemas.

Para guardar estos ajustes, haz clic en Conectar.

Funciones admitidas

Para que Looker admita algunas funciones, el dialecto de tu base de datos también debe admitirlas.

Apache Spark 3 o versiones posteriores

Apache Spark 3+ admite las siguientes funciones a partir de Looker 25.16:

Función	¿Es compatible?
Nivel de asistencia	Compatible
Looker (servicio principal de Google Cloud)	Sí
Agregados simétricos	Sí
Tablas derivadas	Sí
Tablas derivadas de SQL persistentes	Sí
Tablas derivadas nativas persistentes	Sí
Vistas estables	Sí
Eliminación de consultas	Sí
Pivotes basados en SQL	Sí
Zonas horarias	Sí
SSL	Sí
Subtotales	Sí
Parámetros adicionales de JDBC	Sí
Distingue entre mayúsculas y minúsculas	Sí
Tipo de ubicación	Sí
Tipo de lista	Sí
Percentil	Sí
Percentil de valores distintos	No
SQL Runner Show Processes	No
SQL Runner Describe Table	Sí
SQL Runner Show Indexes	No
SQL Runner Select 10	Sí
Recuento de ejecuciones de SQL	Sí
Explicación de SQL	Sí
Credenciales de OAuth 2.0	No
Comentarios contextuales	Sí
Grupo de conexiones	No
Esquemas HLL	No
Notoriedad agregada	Sí
PDTs incrementales	No
Milisegundos	Sí
Microsegundos	Sí
Vistas materializadas	No
Métricas de comparación con el periodo anterior	No
Recuento aproximado de valores distintos	No

Pasos siguientes

Una vez que hayas creado la conexión, configura las opciones de autenticación.