Apache Spark

Cette page contient des informations sur la connexion de Looker à Apache Spark 3.

Looker se connecte à Apache Spark 3 ou version ultérieure via une connexion JDBC au serveur Spark Thrift.

Chiffrement du trafic réseau

Il est recommandé de chiffrer le trafic réseau entre l'application Looker et votre base de données. Pour ce faire, consultez les options détaillées sur la page de documentation Sécurisation de l'accès à la base de données.

Créer la connexion Looker à votre base de données

Dans la section Admin de Looker, sélectionnez Connexions, puis cliquez sur Ajouter une connexion.

Saisissez les informations de connexion. La majorité des paramètres sont communs à la plupart des dialectes de base de données. Pour en savoir plus, consultez la page de documentation Connecter Looker à votre base de données. Voici quelques-uns des paramètres :

Nom : nom de la connexion. Il s'agit de la façon dont il sera fait référence à la connexion dans le modèle LookML.
Dialect (Dialecte) : sélectionnez Apache Spark 3+.
Hôte : hôte du serveur Thrift.
Port : port du serveur Thrift (10000 par défaut).
Base de données : schéma/base de données par défaut qui sera modélisé. Si aucune base de données n'est spécifiée pour une table, celle-ci sera utilisée par défaut.
Nom d'utilisateur : utilisateur sous lequel Looker s'authentifiera.
Mot de passe : mot de passe facultatif pour l'utilisateur Looker.
Activer les PDT : utilisez ce bouton pour activer les tables dérivées persistantes. Lorsque les PDT sont activés, la fenêtre Connexion affiche des paramètres PDT supplémentaires et la section Remplacements pour les PDT.
Base de données temporaire : schéma/base de données temporaire pour stocker les PDT. Il doit être créé au préalable, avec une instruction telle que CREATE SCHEMA looker_scratch;.
Paramètres JDBC supplémentaires : ajoutez ici d'autres paramètres Hive JDBC, par exemple :
- ;spark.sql.inMemoryColumnarStorage.compressed=true
- ;auth=noSasl
SSL : laissez cette case décochée.
Fuseau horaire de la base de données : fuseau horaire des données stockées dans Spark. En général, vous pouvez le laisser vide ou le définir sur UTC.
Fuseau horaire de la requête : fuseau horaire dans lequel afficher les données interrogées dans Looker.

Pour vérifier que la connexion a réussi, cliquez sur Tester. Pour obtenir des informations sur le dépannage, consultez la page de documentation Tester la connectivité à la base de données.

Pour enregistrer ces paramètres, cliquez sur Connecter.

Compatibilité avec les fonctionnalités

Pour que Looker prenne en charge certaines fonctionnalités, votre dialecte de base de données doit également les prendre en charge.

Apache Spark 3 ou version ultérieure

Apache Spark 3+ est compatible avec les fonctionnalités suivantes à partir de Looker 25.16 :

Fonctionnalité	Compatibilité
Niveau d'assistance	Compatible
Looker (Google Cloud Core)	Oui
Agrégations symétriques	Oui
Tables dérivées	Oui
Tables dérivées persistantes basées sur SQL	Oui
Tables dérivées natives persistantes	Oui
Vues stables	Oui
Arrêt des requêtes	Oui
Tableaux croisés dynamiques basés sur SQL	Oui
Fuseaux horaires	Oui
SSL	Oui
Sous-totaux	Oui
Paramètres JDBC supplémentaires	Oui
Sensibilité à la casse	Oui
Type de lieu	Oui
Type de liste	Oui
Centile	Oui
Centile distinct	Non
Afficher les processus SQL Runner	Non
Décrire la table dans SQL Runner	Oui
Afficher les index dans SQL Runner	Non
SQL Runner Select 10	Oui
Nombre de SQL Runner	Oui
Explication SQL	Oui
Identifiants OAuth 2.0	Non
Commentaires contextuels	Oui
Regroupement de connexions	Non
Résumés HLL	Non
Reconnaissance d'agrégats	Oui
Augmentation de tables PDT	Non
Millisecondes	Oui
Microsecondes	Oui
Vues matérialisées	Non
Mesures de variation par période	Non
Nombre approximatif d'éléments distincts	Non

Étapes suivantes

Une fois la connexion créée, définissez les options d'authentification.