Apache Spark

Cette page contient des informations sur la connexion de Looker à Apache Spark 3.

Looker se connecte à Apache Spark 3+ via une connexion JDBC au serveur Spark Thrift.

Chiffrement du trafic réseau

Il est recommandé de chiffrer le trafic réseau entre l'application Looker et votre base de données. Envisagez l'une des options décrites sur la page de documentation Activer l'accès sécurisé à la base de données.

Créer la connexion Looker à votre base de données

Dans la section Admin de Looker, sélectionnez Connexions, puis cliquez sur Ajouter une connexion.

Saisissez les informations de connexion. La majorité des paramètres sont communs à la plupart des dialectes de base de données. Pour en savoir plus, consultez la page de documentation Connecter Looker à votre base de données. Certains de ces paramètres sont décrits ci-dessous:

  • Nom: nom de la connexion. C'est ainsi que la connexion sera référencée dans le modèle LookML.
  • Dialecte: sélectionnez Apache Spark 3+.
  • Hôte: hôte du serveur Thrift.
  • Port : port du serveur Thrift (10 000 par défaut).
  • Base de données: le schéma/base de données par défaut qui sera modélisé. Lorsqu'aucune base de données n'est spécifiée pour une table, c'est le cas.
  • Username (Nom d'utilisateur) : utilisateur sous lequel Looker s'authentifiera.
  • Password (Mot de passe) : mot de passe facultatif de l'utilisateur Looker.
  • Activer les tables dérivées persistantes: activez ce bouton pour activer les tables dérivées persistantes. Lorsque les tables PDT sont activées, la fenêtre Connexion affiche des paramètres supplémentaires pour les tables PDT ainsi que la section Remplacements PDT.
  • Temp Database (Base de données temporaire) : schéma/base de données temporaire pour le stockage des tables PDT Vous devez la créer au préalable, avec une instruction telle que CREATE SCHEMA looker_scratch;.
  • Paramètres JDBC supplémentaires: ajoutez ici des paramètres JDBC Hive supplémentaires, tels que :
    • ;spark.sql.inMemoryColumnarStorage.compressed=true
    • ;auth=noSasl
  • SSL: laissez cette option décochée.
  • Database Time Zone (Fuseau horaire de la base de données) : fuseau horaire des données stockées dans Spark. Vous pouvez généralement ne pas renseigner ce champ ou indiquer l'heure UTC.
  • Query Time Zone (Fuseau horaire de la requête) : fuseau horaire pour afficher les données interrogées dans Looker.

Pour vérifier que la connexion est établie, cliquez sur Test (Tester). Consultez la page de documentation Tester la connectivité de la base de données pour obtenir des informations de dépannage.

Pour enregistrer ces paramètres, cliquez sur Connecter.

Prise en charge de fonctionnalités

Pour que Looker prenne en charge certaines fonctionnalités, votre dialecte de base de données doit également les prendre en charge.

Apache Spark 3 et versions ultérieures

Apache Spark 3 et versions ultérieures prennent en charge les fonctionnalités suivantes à partir de Looker 24.10:

Sélection Compatible ?
Niveau d'assistance
Compatible
Looker (Google Cloud Core)
Oui
Agrégations symétriques
Oui
Tables dérivées
Oui
Tables dérivées SQL persistantes
Oui
Tables dérivées natives persistantes
Oui
Vues stables
Oui
Suppression des requêtes
Oui
Tableaux croisés dynamiques basés sur SQL
Oui
Fuseaux horaires
Oui
SSL
Oui
Sous-totaux
Oui
Paramètres supplémentaires JDBC
Oui
Sensible à la casse
Oui
Type d'emplacement
Oui
Type de liste
Oui
Centile
Oui
Centile distinct
Non
Processus d'affichage de l'exécuteur SQL
Non
Table de description de l'exécuteur SQL
Oui
Index d'affichage de l'exécuteur SQL
Non
SQL Runner Select 10
Oui
Nombre d'exécuteurs SQL
Oui
SQL Explain
Oui
Identifiants OAuth
Non
Commentaires sur le contexte
Oui
Pooling des connexions
Non
HLL Sketches
Non
Reconnaissance d'agrégats.
Oui
Augmentation de tables PDT
Non
Millisecondes
Oui
Microsecondes
Oui
Vues matérialisées
Non
Nombre approximatif distinct
Non

Étapes suivantes

Après avoir créé la connexion, définissez les options d'authentification.