Cette page a été traduite par l'API Cloud Translation.

Databricks

Chiffrement du trafic réseau

Il est recommandé de chiffrer le trafic réseau entre l'application Looker et votre base de données. Pour ce faire, consultez les options détaillées sur la page de documentation Sécurisation de l'accès à la base de données.

Créer un utilisateur Looker

Looker s'authentifie auprès de Databricks à l'aide de jetons d'accès personnels. Suivez la documentation Databricks pour créer un jeton d'accès personnel qu'un utilisateur Databricks pourra utiliser dans Looker.

Ajoutez des autorisations à cet utilisateur avec GRANT.

L'utilisateur Looker doit au minimum disposer des autorisations SELECT et READ_METADATA.

GRANT SELECT ON DATABASE <YOUR_DATABASE> TO `<looker>@<your.databricks.com>`
GRANT READ_METADATA ON DATABASE <YOUR_DATABASE> TO `<looker>@<your.databricks.com>`

Informations sur le serveur

Suivez la documentation Databricks pour trouver le chemin d'accès HTTP de votre cluster Databricks. Elle sera appelée <YOUR_HTTP_PATH> sur cette page.

Configurer des tables dérivées persistantes

Pour utiliser des tables dérivées persistantes, créez une base de données distincte.

CREATE DATABASE <YOUR_SCRATCH_DATABASE>

Des autorisations utilisateur supplémentaires basées sur l'écriture devront également être accordées.

GRANT SELECT CREATE MODIFY ON DATABASE <YOUR_SCRATCH_DATABASE> TO `<looker>@<your.databricks.com>`
GRANT READ_METADATA ON DATABASE <YOUR_SCRATCH_DATABASE> TO `<looker>@<your.databricks.com>`

Créer la connexion Looker à votre base de données

Dans la section Administration de Looker, sélectionnez Connexions, puis cliquez sur Ajouter une connexion.

Saisissez les informations de connexion. La majorité des paramètres sont communs à la plupart des dialectes de base de données. Pour en savoir plus, consultez la page de documentation Connecter Looker à votre base de données. Certains des paramètres sont décrits ci-dessous:

Nom: spécifiez le nom de la connexion. C'est sous ce nom que la connexion sera désignée dans les projets LookML.
Dialecte: spécifiez le dialecte Databricks.
Host (Hôte) : indiquez l'URL de l'espace de travail Databricks. Exemple :dbc-xxxxxxxx.cloud.databricks.com/
Port: spécifiez le port de la base de données. La valeur par défaut est 443.
Base de données: indiquez le nom de la base de données à utiliser pour les requêtes Looker. La valeur par défaut est default.
Catalogue: pour les bases de données Databricks avec Unity Catalog activé, spécifiez le nom du catalogue à utiliser pour les requêtes Looker. Si vous ne spécifiez pas de catalogue, Looker n'accèdera qu'aux schémas du catalogue par défaut. Pour en savoir plus, consultez la section Fonctionnalité Looker avec Databricks Unity Catalog.
Authentication (Authentification) : sélectionnez Database Account (Compte de base de données) ou OAuth :
- Utilisez Database Account (Compte de base de données) pour spécifier un jeton d'accès personnel Databricks qui sera utilisé pour se connecter à Looker (consultez la section Créer un utilisateur Looker pour obtenir des instructions).
  - Dans le champ Nom d'utilisateur, saisissez la valeur token (n'indiquez pas l'adresse e-mail de l'utilisateur Databricks dans ce champ).
  - Dans le champ Mot de passe, saisissez le jeton d'accès personnel Databricks.
- Utilisez OAuth pour configurer OAuth pour la connexion. Pour en savoir plus, consultez la section Configurer OAuth pour les connexions Databricks.
Activer les PDT: utilisez cet interrupteur pour activer les tables dérivées persistantes. Lorsque les PDT sont activés, la fenêtre Connexion affiche des paramètres PDT supplémentaires et la section Remplacements pour les PDT. Remarque: Les PDT ne sont pas compatibles avec les connexions Databricks qui utilisent OAuth.
Base de données temporaire: saisissez la base de données que vous souhaitez utiliser pour stocker les PDT.
Nombre maximal de connexions du générateur PDT: spécifiez le nombre de compilations PDT simultanées possibles sur cette connexion. Définir cette valeur trop élevée peut avoir un impact négatif sur les temps de requête. Pour en savoir plus, consultez la page de documentation Connecter Looker à votre base de données.
Paramètres JDBC supplémentaires: ajoutez des paramètres JDBC Spark supplémentaires.

Remarque:Les paramètres suivants sont obligatoires: transportMode=http;httpPath=<YOUR_HTTP_PATH>

où YOUR_HTTP_PATH est la valeur du chemin d'accès HTTP que vous pouvez récupérer dans les détails de connexion de votre entrepôt Databricks.
Calendrier de maintenance des groupes de données et des tables dérivées persistantes: expression cron qui indique quand Looker doit vérifier les groupes de données et les tables dérivées persistantes. Pour en savoir plus sur ce paramètre, consultez la documentation Planification du suivi des tables PDT et des groupes de données.

Avertissement :La valeur par défaut du calendrier de maintenance des groupes de données et des tables dérivées persistantes est de cinq minutes. Si vous conservez la valeur par défaut, Looker appellera votre base de données Databricks toutes les cinq minutes. Cette fréquence peut empêcher l'arrêt des clusters Databricks, ce qui peut entraîner des coûts inattendus. Envisagez de définir un intervalle moins fréquent par défaut pour éviter ces coûts.
SSL: cochez cette case pour utiliser les connexions SSL.
Valider SSL: cochez cette option pour appliquer une validation stricte des certificats SSL.
Connexions maximales par nœud: vous pouvez laisser ce paramètre sur la valeur par défaut au départ. Pour en savoir plus sur ce paramètre, consultez la section Connexions maximales par nœud de la page de documentation Connecter Looker à votre base de données.
Délai avant expiration du pool de connexions: vous pouvez laisser ce paramètre sur la valeur par défaut au départ. Pour en savoir plus sur ce paramètre, consultez la section Délai avant expiration du pool de connexions de la page de documentation Connecter Looker à votre base de données.
Effectuer une mise en cache préalable de l'exécuteur SQL: pour que SQL Runner ne précharge pas les informations d'une table et les charge uniquement lorsqu'une table est sélectionnée, désélectionnez cette case. Pour en savoir plus sur ce paramètre, consultez la section Préchargement du moteur d'exécution SQL de la page de documentation Connecter Looker à votre base de données.
Fuseau horaire de la base de données: spécifiez le fuseau horaire à utiliser dans la base de données. Laissez ce champ vide si vous ne souhaitez pas convertir le fuseau horaire. Pour en savoir plus, consultez la page de documentation Utiliser les paramètres de fuseau horaire.

Cliquez sur Test pour tester la connexion et vous assurer qu'elle est correctement configurée. Si l'option Peut se connecter s'affiche, appuyez sur Se connecter. Les autres tests de connexion sont alors exécutés pour vérifier si le compte de service a été configuré correctement et avec les rôles adéquats. Pour obtenir des informations sur le dépannage, consultez la page de documentation Tester la connectivité de la base de données.

Fonctionnalités Looker avec Databricks Unity Catalog

Looker est compatible avec les connexions aux bases de données Databricks avec Unity Catalog activé. Vous pouvez spécifier le nom du catalogue dans le champ Catalogue de la fenêtre Connexion Looker lorsque vous créez une connexion Looker à votre base de données ou que vous modifiez une connexion Looker existante à une base de données Databricks.

Si votre base de données Databricks est activée pour Unity Catalog, vous pouvez spécifier un catalogue Databricks dans le champ Catalogue de la connexion Looker. Lorsque vous spécifiez un catalogue Databricks, Looker l'utilise dans les scénarios suivants:

Lorsque vous générez un projet LookML à partir de votre base de données, Looker crée les fichiers de projet en fonction des tables du catalogue configuré de votre connexion.
Pour les projets existants, lorsque vous utilisez l'IDE Looker pour créer une vue à partir d'une table, Looker ne crée des fichiers de vue qu'à partir des tables du catalogue configuré de votre connexion.
Lorsque vous utilisez SQL Runner, vous ne pouvez sélectionner que des schémas du catalogue configuré de votre connexion.

Si votre base de données Databricks est activée pour Unity Catalog et que la connexion Looker n'a pas de valeur dans le champ Catalogue, la plupart des fonctionnalités Looker n'accèdent qu'aux schémas du catalogue par défaut, par exemple dans les scénarios suivants:

Lorsque vous générez un projet LookML à partir de votre base de données, Looker crée les fichiers de projet en fonction des tables du catalogue par défaut d'Unity Catalog.
Pour les projets existants, lorsque vous utilisez l'IDE Looker pour créer une vue à partir d'une table, Looker ne peut créer des fichiers de vue qu'à partir des tables du catalogue par défaut d'Unity Catalog.
Lorsque vous utilisez SQL Runner, vous ne pouvez sélectionner que des schémas du catalogue par défaut d'Unity Catalog.

Configurer OAuth pour les connexions Databricks

Looker prend en charge OAuth pour les connexions Databricks. Ainsi, chaque utilisateur Looker peut s'authentifier dans la base de données et autoriser Looker à exécuter des requêtes sur la base de données avec son propre compte utilisateur OAuth.

OAuth permet aux administrateurs de base de données d'effectuer les tâches suivantes:

faire un audit des utilisateurs Looker qui exécutent des requêtes par rapport à la base de données ;
appliquer des contrôles d'accès basés sur les rôles à l'aide d'autorisations au niveau de la base de données ;
utiliser des jetons OAuth pour tous les processus et actions qui accèdent à la base de données, au lieu d'intégrer des identifiants et des mots de passe de base de données à plusieurs endroits ;
Révoquer l'autorisation d'un utilisateur donné directement via la base de données

Avec les connexions Databricks qui utilisent OAuth, les utilisateurs doivent se reconnecter régulièrement lorsque leurs jetons OAuth expirent.

Notez les points suivants concernant les connexions OAuth au niveau de la base de données:

Si un utilisateur laisse expirer son jeton OAuth, toutes les planifications ou alertes Looker qu'il possède seront affectées. Pour éviter cela, Looker envoie une notification par e-mail au propriétaire de chaque calendrier et de chaque alerte avant l'expiration du jeton OAuth actif actuel. Looker enverra ces e-mails de notification 14, 7 et 1 jour avant l'expiration du jeton. L'utilisateur peut accéder à sa page utilisateur Looker pour réautoriser Looker à accéder à la base de données et éviter toute interruption de ses planifications et alertes. Pour en savoir plus, consultez la page de documentation Personnaliser les paramètres de compte utilisateur.
Étant donné que les connexions de base de données qui utilisent OAuth fonctionnent "par utilisateur", la mise en cache des politiques fonctionne de la même manière, et pas seulement par requête. Autrement dit, au lieu d'utiliser des résultats mis en cache lorsque la même requête est exécutée au cours de la période de mise en cache, Looker utilise les résultats mis en cache uniquement si le même utilisateur a exécuté la même requête au cours de la période de mise en cache. Pour en savoir plus sur la mise en cache, consultez la page de documentation Mettre en cache des requêtes.
Les tables dérivées persistantes (PDT) ne sont pas compatibles avec les connexions Databricks avec OAuth.
Lorsqu'un administrateur Looker exécute une commande sudo en tant qu'utilisateur, il utilise le jeton d'accès OAuth de cet utilisateur. Si le jeton d'accès de l'utilisateur a expiré, l'administrateur ne peut pas créer de nouveau jeton pour le compte de l'utilisateur faisant l'objet de la commande sudo. Pour plus d'informations sur l'utilisation de la commande sudo, consultez la page de documentation Utilisateurs.
Lorsqu'un utilisateur se connecte à Databricks depuis Looker à l'aide d'OAuth, Looker n'affiche pas de boîte de dialogue de consentement explicite de l'utilisateur. En configurant OAuth avec Looker, vous autorisez implicitement votre instance Looker à accéder à votre base de données Databricks.
Pour utiliser OAuth pour une connexion Databricks, vous devez disposer d'utilisateurs ou de principaux de service Databricks pouvant être utilisés pour les requêtes Looker. Vous devez également fournir aux utilisateurs et aux principaux de service les autorisations Databricks dont Looker aura besoin pour accéder aux sources de données et effectuer les actions requises dans Databricks.

Pour créer une connexion Databricks à Looker à l'aide d'OAuth, vous devez suivre ces étapes générales, détaillées dans les sections suivantes:

Activer une application OAuth personnalisée dans Databricks
Configurer la connexion dans Looker

Activer une application OAuth personnalisée dans Databricks

Pour utiliser OAuth pour une connexion Looker à Databricks, vous devez activer Looker en tant qu'application OAuth personnalisée pour votre base de données Databricks en procédant comme suit:

Connectez-vous à la console de compte Databricks.
Cliquez sur l'icône Paramètres dans le panneau latéral.
Cliquez sur l'onglet App Connections (Connexions d'applications) dans la fenêtre Settings (Paramètres).
Dans l'onglet Connexions d'application, cliquez sur Ajouter une connexion.
Saisissez les valeurs suivantes dans la boîte de dialogue Add connection (Ajouter une connexion) de Databricks:
- Nom de l'application: indiquez un nom descriptif, par exemple "Intégration Looker".
- URL de redirection: saisissez l'URL Looker vers laquelle Databricks redirige les utilisateurs après l'autorisation, en utilisant ce format (remplacez example.looker.com par l'URL de votre instance Looker):
```
https://example.looker.com/external_oauth/redirect
```
- Champs d'application de l'accès: sélectionnez SQL pour autoriser Looker à interroger les données via SQL.
- Générer un code secret du client: activez cette option.
Cliquez sur Ajouter dans la boîte de dialogue Ajouter une connexion de Databricks.
Copiez et stockez de manière sécurisée l'ID client et le code secret du client générés par Databricks.

L'enregistrement d'une application OAuth peut prendre jusqu'à 30 minutes dans la base de données Databricks. Pour en savoir plus, consultez la documentation Databricks officielle.

Configurer la connexion dans Looker

Une fois que vous avez configuré Looker en tant qu'application OAuth personnalisée dans votre base de données Databricks, vous pouvez configurer une connexion Looker à Databricks qui utilise OAuth.

Dans la section Administration de Looker, sélectionnez Connexions, puis cliquez sur Ajouter une connexion.
Saisissez les informations de connexion, comme décrit dans la section Créer la connexion Looker à votre base de données de cette page.
Sélectionnez l'option OAuth dans le champ Authentification.
Lorsque vous sélectionnez l'option OAuth, Looker affiche les champs ID client OAuth et Secret client OAuth. Pour ces valeurs, saisissez l'ID client et le secret client générés par Databricks lorsque vous avez activé Looker en tant qu'application OAuth personnalisée dans Databricks.
Sélectionnez le bouton Test en bas de la page Paramètres des connexions pour vous assurer que Looker peut établir le flux OAuth et se connecter à votre instance Databricks.

Compatibilité des caractéristiques

Pour que Looker prenne en charge certaines fonctionnalités, votre dialecte de base de données doit également les prendre en charge.

Databricks est compatible avec les fonctionnalités suivantes à partir de Looker 25.0:

Fonctionnalité	Compatibilité
Niveau d'assistance	Compatible
Looker (Google Cloud Core)	Oui
Agrégations symétriques	Oui
Tables dérivées	Oui
Tables dérivées SQL persistantes	Oui
Tables dérivées natives persistantes	Oui
Vues stables	Oui
Arrêt des requêtes	Oui
Pivots basés sur SQL	Oui
Fuseaux horaires	Oui
SSL	Oui
Sous-totaux	Oui
Paramètres JDBC supplémentaires	Oui
Sensible à la casse	Oui
Type d'emplacement	Oui
Type de liste	Oui
Centile	Oui
Centile distinct	Non
Exécuteur SQL : afficher les processus	Non
Table de description de SQL Runner	Oui
Indexes de l'exécuteur SQL	Non
SQL Runner Select 10	Oui
Nombre d'exécuteurs SQL	Oui
Explication SQL	Oui
Identifiants Oauth	Oui
Commentaires sur le contexte	Oui
Regroupement de connexions	Non
Résumés HLL	Non
Reconnaissance d'agrégats	Oui
Tables PDT incrémentielles	Oui
Millisecondes	Oui
Microsecondes	Oui
Vues matérialisées	Non
Nombre approximatif d'éléments distincts	Non