Apache Hive

Cette page explique comment connecter Looker à Apache Hive 2.3+ et Apache Hive 3.1.2+.

Voici quelques informations à retenir concernant la compatibilité de Looker avec les différentes versions d'Apache Hive :

Looker est compatible avec les connexions à Apache Hive 2.3+ et Apache Hive 3.1.2+.
Pour Apache Hive 3.1.2 et versions ultérieures, Looker ne peut s'intégrer entièrement aux bases de données Apache Hive 3 que sur les versions ultérieures à 3.1.2. Cela est dû à un problème d'analyse des requêtes dans les versions 2.4.0 à 3.1.2 de Hive, qui a entraîné des temps d'analyse extrêmement longs pour le code SQL généré par Looker.
Looker n'est pas compatible avec les connexions à Apache Hive 2. Les requêtes sur les connexions à Apache Hive 2 renverront une erreur.

Chiffrement du trafic réseau

Il est recommandé de chiffrer le trafic réseau entre l'application Looker et votre base de données. Pour ce faire, consultez les options détaillées sur la page de documentation Sécurisation de l'accès à la base de données.

Introduction

Looker est conçu pour se connecter à un serveur de base de données à l'aide de JDBC. Dans le cas de Hive, il s'agit du serveur Thrift (HiveServer2). Pour en savoir plus, consultez la documentation Apache.

Par défaut, ce serveur écoute sur le port 10000.

Looker est un outil de requête interactif. Il s'attend donc à fonctionner avec un moteur SQL interactif. Si Hive s'exécute sur MapReduce (hive.execution.engine est défini sur mr), Hive renverra les résultats de la requête trop lentement pour être pratique.

Looker a été testé avec Hive sur Tez (hive.execution.engine=tez), mais il est également possible d'exécuter Looker avec Hive sur Spark. La compatibilité avec Spark a été ajoutée dans la version 1.1 de Hive. (Looker est compatible avec Hive 1.2.1 et versions ultérieures.)

Tables dérivées persistantes (PDT)

Pour activer les tables dérivées persistantes (PDT) dans Looker à l'aide d'une connexion Hive, créez un schéma temporaire que Looker pourra utiliser. Voici un exemple de commande que vous pouvez utiliser pour créer un schéma looker_scratch :

 CREATE SCHEMA looker_scratch;

Le compte utilisateur que Looker utilise pour se connecter à Hive (qui peut être anonyme si aucune authentification n'est utilisée) doit disposer des droits suivants dans le schéma temporaire :

Créer des tables
Modifier des tables
Supprimer des tables

Testez cela avec un client JDBC avant d'essayer de créer des PDT avec Hive.

Files d'attente

Si vous souhaitez que les requêtes Looker soient placées dans une file d'attente spécifique, saisissez le paramètre de nom de file d'attente dans le champ Paramètres JDBC supplémentaires de la page Paramètres de connexion :

?tez.queue.name=the_bi_queue

D'autres paramètres Hive peuvent être définis de cette manière dans le champ Paramètres JDBC supplémentaires de la page Paramètres de connexion.

Grâce aux attributs utilisateur, les requêtes de différents utilisateurs ou groupes d'utilisateurs peuvent être placées dans différentes files d'attente. Pour ce faire, créez un attribut utilisateur nommé, par exemple, queue_name, puis ajoutez ce qui suit dans le champ Paramètres JDBC supplémentaires :

?tez.queue.name={{ _user_attributes['queue_name'] }}

Vous pouvez également l'utiliser pour personnaliser d'autres paramètres hive-site.xml par utilisateur ou par groupe.

Créer la connexion Looker à votre base de données

Pour créer la connexion entre Looker et votre base de données, procédez comme suit :

Dans la section Admin de Looker, sélectionnez Connexions, puis cliquez sur Ajouter une connexion.
Sélectionnez Apache Hive 2.3+ ou Apache Hive 3.1.2+ dans le menu déroulant Dialecte.

Remarque : Si vous utilisez une instance Looker (Google Cloud Core) et que votre dialecte ne figure pas dans le menu déroulant Dialecte, consultez la documentation Looker (Google Cloud Core) pour vérifier que le dialecte est compatible avec les instances Looker (Google Cloud Core).
Saisissez les informations de connexion. La majorité des paramètres sont communs à la plupart des dialectes de base de données. Pour en savoir plus, consultez la page de documentation Connecter Looker à votre base de données. Voici quelques-uns des paramètres :
- Nom : spécifiez le nom de la connexion. C'est sous ce nom que la connexion sera désignée dans les projets LookML.
- Hôte : spécifiez le nom d'hôte.
- Port : spécifiez le port de la base de données.
- Base de données : indiquez le nom de la base de données.
- Nom d'utilisateur : spécifiez le nom d'utilisateur de la base de données.
- Mot de passe : spécifiez le mot de passe de l'utilisateur de la base de données.
- Activer les PDT : utilisez ce bouton pour activer les tables dérivées persistantes. Lorsque les PDT sont activés, la fenêtre Connexion affiche des paramètres PDT supplémentaires et la section Remplacements pour les PDT.
- Base de données temporaire : spécifiez le nom du schéma temporaire créé dans la section Tables dérivées persistantes (PDT) de cette page de documentation.
- Nombre maximal de connexions du générateur de PDT : spécifiez le nombre de PDT pouvant être générées simultanément sur cette connexion. Si vous définissez une valeur trop élevée, les temps de réponse aux requêtes risquent d'être affectés. Pour en savoir plus, consultez la page de documentation Connecter Looker à votre base de données.
- Paramètres JDBC supplémentaires : spécifiez les paramètres de chaîne JDBC supplémentaires.
- Planning de maintenance : spécifiez une expression cron qui indique quand Looker doit vérifier les groupes de données et les tables dérivées persistantes. Pour en savoir plus sur ce paramètre, consultez la documentation Programme de maintenance.
- SSL : cochez cette case pour utiliser les connexions SSL.
- Vérifier le protocole SSL : vérifiez la validation du nom d'hôte.
- Nombre maximal de connexions par nœud : vous pouvez conserver la valeur par défaut indiquée. Pour en savoir plus, consultez la page de documentation Connecter Looker à votre base de données.
- Délai avant expiration du pool de connexions : vous pouvez conserver la valeur par défaut indiquée. Pour en savoir plus sur ce paramètre, consultez la section Délai d'inactivité du pool de connexions de la page de documentation Connecter Looker à votre base de données.
- Effectuer une mise en cache préalable de l'exécuteur SQL : pour que SQL Runner ne précharge pas les informations d'une table et les charge uniquement lorsque la table est sélectionnée, désélectionnez cette option. Pour en savoir plus sur ce paramètre, consultez la section Précache SQL Runner de la page de documentation Connecter Looker à votre base de données.
- Fuseau horaire de la base de données : spécifiez le fuseau horaire utilisé dans la base de données. Laissez ce champ vide si vous ne souhaitez pas convertir le fuseau horaire. Pour en savoir plus, consultez la page de documentation Utiliser les paramètres de fuseau horaire.
Pour vérifier que la connexion a réussi, cliquez sur Tester. Pour obtenir des informations sur le dépannage, consultez la page de documentation Tester la connectivité à la base de données.
Pour enregistrer ces paramètres, cliquez sur Connecter.

Compatibilité avec les fonctionnalités

Pour que Looker prenne en charge certaines fonctionnalités, votre dialecte de base de données doit également les prendre en charge.

Apache Hive 2.3+

Apache Hive 2.3 et versions ultérieures sont compatibles avec les fonctionnalités suivantes à partir de Looker 25.16 :

Fonctionnalité	Compatibilité
Niveau d'assistance	Intégration
Looker (Google Cloud Core)	Non
Agrégations symétriques	Non
Tables dérivées	Oui
Tables dérivées persistantes basées sur SQL	Oui
Tables dérivées natives persistantes	Oui
Vues stables	Oui
Arrêt des requêtes	Oui
Tableaux croisés dynamiques basés sur SQL	Non
Fuseaux horaires	Oui
SSL	Oui
Sous-totaux	Oui
Paramètres JDBC supplémentaires	Oui
Sensibilité à la casse	Oui
Type de lieu	Oui
Type de liste	Oui
Centile	Oui
Centile distinct	Non
Afficher les processus SQL Runner	Non
Décrire la table dans SQL Runner	Oui
Afficher les index dans SQL Runner	Oui
SQL Runner Select 10	Oui
Nombre de SQL Runner	Oui
Explication SQL	Oui
Identifiants OAuth 2.0	Non
Commentaires contextuels	Oui
Regroupement de connexions	Non
Résumés HLL	Non
Reconnaissance d'agrégats	Oui
Augmentation de tables PDT	Non
Millisecondes	Oui
Microsecondes	Oui
Vues matérialisées	Non
Mesures de variation par période	Non
Nombre approximatif d'éléments distincts	Non

Apache Hive 3.1.2 ou version ultérieure

Apache Hive 3.1.2+ est compatible avec les fonctionnalités suivantes à partir de Looker 25.16 :

Fonctionnalité	Compatibilité
Niveau d'assistance	Compatible
Looker (Google Cloud Core)	Oui
Agrégations symétriques	Non
Tables dérivées	Oui
Tables dérivées persistantes basées sur SQL	Oui
Tables dérivées natives persistantes	Oui
Vues stables	Oui
Arrêt des requêtes	Oui
Tableaux croisés dynamiques basés sur SQL	Non
Fuseaux horaires	Oui
SSL	Oui
Sous-totaux	Oui
Paramètres JDBC supplémentaires	Oui
Sensibilité à la casse	Oui
Type de lieu	Oui
Type de liste	Oui
Centile	Oui
Centile distinct	Non
Afficher les processus SQL Runner	Non
Décrire la table dans SQL Runner	Oui
Afficher les index dans SQL Runner	Non
SQL Runner Select 10	Oui
Nombre de SQL Runner	Oui
Explication SQL	Oui
Identifiants OAuth 2.0	Non
Commentaires contextuels	Oui
Regroupement de connexions	Non
Résumés HLL	Non
Reconnaissance d'agrégats	Oui
Augmentation de tables PDT	Non
Millisecondes	Oui
Microsecondes	Oui
Vues matérialisées	Non
Mesures de variation par période	Non
Nombre approximatif d'éléments distincts	Non

Étapes suivantes

Après avoir connecté votre base de données à Looker, configurez des options de connexion pour vos utilisateurs.