Apache Hive

Questa pagina contiene informazioni sulla connessione di Looker ad Apache Hive 2.3+ e Apache Hive 3.1.2+.

Tieni presente quanto segue in merito al supporto di Looker per le diverse versioni di Apache Hive:

Looker supporta le connessioni ad Apache Hive 2.3+ e Apache Hive 3.1.2+.
Per Apache Hive 3.1.2+, Looker può integrarsi completamente con i database Apache Hive 3 solo nelle versioni successive alla 3.1.2. Ciò è dovuto a un problema di analisi delle query delle versioni di Hive 2.4.0 - 3.1.2 che ha comportato tempi di analisi estremamente lunghi per l'SQL generato da Looker.
Looker non supporta le connessioni ad Apache Hive 2. Le query sulle connessioni ad Apache Hive 2 restituiranno un errore.

Crittografia del traffico di rete

È una best practice criptare il traffico di rete tra l'applicazione Looker e il tuo database. Valuta una delle opzioni descritte nella pagina della documentazione Abilitare l'accesso sicuro ai database.

Introduzione

Looker è progettato per connettersi a un server di database utilizzando JDBC. Nel caso di Hive, si tratta del server Thrift (HiveServer2). Per saperne di più, consulta la documentazione di Apache.

Per impostazione predefinita, questo server sarà in ascolto sulla porta 10000.

Looker è uno strumento di query interattivo, quindi si aspetta di funzionare con un motore SQL interattivo. Se Hive viene eseguito su MapReduce, hive.execution.engine è impostato su mr, Hive restituirà i risultati della query troppo lentamente per essere pratico.

Looker è stato testato con Hive su Tez (hive.execution.engine=tez), anche se è possibile eseguire Looker con Hive su Spark. Il supporto di Spark è stato aggiunto nella versione 1.1 di Hive. (Looker supporta Hive 1.2.1 e versioni successive).

Tabelle derivate permanenti (PDT)

Per abilitare le tabelle derivate permanenti (PDT) in Looker utilizzando una connessione Hive, crea uno schema scratch da utilizzare per Looker. Di seguito è riportato un esempio di comando che puoi utilizzare per creare uno schema looker_scratch:

 CREATE SCHEMA looker_scratch;

L'account utente utilizzato da Looker per connettersi a Hive (che può essere anonimo se non viene utilizzata l'autenticazione) deve disporre delle seguenti funzionalità nello schema scratch:

Crea tabelle
Modifica tabelle
Elimina tabelle

Esegui il test con un client JDBC prima di tentare di creare PDT con Hive.

Code

Se vuoi che le query di Looker vengano inserite in una coda specifica, inserisci il parametro del nome della coda nel campo Parametri JDBC aggiuntivi nella pagina Impostazioni connessione:

?tez.queue.name=the_bi_queue

Altri parametri Hive possono essere impostati in questo modo nel campo Parametri JDBC aggiuntivi della pagina Impostazioni di connessione.

Utilizzando gli attributi utente, è possibile che le query di utenti diversi o di gruppi di utenti diversi vengano inserite in code diverse. A questo scopo, crea un attributo utente denominato, ad esempio, queue_name, quindi aggiungi quanto segue nel campo Parametri JDBC aggiuntivi:

?tez.queue.name={{ _user_attributes['queue_name'] }}

Puoi utilizzarlo anche per personalizzare altri parametri di hive-site.xml in base all'utente o al gruppo.

Creazione della connessione Looker al tuo database

Segui questi passaggi per creare la connessione da Looker al tuo database:

Nella sezione Amministrazione di Looker, seleziona Connessioni e poi fai clic su Aggiungi connessione.
Seleziona Apache Hive 2.3+ o Apache Hive 3.1.2+ dal menu a discesa Dialetto.

Nota :se utilizzi un'istanza di Looker (Google Cloud core) e non vedi il dialetto elencato nel menu a discesa Dialetto, consulta la documentazione di Looker (Google Cloud core) per verificare che il dialetto sia supportato per le istanze di Looker (Google Cloud core).
Compila i dettagli della connessione. La maggior parte delle impostazioni è comune alla maggioranza dei dialetti di database. Per informazioni, consulta la pagina della documentazione Connessione di Looker al tuo database. Di seguito sono descritte alcune impostazioni:
- Name (Nome): specifica il nome della connessione. È così che farai riferimento alla connessione nei progetti LookML.
- Host: specifica il nome host.
- Porta: specifica la porta del database.
- Database: specifica il nome del database.
- Nome utente: specifica il nome utente del database.
- Password: specifica la password dell'utente del database.
- Abilita PDT: utilizza questo pulsante di attivazione/disattivazione per abilitare le tabelle derivate permanenti. Quando i PDT sono abilitati, la finestra Connessione mostra impostazioni PDT aggiuntive e la sezione Override PDT.
- Database temporaneo: specifica il nome dello schema temporaneo creato nella sezione Tabelle derivate permanenti (PDT) di questa pagina della documentazione.
- Numero massimo di connessioni del generatore di PDT: specifica il numero di build di PDT simultanee possibili su questa connessione. Se imposti questo valore su un valore troppo alto, i tempi di esecuzione delle query potrebbero risentirne negativamente. Per saperne di più, consulta la pagina di documentazione Connessione di Looker al database.
- Parametri JDBC aggiuntivi: specifica eventuali parametri della stringa JDBC aggiuntivi.
- Pianificazione della manutenzione: specifica un'espressione cron che indica quando Looker deve controllare i gruppi di dati e le tabelle derivate permanenti. Scopri di più su questa impostazione nella documentazione relativa alla pianificazione della manutenzione.
- SSL: seleziona questa opzione per utilizzare le connessioni SSL.
- Verifica SSL: controlla la verifica del nome host.
- Max connections per node (Numero massimo di connessioni per nodo): inizialmente questa impostazione può essere lasciata al valore predefinito. Per ulteriori informazioni, consulta la pagina della documentazione Connessione di Looker al tuo database.
- Timeout del pool di connessioni: inizialmente questa impostazione può essere lasciata al valore predefinito. Scopri di più su questa impostazione nella sezione Timeout pool di connessioni della pagina di documentazione Connessione di Looker al database.
- SQL Runner Precache (Pre-cache SQL Runner): per impedire a SQL Runner di precaricare le informazioni sulle tabelle e caricarle solo quando una tabella viene selezionata, deseleziona questa opzione. Scopri di più su questa impostazione nella sezione Pre-cache SQL Runner della pagina di documentazione Connessione di Looker al database.
- Fuso orario del database: specifica il fuso orario utilizzato nel database. Lascia vuoto questo campo se non vuoi la conversione del fuso orario. Per ulteriori informazioni, consulta la pagina della documentazione relativa all'uso delle impostazioni relative al fuso orario.
Per verificare che la connessione sia riuscita, fai clic su Testa. Per informazioni sulla risoluzione dei problemi, consulta la pagina della documentazione Testare la connettività del database.
Per salvare queste impostazioni, fai clic su Connetti.

Funzionalità supportate

Affinché Looker supporti alcune funzionalità, anche il dialetto del database deve supportarle.

Apache Hive 2.3+

A partire da Looker 25.16, Apache Hive 2.3+ supporta le seguenti funzionalità:

Funzionalità	Supportato?
Livello di assistenza	Integrazione
Looker (Google Cloud core)	No
Aggregati simmetrici	No
Tabelle derivate	Sì
Tabelle derivate permanenti basate su SQL	Sì
Tabelle derivate native permanenti	Sì
Visualizzazioni stabili	Sì
Interruzione delle query	Sì
Pivot basati su SQL	No
Fusi orari	Sì
SSL	Sì
Subtotali	Sì
Parametri JDBC aggiuntivi	Sì
Sensibile alle maiuscole	Sì
Tipo di località	Sì
Tipo di elenco	Sì
Percentile	Sì
Percentile valori distinti	No
SQL Runner Show Processes	No
SQL Runner Describe Table	Sì
SQL Runner Show Indexes	Sì
SQL Runner Select 10	Sì
Conteggio SQL Runner	Sì
SQL Explain	Sì
Credenziali OAuth 2.0	No
Commenti contestuali	Sì
Pool di connessioni	No
Sketch HLL	No
Aggregate awareness	Sì
PDT incrementali	No
Millisecondi	Sì
Microsecondi	Sì
Viste materializzate	No
Misure di periodo in periodo	No
Conteggio approssimativo dei valori distinti	No

Apache Hive 3.1.2+

A partire da Looker 25.16, Apache Hive 3.1.2+ supporta le seguenti funzionalità:

Funzionalità	Supportato?
Livello di assistenza	Supportato
Looker (Google Cloud core)	Sì
Aggregati simmetrici	No
Tabelle derivate	Sì
Tabelle derivate permanenti basate su SQL	Sì
Tabelle derivate native permanenti	Sì
Visualizzazioni stabili	Sì
Interruzione delle query	Sì
Pivot basati su SQL	No
Fusi orari	Sì
SSL	Sì
Subtotali	Sì
Parametri JDBC aggiuntivi	Sì
Sensibile alle maiuscole	Sì
Tipo di località	Sì
Tipo di elenco	Sì
Percentile	Sì
Percentile valori distinti	No
SQL Runner Show Processes	No
SQL Runner Describe Table	Sì
SQL Runner Show Indexes	No
SQL Runner Select 10	Sì
Conteggio SQL Runner	Sì
SQL Explain	Sì
Credenziali OAuth 2.0	No
Commenti contestuali	Sì
Pool di connessioni	No
Sketch HLL	No
Aggregate awareness	Sì
PDT incrementali	No
Millisecondi	Sì
Microsecondi	Sì
Viste materializzate	No
Misure di periodo in periodo	No
Conteggio approssimativo dei valori distinti	No

Passaggi successivi

Dopo aver connesso il database a Looker, configura le opzioni di accesso per gli utenti.