Questa pagina contiene informazioni sulla connessione di Looker ad Apache Hive.
Introduzione
Looker è progettato per connettersi a un server di database tramite JDBC. Nel caso di Hive, si tratta del server dell'usato (HiveServer2). Per ulteriori informazioni, consulta la documentazione di Apache.
Per impostazione predefinita, questo server rimane in ascolto sulla porta 10000.
Looker è uno strumento di query interattivo, quindi prevede di funzionare con un motore SQL interattivo. Se Hive è in esecuzione su MapReduce: hive.execution.engine
è impostato su mr
, Hive restituirà i risultati della query troppo lentamente per essere pratici.
Looker è stato testato con Hive on Tez (hive.execution.engine=tez
), anche se è possibile eseguire Looker sull'Hive on Spark. Il supporto di Spark è stato aggiunto in Hive versione 1.1. (Looker supporta Hive 1.2.1+.)
Tabelle derivate permanenti (PDT)
Per abilitare le tabelle derivate persistenti (PDT, Persistent Derived Table) in Looker utilizzando una connessione Hive, crea uno schema temporaneo che Looker possa utilizzare. Di seguito è riportato un esempio di comando che puoi utilizzare per creare uno schema looker_scratch
:
CREATE SCHEMA looker_scratch;
L'account utente che Looker utilizza per la connessione a Hive (che può essere anonimo se non viene utilizzata alcuna autenticazione) deve avere le seguenti funzionalità nello schema temporaneo:
- Creare tabelle
- Modifica tabelle
- Rilascia tabelle
Testa con un client JDBC prima di tentare di creare PDT con Hive.
Code
Se vuoi che le query di Looker vengano inserite in una coda specifica, inserisci il parametro del nome della coda nel campo Ulteriori parametri JDBC della pagina Impostazioni di connessione:
?tez.queue.name=the_bi_queue
Altri parametri Hive possono essere impostati in questo modo nel campo Parametri JDBC aggiuntivi nella pagina Impostazioni di connessione.
Gli attributi utente consentono di inserire in code di query diverse utenti o gruppi di utenti differenti. A tale scopo, crea un attributo utente denominato queue_name
, quindi aggiungi quanto segue nel campo Parametri JDBC aggiuntivi:
?tez.queue.name={{ _user_attributes['queue_name'] }}
Puoi utilizzare questo attributo per personalizzare altri parametri hive-site.xml
per utente o per gruppo.
Creazione della connessione di Looker al database
Nella sezione Admin (Amministrazione) di Looker, seleziona Connections (Connessioni) e fai clic su Add Connection (Aggiungi connessione).
Compila i dettagli della connessione. La maggior parte delle impostazioni è comune alla maggior parte dei dialetti di database. Per informazioni, consulta la pagina della documentazione Connessione di Looker al tuo database. Di seguito sono descritte alcune delle impostazioni riportate di seguito:
- Name (Nome): specifica il nome della connessione. Questo è il modo in cui farai riferimento alla connessione nei progetti LookML.
Dialect: specifica il dialetto: Apache Hive 2, Apache Hive 2.3+ o Apache Hive 3.1.2+.
Per Apache Hive 3.1.2+, Looker può integrarsi completamente con i database Apache Hive 3 solo su versioni specifiche 3.1.2+. Ciò è dovuto a un problema di analisi delle query delle versioni Hive 2.4.0 - 3.1.2 che ha comportato tempi di analisi estremamente lunghi per l'SQL generato da Looker.
Host: specifica il nome host.
Port (Porta): specifica la porta del database.
Database: specifica il nome del database.
Nome utente: specifica il nome utente del database.
Password: specifica la password dell'utente del database.
Abilita PDT: utilizza questo pulsante di attivazione/disattivazione per abilitare le tabelle derivate persistenti. Quando le PDT sono abilitate, la finestra Connection mostra le impostazioni PDT aggiuntive e la sezione PDT Overrides (Override PDT).
Temp Database (Database temporaneo): specifica il nome dello schema temporaneo creato nella sezione PDT riportata sopra.
Numero massimo di connessioni del generatore di PDT: specifica il numero di possibili build di PDT simultanee su questa connessione. L'impostazione di un valore troppo elevato potrebbe influire negativamente sui tempi della query. Per ulteriori informazioni, consulta la pagina della documentazione Connessione di Looker al tuo database.
Parametri JDBC aggiuntivi: specifica gli eventuali parametri aggiuntivi della stringa JDBC.
Pianificazione della manutenzione di gruppi di dati e PDT: specifica un'espressione
cron
che indica quando Looker deve controllare i gruppi di dati e le tabelle derivate permanenti. Documentazione relativa alla pianificazione della manutenzione di PDT e gruppi di dati.SSL: seleziona questa opzione per utilizzare le connessioni SSL.
Verifica SSL: controlla la verifica del nome host.
Numero massimo di connessioni per nodo: inizialmente è possibile lasciare il valore predefinito su questa impostazione. Per ulteriori informazioni, consulta la pagina Documentazione sulla connessione di Looker al tuo database.
Timeout del pool di connessioni: inizialmente questa impostazione può essere lasciata impostato sul valore predefinito. Per saperne di più su questa impostazione, consulta la sezione Timeout del pool di connessioni della pagina della documentazione Connessione di Looker al tuo database.
SQL Runner Precache (Pre-cache SQL Runner): per evitare che SQL Runner non precarichi le informazioni delle tabelle e le carichi solo quando viene selezionata una tabella, deseleziona questa opzione. Scopri di più su questa impostazione nella sezione SQL Runner Precache (Pre-cache SQL Runner) della pagina della documentazione Connessione di Looker al tuo database.
Database Time Zone (Fuso orario database): specifica il fuso orario utilizzato nel database. Lascia questo campo vuoto se non vuoi che venga eseguita la conversione del fuso orario. Per ulteriori informazioni, consulta la pagina Documentazione relativa alle impostazioni del fuso orario.
Per verificare che la connessione sia riuscita, fai clic su Prova. Per informazioni sulla risoluzione dei problemi, consulta la pagina della documentazione Testare la connettività dei database.
Per salvare queste impostazioni, fai clic su Connetti.
Assistenza per le funzionalità
Affinché Looker supporti alcune funzionalità, anche il dialetto del tuo database deve supportarle.
Apache Hive 2
A partire da Looker 23.8, Apache Hive 2 supporta le seguenti funzionalità.
Funzionalità | Supportato? |
---|---|
Livello di assistenza | Richiesta supportata |
Looker (Google Cloud core) | No |
Aggregati simmetrici | No |
Tabelle derivate | Sì |
Tabelle derivate permanenti da SQL | Sì |
Tabelle derivate native permanenti | Sì |
Visualizzazioni stabili | Sì |
Termine query | Sì |
Pivot basati su SQL | No |
Fusi orari | Sì |
SSL | Sì |
Subtotali | Sì |
Parametri aggiuntivi JDBC | Sì |
Sensibilità alle maiuscole | Sì |
Tipo di località | Sì |
Tipo di elenco | Sì |
Percentile | Sì |
Distintivo percentile | No |
Processi di visualizzazione di SQL Runner | No |
Tabella di descrizione di SQL Runner | Sì |
Indici di SQL Runner | Sì |
SQL Runner Seleziona 10 | Sì |
Conteggio SQL Runner | Sì |
Spiegazione SQL | Sì |
Credenziali OAuth | No |
Commenti contestuali | Sì |
Pooling della connessione | No |
Disegni HLL | No |
Aggregate Awareness | Sì |
PDT incrementali | No |
Millisecondi | Sì |
Microsecondi | Sì |
Viste materializzate | No |
Conteggio approssimativo distinto | No |
Apache Hive 2.3 o versioni successive
Apache Hive 2.3+ supporta le seguenti funzionalità a partire da Looker 23.8:
Funzionalità | Supportato? |
---|---|
Livello di assistenza | Integrazione |
Looker (Google Cloud core) | No |
Aggregati simmetrici | No |
Tabelle derivate | Sì |
Tabelle derivate permanenti da SQL | Sì |
Tabelle derivate native permanenti | Sì |
Visualizzazioni stabili | Sì |
Termine query | Sì |
Pivot basati su SQL | No |
Fusi orari | Sì |
SSL | Sì |
Subtotali | Sì |
Parametri aggiuntivi JDBC | Sì |
Sensibilità alle maiuscole | Sì |
Tipo di località | Sì |
Tipo di elenco | Sì |
Percentile | Sì |
Distintivo percentile | No |
Processi di visualizzazione di SQL Runner | No |
Tabella di descrizione di SQL Runner | Sì |
Indici di SQL Runner | Sì |
SQL Runner Seleziona 10 | Sì |
Conteggio SQL Runner | Sì |
Spiegazione SQL | Sì |
Credenziali OAuth | No |
Commenti contestuali | Sì |
Pooling della connessione | No |
Disegni HLL | No |
Aggregate Awareness | Sì |
PDT incrementali | No |
Millisecondi | Sì |
Microsecondi | Sì |
Viste materializzate | No |
Conteggio approssimativo distinto | No |
Apache Hive 3.1.2 e versioni successive
Apache Hive 3.1.2+ supporta le seguenti funzionalità a partire da Looker 23.8:
Funzionalità | Supportato? |
---|---|
Livello di assistenza | Richiesta supportata |
Looker (Google Cloud core) | Sì |
Aggregati simmetrici | No |
Tabelle derivate | Sì |
Tabelle derivate permanenti da SQL | Sì |
Tabelle derivate native permanenti | Sì |
Visualizzazioni stabili | Sì |
Termine query | Sì |
Pivot basati su SQL | No |
Fusi orari | Sì |
SSL | Sì |
Subtotali | Sì |
Parametri aggiuntivi JDBC | Sì |
Sensibilità alle maiuscole | Sì |
Tipo di località | Sì |
Tipo di elenco | Sì |
Percentile | Sì |
Distintivo percentile | No |
Processi di visualizzazione di SQL Runner | No |
Tabella di descrizione di SQL Runner | Sì |
Indici di SQL Runner | No |
SQL Runner Seleziona 10 | Sì |
Conteggio SQL Runner | Sì |
Spiegazione SQL | Sì |
Credenziali OAuth | No |
Commenti contestuali | Sì |
Pooling della connessione | No |
Disegni HLL | No |
Aggregate Awareness | Sì |
PDT incrementali | No |
Millisecondi | Sì |
Microsecondi | Sì |
Viste materializzate | No |
Conteggio approssimativo distinto | No |
Passaggi successivi
Dopo aver connesso il database a Looker, configura le opzioni di accesso per i tuoi utenti.