Apache Spark

Diese Seite enthält Informationen zum Verbinden von Looker mit Apache Spark 3.

Looker stellt über eine JDBC-Verbindung zum Spark Thrift-Server eine Verbindung zu Apache Spark 3+ her.

Netzwerk-Datenverkehr verschlüsseln

Es empfiehlt sich, den Netzwerkverkehr zwischen der Looker-Anwendung und Ihrer Datenbank zu verschlüsseln. Sehen Sie sich eine der Optionen an, die auf der Dokumentationsseite Sicheren Datenbankzugriff aktivieren beschrieben werden.

Looker-Verbindung zu Ihrer Datenbank erstellen

Wählen Sie in Looker im Bereich Admin die Option Verbindungen aus und klicken Sie dann auf Verbindung hinzufügen.

Geben Sie die Verbindungsdetails ein. Die meisten Einstellungen sind den meisten Datenbankdialekten gemeinsam. Weitere Informationen finden Sie auf der Dokumentationsseite Looker mit Ihrer Datenbank verbinden. Einige der Einstellungen werden im Folgenden beschrieben:

  • Name: Der Name der Verbindung. Auf diese Weise wird im LookML-Modell auf die Verbindung verwiesen.
  • Dialekt: Wählen Sie Apache Spark 3+ aus.
  • Host: Der Thrift-Serverhost.
  • Port: Der Port des Thrift-Servers (standardmäßig 10000).
  • Datenbank: Das Standardschema bzw. die Standarddatenbank, die modelliert wird. Wenn für eine Tabelle keine Datenbank angegeben ist, wird davon ausgegangen.
  • Nutzername: Der Nutzer, als der Looker sich authentifiziert.
  • Password (Passwort): Das optionale Passwort für den Looker-Nutzer.
  • PDTs aktivieren: Mit dieser Ein/Aus-Schaltfläche können Sie persistente abgeleitete Tabellen aktivieren. Wenn PDTs aktiviert sind, werden im Fenster Connection (Verbindung) zusätzliche PDT-Einstellungen und der Bereich PDT Overrides (PDT-Überschreibungen) angezeigt.
  • Temporäre Datenbank: Ein temporäres Schema bzw. eine temporäre Datenbank zum Speichern von PDTs Er muss zuvor mit einer Anweisung wie CREATE SCHEMA looker_scratch; erstellt werden.
  • Zusätzliche JDBC-Parameter: Fügen Sie hier zusätzliche Hive-JDBC-Parameter hinzu, z. B.: <ph type="x-smartling-placeholder">
      </ph>
    • ;spark.sql.inMemoryColumnarStorage.compressed=true
    • ;auth=noSasl
  • SSL: Lassen Sie dieses Kästchen deaktiviert.
  • Datenbankzeitzone: Die Zeitzone der in Spark gespeicherten Daten. In der Regel kann sie leer gelassen oder auf UTC festgelegt werden.
  • Query Time Zone: Die Zeitzone für die Anzeige der in Looker abgefragten Daten.

Klicken Sie auf Testen, um zu prüfen, ob die Verbindung erfolgreich hergestellt wurde. Informationen zur Fehlerbehebung finden Sie auf der Dokumentationsseite Datenbankverbindung testen.

Klicken Sie auf Verbinden, um diese Einstellungen zu speichern.

Funktionsunterstützung

Damit Looker einige Funktionen unterstützen kann, müssen diese auch von Ihrem Datenbankdialekt unterstützt werden.

Apache Spark 3 und höher

Apache Spark 3+ unterstützt ab Looker 24.12 die folgenden Features:

Feature Unterstützt?
Supportstufe
Unterstützt
Looker (Google Cloud Core)
Ja
Symmetrische Summen
Ja
Abgeleitete Tabellen
Ja
Persistente SQL-Abgeleitete Tabellen
Ja
Nichtflüchtige native abgeleitete Tabellen
Ja
Stabile Ansichten
Ja
Anfrage wird abgebrochen
Ja
SQL-basierte Drehpunkte
Ja
Zeitzonen
Ja
SSL
Ja
Zwischensummen
Ja
Zusätzliche JDBC-Parameter
Ja
Groß-/Kleinschreibung beachten
Ja
Standorttyp
Ja
Listentyp
Ja
Perzentil
Ja
Unterschiedliches Perzentil
Nein
SQL Runner – Prozesse anzeigen
Nein
SQL Runner – Tabelle beschreiben
Ja
SQL Runner – Indexe anzeigen
Nein
SQL Runner – Select 10
Ja
Anzahl der SQL-Runner
Ja
SQL Explain
Ja
OAuth-Anmeldedaten
Nein
Kontextkommentare
Ja
Verbindungs-Pooling
Nein
HLL-Skizzen
Nein
Aggregatfunktion
Ja
Inkrementelle PDTs
Nein
Millisekunden
Ja
Mikrosekunden
Ja
Materialisierte Ansichten
Nein
Ungefähre Anzahl einzelner
Nein

Nächste Schritte

Nachdem Sie die Verbindung erstellt haben, legen Sie die Authentifizierungsoptionen fest.