Apache Spark

Looker は、Spark Thrift サーバーへの JDBC 接続を介して、Apache Spark に接続します。

Looker の Apache Spark への接続

Looker のインターフェースを使用してデータベース接続を構成します。[Admin] セクションで、[Connections] を選択して [Add Connection] をクリックします。詳細については、Looker のデータベースへの接続ページをご覧ください。

次のようにページに入力します。

  • 名前: 接続の名前。これは、LookML モデルで接続の参照方法です。
  • Dialect: Apache Spark 1.5 以降Apache Spark 2 以降、または Apache Spark 3+ を選択します。
  • Host:Port: Thrift サーバーのホストとポート(デフォルトは 10000)。
  • データベース: モデル化されるデフォルトのスキーマ/データベース。テーブルにデータベースが指定されていない場合、これが想定されます。
  • ユーザー名: Looker が認証するユーザー。
  • Password: Looker ユーザーのパスワード(省略可)。
  • 永続的な派生テーブル: Looker で PDT を使用する場合は、このチェックボックスをオンにします。
  • 一時データベース: PDT を保存するための一時的なスキーマ / データベース。これは、CREATE SCHEMA looker_scratch; などのステートメントを使用して事前に作成する必要があります。
  • 追加のパラメータ: 追加の Hive JDBC パラメータをここで追加します。例: ;spark.sql.inMemoryColumnarStorage.compressed=true
    ;auth=noSasl
  • SSL: オフのままにします。
  • データベースのタイムゾーン: Spark に保存されているデータのタイムゾーン。通常は空白のままにすることも、UTC に設定することもできます
  • Query Time Zone: Looker でクエリされたデータを表示するタイムゾーン。

[Test Settings] をクリックして接続をテストし、正しく設定されていることを確認します。[接続できます] と表示されたら、[接続を追加] を押します。残りの接続テストが実行され、サービスアカウントが適切なロールで正常に設定されたことを検証します。

接続設定の詳細については、Looker のデータベースへの接続ドキュメント ページをご覧ください。

機能のサポート

一部の機能については、Lookerでサポートするには、データベースダイアレクトが同じ機能に対応している必要があります。

最新バージョンの Looker では、Apache Spark 1.5 以降で次の Looker 機能がサポートされています。

最新バージョンの Looker では、Apache Spark 2.0 は次の Looker 機能をサポートしています。

最新バージョンの Looker では、Apache Spark 3+ が次の Looker 機能をサポートしています。

次のステップ

接続を作成したら、認証オプションを設定します。