Apache Spark

このページには、Looker を Apache Spark 3 に接続する方法について説明します。

Looker は、Spark Thrift サーバーと JDBC 接続を介して Apache Spark 3+ に接続します。

ネットワークトラフィックの暗号化

Looker アプリケーションとデータベース間のネットワーク トラフィックを暗号化することをおすすめします。セキュアなデータベースアクセスを可能にするドキュメント ページに記載されているオプションのいずれかを検討してください。

データベースへの Looker 接続の作成

Looker の [管理者] セクションで [接続] を選択し、[新しい接続] をクリックします。

接続の詳細を入力します。設定の大部分は、ほとんどのデータベース言語に共通するものです。詳細については、Looker をデータベースに接続するのドキュメント ページをご覧ください。設定の一部を次に説明します。

  • Name: 接続の名前。これは LookML モデルで接続を参照する仕組みです。
  • 言語: [Apache Spark 3+] を選択します。
  • ホスト: Thrift サーバーのホスト。
  • ポート: Thrift サーバーのポート(デフォルトでは 10000)。
  • データベース: モデル化されるデフォルトのスキーマ / データベース。テーブルにデータベースが指定されていない場合は、これが想定されます。
  • Username: Looker の認証に使用するユーザー。
  • パスワード: Looker ユーザーのパスワード(省略可)。
  • PDT を有効にする: 有効にするには、この切り替えボタンを使用して永続的な派生テーブルを有効にします。PDT が有効になると、追加の PDT 設定と [PDT オーバーライド]が [接続] ウィンドウに表示されます。
  • 一時データベース: PDT を保存するための一時スキーマ/データベース。CREATE SCHEMA looker_scratch; などのステートメントを使用して、事前に作成する必要があります。
  • その他の JDBC パラメータ: Hive JDBC パラメータ(
      など)を追加します。
    • ;spark.sql.inMemoryColumnarStorage.compressed=true
    • ;auth=noSasl
  • SSL: オフ。
  • データベースのタイムゾーン: Spark に保存されているデータのタイムゾーン。通常は、空白のままにするか、UTC に設定します。
  • クエリのタイムゾーン: Looker でクエリされたデータを表示するタイムゾーン。

接続が成功したことを確認するには、[テスト] をクリックします。トラブルシューティング情報については、データベース接続のテストのドキュメント ページをご覧ください。

これらの設定を保存するには、[接続] をクリックします。

機能のサポート

一部の機能については、Looker でサポートするには、データベース言語が同じ機能に対応している必要があります。

Apache Spark 3 以降

Apache Spark 3 以降では、Looker 24.8 の時点で、次の機能がサポートされています。

特徴 サポート対象
サポート レベル
サポート対象
Looker(Google Cloud コア)
はい
対称集計
あり
派生テーブル
あり
永続的な SQL 派生テーブル
あり
永続的なネイティブ派生テーブル
あり
安定したビュー
あり
クエリの強制終了
あり
SQL ベースのピボット
あり
タイムゾーン
あり
SSL
あり
Subtotals
あり
JDBC の追加パラメータ
あり
Case Sensitive
あり
ロケーション タイプ
あり
リストのタイプ
あり
パーセンタイル
あり
個別のパーセンタイル
いいえ
SQL Runner の表示プロセス
いいえ
SQL Runner の説明テーブル
あり
SQL Runner 表示インデックス
いいえ
SQL Runner Select 10
あり
SQL ランナーの数
あり
SQL の説明
あり
Oauth 認証情報
いいえ
コンテキスト コメント
あり
接続プーリング
いいえ
HLL スケッチ
いいえ
集計認識
あり
増分PDT
いいえ
ミリ秒
あり
マイクロ秒
あり
マテリアライズド ビュー
いいえ
Approximate Count Distinct
いいえ

次のステップ

接続を作成したら、認証のオプションを設定します。