Apache Spark

このページには、Looker の Apache Spark 3 への接続に関する情報が記載されています。

Looker は、Spark Thrift サーバーと JDBC 接続を介して Apache Spark 3+ に接続します。

ネットワークトラフィックの暗号化

Looker アプリケーションとデータベース間のネットワークトラフィックを暗号化することをおすすめします。セキュアなデータベースアクセスを可能にするドキュメントページに記載されているオプションのいずれかを検討してください。

データベースへの Looker 接続の作成

Looker の [管理者] セクションで [接続] を選択し、[新しい接続] をクリックします。

接続の詳細を入力します。設定の大部分は、ほとんどのデータベース言語に共通するものです。詳細については、Looker をデータベースに接続するのドキュメントページをご覧ください。設定の一部を次に説明します。

Name: 接続の名前。これは LookML モデルで接続を参照する仕組みです。
言語: [Apache Spark 3+] を選択します。
ホスト: Thrift サーバーのホスト。
ポート: Thrift サーバーのポート（デフォルトでは 10000）。
データベース: モデル化されるデフォルトのスキーマ / データベース。テーブルにデータベースが指定されていない場合は、これが想定されます。
Username: Looker の認証に使用するユーザー。
パスワード: Looker ユーザーのパスワード（省略可）。
PDT を有効にする: 有効にするには、この切り替えボタンを使用して永続的な派生テーブルを有効にします。PDT が有効になると、追加の PDT 設定と [PDT オーバーライド]が [接続] ウィンドウに表示されます。
一時データベース: PDT を保存するための一時スキーマ/データベース。CREATE SCHEMA looker_scratch; などのステートメントを使用して、事前に作成しておく必要があります。
その他の JDBC パラメータ: Hive JDBC パラメータ（
- ;spark.sql.inMemoryColumnarStorage.compressed=true
- ;auth=noSasl
SSL: オフ。
データベースのタイムゾーン: Spark に保存されるデータのタイムゾーン。通常は、空白のままにするか、UTC に設定します。
クエリのタイムゾーン: Looker でクエリされたデータを表示するタイムゾーン。

接続が成功したことを確認するには、[テスト] をクリックします。トラブルシューティング情報については、データベース接続のテストのドキュメントページをご覧ください。

これらの設定を保存するには、[接続] をクリックします。

機能のサポート

一部の機能については、Looker でサポートするには、データベース言語が同じ機能に対応している必要があります。

Apache Spark 3 以降

Apache Spark 3 以降では、Looker 24.18 の時点で、次の機能がサポートされています。

機能	サポート対象
サポートレベル	サポート対象
Looker（Google Cloud コア）	○
対称集計	○
派生テーブル	○
永続的な SQL 派生テーブル	○
永続的なネイティブ派生テーブル	○
安定したビュー	○
クエリの強制終了	○
SQL ベースのピボット	○
タイムゾーン	○
SSL	○
Subtotals	○
JDBC の追加パラメータ	○
大文字と小文字を区別	○
ロケーションタイプ	○
リストのタイプ	○
パーセンタイル	○
個別のパーセンタイル	×
SQL Runner の表示プロセス	×
SQL Runner の説明テーブル	○
SQL Runner 表示インデックス	×
SQL Runner Select 10	○
SQL ランナーの数	○
SQL の説明	○
Oauth 認証情報	×
コンテキストコメント	○
接続プーリング	×
HLL スケッチ	×
集計認識	○
増分PDT	×
ミリ秒	○
マイクロ秒	○
マテリアライズドビュー	×
Approximate Count Distinct	×

次のステップ

接続を作成したら、認証のオプションを設定します。