Amazon Athena

Looker は、標準 SQL を使用して Amazon S3 のデータを簡単に分析できるインタラクティブなクエリサービス、Amazon Athena への接続をサポートしています。Amazon Athena はサーバーレスであるため、管理するインフラストラクチャはありません。料金は実行したクエリに対してのみ発生します。

このページでは、Looker を Amazon Athena インスタンスに接続する方法について説明します。

  1. 以下があることを確認してください。

    • Amazon AWS のアクセスキーのペア。
    • Amazon Athena を使用して Looker でクエリを実行するデータを含む S3 バケット。Amazon AWS アクセスキーには、このバケットに対する読み取り / 書き込みアクセス権が必要です。

      Amazon Athena は、ロールまたは権限セットのいずれかと、ファイアウォール ルールによって、この S3 バケットにアクセスできる必要があります。Looker の IP の S3 バケットにセキュリティ ルールを追加しないでください。セキュリティ ルールが誤って Amazon Athena の S3 バケットにアクセスできなくなる可能性があります。(Amazon Athena 以外の言語では、安全なデータベース アクセスを有効にするのドキュメント ページに記載されているように、ユーザーが IP 許可リストを使用してネットワーク レイヤからのデータへのアクセスを制限できます。)

    • Amazon Athena インスタンス データの格納場所に関する知識。リージョン名は、Amazon Console の右上にあります。

  2. Looker の [管理者] セクションで [接続] を選択し、[新しい接続] をクリックします。

  3. 接続の詳細を入力します。

    • 名前: 接続の名前を指定します。この名前で LookML プロジェクトの接続を参照します。
    • 言語: [Amazon Athena] を選択します。
    • ホストポート: JDBC URL 形式の Athena ドキュメントの説明に従って、ホストとポートの名前を指定します。ホストは有効な Amazon エンドポイント(athena.eu-west-1.amazonaws.com など)で、ポートが 443 になっている必要があります。Athena をサポートするエンドポイントの最新リストは、この AWS 一般リファレンス ページにあります。
    • データベース: モデル化するデフォルトのデータベースを指定します。他のデータベースにもアクセスできますが、Looker はこのデータベースをデフォルトのデータベースとして扱います。
    • ユーザー名: AWS アクセスキー ID を指定します。
    • パスワード: AWS のシークレット アクセスキーを指定します。
    • PDT を有効にする: 永続的な派生テーブル(PDT)を有効にするには、この切り替えボタンを使用します。PDT を有効にすると、追加の PDT フィールドと、接続用の [PDT オーバーライド] セクションが表示されます。
    • 一時データベース: PDT を書き込む S3 バケットの出力ディレクトリの名前を指定します。出力ディレクトリへのフルパスは、[その他の JDBC パラメータ] フィールドに指定する必要があります。このページのクエリ結果の出力と PDT に S3 バケットを指定するをご覧ください。
    • PDT ビルダー接続の最大数: この接続で同時に可能な PDT ビルドの数を指定します。この値が多すぎると、クエリ時間に悪影響を及ぼす可能性があります。詳細については、Looker をデータベースに接続のドキュメント ページをご覧ください。
    • その他の JDBC パラメータ: 接続の追加パラメータを指定します。
      • s3_staging_dir パラメータは、Looker がクエリ結果出力と PDT に使用する S3 バケットです。このページのクエリ結果出力と PDT の S3 バケットの指定をご覧ください。
      • 結果のストリーミングのフラグ。Athena ユーザーに athena:GetQueryResultsStream ポリシーが関連付けられている場合は、追加の JDBC パラメータの末尾に ;UseResultsetStreaming=1 を追加すると、大規模な結果セット抽出のパフォーマンスを大幅に向上させることができます。このパラメータはデフォルトで 0 に設定されています。
      • JDBC 接続文字列に追加するオプションのパラメータ。
    • SSL: 無視します。デフォルトでは、AWS API へのすべての接続が暗号化されます。
    • ノードあたりの最大接続数: デフォルトでは 5 に設定されています。Athena で実行されるメインのクエリエンジンが Looker の場合、これを 20 まで増やすことができます。サービス上限の詳細については、Athena サービス上限のドキュメントをご覧ください。詳細については、Looker をデータベースに接続するのドキュメント ページをご覧ください。
    • 接続プールのタイムアウト: 接続プールのタイムアウトを指定します。デフォルトのタイムアウトは 120 秒に設定されています。詳細については、Looker をデータベースに接続するのドキュメント ページをご覧ください。
    • SQL Runner Precache: テーブルが選択されている場合にのみ、SQL Runner でテーブル情報を読み込む場合に、このチェックボックスをオフにします。詳細については、Looker をデータベースに接続するのドキュメント ページをご覧ください。
    • データベースのタイムゾーン: データベースで使用されるタイムゾーンを指定します。タイムゾーン変換を希望しない場合は、このフィールドを空白のままにします。詳しくは、タイムゾーン設定の使用のドキュメント ページをご覧ください。

接続が成功したことを確認するには、[テスト] をクリックします。トラブルシューティング情報については、データベース接続のテストのドキュメント ページをご覧ください。

これらの設定を保存するには、[接続] をクリックします。

クエリ結果出力と PDT の S3 バケットの指定

[接続] ページの [その他の JDBC パラメータ] フィールドを使用して、Looker がクエリ結果出力の保存に使用する S3 バケットへのパスを構成し、Looker で PDT を書き込む S3 バケット内の出力ディレクトリの名前を指定します。この情報は、s3_staging_dir パラメータで指定します。

Athena JDBC 接続に必要な Amazon Athena S3OutputLocation プロパティを構成するには、s3_staging_dir JDBC パラメータを使用することもできます。詳細と利用可能な JDBC ドライバ オプションの一覧については、JDBC ドライバ オプションに関する Athena ドキュメントをご覧ください。

[その他の JDBC パラメータ] フィールドに次の形式を使用して s3_staging_dir パラメータを指定します。

`s3_staging_dir=s3://<s3-bucket>/<output-path>`

ここで

  • <s3-bucket> は、S3 バケットの名前です。
  • <output-path> は、Looker がクエリ結果の出力を書き込むパスです。

AWS アクセスキーのペアには、<s3-bucket> ディレクトリへの書き込み権限が必要です。

Looker が PDT を書き込むディレクトリを構成するには、[一時データベース] フィールドに。上記 S3 バケット内のディレクトリのパスを入力します。 たとえば、Looker で PDT を s3://<s3-bucket>/looker_scratch に書き込む場合は、[一時データベース] フィールドに次のように入力します。

`looker_scratch`

ディレクトリのパスのみを入力します。Looker は、[その他の JDBC パラメータ] フィールドに入力した s3_staging_dir パラメータから S3 バケット名を取得します。

S3 バケットに関する考慮事項

Amazon S3 オブジェクトのライフサイクルを構成して、指定した S3 バケット内の不要なファイルを定期的にクリーンアップすることをおすすめします。これには次の理由があります。

  • Athena は、すべてのクエリのクエリ結果を S3 バケットに保存します。Athena のクエリ処理をご覧ください。
  • PDT を有効にしている場合は、PDT がビルドされると、作成されたテーブルに関するメタデータが S3 バケットに保存されます。

関連情報

デバッグ

Amazon では、接続をデバッグするための JDBC ドライバ オプション LogLevelLogPath を提供しています。これらを使用するには、[その他の JDBC パラメータ] フィールドの末尾に ;LogLevel=DEBUG;LogPath=/tmp/athena_debug.log を追加して接続を再度テストします。

Looker がインスタンスをホストしている場合、Looker のサポートまたはアナリストは、デバッグを続行するためにこのファイルを取得する必要があります。

機能のサポート

一部の機能については、Looker でサポートするには、データベース言語が同じ機能に対応している必要があります。

Amazon Athena では、Looker 23.8 の時点で、次の機能がサポートされています。

特徴 サポート対象
サポート レベル
サポート対象
Looker(Google Cloud コア)
はい
対称集計
あり
派生テーブル
あり
永続的な SQL 派生テーブル
あり
永続的なネイティブ派生テーブル
あり
安定したビュー
あり
クエリの強制終了
はい
SQL ベースのピボット
はい
タイムゾーン
あり
SSL
あり
Subtotals
いいえ
JDBC の追加パラメータ
あり
Case Sensitive
あり
ロケーション タイプ
あり
リストのタイプ
あり
パーセンタイル
あり
個別のパーセンタイル
いいえ
SQL Runner の表示プロセス
いいえ
SQL Runner の説明テーブル
あり
SQL Runner 表示インデックス
いいえ
SQL Runner Select 10
あり
SQL ランナーの数
あり
SQL の説明
いいえ
Oauth 認証情報
いいえ
コンテキスト コメント
あり
接続プーリング
いいえ
HLL スケッチ
あり
集計認識
あり
増分PDT
いいえ
ミリ秒
あり
マイクロ秒
いいえ
マテリアライズド ビュー
いいえ
Approximate Count Distinct
あり

次のステップ

データベース接続が完了したら、認証オプションを構成します。