Looker は、標準 SQL を使用して Amazon S3 のデータを簡単に分析できるインタラクティブなクエリサービス、Amazon Athena への接続をサポートしています。Amazon Athena はサーバーレスであるため、管理するインフラストラクチャはありません。料金は実行したクエリに対してのみ発生します。
このページでは、Looker を Amazon Athena インスタンスに接続する方法について説明します。
以下があることを確認してください。
- Amazon AWS のアクセスキーのペア。
Amazon Athena を使用して Looker でクエリを実行するデータを含む S3 バケット。Amazon AWS アクセスキーには、このバケットに対する読み取り / 書き込みアクセス権が必要です。
Amazon Athena は、ロールまたは権限セットのいずれかと、ファイアウォール ルールによって、この S3 バケットにアクセスできる必要があります。Looker の IP の S3 バケットにセキュリティ ルールを追加しないでください。セキュリティ ルールが誤って Amazon Athena の S3 バケットにアクセスできなくなる可能性があります。(Amazon Athena 以外の言語では、安全なデータベース アクセスを有効にするのドキュメント ページに記載されているように、ユーザーが IP 許可リストを使用してネットワーク レイヤからのデータへのアクセスを制限できます。)
Amazon Athena インスタンス データの格納場所に関する知識。リージョン名は、Amazon Console の右上にあります。
Looker の [管理者] セクションで [接続] を選択し、[新しい接続] をクリックします。
接続の詳細を入力します。
- 名前: 接続の名前を指定します。この名前で LookML プロジェクトの接続を参照します。
- 言語: [Amazon Athena] を選択します。
- ホストとポート: JDBC URL 形式の Athena ドキュメントの説明に従って、ホストとポートの名前を指定します。ホストは有効な Amazon エンドポイント(
athena.eu-west-1.amazonaws.com
など)で、ポートが443
になっている必要があります。Athena をサポートするエンドポイントの最新リストは、この AWS 一般リファレンス ページにあります。 - データベース: モデル化するデフォルトのデータベースを指定します。他のデータベースにもアクセスできますが、Looker はこのデータベースをデフォルトのデータベースとして扱います。
- ユーザー名: AWS アクセスキー ID を指定します。
- パスワード: AWS のシークレット アクセスキーを指定します。
- PDT を有効にする: 永続的な派生テーブル(PDT)を有効にするには、この切り替えボタンを使用します。PDT を有効にすると、追加の PDT フィールドと、接続用の [PDT オーバーライド] セクションが表示されます。
- 一時データベース: PDT を書き込む S3 バケットの出力ディレクトリの名前を指定します。出力ディレクトリへのフルパスは、[その他の JDBC パラメータ] フィールドに指定する必要があります。このページのクエリ結果の出力と PDT に S3 バケットを指定するをご覧ください。
- PDT ビルダー接続の最大数: この接続で同時に可能な PDT ビルドの数を指定します。この値が多すぎると、クエリ時間に悪影響を及ぼす可能性があります。詳細については、Looker をデータベースに接続のドキュメント ページをご覧ください。
- その他の JDBC パラメータ: 接続の追加パラメータを指定します。
s3_staging_dir
パラメータは、Looker がクエリ結果出力と PDT に使用する S3 バケットです。このページのクエリ結果出力と PDT の S3 バケットの指定をご覧ください。- 結果のストリーミングのフラグ。Athena ユーザーに
athena:GetQueryResultsStream
ポリシーが関連付けられている場合は、追加の JDBC パラメータの末尾に;UseResultsetStreaming=1
を追加すると、大規模な結果セット抽出のパフォーマンスを大幅に向上させることができます。このパラメータはデフォルトで0
に設定されています。 - JDBC 接続文字列に追加するオプションのパラメータ。
- SSL: 無視します。デフォルトでは、AWS API へのすべての接続が暗号化されます。
- ノードあたりの最大接続数: デフォルトでは 5 に設定されています。Athena で実行されるメインのクエリエンジンが Looker の場合、これを 20 まで増やすことができます。サービス上限の詳細については、Athena サービス上限のドキュメントをご覧ください。詳細については、Looker をデータベースに接続するのドキュメント ページをご覧ください。
- 接続プールのタイムアウト: 接続プールのタイムアウトを指定します。デフォルトのタイムアウトは 120 秒に設定されています。詳細については、Looker をデータベースに接続するのドキュメント ページをご覧ください。
- SQL Runner Precache: テーブルが選択されている場合にのみ、SQL Runner でテーブル情報を読み込む場合に、このチェックボックスをオフにします。詳細については、Looker をデータベースに接続するのドキュメント ページをご覧ください。
- データベースのタイムゾーン: データベースで使用されるタイムゾーンを指定します。タイムゾーン変換を希望しない場合は、このフィールドを空白のままにします。詳しくは、タイムゾーン設定の使用のドキュメント ページをご覧ください。
接続が成功したことを確認するには、[テスト] をクリックします。トラブルシューティング情報については、データベース接続のテストのドキュメント ページをご覧ください。
これらの設定を保存するには、[接続] をクリックします。
クエリ結果出力と PDT の S3 バケットの指定
[接続] ページの [その他の JDBC パラメータ] フィールドを使用して、Looker がクエリ結果出力の保存に使用する S3 バケットへのパスを構成し、Looker で PDT を書き込む S3 バケット内の出力ディレクトリの名前を指定します。この情報は、s3_staging_dir
パラメータで指定します。
Athena JDBC 接続に必要な Amazon Athena S3OutputLocation
プロパティを構成するには、s3_staging_dir
JDBC パラメータを使用することもできます。詳細と利用可能な JDBC ドライバ オプションの一覧については、JDBC ドライバ オプションに関する Athena ドキュメントをご覧ください。
[その他の JDBC パラメータ] フィールドに次の形式を使用して s3_staging_dir
パラメータを指定します。
`s3_staging_dir=s3://<s3-bucket>/<output-path>`
ここで
<s3-bucket>
は、S3 バケットの名前です。<output-path>
は、Looker がクエリ結果の出力を書き込むパスです。
AWS アクセスキーのペアには、
<s3-bucket>
ディレクトリへの書き込み権限が必要です。
Looker が PDT を書き込むディレクトリを構成するには、[一時データベース] フィールドに。上記 S3 バケット内のディレクトリのパスを入力します。
たとえば、Looker で PDT を s3://<s3-bucket>/looker_scratch
に書き込む場合は、[一時データベース] フィールドに次のように入力します。
`looker_scratch`
ディレクトリのパスのみを入力します。Looker は、[その他の JDBC パラメータ] フィールドに入力した s3_staging_dir
パラメータから S3 バケット名を取得します。
S3 バケットに関する考慮事項
Amazon S3 オブジェクトのライフサイクルを構成して、指定した S3 バケット内の不要なファイルを定期的にクリーンアップすることをおすすめします。これには次の理由があります。
- Athena は、すべてのクエリのクエリ結果を S3 バケットに保存します。Athena のクエリ処理をご覧ください。
- PDT を有効にしている場合は、PDT がビルドされると、作成されたテーブルに関するメタデータが S3 バケットに保存されます。
関連情報
- Amazon Athena のドキュメント
- Athena 用 Amazon Web Services Console(AWS ログインが必要)
- Amazon Athena SQL と HiveQL リファレンス
デバッグ
Amazon では、接続をデバッグするための JDBC ドライバ オプション LogLevel
と LogPath
を提供しています。これらを使用するには、[その他の JDBC パラメータ] フィールドの末尾に ;LogLevel=DEBUG;LogPath=/tmp/athena_debug.log
を追加して接続を再度テストします。
Looker がインスタンスをホストしている場合、Looker のサポートまたはアナリストは、デバッグを続行するためにこのファイルを取得する必要があります。
機能のサポート
一部の機能については、Looker でサポートするには、データベース言語が同じ機能に対応している必要があります。
Amazon Athena では、Looker 23.8 の時点で、次の機能がサポートされています。
特徴 | サポート対象 |
---|---|
サポート レベル | サポート対象 |
Looker(Google Cloud コア) | はい |
対称集計 | あり |
派生テーブル | あり |
永続的な SQL 派生テーブル | あり |
永続的なネイティブ派生テーブル | あり |
安定したビュー | あり |
クエリの強制終了 | はい |
SQL ベースのピボット | はい |
タイムゾーン | あり |
SSL | あり |
Subtotals | いいえ |
JDBC の追加パラメータ | あり |
Case Sensitive | あり |
ロケーション タイプ | あり |
リストのタイプ | あり |
パーセンタイル | あり |
個別のパーセンタイル | いいえ |
SQL Runner の表示プロセス | いいえ |
SQL Runner の説明テーブル | あり |
SQL Runner 表示インデックス | いいえ |
SQL Runner Select 10 | あり |
SQL ランナーの数 | あり |
SQL の説明 | いいえ |
Oauth 認証情報 | いいえ |
コンテキスト コメント | あり |
接続プーリング | いいえ |
HLL スケッチ | あり |
集計認識 | あり |
増分PDT | いいえ |
ミリ秒 | あり |
マイクロ秒 | いいえ |
マテリアライズド ビュー | いいえ |
Approximate Count Distinct | あり |
次のステップ
データベース接続が完了したら、認証オプションを構成します。