캐시 처리된 쿼리 결과 사용

BigQuery는 모든 쿼리 결과를 테이블에 작성합니다. 이 테이블은 사용자(대상 테이블)에 의해 명시적으로 식별된 테이블이거나 캐시 처리된 임시 결과 테이블일 수 있습니다. 정확히 동일한 쿼리를 다시 실행하면 BigQuery에서 캐시 처리된 테이블의 결과를 반환합니다(있는 경우). 캐시 처리된 임시 결과 테이블은 사용자 및 프로젝트별로 유지관리됩니다. 버전에 따라 동일한 프로젝트에서 쿼리를 실행하는 다른 사용자의 캐시 처리된 결과에 액세스할 수 있습니다. 캐시 처리된 쿼리 결과 테이블에서는 스토리지 비용이 발생하지 않지만 영구 테이블에 쿼리 결과를 쓰면 데이터 저장 요금이 청구됩니다.

대화형 및 일괄 쿼리가 모두 포함된 모든 쿼리 결과가 일부 예외를 제외하고 약 24시간 동안 임시 테이블에 캐시 처리됩니다.

제한사항

쿼리 캐시 사용 시 다음 제한사항이 적용됩니다.

중복 쿼리를 실행하면 BigQuery가 캐시 처리된 결과를 다시 사용하려고 시도합니다. 캐시에서 데이터를 검색하려면 중복 쿼리 텍스트가 원본 쿼리와 같아야 합니다.
쿼리 결과를 캐시 처리된 결과 테이블에 유지하려면 결과 집합이 최대 응답 크기보다 작아야 합니다. 큰 결과 집합 관리에 대한 자세한 내용은 큰 쿼리 결과 반환을 참조하세요.
DML 문을 포함한 캐시 처리된 결과 테이블은 타겟팅할 수 없습니다.
현재 시맨틱스에서 허용되더라도 종속 작업의 입력으로 캐시 처리된 결과를 사용하지 않는 것이 좋습니다. 예를 들어 캐시 테이블의 결과를 검색하는 쿼리 작업을 제출해서는 안 됩니다. 대신 이름이 지정된 대상 테이블에 결과를 작성합니다. 데이터 세트 수준의 defaultTableExpirationMs 속성과 같은 기능을 사용하면 지정된 기간 후에 데이터가 자동으로 만료되어 간편하게 정리할 수 있습니다.

가격 및 할당량

캐시된 쿼리 결과는 임시 테이블로 저장됩니다. 임시 테이블에 캐시된 쿼리 결과를 저장하는 비용은 청구되지 않습니다. 캐시 처리된 결과 테이블에서 쿼리 결과를 검색하면 작업 통계 속성 statistics.query.cacheHit가 true로 반환되며 쿼리 요금이 청구되지 않습니다. 캐시 처리된 결과를 사용하는 쿼리에는 요금이 청구되지 않지만 BigQuery 할당량 정책이 쿼리에 적용됩니다. 비용 절감뿐만 아니라 BigQuery에서 결과 집합을 계산할 필요가 없으므로 캐시 처리된 결과를 사용하는 쿼리 속도가 현저히 빠릅니다.

쿼리 캐싱 예외

다음과 같은 경우 쿼리 결과가 캐시 처리되지 않습니다.

대상 테이블이 작업 구성, Google Cloud 콘솔, bq 명령줄 도구 또는 API에 지정된 경우
전에 결과가 캐시 처리된 후로 참조된 테이블 또는 논리 뷰가 하나라도 변경된 경우
새 행이 도착하지 않았더라도 쿼리에서 참조하는 테이블 중 하나에서 최근 스트리밍 삽입을 수신한 경우(테이블에 쓰기 최적화 스토리지의 데이터가 있음)
쿼리에서 날짜 및 시간 함수(예: CURRENT_TIMESTAMP(), CURRENT_DATE 및 SESSION_USER()와 같은 다른 함수) 등의 비확정 함수를 사용하여 쿼리 실행 시기에 따라 다른 값을 반환하는 경우
와일드 카드를 사용해 여러 테이블을 쿼리하는 경우
캐시 처리된 결과가 만료된 경우 - 일반적인 캐시 수명은 24시간이지만 결과를 캐시 처리하는 것이 최선이므로 더 일찍 무효화될 수 있습니다.
쿼리가 Cloud Storage 이외의 외부 데이터 소스를 대상으로 실행되는 경우 (Cloud Storage의 GoogleSQL 쿼리는 캐시된 쿼리 결과에서 지원됩니다.)
행 수준 보안으로 보호되는 테이블에 대해 쿼리가 실행되는 경우에는 결과가 캐시되지 않습니다.
열 수준 보안으로 보호되는 테이블에 대해 쿼리가 실행되는 경우에는 결과가 캐시되지 않을 수 있습니다.

캐시 처리된 결과 저장 방식

쿼리를 실행하면 익명 데이터 세트라고 하는 특수한 유형의 숨겨진 데이터 세트에 캐시된 임시 결과 테이블이 생성됩니다. IAM 리소스 계층 구조 모델에서 권한(프로젝트 및 조직 권한)을 상속하는 정규화 데이터 세트와 달리 익명 데이터 세트에 대한 액세스는 소유자로 제한됩니다. 익명 데이터 세트의 소유자란 캐시 처리된 결과가 생성된 쿼리를 실행한 사용자를 말합니다. 또한 프로젝트에서 bigquery.jobs.create 권한을 검사하여 사용자에게 프로젝트 액세스 권한이 있는지 확인합니다.

BigQuery는 익명 데이터 세트 공유를 지원하지 않습니다. 쿼리 결과를 공유할 생각이라면 익명 데이터 세트에 저장된 캐시 처리된 결과를 사용하지 마세요. 대신 이름이 지정된 대상 테이블에 결과를 기록하세요.

쿼리를 실행하는 사용자가 데이터 세트 및 캐시 처리된 결과 테이블에 대한 모든 액세스 권한을 가지고 있지만 이를 종속 작업의 입력으로 사용하지 않는 것이 좋습니다.

익명 데이터 세트 이름은 밑줄로 시작됩니다. 이렇게 하면 Google Cloud 콘솔의 데이터 세트 목록에 표시되지 않습니다. bq 명령줄 도구나 API를 사용하여 익명 데이터 세트를 나열하고 익명 데이터 세트 액세스 제어를 감사할 수 있습니다.

익명 데이터 세트를 포함한 데이터 세트 나열 및 가져오기에 대한 자세한 내용은 데이터 세트 나열을 참조하세요.

교차 사용자 캐싱

Enterprise 또는 Enterprise Plus 버전을 사용 중이고 다른 사용자의 프로젝트에서 캐시 처리된 쿼리를 실행하는 데 필요한 권한이 있는 경우 BigQuery가 캐시 처리된 결과를 생성합니다. 캐시 처리된 결과가 개인 익명 데이터 세트에 복사되고 쿼리를 실행한 후 24시간 동안 유지됩니다. 단일 사용자 캐싱에 적용되는 한도와 예외가 교차 사용자 캐싱에도 적용됩니다.

캐시 처리된 결과 검색 중지

캐시 처리된 결과 사용 옵션에서는 쿼리되는 테이블이 변경되지 않은 한, 이전에 실행된 동일 쿼리의 결과를 다시 사용합니다. 캐시 처리된 결과의 사용은 반복되는 쿼리에 한해 유용합니다. 새 쿼리의 경우 캐시 처리된 결과 사용 옵션이 기본적으로 사용 설정되어 있으나 효과는 없습니다.

캐시 처리된 결과 사용 옵션을 사용 중지한 상태에서 쿼리를 반복하면 캐시 처리된 기존 결과를 덮어씁니다. 이 경우 BigQuery에서 쿼리 결과를 계산해야 하며 쿼리 요금이 부과됩니다. 이는 벤치마킹 시나리오에 특히 유용합니다.

캐시 처리된 결과의 검색을 사용 중지하고 쿼리 작업의 실시간 평가를 강제 적용하려면 쿼리 작업의 configuration.query.useQueryCache 속성을 false로 설정하면 됩니다.

캐시 처리된 결과 사용 옵션을 사용 중지하는 방법:

Console

Google Cloud 콘솔을 엽니다.
BigQuery 페이지로 이동
새 쿼리 작성을 클릭합니다.
쿼리 편집기 텍스트 영역에 유효한 SQL 쿼리를 입력합니다.
더보기를 클릭하고 쿼리 설정을 선택합니다.
캐시 환경설정에서 캐시 처리된 결과 사용을 선택 해제합니다.

bq

nouse_cache 플래그를 사용하여 쿼리 캐시를 덮어씁니다. 다음 예시에서는 BigQuery에서 캐시 처리된 기존 결과를 사용하지 않고 쿼리를 강제로 처리합니다.

 bq query \
 --nouse_cache \
 --batch \
 'SELECT
    name,
    count
  FROM
    `my-project`.mydataset.names_2013
  WHERE
    gender = "M"
  ORDER BY
    count DESC
  LIMIT
    6'