인스턴스의 높은 메모리 사용량 최적화

MySQL | PostgreSQL | SQL Server

이 문서에서는 Cloud SQL 인스턴스의 높은 메모리 사용량을 확인하는 방법을 설명하고 메모리 관련 문제를 해결하는 방법에 대한 권장사항을 제공합니다.

Cloud SQL 인스턴스의 메모리 사용량을 구성하는 방법을 알아보려면 메모리 사용량 관리 권장사항을 참고하세요.

메모리 사용량이 많은 항목 식별

다음 섹션에서는 메모리 사용량이 많은 시나리오를 설명합니다.

측정항목 탐색기를 사용하여 메모리 사용량 식별

측정항목 탐색기의 database/memory/components.usage 측정항목을 사용하여 인스턴스의 메모리 사용량을 검토할 수 있습니다.

쿼리 통계를 사용하여 리소스 사용량이 많은 쿼리의 설명 계획 분석

쿼리 통계는 Cloud SQL 데이터베이스의 쿼리 성능 문제를 감지하고 진단하고 방지하는 데 도움이 됩니다. 쿼리 통계에서는 장기 실행 쿼리 목록과 함께 설명 계획(PostgreSQL 문서)을 제공합니다. 설명 계획을 검토하고 높은 메모리 사용량 스캔 메서드가 있는 쿼리 부분을 식별합니다. 쿼리 실행 시간에 관계없이 쿼리 통계는 모든 쿼리의 실행 계획을 제공합니다. 더 많은 시간이 소요되는 복잡한 쿼리를 식별하여 어떤 쿼리가 메모리를 오랫동안 차단하는지 파악합니다.

많은 메모리를 사용하는 일반적인 PostgreSQL 스캔 메서드는 다음과 같습니다.

비트맵 힙 스캔
빠른 정렬
해시 조인 또는 해시

Gemini 지원 인스턴스의 높은 메모리 사용량 및 관련 로그

데이터베이스 다운타임으로 이어지는 메모리 부족(OOM) 대신 Gemini가 사용 설정된 경우 메모리 사용량이 높은 쿼리 실행 연결을 종료하여 데이터베이스 다운타임을 방지합니다. 문제 원인이 되는 쿼리를 찾으려면 데이터베이스 로그에서 다음 항목을 확인할 수 있습니다.

  (...timestamp….) db=postgres, user=customer FATAL: terminating connection due to administrator command

OOM 방지를 위해 종료된 높은 메모리 사용 쿼리를 캡처하는 다음 PostgreSQL용 Cloud SQL 데이터베이스 로그가 표시됩니다. 쿼리는 원래 쿼리가 정규화된 버전입니다.

  db=postgres,user=customer LOG:  postgres process with PID 1734 for the query "SELECT COUNT(product) AS item_count FROM test_table WHERE product_type = $1 AND product LIKE $2 AND c6_2 IN ($3,$4,$5,$6,$7)" has been cancelled.

다음 이벤트의 경우 Cloud SQL 인스턴스 페이지에도 알림이 표시됩니다.

지난 24시간 동안 인스턴스의 메모리 사용량
지난 24시간 내에 취소된 정규화된 쿼리 목록
메모리 사용량 최적화에 대한 Google 문서 링크

높은 메모리 사용량 - 권장사항

다음 권장사항은 일반적인 메모리 관련 문제를 해결합니다. 인스턴스에서 계속 높은 메모리 용량을 사용하면 결국 out of memory 문제가 발생했을 확률이 높습니다. PostgreSQL 또는 다른 프로세스의 메모리 수요로 인해 시스템 메모리가 부족해지면 PostgreSQL 로그에 Out of Memory 커널 메시지가 표시되고 PostgreSQL 인스턴스가 결국 중지됩니다. 예를 들면 다음과 같습니다.

Out of Memory: Killed process 12345 (postgres)

OOM 문제가 발생하는 가장 일반적인 경우는 활성 연결 수가 많은 work_mem 값이 높을 때입니다. 따라서 OOM이 자주 발생하는 경우 또는 PostgreSQL용 Cloud SQL 인스턴스에서 OOM을 방지하기 위해서는 다음 권장사항을 따르는 것이 좋습니다.

work_mem 설정

빠른 정렬을 사용하는 쿼리가 외부 병합 정렬을 사용하는 쿼리보다 빠릅니다. 하지만 전자는 메모리 소진을 일으킬 수 있습니다. 이 문제를 해결하려면 메모리와 디스크에서 이루어지는 정렬 작업이 모두 균형을 이룰 정도로 work_mem 값을 충분히 설정합니다. 또한 전체 인스턴스에 대해 설정하지 않고 세션 수준에서 work_mem을 설정할 수 있습니다.
활성 세션 모니터링

각 연결은 특정 메모리 용량을 사용합니다. 다음 쿼리를 사용해서 활성 연결 수를 확인합니다.
```
  SELECT
    state,
    usename,
    count(1)
  FROM
    pg_stat_activity
  WHERE
    pid <> pg_backend_pid()
  GROUP BY
    state,
    usename
  ORDER BY
    1;
```
활성 세션이 많은 경우 활성 세션 수가 많은 근본 원인(예: 트랜잭션 잠금)을 분석합니다.
shared_buffers 설정

shared_buffers가 높은 값으로 설정된 경우 work_mem과 같은 다른 작업이나 새 연결 설정에 메모리를 사용할 수 있도록 shared_buffers 값을 줄이는 것이 좋습니다.

캐시 적중률

PostgreSQL은 일반적으로 가장 자주 액세스하는 데이터를 캐시에 보관하려고 합니다. 클라이언트에서 데이터를 요청할 때 데이터가 이미 공유 버퍼에 캐시된 경우 해당 클라이언트에 직접 제공됩니다. 이것을 캐시 적중이라고 합니다. 공유 버퍼에 데이터가 없는 경우에는 먼저 데이터를 디스크의 공유 버퍼로 가져온 다음 클라이언트에 제공합니다. 이를 캐시 부적중이라고 부릅니다. 캐시 적중률은 캐시가 처리한 콘텐츠 요청을 수신된 요청과 비교해서 측정합니다. PostgreSQL 인스턴스의 테이블 요청에 대한 캐시 적중률을 확인하려면 다음 쿼리를 실행합니다.
```
SELECT
  sum(heap_blks_read) as heap_read,
  sum(heap_blks_hit)  as heap_hit,
  sum(heap_blks_hit) / (sum(heap_blks_hit) + sum(heap_blks_read)) as ratio
FROM
  pg_statio_user_tables;
```
PostgreSQL 인스턴스의 색인 요청에 대한 캐시 적중률을 확인하려면 다음 쿼리를 실행합니다.
```
  SELECT
    sum(idx_blks_read) as idx_read,
    sum(idx_blks_hit)  as idx_hit,
    (sum(idx_blks_hit) - sum(idx_blks_read)) / sum(idx_blks_hit) as ratio
  FROM
    pg_statio_user_indexes;
```
일반적으로 95~99%의 캐시 적중률이 적절한 값으로 간주됩니다.
PostgreSQL용 Cloud SQL에서는 메모리 관리를 개선하기 위해 huge_pages 플래그가 기본적으로 사용 설정되어 있습니다. huge_pages에 대한 자세한 내용은 PostreSQL 문서를 참조하세요.
max_locks_per_transaction 설정

max_locks_per_transaction 값은 동시에 잠글 수 있는 데이터베이스 객체 수를 나타냅니다. 대부분의 경우 기본값인 64개면 충분합니다. 하지만 작업 중인 데이터 세트 규모가 크면 OOM이 발생할 수 있습니다. OOM을 방지할 수 있도록 max_locks_per_transaction 값을 충분히 높이는 것이 좋습니다.

참고: 객체 수준 잠금은 진행 중인 트랜잭션의 메모리에서 발생합니다. max_prepared_transactions 값이 비정상적으로 증가하면 데이터베이스 인스턴스가 더 많은 공유 메모리를 요청할 수 있습니다.

max_locks_per_transaction 값은 max_locks_per_transaction * (max_connections + max_prepared_transactions)개의 객체여야 합니다. 즉, 객체가 300,000개이고 max_connections 값이 200이면 max_locks_per_transaction은 1,500이어야 합니다.
max_pred_locks_per_transaction 설정

직렬화 가능한 단일 트랜잭션에서 여러 테이블을 다루는 클라이언트가 있는 경우 트랜잭션이 실패할 수 있습니다. 이 시나리오에서는 max_pred_locks_per_transaction을 상당히 높은 값으로 늘리는 것이 좋습니다. max_locks_per_transaction과 마찬가지로 max_pred_locks_per_transaction도 공유 메모리를 사용하므로 지나치게 높은 값을 설정하지는 마세요.
메모리 사용량이 여전히 높고 쿼리가 타당한 트래픽이라고 생각되면 인스턴스의 메모리 리소스 수를 늘려 데이터베이스 비정상 종료나 다운타임을 방지하세요.

다음 단계

Google Cloud 추천자