이 페이지는 Cloud Translation API를 통해 번역되었습니다.

재시도 이벤트

고급

이벤트가 거부되는 데는 여러 가지 이유가 있을 수 있습니다. 예를 들어 이벤트 수신기 서비스가 서비스 중단으로 인해 일시적으로 사용 불가능할 수 있고, 서비스를 통해 이벤트를 처리할 때 오류가 발생할 수 있으며, 서비스 리소스가 고갈될 수 있습니다. 이와 같은 일시적인 오류는 재시도할 수 있습니다.

이벤트가 이벤트 수신자에게 전달되지 않을 수도 있습니다. 예를 들어 이벤트가 구성된 예상 스키마와 일치하지 않거나 이벤트 메시지가 최종 대상으로 라우팅되기 전에 이벤트 중재가 실패할 수 있습니다. 이러한 경우 지속적인 오류가 발생합니다.

일시적 오류

Eventarc Advanced는 일시적인 오류를 처리하는 기능을 제공합니다. 이러한 일시적 오류는 다시 시도할 수 있으며 다음 오류 코드가 포함됩니다.

HTTP 408 Request Timeout
HTTP 409 Conflict
HTTP 429 Too Many Requests
HTTP 500 Internal Server Error
HTTP 502 Bad Gateway
HTTP 503 Service Unavailable
HTTP 504 Gateway Time-out

지속적 오류

일시적 오류와 달리 지속적인 오류에는 다음이 포함됩니다.

구성된 재시도 횟수가 소진될 때 발생하는 오류
이벤트가 대상으로 라우팅되기 전에 실패할 때 발생하는 오류
재시도할 수 없는 것으로 간주되는 오류 코드가 발생하는 오류(예: 일시적 오류에 나열된 오류 코드 이외의 오류 코드)

지속적인 오류를 수동으로 식별하고 적절하게 처리할 수 있습니다.

일시적 오류 재시도

Eventarc Advanced는 재시도할 수 있는 오류를 처리하기 위해 지수 백오프 지연을 사용합니다. 기본 재시도 정책은 1초 지연으로 시작하며, 실패할 때마다 지연 시간이 두 배로 늘어납니다(최대 60초 및 5회 시도까지).

Google Cloud 콘솔 또는 gcloud eventarc pipelines update 명령어를 사용하여 기본 재시도 정책을 변경할 수 있습니다.

2의 기본 백오프 요소는 변경할 수 없습니다.

콘솔

Google Cloud 콘솔에서 Eventarc > 파이프라인 페이지로 이동합니다.

파이프라인으로 이동
파이프라인 이름을 클릭합니다.
파이프라인 세부정보 페이지에서 수정을 클릭합니다.
파이프라인 수정 페이지의 재시도 정책 섹션에서 다음 필드를 수정합니다.
- 최대 시도 횟수: 재시도 횟수입니다. 기본값은 5회입니다. 양의 실수일 수 있습니다. 1로 설정하면 재시도 정책이 적용되지 않으며 메시지 전송이 한 번만 시도됩니다.
- 최소 지연 시간(초): 초 단위의 초기 지연 시간입니다. 기본값은 1초입니다. 1에서 600 사이여야 합니다.
- 최대 지연 시간(초): 최대 지연 시간입니다. 기본값은 60초입니다. 1에서 600 사이여야 합니다.
최소 지연과 최대 지연을 동일한 값으로 설정하여 선형 백오프를 구성할 수 있습니다.
저장을 클릭합니다.

gcloud

gcloud eventarc pipelines update PIPELINE_NAME \
    --min-retry-delay=MIN_DELAY \
    --max-retry-delay=MAX_DELAY \
    --max-retry-attempts=MAX_ATTEMPTS

다음을 바꿉니다.

PIPELINE_NAME: 파이프라인의 ID 또는 정규화된 식별자입니다.
MIN_DELAY: 초 단위의 초기 지연 시간입니다. 기본값은 1초입니다. 1에서 600 사이여야 합니다.
MAX_DELAY: 최대 지연 시간입니다. 기본값은 60초입니다. 1에서 600 사이여야 합니다.
MAX_ATTEMPTS: 재시도 횟수입니다. 기본값은 5회 시도입니다. 양의 실수일 수 있습니다. 1로 설정하면 재시도 정책이 적용되지 않으며 메시지 전송이 한 번만 시도됩니다.

다음 예시에서는 최소 지연과 최대 지연을 동일한 값으로 설정하여 선형 백오프를 구성합니다.

gcloud eventarc pipelines update my-pipeline \
    --min-retry-delay=4 \
    --max-retry-delay=4 \
    --max-retry-attempts=5

메일을 보관처리하여 지속적 오류 처리

수신되는 메시지를 BigQuery 테이블에 기록할 수 있습니다. 이를 통해 지속적인 오류를 수동으로 식별하고 적절하게 처리할 수 있습니다.

다음은 이벤트 메시지를 보관하고, 지속적인 오류를 식별하고, 영향을 받는 이벤트를 다시 시도하는 데 필요한 단계를 간략하게 설명합니다.

버스를 만듭니다. 버스를 적절하게 구성하세요(예: Google 소스의 이벤트 게시).
Pub/Sub 주제를 만듭니다. 이 Pub/Sub 주제는 파이프라인의 대상이 됩니다.
Pub/Sub 주제에 대한 BigQuery 구독을 만듭니다. BigQuery 구독은 수신되는 메시지를 기존 BigQuery 테이블에 기록하는 내보내기 구독 유형입니다. 또는 BigQuery 구독을 만들 때 테이블을 만들 수 있습니다.

--cel-match="true"를 사용하여 버스에서 수신한 모든 메시지를 Pub/Sub 주제로 라우팅하는 파이프라인 및 등록을 만듭니다. 파이프라인의 재시도 정책을 구성합니다.

예를 들어 다음 명령어는 파이프라인과 등록을 만듭니다.

gcloud eventarc pipelines create my-archive-pipeline \
    --destinations=pubsub_topic='my-archive-topic' \
    --min-retry-delay=1 \
    --max-retry-delay=20 \
    --max-retry-attempts=6 \
    --location=us-central1

gcloud eventarc enrollments create my-archive-enrollment \
    --cel-match="true" \
    --destination-pipeline=my-archive-pipeline \
    --message-bus=my-message-bus \
    --message-bus-project=my-google-cloud-project \
    --location=us-central1

다른 BigQuery 데이터 세트로 파이프라인 로그를 라우팅합니다.

이제 Eventarc Advanced 버스에서 수신한 모든 메시지를 저장하는 BigQuery 데이터 세트와 파이프라인 로그를 저장하는 BigQuery 데이터 세트가 각각 하나씩 생성됩니다.
실패한 메시지를 식별하려면 message_uid 필드에서 두 BigQuery 데이터 세트를 모두 조인하는 쿼리 문을 사용합니다.
실패한 메시지를 식별한 후 Eventarc Publishing API를 사용하여 버스에 다시 게시할 수 있습니다. 예를 들어 Cloud Run 서비스 또는 작업을 배포하여 BigQuery에서 메시지를 읽고 Eventarc Advanced 버스에 직접 게시할 수 있습니다.

이벤트 핸들러를 멱등으로 만들기

재시도할 수 있는 이벤트 핸들러는 다음 일반 가이드라인을 사용하여 멱등성을 가져야 합니다.

다양한 외부 API를 사용하면 매개변수로 멱등 키를 제공할 수 있습니다. 이러한 API를 사용한다면 이벤트 소스와 ID를 멱등 키로 사용해야 합니다. (제작자는 고유한 이벤트마다 source + id가 고유하도록 보장해야 합니다.)
또한 CloudEvents 속성 xgooglemessageuid를 사용하여 동일성을 제공할 수 있습니다. 이 속성의 값은 Eventarc Advanced 메시지의 message_uid 필드와 동일합니다. 이벤트 게시 작업을 고유하게 식별합니다. 예를 들어 동일한 이벤트가 버스에 두 번 게시되면 각 이벤트는 이벤트 핸들러로 전송될 때 서로 다른 xgooglemessageuid 값을 갖습니다.
멱등성이 있으면 재시도해도 안전하므로 최소 1회 전송 시 잘 작동합니다. 따라서 안정적인 코드를 작성하기 위한 일반적인 권장사항은 재시도와 멱등성을 결합하는 것입니다.
코드에 내부적으로 멱등성이 있어야 합니다. 예를 들면 다음과 같습니다.
- 결과에 변화 없이 변형이 2번 이상 발생할 수 있는지 확인합니다.
- 상태가 변형되기 전에 트랜잭션에서 데이터베이스 상태를 쿼리합니다.
- 모든 부가적인 결과에 자체적으로 멱등성이 있는지 확인합니다.
코드에 관계없이 서비스 외부에서 트랜잭션 검사를 시행합니다. 예를 들어 특정 이벤트 ID가 이미 처리되었음을 어딘가에 기록하는 상태를 유지합니다.
중복 호출을 대역 외로 처리합니다. 예를 들어 중복 호출 후 삭제하는 별도의 삭제 프로세스를 둡니다.