사이트맵을 사용하여 웹페이지 색인 생성 및 새로고침

데이터 스토어에서 고급 웹사이트 색인 생성이 사용 설정된 경우 사이트맵을 제출하고 이를 사용하여 데이터 스토어의 웹페이지에 색인을 생성하고 새로고침할 수 있습니다. 이 기능은 XML 사이트맵 및 사이트맵 색인만 지원합니다.

이 페이지에서는 사이트맵 또는 사이트맵 색인을 제출하여 사이트맵 기반 색인 생성 및 새로고침을 트리거하는 방법을 설명합니다. 사이트맵 없이 자동 및 수동 새로고침을 이해하고 구현하려면 웹페이지 새로고침을 참고하세요.

또한 이 페이지에서는 데이터 스토어에서 사이트맵을 보거나 사이트맵을 삭제하는 방법을 설명합니다.

사이트맵 기반 새로고침 개념

다음은 시작하는 데 도움이 되는 몇 가지 주요 개념과 용어입니다.

  • 사이트맵 프로토콜: Vertex AI Search에서 지원하는 모든 사이트맵 및 사이트맵 색인은 사이트맵 프로토콜을 따라야 합니다.

  • 사이트맵: 사이트맵은 웹사이트의 웹페이지 및 파일의 URL 목록과 웹페이지의 마지막 수정 날짜, 웹사이트의 다른 웹페이지에 대한 크롤러의 웹페이지 우선순위와 같은 중요하지만 선택적인 다른 정보가 포함된 UTF-8 인코딩 XML 파일입니다. 사이트맵 프로토콜에 따라 단일 사이트맵은 최대 50,000개의 URL을 포함할 수 있으며 최대 50MB 일 수 있습니다.

  • 사이트맵 색인: 사이트맵이 최대 URL 또는 최대 크기를 초과하는 경우 여러 개의 사이트맵을 만들고 이러한 사이트맵을 사이트맵 색인 파일에 나열할 수 있습니다. 사이트맵 프로토콜에 따라 단일 사이트맵 색인은 최대 50,000개의 사이트맵을 중첩할 수 있으며 최대 50MB 일 수 있습니다.

Vertex AI Search에 하나 이상의 사이트맵, 하나 이상의 사이트맵 색인 또는 사이트맵과 사이트맵 색인의 조합을 제출할 수 있습니다.

Vertex AI Search 데이터 스토어에 사이트맵 또는 사이트맵 색인을 제출하면 다음 작업이 트리거됩니다.

  • 데이터 스토어 색인에 포함된 URL의 색인 생성

    • 사이트맵 전용 새로고침의 경우 이 목록에는 데이터 스토어에 포함된 URL 패턴에 맞는 사이트맵 또는 사이트맵 색인의 URL만 포함됩니다.
    • 조합 새로고침의 경우 이 목록에는 자동 새로고침 프로세스가 발견한 모든 URL이 포함됩니다.

    이러한 두 가지 새로고침 프로세스에 관한 자세한 내용은 웹사이트 데이터 스토어 새로고침 메서드사이트맵 전용 새로고침을 참고하세요.

  • 포함된 URL 매일 새로고침

웹사이트 데이터 스토어 새로고침 방법

다음 방법 중 하나를 선택하여 데이터 스토어에 사이트맵 기반 새로고침을 통합할 수 있습니다.

  • 사이트맵 전용 새로고침: 초기 색인 생성 및 자동 새로고침을 사용 중지하여 사이트맵 기반 새로고침만 사용합니다.
  • 조합 새로고침: 초기 색인 생성 및 자동 새로고침과 함께 사이트맵 기반 새로고침을 사용합니다.

선택한 새로고침 방법과 관계없이 언제든지 데이터 스토어 색인의 특정 웹페이지를 수동으로 새로고침할 수 있습니다.

사이트맵 전용 새로고침

웹사이트 데이터 스토어를 만들 때는 데이터 스토어의 색인에 포함할 웹페이지의 URL 패턴을 제공해야 합니다. 기본적으로 웹사이트 데이터 스토어 생성을 완료하면 Vertex AI Search에서 이러한 포함된 웹페이지의 초기 색인을 생성합니다.

고급 웹사이트 색인 생성이 적용된 웹사이트 데이터 스토어의 경우 초기 색인 생성 프로세스는 자동 새로고침의 일부입니다. 초기 색인 생성 프로세스는 Google 검색에서 사용할 수 있는 모든 포함된 URL의 색인을 생성합니다. 이러한 URL의 초기 최신성은 Google 검색에서 제공되는 최신성을 반영합니다. 초기 색인 생성 후 자동 새로고침 프로세스는 새 페이지를 발견하고 최선을 다해 새로고침합니다. 이 프로세스는 필요한 것보다 더 많은 URL을 발견하므로 상대적으로 오래된 페이지와 더 큰 색인이 생성될 수 있습니다.

대신 사이트맵 전용 새로고침을 실행할 수 있습니다. 이는 다음과 같은 경우에 유용합니다.

  • 최신 상태로 잘 관리된 사이트맵이 있습니다.
  • 대규모 웹사이트를 운영 중이며 색인이 생성되는 웹페이지를 더 엄격하게 관리해야 합니다. 이렇게 하면 관리하기 쉬운 더 간결한 색인이 생성됩니다.
  • 색인이 생성된 페이지를 매일 새로고침해야 합니다. 이렇게 하면 색인이 더 최신 상태가 됩니다.

다음 표는 데이터 스토어 색인을 새로고침하는 다양한 메서드를 비교합니다.

새로고침 방법 정밀도 수동 개입 빈도 탐색
사이트맵 기반 새로고침 맞습니다. 사이트맵의 URL만 색인 생성 사이트맵 또는 사이트맵 색인을 제출한 후에는 필요하지 않음 매일 사이트맵에 지정된 것보다 많지 않습니다.
수동 새로고침 (재크롤링이라고도 함) 맞습니다. 재크롤링 요청에 지정된 URL만 색인 생성 필수 주문형 아니요.
자동 새로고침 정확하지 않습니다. 데이터 저장소는 최선을 다해 업데이트됩니다. 필수 아님 무작위 및 최선의 방식으로 처리 예. Google 검색에서 제공하는 것 외의 URL을 찾습니다.

시작하기 전에

Vertex AI Search 데이터 스토어에 사이트맵 또는 사이트맵 색인을 제출하기 전에 다음을 실행합니다.

  • 사이트맵 프로토콜에 따라 웹사이트의 모든 사이트맵을 참조하는 XML 사이트맵 또는 사이트맵 색인을 만듭니다.
  • Vertex AI Search 데이터 스토어에 사이트맵 또는 사이트맵 색인을 제출하기 위해 Google 검색에 제출할 필요는 없습니다.
  • 색인을 생성하려는 사이트맵의 모든 URL은 데이터 스토어에서 확인된 공개 도메인에 속해야 합니다. 자세한 내용은 웹사이트 도메인 확인을 참고하세요.
  • 사이트맵 URI 또는 중첩된 사이트맵 URI가 포함된 사이트맵 색인 URI는 공개적으로 제공되어야 합니다.

데이터 스토어에 사이트맵 또는 사이트맵 색인 제출

데이터 스토어에 포함된 웹페이지의 색인 생성 및 새로고침을 트리거하려면 다음 단계를 따르세요.

  1. 사이트맵 전용 새로고침을 실행할지 아니면 다른 방법과 함께 새로고침을 실행할지 결정합니다.

  2. 사이트맵 전용 새로고침을 실행하려면 이 단계를 따르고 다음 단계로 건너뛰세요.

    초기 색인 생성 및 새로고침이 있는 기존 데이터 스토어는 사용할 수 없습니다. AdvancedSiteSearchConfig 구성을 사용하여 초기 색인 생성 및 자동 새로고침을 사용 중지하여 새 데이터 스토어를 만들어야 합니다.

    REST

    사이트맵 새로고침만 사용 설정된 데이터 스토어를 만듭니다. 이렇게 하려면 초기 색인 및 자동 새로고침을 사용 중지하면 됩니다.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \
    -d '{
       "displayName": "DATA_STORE_DISPLAY_NAME",
       "industryVertical": "GENERIC",
       "content_config": "PUBLIC_WEBSITE",
       "searchTier": "ENTERPRISE",
       "advancedSiteSearchConfig": {
          "disableInitialIndex": true,
          "disableAutomaticRefresh": true,
       }
    }'
    

    다음을 바꿉니다.

    • PROJECT_ID: Google Cloud 프로젝트의 ID입니다.
    • DATA_STORE_ID: 만들려는 Vertex AI Search 데이터 스토어의 ID입니다. 이 ID는 소문자, 숫자, 밑줄, 하이픈만 포함할 수 있습니다.
    • DATA_STORE_DISPLAY_NAME: 만들려는 Vertex AI Search 데이터 스토어의 표시 이름입니다.

  3. 데이터 스토어에 포함하고 제외할 사이트의 URL 패턴을 업데이트합니다. 자세한 내용은 웹사이트 콘텐츠를 사용하여 데이터 스토어 만들기를 참고하세요.

  4. 데이터 스토어에 포함된 웹페이지의 도메인을 확인합니다.

  5. 사이트맵 전용 새로고침을 선택하든 조합 새로고침을 선택하든 sitemaps.create 메서드를 사용하여 사이트맵 또는 사이트맵 색인 URI를 데이터 저장소에 제출합니다.

    REST

    사이트맵 또는 사이트맵 색인을 제출합니다.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_NUMBER" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_NUMBER/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
    

    다음을 바꿉니다.

    • PROJECT_ID: Google Cloud 프로젝트의 ID
    • DATA_STORE_ID: Vertex AI Search 데이터 스토어의 ID입니다.
    • SITEMAP_URI: 제출하려는 개별 사이트맵 또는 사이트맵 색인의 공개 URI입니다. 사이트맵 색인을 제출할 때는 사이트맵 색인의 URI를 제출하면 됩니다. Vertex AI Search는 사이트맵 색인 내에 중첩된 모든 사이트맵의 포함된 URL을 자동으로 색인 생성합니다.

    데이터 스토어에 사이트맵 또는 사이트맵 색인을 제출하면 Vertex AI Search에서 다음을 트리거합니다.

    • 사이트맵에서 데이터 스토어에 포함된 대상 URL의 색인 생성 이 프로세스를 완료하는 데 몇 시간 정도 걸릴 수 있습니다. 사이트맵이 클수록 색인을 생성하는 데 시간이 더 오래 걸릴 수 있습니다.
    • 요건을 충족하는 URL이 있는 웹페이지를 매일 새로고침합니다.

    사이트맵 또는 사이트맵 색인의 수정이 새로고침에 어떤 영향을 미치는지 알아보려면 사이트맵 및 사이트맵 색인의 변경사항을 참고하세요.

  6. 데이터 스토어에서 사이트맵을 봅니다.

사이트맵 및 사이트맵 색인 변경사항

초기 제출 후 Vertex AI Search는 매일 사이트맵 또는 사이트맵 색인의 수정사항을 감지하고 다음과 같은 방식으로 이러한 수정사항을 처리합니다.

  • 사이트맵 변경사항:
    • URL을 추가할 때: 데이터 스토어에 포함된 URL 패턴과 일치하는 URL이 색인에 추가되고 매일 새로고침됩니다.
    • URL을 삭제하는 경우: 삭제된 URL이 색인에 있는 경우 색인에서 삭제되며 더 이상 새로고침되지 않습니다.
    • 기존 URL을 업데이트하는 경우(예: 사이트맵의 URL에 대한 lastmod 필드를 업데이트하는 경우) 데이터 스토어의 포함된 URL 패턴과 일치하는 업데이트된 URL은 새로고침됩니다. 새로고침은 일반적으로 업데이트 후 24시간 이내에 실행됩니다.
  • 사이트맵 색인의 변경사항:
    • 사이트맵을 추가할 때: 데이터 스토어에 포함된 URL 패턴과 일치하는 새 사이트맵의 URL이 색인에 추가되고 매일 새로고침됩니다.
    • 사이트맵을 삭제하면: 데이터 스토어의 포함된 URL 패턴과 일치하는 URL이 더 이상 새로고침되지 않습니다. 하지만 색인은 계속 유지됩니다. 색인에서 사이트맵 및 URL을 삭제하려면 색인에서 사이트맵 및 URL 삭제를 참고하세요.

데이터 스토어의 사이트맵 및 사이트맵 색인 나열

데이터 스토어의 모든 사이트맵 및 사이트맵 색인을 나열하려면 sitemaps.fetch 메서드를 사용합니다. 사이트맵 색인을 제출한 경우 이 메서드는 개별 중첩 사이트맵이 아닌 사이트맵 색인을 반환합니다. 데이터 저장소에 사이트맵이 없으면 이 요청은 빈 JSON 파일을 반환합니다.

REST

데이터 스토어에 사이트맵 및 사이트맵 색인을 나열합니다.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"

다음을 바꿉니다.

  • PROJECT_ID: Google Cloud 프로젝트의 ID
  • DATA_STORE_ID: Vertex AI Search 데이터 스토어의 ID입니다.

데이터 스토어에 사이트맵 또는 사이트맵 색인이 있는지 확인

데이터 스토어에 사이트맵 또는 사이트맵 색인이 있는지 확인하려면 sitemaps.fetch 메서드를 사용하세요. 확인하려는 사이트맵 또는 사이트맵 색인이 데이터 스토어에 제출된 경우 응답에 사이트맵 이름과 사이트맵의 URI가 포함됩니다. 사이트맵 색인을 제출한 경우 사이트맵 색인 내에서 개별 사이트맵을 확인해도 올바른 결과가 반환되지 않습니다.

REST

데이터 스토어에서 사이트맵 또는 사이트맵 색인을 확인합니다.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"

다음을 바꿉니다.

  • PROJECT_ID: Google Cloud 프로젝트의 ID
  • DATA_STORE_ID: Vertex AI Search 데이터 스토어의 ID입니다.
  • SITEMAP_URI_N: 데이터 스토어에 체크인하려는 사이트맵 또는 사이트맵 색인의 공개 URI입니다.

데이터 스토어에서 사이트맵 또는 사이트맵 색인 삭제

데이터 저장소에서 사이트맵을 삭제하려면 sitemap.delete 메서드를 사용합니다. 사이트맵을 삭제해도 색인에서 URL이 삭제되지는 않습니다. 색인에서 사이트맵 및 URL을 삭제하려면 색인에서 사이트맵 및 URL 삭제를 참고하세요.

REST

사이트맵 또는 사이트맵 색인을 삭제합니다.

curl -X DELETE \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"

다음을 바꿉니다.

데이터 스토어 색인에서 사이트맵 또는 사이트맵 색인 및 URL 삭제

색인에서 사이트맵 또는 사이트맵 색인과 해당 URL을 삭제하려면 다음 단계를 따르세요.

  1. 데이터 저장소에 제출된 사이트맵 또는 사이트맵 색인의 모든 URL을 삭제하여 비웁니다.

    데이터 스토어에 사이트맵 색인을 제출한 경우 모든 URL을 삭제하여 중첩된 사이트맵을 비우고 사이트맵 색인에서 사이트맵을 삭제합니다.

  2. Vertex AI Search에서 이러한 변경사항을 처리하고 데이터 스토어의 색인에서 URL을 삭제할 때까지 48시간 동안 기다립니다.

  3. 사이트맵 또는 사이트맵 색인을 삭제합니다.