Memuat ulang halaman web menggunakan pembaruan otomatis dan manual

Jika penyimpanan data Anda menggunakan penelusuran situs dasar, keaktualan indeks toko Anda akan mencerminkan keaktualan yang tersedia di Google Penelusuran.

Jika pengindeksan situs lanjutan diaktifkan di penyimpanan data Anda, halaman web di penyimpanan data akan diperbarui dengan cara berikut:

  • Pemuatan ulang otomatis
  • Pemuatan ulang manual
  • Pembaruan berbasis peta situs

Halaman ini menjelaskan pembaruan otomatis dan manual. Untuk memahami dan menerapkan pemuatan ulang berbasis peta situs, lihat Mengindeks dan memuat ulang sesuai dengan peta situs.

Pemuatan ulang otomatis

Vertex AI Search melakukan pembaruan otomatis sebagai berikut:

  • Setelah Anda membuat penyimpanan data, penyimpanan data akan membuat indeks awal untuk halaman yang disertakan.
  • Setelah pengindeksan awal, Google akan mengindeks halaman yang baru ditemukan dan meng-crawl ulang halaman yang ada berdasarkan upaya terbaik.
  • Alat ini secara rutin memuat ulang penyimpanan data yang mengalami rasio kueri 50 kueri/30 hari.

Pemuatan ulang manual

Jika ingin memuat ulang halaman web tertentu di penyimpanan data dengan Pengindeksan situs lanjutan diaktifkan, Anda dapat memanggil metode recrawlUris. Anda menggunakan kolom uris untuk menentukan setiap halaman web yang ingin di-crawl. Metode recrawlUris adalah operasi yang berjalan lama yang berjalan hingga halaman web yang Anda tentukan di-crawl atau hingga waktu tunggu habis setelah 24 jam, mana saja yang lebih dulu. Jika waktu tunggu metode recrawlUris habis, Anda dapat memanggil metode lagi, dengan menentukan halaman web yang masih perlu di-crawl. Anda dapat melakukan polling pada metode operations.get untuk memantau status operasi crawling ulang.

Batas crawling ulang

Ada batasan frekuensi crawling halaman web dan jumlah halaman web yang dapat Anda crawl sekaligus:

  • Panggilan per hari. Jumlah maksimum panggilan ke metode recrawlUris yang diizinkan adalah lima per hari, per project.
  • Halaman web per panggilan. Jumlah maksimum nilai uris yang dapat Anda tentukan dengan panggilan ke metode recrawlUris adalah 10.000.

Meng-crawl ulang halaman web di penyimpanan data Anda

Anda dapat meng-crawl halaman web tertentu secara manual di penyimpanan data yang telah mengaktifkan Pengindeksan situs lanjutan.

REST

Untuk menggunakan command line guna meng-crawl halaman web tertentu di penyimpanan data Anda, ikuti langkah-langkah berikut:

  1. Temukan ID penyimpanan data Anda. Jika Anda sudah memiliki ID penyimpanan data, lanjutkan ke langkah berikutnya.

    1. Di konsol Google Cloud, buka halaman Agent Builder dan di menu navigasi, klik Data Stores.

      Buka halaman Data Store

    2. Klik nama penyimpanan data Anda.

    3. Di halaman Data untuk penyimpanan data Anda, dapatkan ID penyimpanan data.

  2. Panggil metode recrawlUris, menggunakan kolom uris untuk menentukan setiap halaman web yang ingin Anda crawl. Setiap uri mewakili satu halaman, meskipun berisi tanda bintang (*). Pola karakter pengganti tidak didukung.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine:recrawlUris" \
    -d '{
      "uris": [URIS]
    }'
    

    Ganti kode berikut:

    • PROJECT_ID: ID project Google Cloud Anda.
    • DATA_STORE_ID: ID penyimpanan data Vertex AI Search.
    • URIS: daftar halaman web yang ingin Anda crawl—misalnya, "https://example.com/page-1", "https://example.com/page-2", "https://example.com/page-3".

    Outputnya mirip dengan hal berikut ini:

    {
      "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-0123456789012345678",
      "metadata": {
        "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata"
      }
    }
    
  3. Simpan nilai name sebagai input untuk operasi operations.get saat memantau status operasi crawling ulang.

Memantau status operasi crawling ulang

Metode recrawlUris, yang Anda gunakan untuk meng-crawl halaman web di penyimpanan data, adalah operasi yang berjalan lama yang berjalan hingga halaman web yang Anda tentukan di-crawl atau hingga waktu tunggu habis setelah 24 jam, mana saja yang lebih dulu. Anda dapat memantau status operasi yang berjalan lama ini dengan melakukan polling metode operations.get, yang menentukan nilai name yang ditampilkan oleh metode recrawlUris. Lanjutkan polling hingga respons menunjukkan bahwa: (1) Semua halaman web Anda di-crawl, atau (2) Waktu operasi habis sebelum semua halaman web Anda di-crawl. Jika waktu tunggu recrawlUris habis, Anda dapat memanggilnya lagi, dengan menentukan situs yang tidak di-crawl.

REST

Untuk menggunakan command line guna memantau status operasi crawling ulang, ikuti langkah-langkah berikut:

  1. Temukan ID penyimpanan data Anda. Jika Anda sudah memiliki ID penyimpanan data, lanjutkan ke langkah berikutnya.

    1. Di konsol Google Cloud, buka halaman Agent Builder dan di menu navigasi, klik Data Stores.

      Buka halaman Data Store

    2. Klik nama penyimpanan data Anda.

    3. Di halaman Data untuk penyimpanan data Anda, dapatkan ID penyimpanan data.

  2. Lakukan polling pada metode operations.get.

    curl -X GET \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1alpha/OPERATION_NAME"
    

    Ganti kode berikut:

  3. Evaluasi setiap respons.

    • Jika respons menunjukkan bahwa ada URI yang tertunda dan operasi crawl ulang belum selesai, halaman web Anda masih di-crawl. Lanjutkan polling.

      Contoh

        {
          "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-0123456789012345678",
          "metadata": {
            "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata",
            "createTime": "2023-09-05T22:07:28.690950Z",
            "updateTime": "2023-09-05T22:22:10.978843Z",
            "validUrisCount": 4000,
            "successCount": 2215,
            "pendingCount": 1785
          },
          "done": false,
          "response": {
            "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisResponse",
          }
        }

      Kolom respons dapat dijelaskan sebagai berikut:

      • createTime: menunjukkan waktu dimulainya operasi yang berjalan lama.
      • updateTime: menunjukkan waktu terakhir metadata operasi yang berjalan lama diperbarui. menunjukkan pembaruan metadata setiap lima menit hingga operasi selesai.
      • validUrisCount: menunjukkan bahwa Anda menentukan 4.000 URI yang valid dalam panggilan ke metode recrawlUris.
      • successCount: menunjukkan bahwa 2.215 URI berhasil di-crawl.
      • pendingCount: menunjukkan bahwa 1.785 URI belum di-crawl.
      • done: nilai false menunjukkan bahwa operasi crawling ulang masih berlangsung.

    • Jika respons menunjukkan bahwa tidak ada URI yang tertunda (tidak ada kolom pendingCount yang ditampilkan) dan operasi crawling ulang selesai, halaman web Anda akan di-crawl. Hentikan polling—Anda dapat keluar dari prosedur ini.

      Contoh

        {
          "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-0123456789012345678",
          "metadata": {
            "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata",
            "createTime": "2023-09-05T22:07:28.690950Z",
            "updateTime": "2023-09-05T22:37:11.367998Z",
            "validUrisCount": 4000,
            "successCount": 4000
          },
          "done": true,
          "response": {
            "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisResponse"
          }
        }

      Kolom respons dapat dijelaskan sebagai berikut:

      • createTime: menunjukkan waktu dimulainya operasi yang berjalan lama.
      • updateTime: menunjukkan waktu terakhir metadata operasi yang berjalan lama diperbarui. menunjukkan pembaruan metadata setiap lima menit hingga operasi selesai.
      • validUrisCount: menunjukkan bahwa Anda menentukan 4.000 URI yang valid dalam panggilan ke metode recrawlUris.
      • successCount: menunjukkan bahwa 4.000 URI berhasil di-crawl.
      • done: nilai true menunjukkan bahwa operasi crawling ulang telah selesai.
  4. Jika respons menunjukkan bahwa ada URI yang tertunda dan operasi crawling ulang selesai, operasi crawling ulang akan habis waktunya (setelah 24 jam) sebelum semua halaman web Anda di-crawl. Mulai lagi di Meng-crawl ulang halaman web di penyimpanan data. Gunakan nilai failedUris dalam respons operations.get untuk nilai di kolom uris dalam panggilan baru Anda ke metode recrawlUris.

    Contoh.

    {
      "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-8765432109876543210",
      "metadata": {
        "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata",
        "createTime": "2023-09-05T22:07:28.690950Z",
        "updateTime": "2023-09-06T22:09:10.613751Z",
        "validUrisCount": 10000,
        "successCount": 9988,
        "pendingCount": 12
      },
      "done": true,
      "response": {
        "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisResponse",
        "failedUris": [
          "https://example.com/page-9989",
          "https://example.com/page-9990",
          "https://example.com/page-9991",
          "https://example.com/page-9992",
          "https://example.com/page-9993",
          "https://example.com/page-9994",
          "https://example.com/page-9995",
          "https://example.com/page-9996",
          "https://example.com/page-9997",
          "https://example.com/page-9998",
          "https://example.com/page-9999",
          "https://example.com/page-10000"
        ],
        "failureSamples": [
          {
            "uri": "https://example.com/page-9989",
            "failureReasons": [
              {
                "corpusType": "DESKTOP",
                "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
              },
              {
                "corpusType": "MOBILE",
                "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
              }
            ]
          },
          {
            "uri": "https://example.com/page-9990",
            "failureReasons": [
              {
                "corpusType": "DESKTOP",
                "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
              },
              {
                "corpusType": "MOBILE",
                "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
              }
            ]
          },
          {
            "uri": "https://example.com/page-9991",
            "failureReasons": [
              {
                "corpusType": "DESKTOP",
                "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
              },
              {
                "corpusType": "MOBILE",
                "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
              }
            ]
          },
          {
            "uri": "https://example.com/page-9992",
            "failureReasons": [
              {
                "corpusType": "DESKTOP",
                "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
              },
              {
                "corpusType": "MOBILE",
                "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
              }
            ]
          },
          {
            "uri": "https://example.com/page-9993",
            "failureReasons": [
              {
                "corpusType": "DESKTOP",
                "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
              },
              {
                "corpusType": "MOBILE",
                "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
              }
            ]
          },
          {
            "uri": "https://example.com/page-9994",
            "failureReasons": [
              {
                "corpusType": "DESKTOP",
                "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
              },
              {
                "corpusType": "MOBILE",
                "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
              }
            ]
          },
          {
            "uri": "https://example.com/page-9995",
            "failureReasons": [
              {
                "corpusType": "DESKTOP",
                "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
              },
              {
                "corpusType": "MOBILE",
                "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
              }
            ]
          },
          {
            "uri": "https://example.com/page-9996",
            "failureReasons": [
              {
                "corpusType": "DESKTOP",
                "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
              },
              {
                "corpusType": "MOBILE",
                "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
              }
            ]
          },
          {
            "uri": "https://example.com/page-9997",
            "failureReasons": [
              {
                "corpusType": "DESKTOP",
                "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
              },
              {
                "corpusType": "MOBILE",
                "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
              }
            ]
          },
          {
            "uri": "https://example.com/page-9998",
            "failureReasons": [
              {
                "corpusType": "DESKTOP",
                "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
              },
              {
                "corpusType": "MOBILE",
                "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
              }
            ]
          }
        ]
      }
    }

    Berikut adalah beberapa deskripsi kolom respons:

    • createTime. Waktu operasi yang berjalan lama dimulai.
    • updateTime. Terakhir kali metadata operasi yang berjalan lama diperbarui. Metadata diperbarui setiap lima menit hingga operasi selesai.
    • validUrisCount. Menunjukkan bahwa Anda menentukan 10.000 URI yang valid dalam panggilan ke metode recrawlUris.
    • successCount. Menunjukkan bahwa 9.988 URI berhasil di-crawl.
    • pendingCount. Menunjukkan bahwa 12 URI belum di-crawl.
    • done. Nilai true menunjukkan bahwa operasi crawling ulang telah selesai.
    • failedUris. Daftar URI yang tidak di-crawl sebelum waktu operasi crawling ulang habis.
    • failureInfo. Informasi tentang URI yang gagal di-crawl. Maksimal, sepuluh nilai array failureInfo akan ditampilkan, meskipun lebih dari sepuluh URI gagal di-crawl.
    • errorMessage. Alasan URI gagal di-crawl, menurut corpusType. Untuk mengetahui informasi selengkapnya, lihat Pesan error.

Pembaruan tepat waktu

Google merekomendasikan agar Anda melakukan muat ulang manual pada halaman baru dan yang diperbarui untuk memastikan bahwa Anda memiliki indeks terbaru.

Pesan error

Saat Anda memantau status operasi crawling ulang, jika waktu tunggu operasi crawling ulang habis saat Anda melakukan polling metode operations.get, operations.get akan menampilkan pesan error untuk halaman web yang tidak di-crawl. Tabel berikut mencantumkan pesan error, baik error bersifat sementara (error sementara yang dapat diselesaikan sendiri), maupun tindakan yang dapat Anda lakukan sebelum mencoba kembali metode recrawlUris. Anda dapat langsung mencoba ulang semua error sementara. Semua error intransient dapat dicoba lagi setelah menerapkan perbaikan.

Pesan error Apakah ini error sementara? Tindakan sebelum mencoba lagi crawling ulang
Halaman di-crawl, tetapi tidak diindeks oleh Vertex AI Search dalam waktu 24 jam Ya Gunakan nilai failedUris dalam respons operations.get untuk nilai di kolom uris saat Anda memanggil metode recrawlUris.
Crawling diblokir oleh robots.txt situs Tidak Hapus pemblokiran URI di file robots.txt situs Anda, pastikan agen pengguna Googlebot diizinkan untuk meng-crawl situs, dan coba lagi crawling ulang. Untuk informasi selengkapnya, lihat Cara menulis dan mengirimkan file robots.txt. Jika Anda tidak dapat mengakses file robots.txt, hubungi pemilik domain.
Halaman tidak dapat dijangkau Tidak Periksa URI yang Anda tentukan saat memanggil metode recrawlUris. Pastikan Anda memberikan URI literal, bukan pola URI.
Waktu tunggu crawl habis Ya Gunakan nilai failedUris dalam respons operations.get untuk nilai di kolom uris saat Anda memanggil metode recrawlUris.
Halaman ditolak oleh crawler Google Ya Gunakan nilai failedUris dalam respons operations.get untuk nilai di kolom uris saat Anda memanggil metode recrawlUris.
URL tidak dapat diikuti oleh crawler Google Tidak Jika ada beberapa pengalihan, gunakan URI dari pengalihan terakhir dan coba lagi
Halaman tidak ditemukan (404) Tidak Periksa URI yang Anda tentukan saat memanggil metode recrawlUris. Pastikan Anda memberikan URI literal, bukan pola URI.

Setiap halaman yang merespons dengan kode error `4xx` akan dihapus dari indeks.

Halaman memerlukan autentikasi Tidak Pengindeksan situs lanjutan tidak mendukung crawling halaman web yang memerlukan autentikasi.

Cara halaman yang dihapus ditangani

Saat halaman dihapus, Google merekomendasikan agar Anda memuat ulang URL yang dihapus secara manual.

Saat penyimpanan data situs Anda di-crawl selama pembaruan otomatis atau manual, jika halaman web merespons dengan kode error klien 4xx atau kode error server 5xx, halaman web yang tidak responsif akan dihapus dari indeks.