Jika penyimpanan data Anda menggunakan penelusuran situs dasar, keaktualan indeks toko Anda akan mencerminkan keaktualan yang tersedia di Google Penelusuran.
Jika pengindeksan situs lanjutan diaktifkan di penyimpanan data Anda, halaman web di penyimpanan data akan diperbarui dengan cara berikut:
- Pemuatan ulang otomatis
- Pemuatan ulang manual
- Pembaruan berbasis peta situs
Halaman ini menjelaskan pembaruan otomatis dan manual. Untuk memahami dan menerapkan pemuatan ulang berbasis peta situs, lihat Mengindeks dan memuat ulang sesuai dengan peta situs.
Pemuatan ulang otomatis
Vertex AI Search melakukan pembaruan otomatis sebagai berikut:
- Setelah Anda membuat penyimpanan data, penyimpanan data akan membuat indeks awal untuk halaman yang disertakan.
- Setelah pengindeksan awal, Google akan mengindeks halaman yang baru ditemukan dan meng-crawl ulang halaman yang ada berdasarkan upaya terbaik.
- Alat ini secara rutin memuat ulang penyimpanan data yang mengalami rasio kueri 50 kueri/30 hari.
Pemuatan ulang manual
Jika ingin memuat ulang halaman web tertentu di penyimpanan data dengan
Pengindeksan situs lanjutan diaktifkan, Anda
dapat memanggil
metode recrawlUris
. Anda menggunakan kolom uris
untuk menentukan setiap halaman web yang ingin di-crawl. Metode recrawlUris
adalah operasi yang berjalan lama yang berjalan hingga halaman web yang Anda tentukan di-crawl atau hingga waktu tunggu habis setelah 24 jam, mana saja yang lebih dulu. Jika waktu tunggu metode recrawlUris
habis, Anda dapat memanggil metode lagi, dengan menentukan halaman web yang masih perlu di-crawl. Anda dapat melakukan polling pada metode operations.get
untuk memantau status operasi crawling ulang.
Batas crawling ulang
Ada batasan frekuensi crawling halaman web dan jumlah halaman web yang dapat Anda crawl sekaligus:
- Panggilan per hari. Jumlah maksimum panggilan ke metode
recrawlUris
yang diizinkan adalah lima per hari, per project. - Halaman web per panggilan. Jumlah maksimum nilai
uris
yang dapat Anda tentukan dengan panggilan ke metoderecrawlUris
adalah 10.000.
Meng-crawl ulang halaman web di penyimpanan data Anda
Anda dapat meng-crawl halaman web tertentu secara manual di penyimpanan data yang telah mengaktifkan Pengindeksan situs lanjutan.
REST
Untuk menggunakan command line guna meng-crawl halaman web tertentu di penyimpanan data Anda, ikuti langkah-langkah berikut:
Temukan ID penyimpanan data Anda. Jika Anda sudah memiliki ID penyimpanan data, lanjutkan ke langkah berikutnya.
Di konsol Google Cloud, buka halaman Agent Builder dan di menu navigasi, klik Data Stores.
Klik nama penyimpanan data Anda.
Di halaman Data untuk penyimpanan data Anda, dapatkan ID penyimpanan data.
Panggil metode
recrawlUris
, menggunakan kolomuris
untuk menentukan setiap halaman web yang ingin Anda crawl. Setiapuri
mewakili satu halaman, meskipun berisi tanda bintang (*
). Pola karakter pengganti tidak didukung.curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine:recrawlUris" \ -d '{ "uris": [URIS] }'
Ganti kode berikut:
PROJECT_ID
: ID project Google Cloud Anda.DATA_STORE_ID
: ID penyimpanan data Vertex AI Search.URIS
: daftar halaman web yang ingin Anda crawl—misalnya,"https://example.com/page-1", "https://example.com/page-2", "https://example.com/page-3"
.
Outputnya mirip dengan hal berikut ini:
{ "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-0123456789012345678", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata" } }
Simpan nilai
name
sebagai input untuk operasioperations.get
saat memantau status operasi crawling ulang.
Memantau status operasi crawling ulang
Metode recrawlUris
, yang Anda gunakan untuk meng-crawl halaman web di penyimpanan data, adalah operasi yang berjalan lama yang berjalan hingga halaman web yang Anda tentukan di-crawl atau hingga waktu tunggu habis setelah 24 jam, mana saja yang lebih dulu. Anda dapat memantau
status operasi yang berjalan lama ini dengan melakukan polling metode operations.get
, yang menentukan nilai name
yang ditampilkan oleh
metode recrawlUris
. Lanjutkan polling hingga respons menunjukkan bahwa:
(1) Semua halaman web Anda di-crawl, atau (2) Waktu operasi habis sebelum semua
halaman web Anda di-crawl. Jika waktu tunggu recrawlUris
habis, Anda dapat memanggilnya
lagi, dengan menentukan situs yang tidak di-crawl.
REST
Untuk menggunakan command line guna memantau status operasi crawling ulang, ikuti langkah-langkah berikut:
Temukan ID penyimpanan data Anda. Jika Anda sudah memiliki ID penyimpanan data, lanjutkan ke langkah berikutnya.
Di konsol Google Cloud, buka halaman Agent Builder dan di menu navigasi, klik Data Stores.
Klik nama penyimpanan data Anda.
Di halaman Data untuk penyimpanan data Anda, dapatkan ID penyimpanan data.
Lakukan polling pada metode
operations.get
.curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/OPERATION_NAME"
Ganti kode berikut:
PROJECT_ID
: ID project Google Cloud Anda.OPERATION_NAME
: nama operasi, yang ditemukan di kolomname
yang ditampilkan dalam panggilan Anda ke metoderecrawlUris
di Menelusuri ulang halaman web di penyimpanan data Anda. Anda juga bisa mendapatkan nama operasi dengan mencantumkan operasi yang berjalan lama.
Evaluasi setiap respons.
Jika respons menunjukkan bahwa ada URI yang tertunda dan operasi crawl ulang belum selesai, halaman web Anda masih di-crawl. Lanjutkan polling.
Contoh
{ "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-0123456789012345678", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata", "createTime": "2023-09-05T22:07:28.690950Z", "updateTime": "2023-09-05T22:22:10.978843Z", "validUrisCount": 4000, "successCount": 2215, "pendingCount": 1785 }, "done": false, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisResponse", } }
Kolom respons dapat dijelaskan sebagai berikut:
createTime
: menunjukkan waktu dimulainya operasi yang berjalan lama.updateTime
: menunjukkan waktu terakhir metadata operasi yang berjalan lama diperbarui. menunjukkan pembaruan metadata setiap lima menit hingga operasi selesai.validUrisCount
: menunjukkan bahwa Anda menentukan 4.000 URI yang valid dalam panggilan ke metoderecrawlUris
.successCount
: menunjukkan bahwa 2.215 URI berhasil di-crawl.pendingCount
: menunjukkan bahwa 1.785 URI belum di-crawl.done
: nilaifalse
menunjukkan bahwa operasi crawling ulang masih berlangsung.
Jika respons menunjukkan bahwa tidak ada URI yang tertunda (tidak ada kolom
pendingCount
yang ditampilkan) dan operasi crawling ulang selesai, halaman web Anda akan di-crawl. Hentikan polling—Anda dapat keluar dari prosedur ini.Contoh
{ "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-0123456789012345678", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata", "createTime": "2023-09-05T22:07:28.690950Z", "updateTime": "2023-09-05T22:37:11.367998Z", "validUrisCount": 4000, "successCount": 4000 }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisResponse" } }
Kolom respons dapat dijelaskan sebagai berikut:
createTime
: menunjukkan waktu dimulainya operasi yang berjalan lama.updateTime
: menunjukkan waktu terakhir metadata operasi yang berjalan lama diperbarui. menunjukkan pembaruan metadata setiap lima menit hingga operasi selesai.validUrisCount
: menunjukkan bahwa Anda menentukan 4.000 URI yang valid dalam panggilan ke metoderecrawlUris
.successCount
: menunjukkan bahwa 4.000 URI berhasil di-crawl.done
: nilaitrue
menunjukkan bahwa operasi crawling ulang telah selesai.
Jika respons menunjukkan bahwa ada URI yang tertunda dan operasi crawling ulang selesai, operasi crawling ulang akan habis waktunya (setelah 24 jam) sebelum semua halaman web Anda di-crawl. Mulai lagi di Meng-crawl ulang halaman web di penyimpanan data. Gunakan nilai
failedUris
dalam responsoperations.get
untuk nilai di kolomuris
dalam panggilan baru Anda ke metoderecrawlUris
.Contoh.
{ "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-8765432109876543210", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata", "createTime": "2023-09-05T22:07:28.690950Z", "updateTime": "2023-09-06T22:09:10.613751Z", "validUrisCount": 10000, "successCount": 9988, "pendingCount": 12 }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisResponse", "failedUris": [ "https://example.com/page-9989", "https://example.com/page-9990", "https://example.com/page-9991", "https://example.com/page-9992", "https://example.com/page-9993", "https://example.com/page-9994", "https://example.com/page-9995", "https://example.com/page-9996", "https://example.com/page-9997", "https://example.com/page-9998", "https://example.com/page-9999", "https://example.com/page-10000" ], "failureSamples": [ { "uri": "https://example.com/page-9989", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9990", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9991", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9992", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9993", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9994", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9995", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9996", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9997", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9998", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] } ] } }
Berikut adalah beberapa deskripsi kolom respons:
createTime
. Waktu operasi yang berjalan lama dimulai.updateTime
. Terakhir kali metadata operasi yang berjalan lama diperbarui. Metadata diperbarui setiap lima menit hingga operasi selesai.validUrisCount
. Menunjukkan bahwa Anda menentukan 10.000 URI yang valid dalam panggilan ke metoderecrawlUris
.successCount
. Menunjukkan bahwa 9.988 URI berhasil di-crawl.pendingCount
. Menunjukkan bahwa 12 URI belum di-crawl.done
. Nilaitrue
menunjukkan bahwa operasi crawling ulang telah selesai.failedUris
. Daftar URI yang tidak di-crawl sebelum waktu operasi crawling ulang habis.failureInfo
. Informasi tentang URI yang gagal di-crawl. Maksimal, sepuluh nilai arrayfailureInfo
akan ditampilkan, meskipun lebih dari sepuluh URI gagal di-crawl.errorMessage
. Alasan URI gagal di-crawl, menurutcorpusType
. Untuk mengetahui informasi selengkapnya, lihat Pesan error.
Pembaruan tepat waktu
Google merekomendasikan agar Anda melakukan muat ulang manual pada halaman baru dan yang diperbarui untuk memastikan bahwa Anda memiliki indeks terbaru.
Pesan error
Saat Anda memantau status operasi crawling ulang, jika waktu tunggu operasi crawling ulang habis saat Anda
melakukan polling metode operations.get
, operations.get
akan menampilkan pesan error untuk
halaman web yang tidak di-crawl. Tabel berikut mencantumkan pesan error,
baik error bersifat sementara (error sementara yang dapat diselesaikan sendiri), maupun
tindakan yang dapat Anda lakukan sebelum mencoba kembali metode recrawlUris
. Anda dapat langsung mencoba ulang
semua error sementara. Semua error intransient dapat dicoba lagi setelah menerapkan perbaikan.
Pesan error | Apakah ini error sementara? | Tindakan sebelum mencoba lagi crawling ulang |
---|---|---|
Halaman di-crawl, tetapi tidak diindeks oleh Vertex AI Search dalam waktu 24 jam | Ya | Gunakan nilai failedUris dalam respons operations.get untuk nilai di kolom uris saat Anda memanggil metode recrawlUris . |
Crawling diblokir oleh robots.txt situs |
Tidak | Hapus pemblokiran URI di file robots.txt situs Anda, pastikan agen pengguna Googlebot diizinkan untuk meng-crawl situs,
dan coba lagi crawling ulang. Untuk informasi selengkapnya, lihat
Cara menulis dan mengirimkan file robots.txt.
Jika Anda tidak dapat mengakses file robots.txt , hubungi pemilik domain. |
Halaman tidak dapat dijangkau | Tidak | Periksa URI yang Anda tentukan saat memanggil metode recrawlUris . Pastikan Anda memberikan URI literal, bukan pola URI. |
Waktu tunggu crawl habis | Ya | Gunakan nilai failedUris dalam respons operations.get untuk nilai di kolom uris saat Anda memanggil metode recrawlUris . |
Halaman ditolak oleh crawler Google | Ya | Gunakan nilai failedUris dalam respons operations.get untuk nilai di kolom uris saat Anda memanggil metode recrawlUris . |
URL tidak dapat diikuti oleh crawler Google | Tidak | Jika ada beberapa pengalihan, gunakan URI dari pengalihan terakhir dan coba lagi |
Halaman tidak ditemukan (404) | Tidak | Periksa URI yang Anda tentukan saat memanggil metode recrawlUris . Pastikan Anda memberikan URI literal, bukan pola URI.
Setiap halaman yang merespons dengan kode error `4xx` akan dihapus dari indeks. |
Halaman memerlukan autentikasi | Tidak | Pengindeksan situs lanjutan tidak mendukung crawling halaman web yang memerlukan autentikasi. |
Cara halaman yang dihapus ditangani
Saat halaman dihapus, Google merekomendasikan agar Anda memuat ulang URL yang dihapus secara manual.
Saat penyimpanan data situs Anda di-crawl selama pembaruan otomatis
atau manual, jika halaman web merespons dengan kode error klien 4xx
atau kode error server 5xx
, halaman web yang tidak responsif akan dihapus dari
indeks.