Mengindeks dan memuat ulang halaman web menggunakan peta situs

Jika pengindeksan situs lanjutan diaktifkan di penyimpanan data, Anda dapat mengirimkan dan menggunakan peta situs untuk mengindeks dan memuat ulang halaman web di penyimpanan data. Fitur ini hanya mendukung peta situs dan indeks peta situs XML.

Halaman ini menjelaskan cara mengirimkan peta situs atau indeks peta situs untuk memicu pengindeksan dan pembaruan berbasis peta situs. Untuk memahami dan menerapkan pembaruan otomatis dan manual tanpa peta situs, lihat Memuat ulang halaman web.

Selain itu, halaman ini menjelaskan cara melihat peta situs di penyimpanan data Anda atau menghapus peta situs.

Konsep pembaruan berbasis peta situs

Berikut adalah beberapa konsep dan istilah utama yang akan membantu Anda memulai:

  • Protokol peta situs: Semua peta situs dan indeks peta situs yang didukung Vertex AI Search harus mengikuti protokol peta situs.

  • Peta situs: Peta situs adalah file XML yang dienkode UTF-8 yang berisi daftar URL halaman web dan file di situs Anda dengan informasi penting lainnya, tetapi bersifat opsional, seperti tanggal terakhir halaman web diubah dan prioritas halaman web untuk crawler dibandingkan dengan halaman web lain di situs Anda. Menurut protokol peta situs, satu peta situs dapat berisi maksimal 50.000 URL dan berukuran maksimal 50 MB.

  • Indeks peta situs: Jika peta situs Anda melebihi URL maksimum atau ukuran maksimum, Anda dapat membuat beberapa peta situs dan mencantumkan peta situs ini dalam file indeks peta situs. Menurut protokol peta situs, satu indeks peta situs dapat mengelompokkan maksimal 50.000 peta situs dan maksimal 50 MB.

Anda dapat mengirimkan satu atau beberapa peta situs, satu atau beberapa indeks peta situs, atau kombinasi peta situs dan indeks peta situs ke Vertex AI Search.

Saat mengirimkan peta situs atau indeks peta situs ke penyimpanan data Vertex AI Search, Anda akan memicu tindakan berikut:

  • Pengindeksan URL yang disertakan dalam indeks penyimpanan data Anda.

    • Untuk pembaruan khusus peta situs, daftar ini hanya berisi URL di peta situs atau indeks peta situs yang cocok dengan pola URL yang disertakan dalam penyimpanan data Anda.
    • Untuk pembaruan kombinasi, daftar ini berisi semua URL yang ditemukan oleh proses pembaruan otomatis.

    Untuk informasi selengkapnya tentang kedua proses pembaruan ini, lihat Metode pembaruan penyimpanan data situs dan Pembaruan khusus peta situs.

  • Pembaruan harian URL yang disertakan

Metode pembaruan penyimpanan data situs

Anda dapat memilih salah satu cara berikut untuk menyertakan pembaruan berbasis peta situs di penyimpanan data Anda:

  • Refresh khusus peta situs: Gunakan refresh berbasis peta situs secara eksklusif dengan menonaktifkan pengindeksan awal dan refresh otomatis.
  • Pemuatan ulang kombinasi: Gunakan pemuatan ulang berbasis peta situs dengan pengindeksan awal dan pemuatan ulang otomatis.

Anda dapat memuat ulang secara manual halaman web tertentu di indeks penyimpanan data Anda kapan saja, terlepas dari metode pemuatan ulang yang Anda pilih.

Pembaruan khusus peta situs

Saat membuat penyimpanan data situs, Anda harus memberikan pola URL untuk halaman web yang ingin disertakan dalam indeks penyimpanan data. Secara default, saat Anda selesai membuat penyimpanan data situs, Vertex AI Search akan membuat indeks awal untuk halaman web yang disertakan ini.

Untuk penyimpanan data situs dengan pengindeksan situs lanjutan, proses pengindeksan awal adalah bagian dari muat ulang otomatis. Proses pengindeksan awal mengindeks semua URL yang disertakan dan tersedia di Google Penelusuran. Keaktualan awal URL ini mencerminkan keaktualan yang tersedia di Google Penelusuran. Setelah pengindeksan awal, proses pemuatan ulang otomatis akan menemukan halaman baru dan memuat ulangnya berdasarkan upaya terbaik. Hal ini dapat menghasilkan halaman yang relatif usang dan indeks yang lebih besar karena proses ini menemukan URL yang mungkin melebihi yang diperlukan.

Sebagai gantinya, Anda dapat memilih untuk melakukan pembaruan khusus peta situs, yang berguna dalam skenario berikut:

  • Anda memiliki peta situs yang diperbarui dan dikelola dengan baik.
  • Anda memiliki situs besar dan memerlukan kontrol yang lebih ketat atas halaman web mana yang diindeks. Hal ini menghasilkan indeks yang lebih ringkas dan mudah dikelola.
  • Anda perlu memuat ulang halaman yang diindeks setiap hari. Hal ini menghasilkan indeks yang lebih baru.

Tabel berikut membandingkan berbagai metode yang memuat ulang indeks penyimpanan data:

Metode refresh Presisi Intervensi manual Frekuensi Discovery
Pembaruan berbasis peta situs Tepat sekali. Hanya mengindeks URL dalam peta situs. Tidak diperlukan setelah mengirimkan peta situs atau indeks peta situs Harian Tidak melebihi yang ditentukan dalam peta situs.
Pembaruan manual (juga dikenal sebagai crawling ulang) Tepat sekali. Hanya mengindeks URL yang ditentukan dalam permintaan crawling ulang. Wajib On demand Tidak.
Pemuatan ulang otomatis Tidak tepat. Penyimpanan data diperbarui berdasarkan upaya terbaik. Tidak diperlukan Acak dan berdasarkan upaya terbaik Ya. Menemukan URL di luar yang tersedia di Google Penelusuran.

Sebelum memulai

Sebelum Anda mengirimkan peta situs atau indeks peta situs ke penyimpanan data Vertex AI Search:

  • Buat peta situs XML atau indeks peta situs yang mereferensikan semua peta situs untuk situs Anda sesuai dengan protokol peta situs.
  • Pahami bahwa untuk mengirimkan peta situs atau indeks peta situs ke penyimpanan data Vertex AI Search, Anda tidak perlu mengirimkannya ke Google Penelusuran.
  • Semua URL di peta situs yang ingin Anda indeks harus milik domain publik yang diverifikasi di penyimpanan data Anda. Untuk informasi selengkapnya, lihat Memverifikasi domain situs.
  • URI peta situs atau URI indeks peta situs dengan URI peta situs bertingkat harus tersedia secara publik.

Mengirimkan peta situs atau indeks peta situs ke penyimpanan data

Untuk memicu pengindeksan dan pembaruan halaman web yang disertakan di penyimpanan data Anda, ikuti langkah-langkah berikut:

  1. Tentukan apakah Anda ingin melakukan pembaruan khusus peta situs atau pembaruan kombinasi dengan metode lain.

  2. Untuk melakukan pembaruan khusus peta situs, ikuti langkah ini. Jika tidak, lanjutkan ke langkah berikutnya.

    Anda tidak dapat menggunakan penyimpanan data yang sudah ada yang memiliki pengindeksan dan pembaruan awal. Anda harus membuat penyimpanan data baru dengan menonaktifkan pengindeksan awal dan pembaruan otomatis menggunakan konfigurasi AdvancedSiteSearchConfig.

    REST

    Buat penyimpanan data yang hanya mengaktifkan pembaruan peta situs. Hal ini dilakukan dengan menonaktifkan indeks awal dan pembaruan otomatis.

    curl -X POST\
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json"\
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \
    -d '{
       "displayName": "DATA_STORE_DISPLAY_NAME",
       "industryVertical": "GENERIC",
       "content_config": "PUBLIC_WEBSITE",
       "searchTier": "ENTERPRISE",
       "advancedSiteSearchConfig": {
          "disableInitialIndex": true,
          "disableAutomaticRefresh": true,
       }
    }'
    

    Ganti kode berikut:

    • PROJECT_ID: ID project Google Cloud Anda.
    • DATA_STORE_ID: ID penyimpanan data Vertex AI Search yang ingin Anda buat. ID ini hanya boleh berisi huruf kecil, angka, garis bawah, dan tanda hubung.
    • DATA_STORE_DISPLAY_NAME: nama tampilan penyimpanan data Vertex AI Search yang ingin Anda buat.

  3. Perbarui pola URL situs yang akan disertakan dan dikecualikan di penyimpanan data Anda. Untuk informasi selengkapnya, Buat penyimpanan data menggunakan konten situs.

  4. Verifikasi domain halaman web yang disertakan dalam penyimpanan data Anda.

  5. Baik Anda memilih pembaruan khusus peta situs atau pembaruan kombinasi, kirimkan URI peta situs atau indeks peta situs ke penyimpanan data menggunakan metode sitemaps.create.

    REST

    Kirim peta situs atau indeks peta situs.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_NUMBER" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_NUMBER/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI" \
    

    Ganti kode berikut:

    • PROJECT_ID: ID project Google Cloud Anda.
    • DATA_STORE_ID: ID penyimpanan data Vertex AI Search.
    • SITEMAP_URI: URI publik untuk setiap peta situs atau indeks peta situs yang ingin Anda kirimkan. Saat Anda mengirimkan indeks peta situs, cukup kirimkan URI indeks peta situs. Vertex AI Search otomatis mengindeks URL yang disertakan di semua peta situs yang bertingkat dalam indeks peta situs.

    Setelah Anda mengirimkan peta situs atau indeks peta situs ke penyimpanan data, Vertex AI Search akan memicu hal berikut:

    • Pengindeksan URL yang memenuhi syarat dalam peta situs—yang disertakan dalam penyimpanan data Anda. Proses ini dapat memerlukan waktu beberapa jam hingga selesai. Peta situs yang lebih besar dapat memerlukan waktu lebih lama untuk diindeks.
    • Pembaruan harian halaman web dengan URL yang memenuhi syarat.

    Untuk mengetahui pengaruh perubahan pada peta situs atau indeks peta situs terhadap pembaruan, lihat Perubahan pada peta situs dan indeks peta situs.

  6. Lihat peta situs di penyimpanan data Anda.

Perubahan pada peta situs dan indeks peta situs

Setelah pengiriman awal, Vertex AI Search mendeteksi perubahan pada peta situs atau indeks peta situs Anda setiap hari dan menangani perubahan ini dengan cara berikut:

  • Perubahan pada peta situs:
    • Saat Anda menambahkan URL: URL yang cocok dengan pola URL yang disertakan untuk penyimpanan data akan ditambahkan ke indeks dan diperbarui setiap hari.
    • Saat Anda menghapus URL: Jika URL yang dihapus ada dalam indeks, URL tersebut akan dihapus dari indeks dan tidak akan dimuat ulang lagi.
    • Saat Anda memperbarui URL yang ada—misalnya, saat Anda memperbarui kolom lastmod untuk URL di peta situs: Setiap URL yang diperbarui yang cocok dengan pola URL yang disertakan untuk penyimpanan data akan diperbarui. Pembaruan biasanya terjadi dalam waktu 24 jam setelah update.
  • Perubahan pada indeks peta situs:
    • Saat Anda menambahkan peta situs: URL dalam peta situs baru yang cocok dengan pola URL yang disertakan untuk penyimpanan data akan ditambahkan ke indeks dan diperbarui setiap hari.
    • Saat Anda menghapus peta situs: URL yang cocok dengan pola URL yang disertakan untuk penyimpanan data tidak akan dimuat ulang. Namun, halaman tersebut masih tetap ada di indeks. Untuk menghapus peta situs dan URL-nya dari indeks, lihat Menghapus peta situs dan URL-nya dari indeks.

Mencantumkan peta situs dan indeks peta situs di penyimpanan data

Untuk mencantumkan semua peta situs dan indeks peta situs di penyimpanan data, gunakan metode sitemaps.fetch. Jika Anda telah mengirimkan indeks peta situs, metode ini akan menampilkan indeks peta situs, bukan peta situs bertingkat satu per satu. Jika tidak ada peta situs di penyimpanan data, permintaan ini akan menampilkan file JSON kosong.

REST

Mencantumkan peta situs dan indeks peta situs di penyimpanan data.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"

Ganti kode berikut:

  • PROJECT_ID: ID project Google Cloud Anda.
  • DATA_STORE_ID: ID penyimpanan data Vertex AI Search.

Memeriksa apakah peta situs atau indeks peta situs ada di penyimpanan data

Untuk memeriksa apakah peta situs atau indeks peta situs ada di penyimpanan data, gunakan metode sitemaps.fetch. Jika peta situs atau indeks peta situs yang Anda periksa dikirim ke penyimpanan data, respons akan berisi nama peta situs dan URI peta situs. Jika Anda telah mengirimkan indeks peta situs, memeriksa setiap peta situs dalam indeks peta situs tidak akan menampilkan hasil yang benar.

REST

Memeriksa peta situs atau indeks peta situs di penyimpanan data.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"

Ganti kode berikut:

  • PROJECT_ID: ID project Google Cloud Anda.
  • DATA_STORE_ID: ID penyimpanan data Vertex AI Search.
  • SITEMAP_URI_N: URI publik peta situs atau indeks peta situs yang ingin Anda periksa di penyimpanan data.

Menghapus peta situs atau indeks peta situs dari penyimpanan data

Untuk menghapus peta situs dari penyimpanan data, gunakan metode sitemap.delete. Menghapus peta situs tidak akan menghapus URL-nya dari indeks. Untuk menghapus peta situs dan URL-nya dari indeks, lihat Menghapus peta situs dan URL-nya dari indeks.

REST

Menghapus peta situs atau indeks peta situs.

curl -X DELETE \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"

Ganti kode berikut:

Menghapus peta situs atau indeks peta situs beserta URL-nya dari indeks penyimpanan data

Untuk menghapus peta situs atau indeks peta situs dan URL-nya dari indeks, ikuti langkah-langkah berikut:

  1. Kosongkan peta situs atau indeks peta situs yang dikirim ke penyimpanan data dengan menghapus semua URL-nya.

    Jika Anda mengirimkan indeks peta situs ke penyimpanan data, kosongkan peta situs bertingkat dengan menghapus semua URL dan menghapus peta situs dari indeks peta situs.

  2. Tunggu selama 48 jam agar Vertex AI Search memproses perubahan ini dan menghapus URL dari indeks datastore.

  3. Hapus peta situs atau indeks peta situs.