Halaman ini diterjemahkan oleh Cloud Translation API.

Mulai menggunakan kebijakan penyimpanan ke cache semantik

Halaman ini berlaku untuk Apigee dan Apigee Hybrid.

Lihat dokumentasi Apigee Edge.

Halaman ini menjelaskan cara mengonfigurasi dan menggunakan kebijakan caching semantik Apigee untuk mengaktifkan penggunaan ulang respons cerdas berdasarkan kemiripan semantik. Dengan menggunakan kebijakan ini di proxy API Apigee, panggilan API backend yang berlebihan dapat diminimalkan, latensi berkurang, dan biaya operasional menjadi lebih rendah.

Sebelum memulai

Sebelum memulai, selesaikan tugas berikut:

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Compute Engine, AI Platform, and Cloud Storage APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Compute Engine, AI Platform, and Cloud Storage APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Siapkan dan konfigurasi Text embeddings API dan Vector Search Vertex AI dalam project Google Cloud Anda.
Pastikan Anda memiliki lingkungan Comprehensive yang tersedia di instance Apigee Anda. Kebijakan penyimpanan data dalam cache semantik hanya dapat di-deploy di lingkungan Komprehensif.

Peran yang diperlukan

Untuk mendapatkan izin yang diperlukan untuk membuat dan menggunakan kebijakan caching semantik, minta administrator Anda untuk memberi Anda peran IAM Pengguna AI Platform (roles/aiplatform.user) di akun layanan yang Anda gunakan untuk men-deploy proxy Apigee. Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Menetapkan variabel lingkungan

Di project Google Cloud yang berisi instance Apigee, gunakan perintah berikut untuk menetapkan variabel lingkungan:

export PROJECT_ID=PROJECT_ID
export REGION=REGION
export RUNTIME_HOSTNAME=RUNTIME_HOSTNAME

Dengan:

PROJECT_ID adalah ID project dengan instance Apigee Anda.
REGION adalah Google Cloud region instance Apigee Anda.
RUNTIME_HOSTNAME adalah nama host runtime Apigee Anda.

Untuk mengonfirmasi bahwa variabel lingkungan telah ditetapkan dengan benar, jalankan perintah berikut dan tinjau outputnya:

echo $PROJECT_ID $REGION $RUNTIME_HOSTNAME

Menetapkan project

Tetapkan Google Cloud project di lingkungan pengembangan Anda:

    gcloud auth login
    gcloud config set project $PROJECT_ID

Ringkasan

Kebijakan penyimpanan ke dalam cache semantik membantu pengguna Apigee dengan model LLM untuk secara cerdas menayangkan perintah yang identik atau serupa secara semantik secara efisien, meminimalkan panggilan API backend, dan mengurangi konsumsi resource.

Kebijakan SemanticCacheLookup dan SemanticCachePopulate dilampirkan ke alur permintaan dan respons, masing-masing, dari proxy API Apigee. Saat menerima permintaan, kebijakan SemanticCacheLookup akan mengekstrak perintah pengguna dari permintaan dan mengonversi perintah menjadi representasi numerik menggunakan Text Embeddings API. Penelusuran kemiripan semantik dilakukan menggunakan Vector Search untuk menemukan perintah serupa. Jika titik data perintah serupa ditemukan, pencarian cache akan dilakukan. Jika data yang di-cache ditemukan, respons yang di-cache akan ditampilkan ke klien.

Jika penelusuran kemiripan tidak menampilkan perintah sebelumnya yang serupa, model LLM akan membuat konten sebagai respons terhadap perintah pengguna dan mengisi cache Apigee dengan respons tersebut. Loop umpan balik dibuat untuk memperbarui entri indeks Vector Search sebagai persiapan untuk permintaan mendatang.

Bagian berikut menjelaskan langkah-langkah untuk membuat dan mengonfigurasi kebijakan caching semantik:

Konfigurasi akun layanan untuk indeks Vector Search.
Buat dan deploy indeks Vector Search.
Buat proxy API untuk mengaktifkan caching semantik.
Konfigurasi kebijakan caching semantik.
Uji kebijakan penyimpanan data dalam cache semantik.

Mengonfigurasi akun layanan untuk indeks Vector Search

Untuk mengonfigurasi akun layanan untuk indeks Vector Search, selesaikan langkah-langkah berikut:

Buat akun layanan menggunakan perintah berikut:

gcloud iam service-accounts create SERVICE_ACCOUNT_NAME \
  --description="DESCRIPTION" \
  --display-name="SERVICE_ACCOUNT_DISPLAY_NAME"

Dengan:

SERVICE_ACCOUNT_NAME adalah nama akun layanan.
DESCRIPTION adalah deskripsi akun layanan.
SERVICE_ACCOUNT_DISPLAY_NAME adalah nama tampilan akun layanan.

Contoh:

gcloud iam service-accounts create ai-client \
  --description="semantic cache client" \
  --display-name="ai-client"

Berikan peran AI Platform User kepada akun layanan menggunakan perintah berikut:

gcloud projects add-iam-policy-binding $PROJECT_ID \
  --member="serviceAccount:SERVICE_ACCOUNT_NAME@$PROJECT_ID.iam.gserviceaccount.com" \
  --role="roles/aiplatform.user"

Ganti SERVICE_ACCOUNT_NAME dengan nama akun layanan yang dibuat pada langkah sebelumnya.

Tetapkan peran IAM Service Account User ke akun layanan menggunakan perintah berikut:

gcloud projects add-iam-policy-binding $PROJECT_ID \
  --member="serviceAccount:SERVICE_ACCOUNT_NAME@$PROJECT_ID.iam.gserviceaccount.com" \
  --role="roles/iam.serviceAccountUser"

Ganti SERVICE_ACCOUNT_NAME dengan nama akun layanan yang dibuat pada langkah sebelumnya.

Membuat dan men-deploy indeks Vector Search

Untuk membuat dan men-deploy indeks Vector Search:

Buat indeks Vector Search yang memungkinkan update streaming:

ACCESS_TOKEN=$(gcloud auth print-access-token) && curl --location --request POST \
  "https://$REGION-aiplatform.googleapis.com/v1/projects/$PROJECT_ID/locations/$REGION/indexes" \
    --header "Authorization: Bearer $ACCESS_TOKEN" \
    --header 'Content-Type: application/json' \
    --data-raw \
    '{
      "displayName": "semantic-cache-index",
      "description": "semantic-cache-index",
      "metadata": {
        "config": {
          "dimensions": "768",
          "approximateNeighborsCount": 150,
          "distanceMeasureType": "DOT_PRODUCT_DISTANCE",
          "featureNormType": "NONE",
          "algorithmConfig": {
            "treeAhConfig": {
              "leafNodeEmbeddingCount": "10000",
              "fractionLeafNodesToSearch": 0.05
              }
            },
          "shardSize": "SHARD_SIZE_MEDIUM"
          },
        },
      "indexUpdateMethod": "STREAM_UPDATE"
    }'

$REGION menentukan region tempat indeks Vector Search di-deploy. Sebaiknya Anda menggunakan region yang sama dengan instance Apigee Anda. Variabel lingkungan ini ditetapkan pada langkah sebelumnya.

Setelah operasi ini selesai, Anda akan melihat respons yang mirip dengan berikut:

{
  "name": "projects/976063410430/locations/us-west1/indexes/5695338290484346880/operations/9084564741162008576",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateIndexOperationMetadata",
    "genericMetadata": {
      "createTime": "2025-04-25T18:45:27.996136Z",
      "updateTime": "2025-04-25T18:45:27.996136Z"
    }
  }
}

Untuk mengetahui informasi selengkapnya tentang cara membuat indeks Vector Search, lihat Membuat indeks.

Buat IndexEndpoint menggunakan perintah berikut:

gcloud ai index-endpoints create \
  --display-name=semantic-cache-index-endpoint \
  --public-endpoint-enabled \
  --region=$REGION \
  --project=$PROJECT_ID

Langkah ini mungkin memerlukan waktu beberapa menit untuk diselesaikan. Setelah selesai, Anda akan melihat respons yang mirip dengan berikut:

Waiting for operation [8278420407862689792]...done.
  Created Vertex AI index endpoint: projects/976063410430/locations/us-west1/indexEndpoints/7953875911424606208.

Untuk mengetahui informasi selengkapnya tentang cara membuat IndexEndpoint, lihat Membuat IndexEndpoint.

Deploy indeks ke endpoint menggunakan perintah berikut:

INDEX_ENDPOINT_ID=$(gcloud ai index-endpoints list \
  --project=$PROJECT_ID \
  --region=$REGION \
  --format="json" | jq -c -r \
  '.[] | select(.displayName=="semantic-cache-index-endpoint") | .name | split("/") | .[5]' \
  ) && INDEX_ID=$(gcloud ai indexes list \
  --project=$PROJECT_ID \
  --region=$REGION \
  --format="json" | jq -c -r \
  '.[] | select(.displayName=="semantic-cache-index") | .name | split("/") | .[5]' \
  ) && gcloud ai index-endpoints deploy-index \
  $INDEX_ENDPOINT_ID \
  --deployed-index-id=semantic_cache \
  --display-name=semantic-cache \
  --index=$INDEX_ID \
  --region=$REGION \
  --project=$PROJECT_ID

Catatan: Perintah untuk men-deploy indeks ke endpoint memerlukan jq. Jika utilitas pemrosesan JSON ini belum diinstal di lingkungan pengembangan Anda, Anda dapat menginstalnya menggunakan perintah berikut: $ sudo apt install jq.

Deployment awal indeks ke endpoint dapat memerlukan waktu antara 20 hingga 30 menit hingga selesai. Untuk memeriksa status operasi, gunakan perintah berikut:

gcloud ai operations describe OPERATION_ID \
  --project=$PROJECT_ID \
  --region=$REGION

Pastikan indeks di-deploy:

gcloud ai operations describe OPERATION_ID \
  --index-endpoint=$INDEX_ENDPOINT_ID --region=$REGION --project=$PROJECT_ID

Perintah akan menampilkan $ done: true.

Membuat proxy API untuk mengaktifkan penyimpanan semantik dalam cache

Pada langkah ini, buat proxy API baru menggunakan template Proxy with Semantic Cache, jika Anda belum melakukannya.

Sebelum membuat proxy API, tetapkan variabel lingkungan berikut:

export PUBLIC_DOMAIN_NAME=$(gcloud ai index-endpoints describe $INDEX_ENDPOINT_ID --region=$REGION --project=$PROJECT_ID | grep "publicEndpointDomainName" | awk '{print $2}')

Untuk membuat proxy yang akan digunakan dengan penyimpanan semantik:

Buka halaman API proxies di konsol Google Cloud .
Buka proxy API
Klik + Create untuk membuka panel Create API proxy.
Di kotak Proxy template, pilih Proxy with Semantic Cache.
Masukkan detail berikut:
- Nama proxy: Masukkan nama proxy.
- Deskripsi: (Opsional) Masukkan deskripsi proxy.
- Target (API yang Ada): Masukkan URL layanan backend yang dipanggil proxy. Ini adalah endpoint model LLM yang menghasilkan konten.
  Untuk tutorial ini, tetapkan Target (API yang Ada) ke:
```
REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/publishers/google/models/gemini-2.0-flash-001:generateContent
```
Masukkan URL Cache Semantik berikut:
Catatan: Anda juga dapat menambahkan URL ini ke konfigurasi XML di Editor proxy pada tab Develop.
- URL Pembuatan Embedding: Layanan Vertex AI ini mengonversi input teks menjadi bentuk numerik untuk analisis semantik.
  Untuk tutorial ini, tetapkan URL ini ke URL berikut:
```
REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/publishers/google/models/text-embedding-004:predict
```
- URL Kueri Elemen Terdekat: Layanan Vertex AI ini menelusuri input teks serupa dari permintaan sebelumnya dalam indeks Vector Search untuk menghindari pemrosesan ulang.
  Untuk tutorial ini, tetapkan URL ini ke URL berikut:
```
PUBLIC_DOMAIN_NAME/v1/projects/PROJECT_ID/locations/REGION/indexEndpoints/INDEX_ENDPOINT_ID:findNeighbors
```
  Nilai PUBLIC_DOMAIN_NAME dan INDEX_ENDPOINT_ID ditetapkan pada langkah sebelumnya. Untuk mendapatkan nilai ini, gunakan perintah berikut:
```
  echo $PUBLIC_DOMAIN_NAME
  echo $INDEX_ENDPOINT_ID
```
- URL indeks upsert: Layanan Vertex AI ini memperbarui indeks dengan entri baru atau yang diubah.
  Untuk tutorial ini, tetapkan URL ini ke URL berikut:
```
REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/indexes/INDEX_ID:upsertDatapoints
```
Klik Berikutnya.
Klik Buat.

Konfigurasi XML proxy API akan muncul di tab Develop. Kebijakan SemanticCacheLookup dan SemanticCachePopulate yang berisi nilai default sudah dilampirkan ke alur permintaan dan respons proxy.

Mengonfigurasi kebijakan penyimpanan data dalam cache semantik

Lihat konfigurasi XML setiap kebijakan dengan mengklik nama kebijakan di tampilan Detail pada tab Develop proxy API. Edit XML kebijakan secara langsung di tampilan Kode tab Develop.

Edit kebijakan:

Kebijakan SemanticCacheLookup:
- Hapus elemen <UserPromptSource> untuk menggunakan nilai default.
- Perbarui elemen <DeployedIndexId> untuk menggunakan nilai semantic_cache.
- Konfigurasi nilai kemiripan semantik <Threshold> untuk menentukan kapan dua perintah dianggap cocok. Nilai defaultnya adalah 0,9, tetapi Anda dapat menyesuaikan nilai ini berdasarkan sensitivitas aplikasi Anda. Makin besar angkanya, makin erat hubungan antara perintah yang harus ada agar dianggap sebagai cache ditemukan. Untuk tutorial ini, sebaiknya setel nilai ini ke 0,95.
- Klik Simpan.
Kebijakan SemanticCachePopulate:
- Tetapkan elemen <TTLInSeconds> untuk menentukan jumlah detik hingga masa berlaku cache berakhir, dalam detik. Nilai defaultnya adalah 60 detik. Perhatikan bahwa Apigee mengabaikan header cache-control yang diterimanya dari model LLM.
- Klik Simpan.

Menambahkan autentikasi Google ke proxy API

Anda juga harus menambahkan autentikasi Google ke endpoint target proxy API untuk mengaktifkan panggilan proxy ke target.

Untuk menambahkan token akses Google:

Di tab Develop, klik default di folder Target endpoints. Tampilan kode menampilkan konfigurasi XML elemen <TargetEndpoint>.

Edit XML untuk menambahkan konfigurasi berikut di bagian <HTTPTargetConnection>:

<Authentication>
  <GoogleAccessToken>
    <Scopes>
      <Scope>https://www.googleapis.com/auth/cloud-platform</Scope>
    </Scopes>
  </GoogleAccessToken>
</Authentication>

Klik Simpan.

Men-deploy proxy API

Untuk men-deploy proxy API:

Klik Deploy untuk membuka panel Deploy API proxy.
Kolom Revisi harus ditetapkan ke 1. Jika belum, klik 1 untuk memilihnya.
Di daftar Environment, pilih lingkungan tempat Anda ingin men-deploy proxy. Lingkungan harus berupa lingkungan Komprehensif.
Masukkan Akun layanan yang Anda buat di langkah sebelumnya.
Klik Deploy.

Menguji kebijakan caching semantik

Untuk menguji kebijakan penyimpanan data dalam cache semantik:

Kirim permintaan ke proxy menggunakan perintah berikut:

curl https://$RUNTIME_HOSTNAME/PROXY_NAME -H 'Content-Type: application/json' --data '{
  "contents": [
      {
          "role": "user",
          "parts": [
              {
                  "text": "Why is the sky blue?"
              }
          ]
      }
  ]
}'

Ganti PROXY_NAME dengan basepath proxy API yang Anda deploy pada langkah sebelumnya.

Kenapa langit warnanya biru?
Apa yang membuat langit berwarna biru?
Mengapa langit berwarna biru?
Dapatkah Anda menjelaskan mengapa langit berwarna biru?
Langit berwarna biru, mengapa demikian?

Bandingkan waktu respons untuk setiap panggilan setelah perintah serupa di-cache.

Untuk memverifikasi bahwa panggilan Anda ditayangkan dari cache, periksa header respons. Header Cached-Content: true dilampirkan.

Praktik terbaik

Sebaiknya terapkan praktik terbaik berikut ke program pengelolaan API Anda saat menggunakan kebijakan caching semantik:

Mencegah penyimpanan data sensitif dalam cache dengan Model Armor.
Untuk mencegah penyimpanan data sensitif dalam cache, sebaiknya gunakan Model Armor untuk pemfilteran konten. Model Armor dapat menandai respons sebagai tidak dapat di-cache jika mendeteksi informasi sensitif. Untuk mengetahui informasi selengkapnya, lihat Ringkasan Model Armor.
Mengelola keaktualan data dengan pembatalan validitas titik data Vertex AI dan Time-to-Live (TTL).
Sebaiknya terapkan strategi pembatalan titik data yang sesuai untuk memastikan respons yang di-cache selalu terbaru dan mencerminkan informasi terbaru dari sistem backend Anda. Untuk mempelajari lebih lanjut, lihat Mengupdate dan membangun ulang indeks aktif.

Anda juga dapat menyesuaikan TTL untuk respons yang di-cache berdasarkan volatilitas data dan frekuensi pembaruan. Untuk mengetahui informasi selengkapnya tentang penggunaan TTL dalam kebijakan SemanticCachePopulate, lihat <TTLInSeconds>.
Gunakan strategi penyimpanan dalam cache yang telah ditentukan untuk memastikan data respons yang paling akurat.
Sebaiknya terapkan strategi caching yang telah ditentukan sebelumnya yang serupa dengan berikut ini:
- Respons AI generik: Konfigurasi TTL yang panjang (misalnya, satu jam) untuk respons yang tidak spesifik per pengguna.
- Respons khusus pengguna: Jangan menerapkan caching, atau tetapkan TTL singkat (misalnya, lima menit) untuk respons yang berisi informasi khusus pengguna.
- Respons yang sensitif terhadap waktu: Konfigurasi TTL singkat (misalnya, lima menit) untuk respons yang memerlukan update real-time atau sering.

Meningkatkan kuota untuk layanan dependen

Jika Anda mengalami hambatan performa akibat kueri per detik (QPS) yang lebih tinggi, Anda mungkin perlu menambah kuota berikut untuk layanan dependen di project Anda: Google Cloud

Permintaan prediksi online per menit per region (pilih menurut region)
Permintaan prediksi online regional per model dasar per menit per region (pilih menurut region dan model textembedding-gecko)
Permintaan update streaming Matching Engine per menit per region (pilih menurut region)

Untuk menambah kuota salah satu layanan ini:

Buka halaman Quota & System Limits:
Buka Quota & System Limits
Di kolom filter, masukkan nama kuota tertentu yang ingin Anda tingkatkan, beserta region dan model, jika relevan.
Misalnya, filter menurut Permintaan prediksi online regional per model dasar per menit per region dan textembedding-gecko serta us-west1.
Klik menu untuk layanan yang ingin Anda tingkatkan, lalu pilih Edit kuota.
Masukkan nilai baru yang lebih tinggi untuk kuota.
Klik Selesai.
Klik Submit request.

Setelah Anda mengirimkan permintaan, penambahan kuota akan diproses. Anda dapat memantau status di halaman Quotas & System Limits menggunakan tab Increase requests.

Batasan

Batasan berikut berlaku untuk kebijakan caching semantik:

Ukuran teks maksimum yang dapat di-cache adalah 256 KB. Untuk mengetahui informasi selengkapnya, lihat Ukuran nilai cache di halaman Batas Apigee.
Apigee mengabaikan header cache-control apa pun yang diterimanya dari model LLM.
Jika cache tidak dibatalkan dengan benar atau jika algoritma kemiripan semantik tidak cukup akurat untuk membedakan antara input dengan makna yang sangat mirip, respons dapat menampilkan informasi yang sudah tidak berlaku atau salah.
- Untuk mengetahui informasi selengkapnya tentang cara mengonfigurasi TTL untuk mengelola keaktualan data, lihat bagian Praktik terbaik.
- Untuk mengetahui informasi selengkapnya tentang cara mengonfigurasi batas kesamaan semantik, lihat bagian Mengonfigurasi kebijakan caching semantik.
- Untuk mengetahui informasi selengkapnya tentang penyesuaian algoritma kemiripan semantik, lihat Memfilter kecocokan vektor.
Fitur Penelusuran Vektor tidak didukung di semua wilayah. Untuk mengetahui daftar region yang didukung, lihat bagian Ketersediaan fitur di halaman Lokasi Vertex AI. Jika organisasi Apigee Anda berada di region yang tidak didukung, Anda harus membuat endpoint indeks di region yang berbeda dengan organisasi Apigee Anda.
Kebijakan caching semantik tidak didukung untuk digunakan dengan proxy API yang menggunakan EventFlows untuk streaming respons berkelanjutan dari peristiwa yang dikirim server (SSE).
Kebijakan caching semantik menggunakan LLM API, yang dapat menghasilkan latensi yang lebih tinggi dalam ratusan milidetik.
Dalam penginstalan hybrid Apigee, dukungan untuk kebijakan caching semantik terbatas pada penginstalan di Google Cloud Platform.
Apigee hybrid tidak mendukung proxy teruskan dengan kebijakan caching semantik.

Langkah berikutnya

Pelajari cara Mulai menggunakan kebijakan Model Armor.