Membuat jawaban yang dirujuk dengan RAG

Sebagai bagian dari pengalaman Retrieval Augmented Generation (RAG) di Vertex AI Agent Builder, Anda dapat membuat jawaban yang berdasar pada perintah berdasarkan sumber dasar berikut:

  • Google Penelusuran: Gunakan Perujukan dengan Google Penelusuran jika Anda ingin menghubungkan model dengan pengetahuan dunia, berbagai topik, atau informasi terbaru di internet. Perujukan dengan Google Penelusuran mendukung pengambilan dinamis yang memberi Anda opsi untuk membuat Hasil dengan Rujukan dengan Google Penelusuran hanya jika diperlukan. Oleh karena itu, konfigurasi pengambilan dinamis mengevaluasi apakah perintah memerlukan pengetahuan tentang peristiwa terbaru dan mengaktifkan Perujukan dengan Google Penelusuran. Untuk informasi selengkapnya, lihat Pengambilan dinamis.
  • Teks inline: Gunakan dasar dengan teks inline untuk melandasi jawaban dalam potongan teks yang disebut teks fakta yang disediakan dalam permintaan. Teks fakta adalah pernyataan yang diberikan pengguna yang dianggap faktual untuk permintaan tertentu. Model tidak memeriksa keaslian teks fakta.
  • Penyimpanan data Vertex AI Search: Gunakan grounding dengan Vertex AI Search jika Anda ingin menghubungkan model ke dokumen perusahaan dari penyimpanan data Vertex AI Search.

Halaman ini menjelaskan cara membuat jawaban yang berdasar berdasarkan sumber dasar ini menggunakan pendekatan berikut:

Selain itu, Anda dapat memilih untuk melakukan streaming jawaban dari model. Membuat jawaban yang berdasar dengan streaming adalah fitur Eksperimental.

Anda dapat menggunakan metode lain untuk menghasilkan jawaban yang berdasar, agar sesuai dengan aplikasi Anda. Untuk mengetahui informasi selengkapnya, lihat Vertex AI API untuk membuat pengalaman penelusuran dan RAG.

Terminologi

Sebelum Anda menggunakan metode pembuatan jawaban yang berdasar, sebaiknya pahami input dan output, cara menyusun permintaan, dan terminologi terkait RAG.

Istilah RAG

RAG adalah metodologi yang memungkinkan Model Bahasa Besar (LLM) menghasilkan respons yang didasarkan pada sumber data pilihan Anda. Ada dua tahap dalam RAG:

  1. Pengambilan: Mendapatkan fakta yang paling relevan dengan cepat dapat menjadi masalah penelusuran umum. Dengan RAG, Anda dapat dengan cepat mengambil fakta yang penting untuk menghasilkan jawaban.
  2. Pembuatan: Fakta yang diambil digunakan oleh LLM untuk menghasilkan respons yang berisi rujukan.

Oleh karena itu, metode pembuatan jawaban yang berdasar mengambil fakta dari sumber yang berdasar dan menghasilkan jawaban yang berdasar.

Data input

Metode pembuatan jawaban yang berdasar memerlukan input berikut dalam permintaan:

  • Peran: Pengirim teks tertentu yang merupakan pengguna (user) atau model (model).

  • Text: Jika peran adalah user, teks adalah perintah dan jika peran adalah model, teks adalah jawaban yang beralasan. Cara Anda menentukan peran dan teks dalam permintaan ditentukan sebagai berikut:

    • Untuk pembuatan jawaban satu giliran, pengguna mengirim teks perintah dalam permintaan dan model mengirim teks jawaban dalam respons.
    • Untuk pembuatan jawaban multi-giliran, permintaan berisi pasangan perintah-jawaban untuk semua giliran sebelumnya dan teks perintah dari pengguna untuk giliran saat ini. Oleh karena itu, dalam permintaan tersebut, peran adalah user untuk teks perintah dan model untuk teks jawaban.
  • Petunjuk sistem: Pengantar untuk perintah Anda yang mengatur perilaku model dan mengubah output yang sesuai. Misalnya, Anda dapat menambahkan persona ke jawaban yang dihasilkan atau menginstruksikan model untuk memformat teks output dengan cara tertentu. Untuk pembuatan jawaban multi-giliran, Anda harus memberikan petunjuk sistem untuk setiap giliran. Untuk informasi selengkapnya, lihat Menggunakan petunjuk sistem.

  • Sumber dasar: Sumber tempat jawaban didasarkan dan dapat berupa satu atau beberapa hal berikut:

    • Google Penelusuran: Mendukung jawaban dengan hasil Google Penelusuran. Jika sumber perujukan adalah Google Penelusuran, Anda dapat menentukan konfigurasi pengambilan dinamis dengan nilai minimum pengambilan dinamis. Untuk informasi selengkapnya, lihat Pengambilan dinamis.

    • Teks inline: Dasari jawaban dengan teks fakta yang disediakan dalam permintaan. Teks fakta adalah pernyataan yang diberikan pengguna yang dianggap faktual untuk permintaan tertentu. Model tidak memeriksa keaslian teks fakta. Anda dapat memberikan maksimum 100 teks fakta di setiap sumber teks inline. Teks fakta dapat didukung menggunakan atribut meta, seperti judul, penulis, dan URI. Atribut meta ini ditampilkan dalam respons saat mengutip bagian yang mendukung jawaban.

    • Penyimpanan data Vertex AI Search: Mendasarkan jawaban dalam dokumen dari penyimpanan data Vertex AI Search. Anda tidak dapat menentukan datastore penelusuran situs sebagai sumber dasar.

    Dalam permintaan tertentu, Anda dapat memberikan sumber teks inline dan sumber penyimpanan data Vertex AI Search. Anda tidak dapat menggabungkan Google Penelusuran dengan salah satu sumber ini. Oleh karena itu, jika ingin mendasari jawaban dengan hasil Google Penelusuran, Anda harus mengirim permintaan terpisah yang menentukan Google Penelusuran sebagai satu-satunya sumber dasar.

    Anda dapat memberikan maksimum 10 sumber pentanahan dalam urutan apa pun. Misalnya, Anda memberikan sumber pentanahan dengan jumlah berikut, dalam urutan berikut untuk mendapatkan total 10 sumber pentanahan:

    • Tiga sumber teks inline, yang masing-masing dapat berisi maksimum 100 teks fakta
    • Enam penyimpanan data Vertex AI Search
    • Satu sumber teks inline, yang berisi maksimum 100 teks fakta

    Setiap sumber diberi indeks sesuai urutan yang ditentukan dalam permintaan. Misalnya, jika Anda telah menentukan kombinasi sumber dalam permintaan, indeks sumber akan ditetapkan seperti yang diilustrasikan dalam tabel berikut:

    Sumber grounding Indeks
    Teks inline #1 0
    Teks inline #2 1
    Penyimpanan data Vertex AI Search #1 2
    Teks inline #3 3
    Penyimpanan data Vertex AI Search #2 4

    Indeks ini dikutip dalam respons dan berguna saat melacak provenans.

  • Spesifikasi pembuatan: Spesifikasi untuk konfigurasi model yang terdiri dari informasi berikut:

    • ID Model: Menentukan model Vertex AI Gemini yang akan digunakan untuk pembuatan jawaban. Untuk mengetahui daftar model yang dapat Anda gunakan untuk menghasilkan jawaban yang berdasar, lihat Model yang didukung.
    • Parameter model: Tentukan parameter yang dapat Anda tetapkan untuk model yang Anda pilih untuk digunakan. Parameter ini adalah: bahasa, temperatur, top-P, dan top-K. Untuk mengetahui detail tentang parameter ini, lihat Parameter model Gemini.

Data output

Respons yang dihasilkan model disebut kandidat dan berisi data berikut. Tidak semua kolom mungkin ada dalam output.

  • Peran: Pengirim jawaban yang berdasar. Respons selalu berisi teks jawaban yang beralasan. Oleh karena itu, peran dalam respons selalu berupa model.

  • Teks: Jawaban yang berdasar.

  • Skor dasar: Nilai float dalam rentang [0, 1] yang menunjukkan seberapa baik jawaban didasarkan pada sumber yang diberikan.

  • Metadata grounding: Metadata tentang sumber grounding. Metadata grounding berisi informasi berikut:

    • Dukungan bagian: Daftar bagian yang mendukung jawaban. Setiap bagian dukungan diberi indeks bagian dukungan yang berguna saat melacak asal. Setiap bagian dukungan berisi hal berikut:

      • Teks bagian: Bagian teks yang dikutip secara verbatim dari sumber tempat jawaban atau bagian jawaban (disebut teks klaim) diekstrak. Hal ini mungkin tidak selalu ada dalam respons.
      • Sumber: Indeks yang ditetapkan ke sumber dalam permintaan.
      • Metadata sumber: Metadata tentang bagian. Bergantung pada sumbernya, metadata sumber dapat berupa salah satu dari berikut:

        • Untuk sumber inline, metadata dapat berupa detail tambahan yang ditentukan dalam permintaan seperti judul, penulis, atau URI.
        • Untuk penyimpanan data Vertex AI Search, metadata dapat berupa ID dokumen, judul dokumen, URI (lokasi Cloud Storage), atau nomor halaman.
        • Untuk Perujukan dengan Google Penelusuran, saat hasil yang dirujuk dibuat, metadata berisi URI yang mengalihkan ke penayang konten yang digunakan untuk membuat hasil yang dirujuk. Metadata juga berisi domain penayang. URI yang diberikan tetap dapat diakses hingga 30 hari setelah hasil yang di-grounding dihasilkan.
    • Dukungan dasar: Informasi dasar untuk klaim dalam jawaban. Dukungan pentanahan berisi informasi berikut:

      • Teks klaim: Jawaban atau bagian dari jawaban yang didukung dengan teks bagian dukungan.
      • Indeks bagian dukungan: Indeks yang ditetapkan ke bagian dukungan dalam urutan kemunculan bagian dalam daftar bagian dukungan.
      • Kueri penelusuran web: Kueri penelusuran yang disarankan untuk Saran Google Penelusuran.
      • Saran Penelusuran: Jika Anda menerima Saran Google Penelusuran dengan respons, respons tersebut adalah "Hasil dengan Rujukan" yang tunduk pada persyaratan layanan untuk Perujukan dengan Google Penelusuran. Untuk mengetahui informasi selengkapnya, lihat Persyaratan Layanan . Kolom renderedContent dalam kolom searchEntryPoint adalah kode yang disediakan untuk menerapkan Saran Penelusuran Google. Untuk menggunakan Saran Google Penelusuran, lihat Menggunakan Saran Google Penelusuran.

Membuat jawaban yang berdasar dalam satu giliran

Bagian ini menjelaskan cara membuat jawaban yang didasarkan pada sumber berikut:

Mendasari jawaban dalam teks inline dan penyimpanan data Vertex AI Search

Contoh berikut menunjukkan cara mengirim teks perintah dengan menentukan teks inline dan penyimpanan data Vertex AI Search sebagai sumber dasar. Anda tidak dapat menentukan datastore penelusuran situs sebagai sumber dasar. Contoh ini menggunakan metode generateGroundedContent.

REST

  1. Kirim perintah dalam permintaan curl berikut.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global:generateGroundedContent" \
    -d '
    {
    "contents": [
     {
       "role": "user",
       "parts": [
         {
           "text": "PROMPT_TEXT"
         }
       ]
     }
    ],
    "systemInstruction": {
       "parts": {
           "text": "SYSTEM_INSTRUCTION"
       }
    },
    "groundingSpec": {
     "groundingSources": [
       {
         "inlineSource": {
           "groundingFacts": [
             {
               "factText": "FACT_TEXT_1",
               "attributes": {
                 "title": "TITLE_1",
                 "uri": "URI_1",
                 "author": "AUTHOR_1"
               }
             }
           ]
         }
       },
       {
         "inlineSource": {
           "groundingFacts": [
             {
               "factText": "FACT_TEXT_2",
               "attributes": {
                 "title": "TITLE_2",
                 "uri": "URI_2"
               }
             },
             {
               "factText": "FACT_TEXT_3",
               "attributes": {
                 "title": "TITLE_3",
                 "uri": "URI_3"
               }
             }
           ]
         }
       },
       {
         "searchSource": {
           "servingConfig": "projects/PROJECT_NUMBER/locations/global/collections/default_collection/engines/APP_ID_1/servingConfigs/default_search"
         }
       },
       {
         "searchSource": {
           "servingConfig": "projects/PROJECT_NUMBER/locations/global/collections/default_collection/engines/APP_ID_2/servingConfigs/default_search"
         }
       }
      ]
    },
    "generationSpec": {
      "modelId": "MODEL_ID",
      "temperature": TEMPERATURE,
      "topP": TOP_P,
      "topK": TOP_K
    }
    }'
    

    Ganti kode berikut:

    • PROJECT_NUMBER: nomor project Google Cloud Anda.
    • PROMPT_TEXT: perintah dari pengguna.
    • SYSTEM_INSTRUCTION: kolom opsional untuk memberikan pengantar atau beberapa konteks tambahan.
    • FACT_TEXT_N: teks inline untuk mendasarkan jawaban. Anda dapat memberikan maksimum 100 teks fakta.
    • TITLE_N: kolom opsional untuk menetapkan atribut meta judul untuk teks inline.
    • URI_N: kolom opsional untuk menetapkan atribut meta URI untuk teks inline.
    • AUTHOR_N: kolom opsional untuk menetapkan atribut meta penulis untuk teks inline.
    • APP_ID_N: ID aplikasi Vertex AI Search.
    • MODEL_ID: kolom opsional untuk menetapkan ID model model Gemini yang ingin Anda gunakan untuk menghasilkan jawaban yang beralasan. Untuk mengetahui daftar ID model yang tersedia, lihat Model yang didukung.
    • TEMPERATURE: kolom opsional untuk menetapkan suhu yang digunakan untuk pengambilan sampel. Google merekomendasikan suhu 0,0. Untuk mengetahui informasi selengkapnya, lihat Parameter model Gemini.
    • TOP_P: kolom opsional untuk menetapkan nilai top-P untuk model. Untuk mengetahui informasi selengkapnya, lihat Parameter model Gemini.
    • TOP_K: kolom opsional untuk menetapkan nilai top-K untuk model. Untuk mengetahui informasi selengkapnya, lihat Parameter model Gemini.

Python

from google.cloud import discoveryengine_v1 as discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_number = "YOUR_PROJECT_NUMBER"
# engine_id = "YOUR_ENGINE_ID"

client = discoveryengine.GroundedGenerationServiceClient()

request = discoveryengine.GenerateGroundedContentRequest(
    # The full resource name of the location.
    # Format: projects/{project_number}/locations/{location}
    location=client.common_location_path(project=project_number, location="global"),
    generation_spec=discoveryengine.GenerateGroundedContentRequest.GenerationSpec(
        model_id="gemini-1.5-flash",
    ),
    # Conversation between user and model
    contents=[
        discoveryengine.GroundedGenerationContent(
            role="user",
            parts=[
                discoveryengine.GroundedGenerationContent.Part(
                    text="How did Google do in 2020? Where can I find BigQuery docs?"
                )
            ],
        )
    ],
    system_instruction=discoveryengine.GroundedGenerationContent(
        parts=[
            discoveryengine.GroundedGenerationContent.Part(
                text="Add a smiley emoji after the answer."
            )
        ],
    ),
    # What to ground on.
    grounding_spec=discoveryengine.GenerateGroundedContentRequest.GroundingSpec(
        grounding_sources=[
            discoveryengine.GenerateGroundedContentRequest.GroundingSource(
                inline_source=discoveryengine.GenerateGroundedContentRequest.GroundingSource.InlineSource(
                    grounding_facts=[
                        discoveryengine.GroundingFact(
                            fact_text=(
                                "The BigQuery documentation can be found at https://cloud.google.com/bigquery/docs/introduction"
                            ),
                            attributes={
                                "title": "BigQuery Overview",
                                "uri": "https://cloud.google.com/bigquery/docs/introduction",
                            },
                        ),
                    ]
                ),
            ),
            discoveryengine.GenerateGroundedContentRequest.GroundingSource(
                search_source=discoveryengine.GenerateGroundedContentRequest.GroundingSource.SearchSource(
                    # The full resource name of the serving config for a Vertex AI Search App
                    serving_config=f"projects/{project_number}/locations/global/collections/default_collection/engines/{engine_id}/servingConfigs/default_search",
                ),
            ),
        ]
    ),
)
response = client.generate_grounded_content(request)

# Handle the response
print(response)

Contoh untuk pembuatan jawaban satu giliran yang didasarkan pada teks inline dan Vertex AI Search

Dalam contoh berikut, permintaan menentukan sumber dasar berikut: satu fakta teks inline dan satu penyimpanan data Vertex AI Search. Contoh ini menggunakan metode generateGroundedContent. Contoh ini juga menggunakan petunjuk sistem untuk mengakhiri jawaban dengan emoji smiley.

REST

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1/projects/123456/locations/global:generateGroundedContent" \
-d '
{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "How did google do in 2020? Where can I find Bigquery docs?"
        }
      ]
    }
  ],
  "systemInstruction": {
      "parts": {
          "text": "Add a smiley emoji after the answer."
      }
  },
  "groundingSpec": {
    "groundingSources": [
      {
        "inline_source": {
          "grounding_facts": [
            {
              "fact_text": "The BigQuery documentation can be found at https://cloud.google.com/bigquery/docs/introduction",
              "attributes": {
                "title": "BigQuery Overview",
                "uri": "https://cloud.google.com/bigquery/docs/introduction"
              }
            }
          ]
        }
      },
      {
        "searchSource": {
          "servingConfig": "projects/123456/locations/global/collections/default_collection/engines/app_id_example/servingConfigs/default_search"
        }
      }
    ]
  },
  "generationSpec": {
    "modelId": "gemini-1.5-flash"
  }
}'

Membuat jawaban yang berdasar dengan Google Penelusuran

Anda dapat mendasarkan respons yang dihasilkan dengan data web yang tersedia secara publik.

Pengambilan dinamis

Anda dapat menggunakan pengambilan dinamis dalam permintaan untuk memilih kapan harus menonaktifkan perujukan dengan Google Penelusuran. Hal ini berguna jika perintah tidak memerlukan jawaban yang didasarkan pada Google Penelusuran dan model yang didukung dapat memberikan jawaban berdasarkan pengetahuannya tanpa dasar. Hal ini membantu Anda mengelola latensi, kualitas, dan biaya secara lebih efektif.

Skor dan nilai minimum prediksi pengambilan dinamis

Saat Anda mengirim permintaan untuk membuat jawaban yang berdasar, Vertex AI Agent Builder akan menetapkan skor prediksi ke perintah. Skor prediksi adalah nilai floating point dalam rentang [0,1]. Nilainya bergantung pada apakah perintah dapat memanfaatkan perujukan jawaban dengan informasi terbaru dari Google Penelusuran. Oleh karena itu, perintah yang memerlukan jawaban yang didasarkan pada fakta terbaru di web memiliki skor prediksi yang lebih tinggi, dan perintah yang jawabannya sudah memadai dengan jawaban yang dihasilkan model memiliki skor prediksi yang lebih rendah.

Berikut adalah contoh beberapa perintah dan skor prediksinya.

Perintah Skor prediksi Komentar
"Tulis puisi tentang peony" 0,13 Model dapat mengandalkan pengetahuannya dan jawabannya tidak memerlukan perujukan
"Sarankan mainan untuk anak berusia 2 tahun" 0,36 Model dapat mengandalkan pengetahuannya dan jawabannya tidak memerlukan perujukan
"Bisakah Anda memberikan resep guacamole bergaya Asia?" 0,55 Google Penelusuran dapat memberikan jawaban yang berdasar, tetapi dasar tidak mutlak diperlukan; pengetahuan model mungkin sudah memadai
"Apa itu Agent Builder? How is grounding billed in Agent Builder?" 0,72 Memerlukan Google Penelusuran untuk menghasilkan jawaban yang berdasar
"Siapa yang memenangkan grand prix F1 terbaru?" 0,97 Memerlukan Google Penelusuran untuk menghasilkan jawaban yang berdasar

Dalam permintaan pembuatan jawaban yang berdasar, Anda dapat menentukan konfigurasi pengambilan dinamis dengan nilai minimum. Batas adalah nilai floating point dalam rentang [0,1] dan default-nya adalah 0,7. Jika nilai nilai minimum adalah nol, respons selalu didasarkan pada Google Penelusuran. Untuk semua nilai nilai minimum lainnya, hal berikut berlaku:

  • Jika skor prediksi lebih besar dari atau sama dengan nilai minimum, jawaban akan didasarkan pada Google Penelusuran. Nilai minimum yang lebih rendah menyiratkan bahwa lebih banyak perintah memiliki respons yang dihasilkan menggunakan Perujukan dengan Google Penelusuran.
  • Jika skor prediksi kurang dari nilai minimum, model mungkin masih menghasilkan jawaban, tetapi tidak didasarkan pada Google Penelusuran.

Untuk menemukan nilai minimum yang sesuai dengan kebutuhan bisnis Anda, Anda dapat membuat kumpulan kueri perwakilan yang diperkirakan akan Anda temui. Kemudian, Anda dapat mengurutkan kueri sesuai dengan skor prediksi dalam respons dan memilih nilai minimum yang baik untuk kasus penggunaan Anda.

Mendukung jawaban dengan Google Penelusuran

Contoh berikut menunjukkan cara membuat jawaban yang berdasar dari perintah dengan menentukan Google Penelusuran sebagai sumber dasar. Contoh ini menggunakan metode generateGroundedContent.

REST

  1. Kirim perintah dalam permintaan curl berikut.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global:generateGroundedContent" \
    -d '
    {
    "contents": [
     {
       "role": "user",
       "parts": [
         {
           "text": "PROMPT_TEXT"
         }
       ]
     }
    ],
    "systemInstruction": {
       "parts": {
           "text": "SYSTEM_INSTRUCTION"
       }
    },
    "groundingSpec": {
     "groundingSources": [
     {
         "googleSearchSource": {
              "dynamicRetrievalConfig": {
                  "predictor":{
                      "threshold": DYNAMIC_RETRIEVAL_THRESHOLD
                  }
              }
         }
     }
    ]
    },
    "generationSpec": {
     "modelId": "MODEL_ID",
     "temperature": TEMPERATURE,
     "topP": TOP_P,
     "topK": TOP_K
    }
    }'
    

    Ganti kode berikut:

    • PROJECT_NUMBER: nomor project Google Cloud Anda.
    • PROMPT_TEXT: perintah dari pengguna.
    • SYSTEM_INSTRUCTION: kolom opsional untuk memberikan pengantar atau beberapa konteks tambahan.
    • MODEL_ID: kolom opsional untuk menetapkan ID model model Gemini yang ingin Anda gunakan untuk menghasilkan jawaban yang beralasan. Untuk mengetahui daftar ID model yang tersedia, lihat Model yang didukung.
    • TEMPERATURE: kolom opsional untuk menetapkan suhu yang digunakan untuk pengambilan sampel. Google merekomendasikan suhu 0,0. Untuk mengetahui informasi selengkapnya, lihat Parameter model Gemini.
    • TOP_P: kolom opsional untuk menetapkan nilai top-P untuk model. Untuk mengetahui informasi selengkapnya, lihat Parameter model Gemini.
    • TOP_K: kolom opsional untuk menetapkan nilai top-K untuk model. Untuk mengetahui informasi selengkapnya, lihat Parameter model Gemini.
    • DYNAMIC_RETRIEVAL_THRESHOLD: kolom opsional untuk menetapkan nilai minimum guna memanggil konfigurasi pengambilan dinamis. Ini adalah nilai floating point dalam rentang [0,1]. Jika Anda menambahkan kolom dynamicRetrievalConfig, tetapi tidak menetapkan kolom predictor atau threshold, nilai nilai minimum akan ditetapkan secara default ke 0,7. Jika Anda tidak menetapkan kolom dynamicRetrievalConfig, jawabannya akan selalu di-ground.

Python

from google.cloud import discoveryengine_v1 as discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_number = "YOUR_PROJECT_NUMBER"

client = discoveryengine.GroundedGenerationServiceClient()

request = discoveryengine.GenerateGroundedContentRequest(
    # The full resource name of the location.
    # Format: projects/{project_number}/locations/{location}
    location=client.common_location_path(project=project_number, location="global"),
    generation_spec=discoveryengine.GenerateGroundedContentRequest.GenerationSpec(
        model_id="gemini-1.5-flash",
    ),
    # Conversation between user and model
    contents=[
        discoveryengine.GroundedGenerationContent(
            role="user",
            parts=[
                discoveryengine.GroundedGenerationContent.Part(
                    text="How much is Google stock?"
                )
            ],
        )
    ],
    system_instruction=discoveryengine.GroundedGenerationContent(
        parts=[
            discoveryengine.GroundedGenerationContent.Part(text="Be comprehensive.")
        ],
    ),
    # What to ground on.
    grounding_spec=discoveryengine.GenerateGroundedContentRequest.GroundingSpec(
        grounding_sources=[
            discoveryengine.GenerateGroundedContentRequest.GroundingSource(
                google_search_source=discoveryengine.GenerateGroundedContentRequest.GroundingSource.GoogleSearchSource(
                    # Optional: For Dynamic Retrieval
                    dynamic_retrieval_config=discoveryengine.GenerateGroundedContentRequest.DynamicRetrievalConfiguration(
                        predictor=discoveryengine.GenerateGroundedContentRequest.DynamicRetrievalConfiguration.DynamicRetrievalPredictor(
                            threshold=0.7
                        )
                    )
                )
            ),
        ]
    ),
)
response = client.generate_grounded_content(request)

# Handle the response
print(response)

Dalam contoh berikut, permintaan menentukan Google Penelusuran sebagai sumber dasar. Contoh ini menggunakan metode generateGroundedContent. Contoh ini juga menggunakan petunjuk sistem untuk mengakhiri jawaban dengan emoji smiley.

REST

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1/projects/123456/locations/global:generateGroundedContent" \
-d '
{
"contents": [{
  "role": "user",
  "parts": [{
    "text": "What is vertex ai agent builder?"
}]
}],
"systemInstruction": {
   "parts": {
      "text": "Add a smiley emoji after the answer."
   }
},
"groundingSpec": {
  "groundingSources": [
  {
      "googleSearchSource": {
        "dynamicRetrievalConfig": {
               "predictor":{
                   "threshold": 0.6
               }
           }
      }
  }
 ]
},
"generationSpec": {
  "modelId": "gemini-1.5-flash"
}
}
'

Membuat jawaban yang berdasar dalam beberapa giliran

Dalam pembuatan jawaban multi-giliran, di setiap permintaan, Anda harus mengirim semua teks yang dipertukarkan antara pengguna dan model di semua giliran sebelumnya. Hal ini memastikan kontinuitas dan mempertahankan konteks untuk menghasilkan jawaban untuk perintah terbaru.

Untuk mendapatkan jawaban yang berdasar dengan pembuatan jawaban multi-giliran, lakukan tindakan berikut:

REST

Contoh berikut menunjukkan cara mengirim teks perintah tindak lanjut selama beberapa gilir. Contoh ini menggunakan metode generateGroundedContent dan melandasi jawaban dengan Google Penelusuran. Anda dapat menggunakan langkah-langkah serupa untuk menghasilkan jawaban yang berdasar menggunakan sumber dasar lainnya.

  1. Kirim perintah pertama dalam permintaan curl berikut.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global:generateGroundedContent" \
    -d '
    {
    "contents": [
     {
       "role": "user",
       "parts": [
         {
           "text": "PROMPT_TEXT_TURN_1"
         }
       ]
     }
    ],
    "systemInstruction": {
       "parts": {
           "text": "SYSTEM_INSTRUCTION_TURN_1"
       }
    },
    "groundingSpec": {
     "groundingSources": [
       {
         "googleSearchSource": {}
       }
     ]
    },
    "generationSpec": {
     "modelId": "MODEL_ID",
     "temperature": TEMPERATURE,
     "topP": TOP_P,
     "topK": TOP_K
    }
    }'
    

    Ganti kode berikut:

    • PROJECT_NUMBER: nomor project Google Cloud Anda.
    • PROMPT_TEXT_TURN_1: teks perintah dari pengguna pada giliran pertama.
    • SYSTEM_INSTRUCTION_TURN_1: kolom opsional untuk memberikan pengantar atau beberapa konteks tambahan. Untuk pembuatan jawaban multi-giliran, Anda harus memberikan petunjuk sistem untuk setiap giliran.
    • MODEL_ID: kolom opsional untuk menetapkan ID model model Gemini yang ingin Anda gunakan untuk menghasilkan jawaban yang beralasan. Untuk mengetahui daftar ID model yang tersedia, lihat Model yang didukung.
    • TEMPERATURE: kolom opsional untuk menetapkan suhu yang digunakan untuk pengambilan sampel. Google merekomendasikan suhu 0,0. Untuk mengetahui informasi selengkapnya, lihat Parameter model Gemini.
    • TOP_P: kolom opsional untuk menetapkan nilai top-P untuk model. Untuk mengetahui informasi selengkapnya, lihat Parameter model Gemini.
    • TOP_K: kolom opsional untuk menetapkan nilai top-K untuk model. Untuk mengetahui informasi selengkapnya, lihat Parameter model Gemini.
  2. Kirim perintah kedua sebagai tindak lanjut. Tambahkan perintah pertama dari pengguna, diikuti dengan jawaban yang sesuai dari model untuk konteks.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global:generateGroundedContent" \
    -d '
    {
    "contents": [
     {
       "role": "user",
       "parts": [
         {
           "text": "PROMPT_TEXT_TURN_1"
         }
       ]
     },
     {
       "role": "model",
       "parts": [
         {
           "text": "ANSWER_TEXT_TURN_1"
         }
       ]
     },
     {
       "role": "user",
       "parts": [
         {
           "text": "PROMPT_TEXT_TURN_2"
         }
       ]
     }
    ],
    "systemInstruction": {
       "parts": {
           "text": "SYSTEM_INSTRUCTION_TURN_2"
       }
    },
    "groundingSpec": {
     "groundingSources": [
       {
         "googleSearchSource": {}
       }
     ]
    },
    "generationSpec": {
     "modelId": "MODEL_ID",
     "temperature": TEMPERATURE,
     "topP": TOP_P,
     "topK": TOP_K
    }
    }'
    

    Ganti kode berikut:

    • PROJECT_NUMBER: nomor project Google Cloud Anda.
    • PROMPT_TEXT_TURN_1: teks perintah dari pengguna pada giliran pertama.
    • ANSWER_TEXT_TURN_1: teks jawaban dari model pada giliran pertama.
    • PROMPT_TEXT_TURN_2: teks perintah dari pengguna pada giliran kedua.
    • SYSTEM_INSTRUCTION_TURN_2: kolom opsional untuk memberikan pengantar atau beberapa konteks tambahan. Untuk pembuatan jawaban multi-giliran, Anda harus memberikan petunjuk sistem untuk setiap giliran.
    • MODEL_ID: kolom opsional untuk menetapkan ID model model Gemini yang ingin Anda gunakan untuk menghasilkan jawaban yang beralasan. Untuk mengetahui daftar ID model yang tersedia, lihat Model yang didukung.
    • TEMPERATURE: kolom opsional untuk menetapkan suhu yang digunakan untuk pengambilan sampel. Google merekomendasikan suhu 0,0. Untuk mengetahui informasi selengkapnya, lihat Parameter model Gemini.
    • TOP_P: kolom opsional untuk menetapkan nilai top-P untuk model. Untuk mengetahui informasi selengkapnya, lihat Parameter model Gemini.
    • TOP_K: kolom opsional untuk menetapkan nilai top-K untuk model. Untuk mengetahui informasi selengkapnya, lihat Parameter model Gemini.
  3. Ulangi proses ini untuk mendapatkan jawaban lanjutan. Pada setiap giliran, tambahkan semua perintah sebelumnya dari pengguna, diikuti dengan jawaban yang sesuai dari model.

Contoh untuk pembuatan jawaban multi-giliran

Dalam contoh berikut, permintaan menentukan tiga teks fakta inline sebagai sumber dasar untuk menghasilkan jawaban selama dua giliran. Contoh ini menggunakan metode generateGroundedContent. Contoh ini juga menggunakan petunjuk sistem untuk mengakhiri jawaban pada giliran pertama dengan emoji smiley.

REST

  1. Kirim perintah pertama dalam permintaan curl berikut.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://discoveryengine.googleapis.com/v1/projects/123456/locations/global:generateGroundedContent" \
    -d '
    {
    "contents": [
     {
       "role": "user",
       "parts": [
         {
           "text": "Summarize what happened in 2023 in one paragraph."
         }
       ]
     }
    ],
    "systemInstruction": {
      "parts": {
          "text": "Add a smiley emoji after the answer."
      }
    },
    "grounding_spec": {
     "grounding_sources": [
       {
         "inline_source": {
           "grounding_facts": [
             {
               "fact_text": "In 2023, the world population surpassed 8 billion. This milestone marked a significant moment in human history, highlighting both the rapid growth of our species and the challenges of resource management and sustainability in the years to come.",
               "attributes": {
                 "title": "title_1",
                 "uri": "some-uri-1"
               }
             }
           ]
         }
       },
       {
         "inline_source": {
           "grounding_facts": [
             {
               "fact_text": "In 2023, global e-commerce sales reached an estimated $5.7 trillion. The continued rise of online shopping solidified its position as a dominant force in retail, with major implications for traditional brick-and-mortar stores and the logistics networks supporting worldwide deliveries.",
               "attributes": {
                 "title": "title_2",
                 "uri": "some-uri-2"
               }
             }
           ]
         }
       },
       {
         "inline_source": {
           "grounding_facts": [
             {
               "fact_text": "In 2023, the global average surface temperature was approximately 0.2 degrees Celsius higher than the 20th-century average. This continued the worrying trend of global warming, underscoring the urgency of worldwide climate initiatives, carbon reduction efforts, and investment in renewable energy sources.",
               "attributes": {
                 "title": "title_3",
                 "uri": "some-uri-3"
               }
             }
           ]
         }
       }
     ]
    },
    "generationSpec": {
     "modelId": "gemini-1.5-flash"
    }
    }'
    
  2. Kirim perintah kedua sebagai tindak lanjut. Tambahkan perintah pertama dari pengguna, diikuti dengan jawaban yang sesuai dari model untuk konteks.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://discoveryengine.googleapis.com/v1/projects/123456/locations/global:generateGroundedContent" \
    -d '
    {
    "contents": [
     {
       "role": "user",
       "parts": [
         {
           "text": "Summarize what happened in 2023 in one paragraph."
         }
       ]
     },
     {
       "role": "model",
       "parts": [
         {
           "text": "In 2023, the global average surface temperature increased, the world population surpassed 8 billion, and global e-commerce sales reached an estimated $5.7 trillion.  😊 \n"
         }
       ]
     },
     {
       "role": "user",
       "parts": [
         {
           "text": "Rephrase the answer in an abstracted list."
         }
       ]
     }
    ],
    "grounding_spec": {
     "grounding_sources": [
       {
         "inline_source": {
           "grounding_facts": [
             {
               "fact_text": "In 2023, the world population surpassed 8 billion. This milestone marked a significant moment in human history, highlighting both the rapid growth of our species and the challenges of resource management and sustainability in the years to come.",
               "attributes": {
                 "title": "title_1",
                 "uri": "some-uri-1"
               }
             }
           ]
         }
       },
       {
         "inline_source": {
           "grounding_facts": [
             {
               "fact_text": "In 2023, global e-commerce sales reached an estimated $5.7 trillion. The continued rise of online shopping solidified its position as a dominant force in retail, with major implications for traditional brick-and-mortar stores and the logistics networks supporting worldwide deliveries.",
               "attributes": {
                 "title": "title_2",
                 "uri": "some-uri-2"
               }
             }
           ]
         }
       },
       {
         "inline_source": {
           "grounding_facts": [
             {
               "fact_text": "In 2023, the global average surface temperature was approximately 0.2 degrees Celsius higher than the 20th-century average. This continued the worrying trend of global warming, underscoring the urgency of worldwide climate initiatives, carbon reduction efforts, and investment in renewable energy sources.",
               "attributes": {
                 "title": "title_3",
                 "uri": "some-uri-3"
               }
             }
           ]
         }
       }
     ]
    },
    "generationSpec": {
     "modelId": "gemini-1.5-flash"
    }
    }'
    

Menampilkan jawaban yang berdasar

Anda dapat memilih untuk melakukan streaming jawaban dari model. Hal ini berguna dalam kasus penggunaan saat jawabannya sangat panjang dan mengirim seluruh respons sekaligus akan menyebabkan penundaan yang signifikan. Streaming jawaban akan membagi respons menjadi array beberapa kandidat yang berisi bagian berurutan teks jawaban.

Untuk mendapatkan jawaban yang di-streaming dan memiliki dasar, lakukan hal berikut:

REST

Contoh berikut menunjukkan cara melakukan streaming jawaban yang di-ground. Contoh ini menggunakan metode streamGenerateGroundedContent dan mendasarkan jawaban dengan Google Penelusuran tanpa konfigurasi pengambilan dinamis. Anda dapat menggunakan langkah serupa untuk menghasilkan jawaban yang berdasar menggunakan sumber dasar lainnya.

  1. Kirim perintah dalam permintaan curl berikut.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_NUMBER/locations/global:streamGenerateGroundedContent" \
    -d '
    [
    {
     "contents": [
       {
         "role": "user",
         "parts": [
           {
             "text": "PROMPT_TEXT"
           }
         ]
       }
     ],
     "systemInstruction": {
         "parts": {
             "text": "SYSTEM_INSTRUCTION"
         }
     },
     "groundingSpec": {
       "groundingSources": [
         {
           "googleSearchSource": {}
         }
       ]
     },
    "generationSpec": {
     "modelId": "MODEL_ID",
     "temperature": TEMPERATURE,
     "topP": TOP_P,
     "topK": TOP_K
    }
    }
    ]'
    

    Ganti kode berikut:

    • PROJECT_NUMBER: nomor project Google Cloud Anda.
    • PROMPT_TEXT: perintah dari pengguna.
    • SYSTEM_INSTRUCTION: kolom opsional untuk memberikan pengantar atau beberapa konteks tambahan.
    • MODEL_ID: kolom opsional untuk menetapkan ID model model Gemini yang ingin Anda gunakan untuk menghasilkan jawaban yang beralasan. Untuk mengetahui daftar ID model yang tersedia, lihat Model yang didukung.
    • TEMPERATURE: kolom opsional untuk menetapkan suhu yang digunakan untuk pengambilan sampel. Google merekomendasikan suhu 0,0. Untuk mengetahui informasi selengkapnya, lihat Parameter model Gemini.
    • TOP_P: kolom opsional untuk menetapkan nilai top-P untuk model. Untuk mengetahui informasi selengkapnya, lihat Parameter model Gemini.
    • TOP_K: kolom opsional untuk menetapkan nilai top-K untuk model. Untuk mengetahui informasi selengkapnya, lihat Parameter model Gemini.

Python

from google.cloud import discoveryengine_v1 as discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"

client = discoveryengine.GroundedGenerationServiceClient()

request = discoveryengine.GenerateGroundedContentRequest(
    # The full resource name of the location.
    # Format: projects/{project_number}/locations/{location}
    location=client.common_location_path(project=project_number, location="global"),
    generation_spec=discoveryengine.GenerateGroundedContentRequest.GenerationSpec(
        model_id="gemini-1.5-flash",
    ),
    # Conversation between user and model
    contents=[
        discoveryengine.GroundedGenerationContent(
            role="user",
            parts=[
                discoveryengine.GroundedGenerationContent.Part(
                    text="Summarize how to delete a data store in Vertex AI Agent Builder?"
                )
            ],
        )
    ],
    grounding_spec=discoveryengine.GenerateGroundedContentRequest.GroundingSpec(
        grounding_sources=[
            discoveryengine.GenerateGroundedContentRequest.GroundingSource(
                google_search_source=discoveryengine.GenerateGroundedContentRequest.GroundingSource.GoogleSearchSource()
            ),
        ]
    ),
)
responses = client.stream_generate_grounded_content(iter([request]))

for response in responses:
    # Handle the response
    print(response)

Contoh untuk streaming jawaban yang berisi rujukan

Dalam contoh berikut, permintaan menentukan Google Penelusuran sebagai sumber dasar untuk melakukan streaming jawaban tanpa konfigurasi pengambilan dinamis. Jawaban yang di-streaming didistribusikan ke beberapa kandidat respons. Contoh ini menggunakan metode streamGenerateGroundedContent.

REST

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1alpha/projects/123456/locations/global:streamGenerateGroundedContent" \
-d '
[
{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Summarize How to delete a data store in Vertex AI Agent Builder?"
        }
      ]
    }
  ],
  "groundingSpec": {
    "groundingSources": [
      {
        "googleSearchSource": {}
      }
    ]
  },
  "generationSpec": {
    "modelId": "gemini-1.5-flash"
  }
}
]'

Model yang didukung

Model berikut mendukung grounding:

  • Gemini 1.5 Pro dengan input teks saja
  • Gemini 1.5 Flash dengan input teks saja
  • Gemini 1.0 Pro dengan input teks saja

Untuk mempelajari model Gemini ini lebih lanjut, lihat Versi dan siklus proses model Gemini.

Saat memanggil metode generateGroundedContent, Anda dapat menggunakan ID model berikut:

ID Model Diperbarui otomatis
default Ya
gemini-1.0-pro Ya
gemini-1.0-pro-001 Tidak
gemini-1.0-pro-002 Tidak
gemini-1.5-flash Ya
gemini-1.5-flash-001 Tidak
gemini-1.5-flash-002 Tidak
gemini-1.5-pro Ya
gemini-1.5-pro-001 Tidak
gemini-1.5-pro-002 Tidak

Model fidelitas tinggi

Untuk kasus penggunaan tujuan umum, seperti bantuan perjalanan, metode pembuatan jawaban yang didasarkan pada data dapat menghasilkan hasil yang baik dengan menggabungkan konteks yang diberikan, seperti teks inline atau data perusahaan, dengan pelatihan model. Namun, industri khusus, seperti jasa keuangan, layanan kesehatan, dan asuransi, sering kali mewajibkan hasil yang dihasilkan untuk bersumber secara eksklusif dari konteks yang diberikan. Untuk mendukung kasus penggunaan perujukan tersebut, model fidelitas tinggi berikut tersedia untuk digunakan dengan metode pembuatan jawaban yang dilandasi:

Nama model ID Model Berdasarkan Jendela konteks Deskripsi
Akurasi Tinggi Gemini 1.5 Flash gemini-1.5-flash-002-high-fidelity Model Gemini 1.5 Flash 32K Menerima perintah teks sebagai input dan menghasilkan respons teks yang didasarkan pada konteks. Berfokus pada akurasi, keandalan, dan keamanan.

Langkah selanjutnya

Pelajari cara menggunakan metode pembuatan berbasis data dengan API RAG lainnya untuk membuat jawaban berbasis data dari data tidak terstruktur.