Datenspeicher werden von Datenspeicher-Agents verwendet, um Antworten auf Endnutzerfragen aus Ihren Daten zu finden. Datenspeicher sind eine Sammlung von Websites und Dokumenten, die jeweils auf Ihre Daten verweisen.
Wenn ein Endnutzer dem Agent eine Frage stellt, sucht der Agent nach einer Antwort aus dem angegebenen Quellinhalt und fasst die Ergebnisse zu einer kohärenten Agent-Antwort zusammen. Außerdem enthält er Links zu den Quellen der Antwort, über die der Endnutzer mehr erfahren kann. Der Agent kann bis zu fünf Antwort-Snippets für eine bestimmte Frage zur Verfügung stellen.
Datenspeicherquellen
Es gibt verschiedene Quellen, die Sie für Ihre Daten bereitstellen können:
- Website-URLs: Hiermit werden Websiteinhalte aus einer Liste von Domains oder Webseiten automatisch gecrawlt.
- BigQuery: Daten aus Ihrer BigQuery-Tabelle importieren
- Cloud Storage: Importieren Sie Daten aus Ihrem Cloud Storage-Bucket.
Website content
Wenn Sie Website-Inhalte als Quelle hinzufügen,
können Sie mehrere Websites hinzufügen oder ausschließen.
Wenn Sie eine Website angeben, können Sie einzelne Seiten oder *
als Platzhalter für ein Muster verwenden.
Alle HTML- und PDF-Inhalte werden verarbeitet.
Sie müssen Ihre Domain bestätigen, wenn Sie Websiteinhalte als Quelle verwenden.
Einschränkungen:
- Dateien aus öffentlichen URLs müssen vom Google-Suchindex gecrawlt worden sein, damit sie im Suchindex vorhanden sind. Sie können dies mit der Google Search Console prüfen.
- Es werden maximal 200.000 Seiten indexiert. Wenn der Datenspeicher mehr Seiten enthält, schlägt die Indexierung fehl und der letzte indexierte Inhalt bleibt erhalten.
Daten importieren
Sie können Ihre Daten entweder aus BigQuery oder aus Cloud Storage importieren. Diese Daten können strukturiert oder unstrukturiert sein und mit Metadaten oder ohne Metadaten sein.
Die folgenden Optionen für den Datenimport sind verfügbar:
- Daten hinzufügen/aktualisieren: Die bereitgestellten Dokumente werden dem Datenspeicher hinzugefügt. Wenn ein neues Dokument dieselbe ID wie ein altes Dokument hat, ersetzt das neue Dokument das alte.
- Vorhandene Daten überschreiben: Alle alten Daten werden gelöscht und neue Daten werden hochgeladen. Dieser Vorgang kann nicht rückgängig gemacht werden.
Strukturierter Datenspeicher
Strukturierte Datenspeicher können Antworten auf häufig gestellte Fragen (FAQs) enthalten. Wenn Nutzerfragen mit hoher Zuverlässigkeitsquote einer hochgeladenen Frage zugeordnet werden, gibt der Agent die Antwort auf diese Frage unverändert zurück. Sie können für jedes Frage-Antwort-Paar, das vom Agent angezeigt wird, einen Titel und eine URL angeben.
Beim Hochladen von Daten in den Datenspeicher muss das CSV-Format verwendet werden. Jede Datei muss eine Kopfzeile haben, die die Spalten beschreibt.
Beispiel:
"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""
Die Spalten title
und url
sind optional und können weggelassen werden:
"answer","question"
"42","What is the meaning of life?"
Während des Uploadvorgangs kann ein Ordner ausgewählt werden, in dem jede Datei unabhängig von der Erweiterung als CSV-Datei behandelt wird.
Einschränkungen:
- Zusätzliches Leerzeichen nach
,
verursacht einen Fehler. - Leere Zeilen (auch am Ende der Datei) führen zu einem Fehler.
Unstrukturierter Datenspeicher
Unstrukturierte Datenspeicher können Inhalte in den folgenden Formaten enthalten:
- HTML
- TXT
- CSV
Einschränkungen:
- Die maximale Dateigröße beträgt 2,5 MB für textbasierte Formate und 100 MB für andere Formate.
Datenspeicher mit Metadaten
Ein Titel und eine URL können als Metadaten angegeben werden. Wenn sich der Agent in einer Unterhaltung mit einem Nutzer befindet, kann er dem Nutzer diese Informationen zur Verfügung stellen. So können Nutzer schnell auf interne Webseiten verlinken, auf die der Index der Google Suche nicht zugreifen kann.
Stellen Sie eine oder mehrere JSON Lines-Dateien bereit, um Inhalte mit Metadaten zu importieren. Jede Zeile dieser Datei beschreibt ein Dokument. Die eigentlichen Dokumente werden nicht direkt hochgeladen. URIs, die mit den Cloud Storage-Pfaden verknüpft sind, sind in der JSON-Lines-Datei enthalten.
Bei der Bereitstellung Ihrer JSON-Lines-Dateien geben Sie einen Cloud Storage-Ordner an, der diese Dateien enthält. Legen Sie keine anderen Dateien in diesem Ordner ab.
Feldbeschreibungen:
Feld | Typ | Beschreibung |
---|---|---|
id | String | Eindeutige ID für das Dokument. |
content.mimeType | String | MIME-Typ des Dokuments. „application/pdf“ und „text/html“ werden unterstützt. |
content.uri | String | URI für das Dokument in Cloud Storage. |
content.structData | String | Einzeiliges JSON-Objekt mit optionalen Feldern title und url . |
Beispiel:
{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }
Datenspeicher ohne Metadaten
Für diesen Inhaltstyp gibt es keine Metadaten. Stellen Sie einfach die zu importierenden Dokumente bereit. Der Inhaltstyp wird durch die Dateiendung bestimmt.
Parsing- und Chunk-Konfiguration
Abhängig von der Datenquelle können Sie möglicherweise die in Vertex AI Search definierten Einstellungen für Analyse und Chunks konfigurieren.
Datenspeicher erstellen
So erstellen Sie einen Datenspeicher:
Rufen Sie die Vertex AI Conversation-Konsole auf:
Wählen Sie im Drop-down-Menü der Konsole Ihr Projekt aus.
Lesen und akzeptieren Sie die Nutzungsbedingungen und klicken Sie anschließend auf Fortfahren und API aktivieren.
Klicken Sie im linken Navigationsbereich auf Datenspeicher.
Klicken Sie auf Neuer Datenspeicher.
Wählen Sie eine Datenquelle aus.
Aktivieren Sie die Option Erweiterte Websiteindexierung. Dies ist für Datenspeicher-Agents erforderlich.
Geben Sie Daten und Konfiguration für die ausgewählte Datenspeicherquelle an. Der Speicherort des Datenspeichers sollte dem Agent-Standort entsprechen.
Klicken Sie auf Erstellen, um den Datenspeicher zu erstellen.
Legen Sie optional die Sprache des Datenspeichers fest:
- Klicken Sie in der Liste der Datenspeicher auf den gerade erstellten Datenspeicher.
- Klicken Sie für die Spracheinstellung auf die Schaltfläche „Bearbeiten“ .
- Wähle eine Sprache aus und klicke auf das Kästchen, um sie anzuwenden.
Cloud Storage für ein Datenspeicherdokument verwenden
Wenn Ihr Inhalt nicht öffentlich ist, sollten Sie Ihre Inhalte in Cloud Storage speichern.
Wenn Sie Datenspeicherdokumente erstellen, geben Sie die URLs für Ihre Cloud Storage-Objekte im folgenden Format an: gs://bucket-name/folder-name
.
Jedes Dokument im Ordner wird dem Datenspeicher hinzugefügt.
Beim Erstellen des Cloud Storage-Buckets:
- Achten Sie darauf, dass Sie das Projekt ausgewählt haben, das Sie für den Agent verwenden.
- Verwenden Sie die Standard Storage-Klasse.
- Legen Sie als Bucket-Speicherort denselben Speicherort wie für den Agent fest.
Folgen Sie der Cloud Storage-Kurzanleitung, um einen Bucket zu erstellen und Dateien hochzuladen.
Sprachen
Die unterstützten Sprachen finden Sie in der Spalte „Datenspeicher“ in der Dialogflow-Sprachreferenz.
Für eine optimale Leistung wird empfohlen, Datenspeicher in einer einzigen Sprache zu erstellen.
Nachdem Sie einen Datenspeicher erstellt haben, können Sie optional die Sprache des Datenspeichers angeben. Wenn Sie die Sprache des Datenspeichers festlegen, können Sie den Datenspeicher mit einem Datenspeicher-Agent verbinden, der für eine andere Sprache konfiguriert ist. Sie können beispielsweise einen französischen Datenspeicher erstellen, der mit einem englischen Agent verbunden ist.
Unterstützte Regionen
Informationen zu unterstützten Regionen finden Sie in der Referenz zu Dialogflow-Regionen.