Datenspeicher

Datenspeicher werden von Datenspeicher-Agents verwendet, um anhand Ihrer Daten Antworten auf Endnutzerfragen zu finden. Datenspeicher sind eine Sammlung von Websites und Dokumenten, die jeweils auf Ihre Daten verweisen.

Wenn ein Endnutzer dem Agent eine Frage stellt, sucht der Agent im angegebenen Quellinhalt nach einer Antwort und fasst die Ergebnisse in einer kohärenten Agent-Antwort zusammen. Außerdem enthält es unterstützende Links zu den Antwortquellen, damit die Endnutzer mehr erfahren können. Der Agent kann bis zu fünf Antwort-Snippets für eine bestimmte Frage bereitstellen.

Datenspeicherquellen

Es gibt verschiedene Quellen, die Sie für Ihre Daten angeben können:

Website content

Wenn Sie Websitecontent als Quelle angeben, können Sie mehrere Websites hinzufügen und ausschließen. Wenn Sie eine Website angeben, können Sie einzelne Seiten oder * als Platzhalter für ein Muster verwenden. Alle HTML- und PDF-Inhalte werden verarbeitet.

Sie müssen Ihre Domain bestätigen, wenn Sie Websiteinhalte als Quelle verwenden.

Einschränkungen:

  • Dateien von öffentlichen URLs müssen vom Google-Suchindex gecrawlt worden sein, damit sie im Suchindex vorhanden sind. Sie können dies mit der Google Search Console prüfen.
  • Es sind maximal 200.000 Seiten indexiert. Wenn der Datenspeicher mehr Seiten enthält, schlägt die Indexierung fehl und der letzte indexierte Inhalt bleibt bestehen.

Daten importieren

Sie können Ihre Daten entweder aus BigQuery oder Cloud Storage importieren. Diese Daten können strukturiert oder unstrukturiert sein und entweder mit Metadaten oder ohne Metadaten sein.

Folgende Optionen für den Datenimport sind verfügbar:

  • Daten hinzufügen/aktualisieren: Die bereitgestellten Dokumente werden dem Datenspeicher hinzugefügt. Wenn ein neues Dokument dieselbe ID wie ein altes Dokument hat, ersetzt das neue Dokument das alte.
  • Vorhandene Daten überschreiben: Alle alten Daten werden gelöscht. Anschließend werden neue Daten hochgeladen. Dieser Vorgang kann nicht rückgängig gemacht werden.

Strukturierter Datenspeicher

Strukturierte Datenspeicher können Antworten auf häufig gestellte Fragen (FAQs) enthalten. Wenn Nutzerfragen einer hochgeladenen Frage mit hoher Zuverlässigkeit zugeordnet werden, gibt der Agent die Antwort auf diese Frage ohne Änderungen zurück. Sie können für jedes Frage-Antwort-Paar, das vom Agent angezeigt wird, einen Titel und eine URL angeben.

Beim Hochladen von Daten in den Datenspeicher muss das CSV-Format verwendet werden. Jede Datei muss eine Kopfzeile haben, in der die Spalten beschrieben werden.

Beispiel:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

Die Spalten title und url sind optional und können weggelassen werden:

"answer","question"
"42","What is the meaning of life?"

Während des Uploadvorgangs kann ein Ordner ausgewählt werden, in dem jede Datei unabhängig von der Dateiendung als CSV-Datei behandelt wird.

Einschränkungen:

  • Zusätzliches Leerzeichen nach , verursacht einen Fehler.
  • Leerzeilen (auch am Ende der Datei) verursachen einen Fehler.

Unstrukturierter Datenspeicher

Unstrukturierte Datenspeicher können Inhalte in den folgenden Formaten enthalten:

  • HTML
  • PDF
  • TXT
  • CSV

Einschränkungen:

  • Die maximale Dateigröße beträgt 2,5 MB für textbasierte Formate und 100 MB für andere Formate.

Datenspeicher mit Metadaten

Sie können einen Titel und eine URL als Metadaten angeben. Wenn sich der Agent in einer Unterhaltung mit einem Nutzer befindet, kann er dem Nutzer diese Informationen zur Verfügung stellen. So können Nutzer schnell Links zu internen Webseiten erstellen, auf die der Google-Suchindex nicht zugreifen kann.

Für den Import von Inhalten mit Metadaten geben Sie eine oder mehrere JSON-Zeilen an. Jede Zeile dieser Datei beschreibt ein Dokument. Sie laden die Dokumente nicht direkt hoch. URIs, die mit den Cloud Storage-Pfaden verknüpft sind, werden in der JSON-Zeilendatei bereitgestellt.

Als JSON-Lines-Dateien geben Sie einen Cloud Storage-Ordner an, der diese Dateien enthält. Legen Sie keine anderen Dateien in diesem Ordner ab.

Feldbeschreibungen:

Feld Typ Beschreibung
id String Eindeutige Kennung für das Dokument.
content.mimeType String MIME-Typ des Dokuments. „application/pdf“ und „text/html“ werden unterstützt.
content.uri String URI für das Dokument in Cloud Storage.
content.structData String Einzeiliges JSON-Objekt mit optionalen Feldern title und url.

Beispiel:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Datenspeicher ohne Metadaten

Für diese Art von Inhalten gibt es keine Metadaten. Geben Sie einfach die zu importierenden Dokumente an. Der Inhaltstyp wird durch die Dateiendung bestimmt.

Konfiguration parsen und aufteilen

Je nach Datenquelle können Sie möglicherweise Parsing- und Blockeinstellungen wie von Vertex AI Search definiert konfigurieren.

Datenspeicher erstellen

So erstellen Sie einen Datenspeicher:

  1. Rufen Sie die Agent Builder-Konsole auf:

    Agent Builder-Konsole

  2. Wählen Sie Ihr Projekt aus der Drop-down-Liste der Konsole aus.

  3. Lesen und akzeptieren Sie die Nutzungsbedingungen und klicken Sie anschließend auf Fortfahren und API aktivieren.

  4. Klicken Sie in der linken Navigationsleiste auf Datenspeicher.

  5. Klicken Sie auf Neuer Datenspeicher.

  6. Wählen Sie eine Datenquelle aus.

  7. Aktivieren Sie die Erweiterte Websiteindexierung. Dies ist für Datenspeicher-Agents erforderlich.

  8. Geben Sie Daten und Konfiguration für die von Ihnen ausgewählte Datenspeicherquelle an. Der Speicherort des Datenspeichers sollte dem Agent-Speicherort entsprechen.

  9. Klicken Sie auf Erstellen, um den Datenspeicher anzulegen.

  10. Legen Sie optional die Datenspeichersprache fest:

    1. Klicken Sie in der Liste der Datenspeicher auf den soeben erstellten Datenspeicher.
    2. Klicken Sie für die Spracheinstellung auf die Schaltfläche zum Bearbeiten.
    3. Wählen Sie eine Sprache aus und klicken Sie auf das Kästchen, um sie anzuwenden.
  11. Bestätigen Sie Ihre Websitedomain.

Cloud Storage für ein Datenspeicherdokument verwenden

Wenn Ihr Inhalt nicht öffentlich ist, sollten Sie Ihre Inhalte in Cloud Storage speichern. Beim Erstellen von Datenspeicherdokumenten geben Sie die URLs für Ihre Cloud Storage-Objekte im Format gs://bucket-name/folder-name an. Jedes Dokument im Ordner wird dem Datenspeicher hinzugefügt.

Beim Erstellen des Cloud Storage-Buckets:

  • Achten Sie darauf, dass Sie das Projekt ausgewählt haben, das Sie für den Agent verwenden.
  • Verwenden Sie die Standard Storage-Klasse.
  • Legen Sie als Bucket-Standort den Standort des Agents fest.

Folgen Sie der Cloud Storage-Kurzanleitung, um einen Bucket zu erstellen und Dateien hochzuladen.

Sprachen

Informationen zu unterstützten Sprachen finden Sie in der Datenspeicherspalte in der Dialogflow-Sprachreferenz.

Für eine optimale Leistung wird empfohlen, Datenspeicher in einer einzigen Sprache zu erstellen.

Nach dem Erstellen eines Datenspeichers können Sie optional die Datenspeichersprache angeben. Wenn Sie die Datenspeichersprache festlegen, können Sie den Datenspeicher mit einem Datenspeicher-Agent verbinden, der für eine andere Sprache konfiguriert ist. Sie können beispielsweise einen französischen Datenspeicher erstellen, der mit einem englischen Agent verbunden ist.

Unterstützte Regionen

Informationen zu unterstützten Regionen finden Sie in der Referenz zu Dialogflow-Regionen.