Datenspeicher

Datenspeicher werden von Datenspeicher-Agents verwendet, um Antworten auf Endnutzerfragen aus Ihren Daten zu finden. Datenspeicher sind eine Sammlung von Websites und Dokumenten, die jeweils auf Ihre Daten verweisen.

Wenn ein Endnutzer dem Agent eine Frage stellt, sucht der Agent nach einer Antwort aus dem angegebenen Quellinhalt und fasst die Ergebnisse zu einer kohärenten Agent-Antwort zusammen. Außerdem enthält er Links zu den Quellen der Antwort, über die der Endnutzer mehr erfahren kann. Der Agent kann bis zu fünf Antwort-Snippets für eine bestimmte Frage zur Verfügung stellen.

Datenspeicherquellen

Es gibt verschiedene Quellen, die Sie für Ihre Daten bereitstellen können:

Website content

Wenn Sie Website-Inhalte als Quelle hinzufügen, können Sie mehrere Websites hinzufügen oder ausschließen. Wenn Sie eine Website angeben, können Sie einzelne Seiten oder * als Platzhalter für ein Muster verwenden. Alle HTML- und PDF-Inhalte werden verarbeitet.

Sie müssen Ihre Domain bestätigen, wenn Sie Websiteinhalte als Quelle verwenden.

Einschränkungen:

  • Dateien aus öffentlichen URLs müssen vom Google-Suchindex gecrawlt worden sein, damit sie im Suchindex vorhanden sind. Sie können dies mit der Google Search Console prüfen.
  • Es werden maximal 200.000 Seiten indexiert. Wenn der Datenspeicher mehr Seiten enthält, schlägt die Indexierung fehl und der letzte indexierte Inhalt bleibt erhalten.

Daten importieren

Sie können Ihre Daten entweder aus BigQuery oder aus Cloud Storage importieren. Diese Daten können strukturiert oder unstrukturiert sein und mit Metadaten oder ohne Metadaten sein.

Die folgenden Optionen für den Datenimport sind verfügbar:

  • Daten hinzufügen/aktualisieren: Die bereitgestellten Dokumente werden dem Datenspeicher hinzugefügt. Wenn ein neues Dokument dieselbe ID wie ein altes Dokument hat, ersetzt das neue Dokument das alte.
  • Vorhandene Daten überschreiben: Alle alten Daten werden gelöscht und neue Daten werden hochgeladen. Dieser Vorgang kann nicht rückgängig gemacht werden.

Strukturierter Datenspeicher

Strukturierte Datenspeicher können Antworten auf häufig gestellte Fragen (FAQs) enthalten. Wenn Nutzerfragen mit hoher Zuverlässigkeitsquote einer hochgeladenen Frage zugeordnet werden, gibt der Agent die Antwort auf diese Frage unverändert zurück. Sie können für jedes Frage-Antwort-Paar, das vom Agent angezeigt wird, einen Titel und eine URL angeben.

Beim Hochladen von Daten in den Datenspeicher muss das CSV-Format verwendet werden. Jede Datei muss eine Kopfzeile haben, die die Spalten beschreibt.

Beispiel:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

Die Spalten title und url sind optional und können weggelassen werden:

"answer","question"
"42","What is the meaning of life?"

Während des Uploadvorgangs kann ein Ordner ausgewählt werden, in dem jede Datei unabhängig von der Erweiterung als CSV-Datei behandelt wird.

Einschränkungen:

  • Zusätzliches Leerzeichen nach , verursacht einen Fehler.
  • Leere Zeilen (auch am Ende der Datei) führen zu einem Fehler.

Unstrukturierter Datenspeicher

Unstrukturierte Datenspeicher können Inhalte in den folgenden Formaten enthalten:

  • HTML
  • PDF
  • TXT
  • CSV

Einschränkungen:

  • Die maximale Dateigröße beträgt 2,5 MB für textbasierte Formate und 100 MB für andere Formate.

Datenspeicher mit Metadaten

Ein Titel und eine URL können als Metadaten angegeben werden. Wenn sich der Agent in einer Unterhaltung mit einem Nutzer befindet, kann er dem Nutzer diese Informationen zur Verfügung stellen. So können Nutzer schnell auf interne Webseiten verlinken, auf die der Index der Google Suche nicht zugreifen kann.

Stellen Sie eine oder mehrere JSON Lines-Dateien bereit, um Inhalte mit Metadaten zu importieren. Jede Zeile dieser Datei beschreibt ein Dokument. Die eigentlichen Dokumente werden nicht direkt hochgeladen. URIs, die mit den Cloud Storage-Pfaden verknüpft sind, sind in der JSON-Lines-Datei enthalten.

Bei der Bereitstellung Ihrer JSON-Lines-Dateien geben Sie einen Cloud Storage-Ordner an, der diese Dateien enthält. Legen Sie keine anderen Dateien in diesem Ordner ab.

Feldbeschreibungen:

Feld Typ Beschreibung
id String Eindeutige ID für das Dokument.
content.mimeType String MIME-Typ des Dokuments. „application/pdf“ und „text/html“ werden unterstützt.
content.uri String URI für das Dokument in Cloud Storage.
content.structData String Einzeiliges JSON-Objekt mit optionalen Feldern title und url.

Beispiel:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Datenspeicher ohne Metadaten

Für diesen Inhaltstyp gibt es keine Metadaten. Stellen Sie einfach die zu importierenden Dokumente bereit. Der Inhaltstyp wird durch die Dateiendung bestimmt.

Parsing- und Chunk-Konfiguration

Abhängig von der Datenquelle können Sie möglicherweise die in Vertex AI Search definierten Einstellungen für Analyse und Chunks konfigurieren.

Datenspeicher erstellen

So erstellen Sie einen Datenspeicher:

  1. Rufen Sie die Agent Builder-Konsole auf:

    Agent Builder-Konsole

  2. Wählen Sie im Drop-down-Menü der Konsole Ihr Projekt aus.

  3. Lesen und akzeptieren Sie die Nutzungsbedingungen und klicken Sie anschließend auf Fortfahren und API aktivieren.

  4. Klicken Sie im linken Navigationsbereich auf Datenspeicher.

  5. Klicken Sie auf Neuer Datenspeicher.

  6. Wählen Sie eine Datenquelle aus.

  7. Aktivieren Sie die Option Erweiterte Websiteindexierung. Dies ist für Datenspeicher-Agents erforderlich.

  8. Geben Sie Daten und Konfiguration für die ausgewählte Datenspeicherquelle an. Der Speicherort des Datenspeichers sollte dem Agent-Standort entsprechen.

  9. Klicken Sie auf Erstellen, um den Datenspeicher zu erstellen.

  10. Legen Sie optional die Sprache des Datenspeichers fest:

    1. Klicken Sie in der Liste der Datenspeicher auf den gerade erstellten Datenspeicher.
    2. Klicken Sie für die Spracheinstellung auf die Schaltfläche „Bearbeiten“ .
    3. Wähle eine Sprache aus und klicke auf das Kästchen, um sie anzuwenden.
  11. Bestätigen Sie Ihre Websitedomain.

Cloud Storage für ein Datenspeicherdokument verwenden

Wenn Ihr Inhalt nicht öffentlich ist, sollten Sie Ihre Inhalte in Cloud Storage speichern. Wenn Sie Datenspeicherdokumente erstellen, geben Sie die URLs für Ihre Cloud Storage-Objekte im folgenden Format an: gs://bucket-name/folder-name. Jedes Dokument im Ordner wird dem Datenspeicher hinzugefügt.

Beim Erstellen des Cloud Storage-Buckets:

  • Achten Sie darauf, dass Sie das Projekt ausgewählt haben, das Sie für den Agent verwenden.
  • Verwenden Sie die Standard Storage-Klasse.
  • Legen Sie als Bucket-Speicherort denselben Speicherort wie für den Agent fest.

Folgen Sie der Cloud Storage-Kurzanleitung, um einen Bucket zu erstellen und Dateien hochzuladen.

Sprachen

Die unterstützten Sprachen finden Sie in der Spalte „Datenspeicher“ in der Dialogflow-Sprachreferenz.

Für eine optimale Leistung wird empfohlen, Datenspeicher in einer einzigen Sprache zu erstellen.

Nachdem Sie einen Datenspeicher erstellt haben, können Sie optional die Sprache des Datenspeichers angeben. Wenn Sie die Sprache des Datenspeichers festlegen, können Sie den Datenspeicher mit einem Datenspeicher-Agent verbinden, der für eine andere Sprache konfiguriert ist. Sie können beispielsweise einen französischen Datenspeicher erstellen, der mit einem englischen Agent verbunden ist.

Unterstützte Regionen

Informationen zu unterstützten Regionen finden Sie in der Referenz zu Dialogflow-Regionen.