Texttrainingsdaten für die Entitätsextraktion vorbereiten

.

Auf dieser Seite wird beschrieben, wie Sie Textdaten für das Verwenden in einem Vertex AI-Dataset vorbereiten, um ein Entitätsextraktionsmodell zu trainieren.

Trainingsdaten für die Entitätsextraktion bestehen aus Dokumenten, die mit den Labels annotiert sind, die die Typen der Entitäten angeben, die Ihr Modell ermitteln soll. Beispielsweise können Sie ein Modell zur Entitätsextraktion erstellen, um eine spezielle Terminologie in rechtlichen Dokumenten oder Patenten zu ermitteln. Annotationen geben die Positionen der Entitäten an, die Sie mit einem Label versehen, sowie die Labels selbst.

Wenn Sie strukturierte oder halbstrukturierte Dokumente für ein Dataset zum Trainieren von AutoML-Modellen annotieren, z. B. Rechnungen oder Verträge, kann Vertex AI die Position einer Annotation auf der Seite als Kriterium für das passende Label berücksichtigen. Beispielsweise enthält ein Immobilienvertrag sowohl einen Abnahmetermin als auch ein Vertragsdatum. Vertex AI kann zwischen den Entitäten basierend auf der räumlichen Position der Annotation unterscheiden.

Datenanforderungen

  • Sie müssen mindestens 50 und können nicht mehr als 1.000.000 Trainingsdokumente bereitstellen.
  • Sie müssen mindestens 1 und können nicht mehr als 100 eindeutige Labels bereitstellen, um Entitäten, die Sie extrahieren möchten, zu annotieren.
  • Sie können mit einem Label zwischen 1 und 10 Wörter annotieren.
  • Labelnamen können zwischen 2 und 30 Zeichen lang sein.
  • Sie können Annotationen in Ihre JSON Lines-Dateien aufnehmen oder später nach dem Hochladen von Dokumenten Annotationen mit der Google Cloud Console hinzufügen.
  • Sie haben die Möglichkeit, Dokumente inline einzubinden oder auf TXT-Dateien in Cloud Storage-Buckets zu verweisen.

Best Practices für Textdaten zum Trainieren von AutoML-Modellen

Die folgenden Empfehlungen gelten für Datasets, die zum Trainieren von AutoML-Modellen verwendet werden.

  • Verwenden Sie jedes Label mindestens 200-mal in Ihrem Trainings-Dataset.
  • Annotieren Sie jedes Vorkommen von Entitäten, die das Modell ermitteln soll.

Eingabedateien

Die Eingabedateien für die Entitätsextraktion müssen das JSON Lines-Format haben. Das Format, die Feldnamen und die Werttypen für JSON Lines-Dateien werden durch eine Schemadatei bestimmt, die aus öffentlich zugänglichen YAML-Dateien besteht.

Sie können die Schemadatei für die Entitätsextraktion von folgendem Cloud Storage-Speicherort herunterladen:
gs://google-cloud-aiplatform/schema/dataset/ioformat/text_extraction_io_format_1.0.0.yaml

Das folgende Beispiel zeigt, wie Sie mit dem Schema eine eigene JSON Lines-Datei erstellen können. Das Beispiel nutzt Zeilenumbrüche für eine bessere Lesbarkeit. Setzen Sie Zeilenumbrüche in Ihren JSON-Dateien nur nach jedem Dokument. Das Feld dataItemResourceLabels gibt beispielsweise ml_use an und ist optional.

{
    "textSegmentAnnotations": [
      {
        "startOffset":number,
        "endOffset":number,
        "displayName": "label"
      },
      ...
    ],
    "textContent": "inline_text",
    "dataItemResourceLabels": {
      "aiplatform.googleapis.com/ml_use": "training|test|validation"
    }
}
{
    "textSegmentAnnotations": [
      {
        "startOffset":number,
        "endOffset":number,
        "displayName": "label"
      },
      ...
    ],
    "textGcsUri": "gcs_uri_to_file",
    "dataItemResourceLabels": {
      "aiplatform.googleapis.com/ml_use": "training|test|validation"
    }
}

Sie können Dokumente auch mithilfe der Google Cloud Console annotieren. Erstellen Sie eine JSON Lines-Datei nur mit Inhalt (ohne das Feld textSegmentAnnotations). Dokumente werden ohne Annotation in Vertex AI hochgeladen.