Datasets verwalten

Ein Dataset enthält repräsentative Beispiele für den Inhaltstyp, den Sie mit Labels versehen möchten. Außerdem enthält es die Labels des Begrenzungsrahmens, die Ihr benutzerdefiniertes Modell verwenden soll. Das Dataset dient als Eingabe zum Trainieren eines Modells.

Die wesentlichen Schritte zum Erstellen eines Datasets sind:

  1. Erstellen Sie ein Dataset und geben Sie an, ob für jedes Element mehrere Labels zulässig sein sollen.
  2. Importieren Sie Datenelemente in das Dataset.
  3. Versehen Sie die Elemente mit Labels.

In vielen Fällen werden die Schritte 2 und 3 kombiniert, d. h. Sie importieren Datenelemente, die bereits mit Labels versehen sind.

Ein Projekt kann mehrere Datasets enthalten, die jeweils zum Trainieren eines separaten Modells verwendet werden. Sie können eine Liste der verfügbaren Datasets abrufen und nicht mehr benötigte Datasets löschen.

Dataset erstellen

Der erste Schritt zum Erstellen eines benutzerdefinierten Modells besteht darin, ein leeres Dataset zu erstellen, das mit den Trainingsdaten für das Modell gefüllt wird.

Befehlszeile

Im folgenden Beispiel wird ein Dataset mit dem Namen vot_test_dataset erstellt, das Anwendungsfälle für Objekt-Tracking unterstützt. Das neu erstellte Dataset enthält keine Daten.

Speichern Sie den "name" des neuen Datasets (aus der Antwort), um es für weitere Vorgänge zu verwenden, beispielsweise zum Importieren von Elementen in das Dataset oder zum Trainieren eines Modells.

curl \
  -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "Content-Type: application/json" \
  https://automl.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/us-central1/datasets \
  -d '{
    "displayName": "vot_test_dataset",
    "videoObjectTrackingDatasetMetadata": {
    },
  }'

Die Ausgabe sollte in etwa so aussehen:

{
  "name": "projects/434039606874/locations/us-central1/datasets/VOT6312181905852727296",
  "displayName": "vot_test_dataset",
  "createTime": "2019-01-09T23:42:47.664041Z",
  "videoObjectTrackingDatasetMetadata": {}
}

Elemente in ein Dataset importieren

Nachdem Sie ein Dataset erstellt haben, können Sie gelabelte Daten aus einer CSV-Datei importieren, die in einem Google Cloud Storage-Bucket gespeichert ist. Weitere Informationen zum Vorbereiten von Daten und Erstellen einer CSV-Datei für den Import finden Sie unter Trainingsdaten vorbereiten.

Sie können Elemente in ein leeres Dataset importieren oder zusätzliche Elemente in ein vorhandenes Dataset importieren.

Befehlszeile

  • Ersetzen Sie dataset-name durch den vollständigen Namen Ihres Datasets aus der Antwort, die Sie beim Erstellen des Datasets erhalten haben. Der vollständige Name hat das Format: projects/{project-id}/locations/us-central1/datasets/{dataset-id}

  • Ersetzen Sie bucket-name durch den Namen des Google Cloud Storage-Buckets, in dem Sie Ihre CSV-Datei mit der Liste der Modelltrainingsdateien gespeichert haben.

  • Ersetzen Sie csv-file-name durch den Namen der CSV-Datei mit der Liste der Modelltrainingsdateien.

    curl \
      -X POST \
      -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
      -H "Content-Type: application/json" \
      https://automl.googleapis.com/v1beta1/dataset-name:importData \
      -d '{
        "inputConfig": {
          "gcsSource": {
             "inputUris": ["gs://bucket-name/csv-file-name.csv"]
           }
        }
      }'
    

    Die Ausgabe sollte Folgendem ähneln: Sie können den Status der Aufgabe anhand der Vorgangs-ID abrufen. Ein Beispiel finden Sie unter Status eines Vorgangs abrufen.

    {
      "name": "projects/434039606874/locations/us-central1/operations/VOT2066219843102703616",
      "metadata": {
        "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata",
        "createTime": "2018-10-20T00:04:10.136222Z",
        "importDataDetails": {}
      }
    }
    

Datasets auflisten

Ein Projekt kann zahlreiche Datasets enthalten. In diesem Abschnitt wird beschrieben, wie Sie eine Liste der verfügbaren Datasets für ein Projekt abrufen.

Befehlszeile

curl \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "Content-Type: application/json" \
  https://automl.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/us-central1/datasets

Die Ausgabe sollte in etwa so aussehen:

{
  "datasets": [
    {
      "name": "projects/434039606874/locations/us-central1/datasets/VOT6312181905852727296",
      "displayName": "vot_test_dataset",
      "createTime": "2019-01-09T23:42:47.664041Z",
      "videoObjectTrackingDatasetMetadata": {}
    }
  ]
}

Dataset löschen

Im folgenden Code wird gezeigt, wie ein Dataset gelöscht wird.

Befehlszeile

  • Ersetzen Sie dataset-name durch den vollständigen Namen Ihres Datasets aus der Antwort, die Sie beim Erstellen des Datasets erhalten haben. Der vollständige Name hat das Format: projects/{project-id}/locations/us-central1/datasets/{dataset-id}
curl -X DELETE \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "Content-Type: application/json" https://automl.googleapis.com/v1beta1/dataset-name

Die Ausgabe sollte in etwa so aussehen:

{
  "name": "projects/434039606874/locations/us-central1/operations/VOT3512013641657611176",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata",
    "createTime": "2019-01-09T23:42:47.664041Z",
    "updateTime": "2019-01-09T23:42:47.664041Z",
    "cancellable": true
  }
}