Labels mithilfe der Befehlszeile in einem Bild erkennen

Auf dieser Seite erfahren Sie, wie Sie mit der REST-Benutzeroberfläche und dem Befehl curl drei Anfragen zur Elementerkennung und Annotation an die Vision API senden.

Mit der Vision API können Google-Technologien zur visuellen Erkennung leicht in Entwickleranwendungen eingebunden werden. Sie können Bilddaten und die gewünschten Elementtypen an die Vision API senden, die dann anhand der für Sie interessanten Bildattribute eine entsprechende Antwort zurückgibt. Weitere Informationen zu den angebotenen Elementtypen finden Sie in der Liste aller Vision API-Elemente.

Vorbereitung

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

Install the Google Cloud CLI.

To initialize the gcloud CLI, run the following command:

gcloud init

Create or select a Google Cloud project.

Create a Google Cloud project:
```
gcloud projects create PROJECT_ID
```
Replace PROJECT_ID with a name for the Google Cloud project you are creating.
Select the Google Cloud project that you created:
```
gcloud config set project PROJECT_ID
```
Replace PROJECT_ID with your Google Cloud project name.

Make sure that billing is enabled for your Google Cloud project.

Enable the Vision API:

gcloud services enable vision.googleapis.com

Grant roles to your user account. Run the following command once for each of the following IAM roles: roles/storage.objectViewer

gcloud projects add-iam-policy-binding PROJECT_ID --member="user:USER_IDENTIFIER" --role=ROLE

Replace PROJECT_ID with your project ID.
Replace USER_IDENTIFIER with the identifier for your user account. For example, user:myemail@example.com.
Replace ROLE with each individual role.

Install the Google Cloud CLI.

To initialize the gcloud CLI, run the following command:

gcloud init

Create or select a Google Cloud project.

Create a Google Cloud project:
```
gcloud projects create PROJECT_ID
```
Replace PROJECT_ID with a name for the Google Cloud project you are creating.
Select the Google Cloud project that you created:
```
gcloud config set project PROJECT_ID
```
Replace PROJECT_ID with your Google Cloud project name.

Make sure that billing is enabled for your Google Cloud project.

Enable the Vision API:

gcloud services enable vision.googleapis.com

Grant roles to your user account. Run the following command once for each of the following IAM roles: roles/storage.objectViewer

gcloud projects add-iam-policy-binding PROJECT_ID --member="user:USER_IDENTIFIER" --role=ROLE

Replace PROJECT_ID with your project ID.
Replace USER_IDENTIFIER with the identifier for your user account. For example, user:myemail@example.com.
Replace ROLE with each individual role.

Anfrage zur Annotation eines Bildes stellen

Nachdem Sie die Schritte unter Hinweis abgeschlossen haben, können Sie die Vision API zum Annotieren einer Bilddatei verwenden.

In diesem Beispiel senden Sie mit curl eine Anfrage mit folgendem Bild an die Vision API:

Cloud Storage-URI:

gs://cloud-samples-data/vision/using_curl/shanghai.jpeg

HTTPS-URL:

https://console.cloud.google.com/storage/browser/cloud-samples-data/vision/using_curl/shanghai.jpeg

Bild: Straße in Shanghai — *Bildnachweis:* Steve Long auf Unsplash.

JSON-Anfrage erstellen

Die folgende request.json-Datei zeigt, wie Sie drei images:annotate-Elemente anfordern und die Ergebnisse in der Antwort begrenzen.

Erstellen Sie die JSON-Anfragedatei mit folgendem Text und speichern Sie sie als Nur-Text-Datei request.json in Ihrem Arbeitsverzeichnis:

request.json

{
  "requests": [
    {
      "image": {
        "source": {
          "imageUri": "gs://cloud-samples-data/vision/using_curl/shanghai.jpeg"
        }
      },
      "features": [
        {
          "type": "LABEL_DETECTION",
          "maxResults": 3
        },
        {
          "type": "OBJECT_LOCALIZATION",
          "maxResults": 1
        },
        {
          "type": "TEXT_DETECTION",
          "maxResults": 1,
          "model": "builtin/latest"
        }
      ]
    }
  ]
}

Details zum Feldwert

image.source.gcsImageUri – gibt das in einem Cloud Storage-Bucket gespeicherte Bild an. Bei einem öffentlich zugänglichen URI ändern Sie diese Anfrage in image.source.imageUri, um eine Base64-codierte Stringdarstellung eines Bildes zu übergeben in image.content.
features – Ein Objekt, das einen bestimmten Elementtyp darstellt. Sie können mehrere Elementtypen für ein einzelnes Bild anfordern.

type – der Aufzählungswert, der ein Element spezifiziert.
maxResults (optional) – ein Wert, der die Anzahl der zurückgegebenen Ergebnisse begrenzt.
model (optional) – falls zutreffend, können Sie Ihr Modell durch Angabe von entweder builtin/stable (Standardwert, falls keine Angabe gemacht wird) oder builtin/latest auswählen. Eine Liste der kürzlich aktualisierten Modelle finden Sie in den Versionshinweisen.

Anfrage senden

Sie verwenden curl und den Textinhalt von request.json, um die Anfrage an die Vision API zu senden. Geben Sie Folgendes in die Befehlszeile ein:

curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "x-goog-user-project: PROJECT_ID" \
    -H "Content-Type: application/json; charset=utf-8" \
    https://vision.googleapis.com/v1/images:annotate -d @request.json

Antwort interpretieren

Sie sollten eine JSON-Antwort ähnlich wie diese sehen:

Der JSON-Text der Anfrage enthielt maxResults für jeden Annotationstyp. Daher sehen Sie in der JSON-Antwort dies:

drei labelAnnotations-Ergebnisse
ein textAnnotations-Ergebnis (zur Verdeutlichung gekürzt)
ein localizedObjectAnnotations-Ergebnis

Antwort

{
  "responses": [
    {
      "labelAnnotations": [
        {
          "mid": "/m/09g5pq",
          "description": "People",
          "score": 0.9504782,
          "topicality": 0.9504782
        },
        {
          "mid": "/m/01c8br",
          "description": "Street",
          "score": 0.8911568,
          "topicality": 0.8911568
        },
        {
          "mid": "/m/079bkr",
          "description": "Mode of transport",
          "score": 0.89089024,
          "topicality": 0.89089024
        }
      ],
      "textAnnotations": [
        {
          "locale": "zh",
          "description": "牛牛面馆\n",
          "boundingPoly": {
            "vertices": [
              {
                "x": 159,
                "y": 212
              },
              {
                "x": 947,
                "y": 212
              },
              {
                "x": 947,
                "y": 354
              },
              {
                "x": 159,
                "y": 354
              }
            ]
          }
        },
        ...
      ],
      "fullTextAnnotation": {
        "pages": [
          {
            ...
                "paragraphs": [
                  {
                    ...
                    "words": [
                      {
                        ...
                        "symbols": [
                          {
                            ...
                ],
                "blockType": "TEXT"
              }
            ]
          }
        ],
        "text": "牛牛面馆\n"
      },
      "localizedObjectAnnotations": [
        {
          "mid": "/m/01g317",
          "name": "Person",
          "score": 0.94413143,
          "boundingPoly": {
            "normalizedVertices": [
              {
                "x": 0.26063988,
                "y": 0.46869153
              },
              {
                "x": 0.40736017,
                "y": 0.46869153
              },
              {
                "x": 0.40736017,
                "y": 0.8957791
              },
              {
                "x": 0.26063988,
                "y": 0.8957791
              }
            ]
          }
        }
      ]
    }
  ]
}

Ergebnisse der Labelerkennung

description: "People", score: 0.950
description: "Street", score: 0.891
description: "Mode of transport", score: 0.890

Bild einer Straße in Shanghai mit den Ergebnissen der Labelerkennung — *Bildnachweis:* Steve Long auf Unsplash (*Anmerkungen hinzugefügt*).

Ergebnisse der Texterkennung

Text: 牛牛面馆\n
vertices: (x: 159, y: 212), (x: 947, y: 212), (x: 947, y: 354), (x: 159, y: 354)

Bild einer Straße in Shanghai mit Texterkennungsergebnissen — *Bildnachweis:* Steve Long auf Unsplash (*Anmerkungen hinzugefügt*).

Ergebnisse der Objekterkennung

name: "Person", score: 0.944
normalized vertices: (x: 0.260, y: 0.468), (x: 0.407, y: 0.468), (x: 0.407, y: 0.895), (x: 0.260, y: 0.895)

Bild einer Straße in Shanghai mit den Ergebnissen der Objekterkennung — *Bildnachweis:* Steve Long auf Unsplash (*Anmerkungen hinzugefügt*).

Glückwunsch! Sie haben Ihre erste Anfrage an die Vision API gesendet.

Bereinigen

Löschen Sie das Google Cloud-Projekt mit den Ressourcen, damit Ihrem Google Cloud-Konto die auf dieser Seite verwendeten Ressourcen nicht in Rechnung gestellt werden.

Optional: Revoke credentials from the gcloud CLI.

gcloud auth revoke

Nächste Schritte

Alle Elementtypen und ihre Verwendung ansehen.
Erste Schritte mit Vision API in der Sprache Ihrer Wahl. Verwenden Sie dafür eine Vision API-Clientbibliothek.
Verwenden Sie die Anleitungen, um mehr über bestimmte Funktionen zu erfahren, Beispielannotationen anzusehen und Annotationen für einzelne Dateien oder Bilder abzurufen.
Weitere Informationen zur Batch-Bild- und Datei-Annotationen (PDF/TIFF/GIF).
Hier finden Sie eine vollständige Liste der Codebeispiele für die Clientbibliothek.