Detecta etiquetas en una imagen mediante la línea de comandos

En esta página, se muestra cómo enviar tres solicitudes de anotación y detección de características a la API de Vision mediante la interfaz de REST y el comando curl.

La API de Vision permite la integración sencilla de las tecnologías de reconocimiento de la visión de Google en las aplicaciones de desarrollador. Puedes enviar los datos de imagen y los tipos de características deseados a la API de Vision, que luego muestra una respuesta correspondiente en función de los atributos de imagen que te interesan. Para obtener más información sobre los tipos de características que se ofrecen, consulta la Lista de todas las características de la API de Vision.

Antes de comenzar

Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.

Instala Google Cloud CLI.

Para inicializar la CLI de gcloud, ejecuta el siguiente comando:

gcloud init

Crea o selecciona un proyecto de Google Cloud.

Crea un proyecto de Google Cloud:
```
gcloud projects create PROJECT_ID
```
Reemplaza PROJECT_ID por un nombre para el proyecto de Google Cloud que estás creando.
Selecciona el proyecto de Google Cloud que creaste:
```
gcloud config set project PROJECT_ID
```
Reemplaza PROJECT_ID por el nombre del proyecto de Google Cloud.

Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

Habilita la Vision API:

gcloud services enable vision.googleapis.com

Otorga roles a tu Cuenta de Google. Ejecuta el siguiente comando una vez para cada uno de los siguientes roles de IAM: roles/storage.objectViewer

gcloud projects add-iam-policy-binding PROJECT_ID --member="user:EMAIL_ADDRESS" --role=ROLE

Reemplaza PROJECT_ID con el ID del proyecto.
Reemplaza EMAIL_ADDRESS por tu dirección de correo electrónico.
Reemplaza ROLE por cada rol individual.

Instala Google Cloud CLI.

Para inicializar la CLI de gcloud, ejecuta el siguiente comando:

gcloud init

Crea o selecciona un proyecto de Google Cloud.

Crea un proyecto de Google Cloud:
```
gcloud projects create PROJECT_ID
```
Reemplaza PROJECT_ID por un nombre para el proyecto de Google Cloud que estás creando.
Selecciona el proyecto de Google Cloud que creaste:
```
gcloud config set project PROJECT_ID
```
Reemplaza PROJECT_ID por el nombre del proyecto de Google Cloud.

Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

Habilita la Vision API:

gcloud services enable vision.googleapis.com

Otorga roles a tu Cuenta de Google. Ejecuta el siguiente comando una vez para cada uno de los siguientes roles de IAM: roles/storage.objectViewer

gcloud projects add-iam-policy-binding PROJECT_ID --member="user:EMAIL_ADDRESS" --role=ROLE

Reemplaza PROJECT_ID con el ID del proyecto.
Reemplaza EMAIL_ADDRESS por tu dirección de correo electrónico.
Reemplaza ROLE por cada rol individual.

Crea una solicitud de anotación de imagen

Después de completar los pasos de la sección Antes de comenzar, puedes usar la API de Vision para anotar un archivo de imagen.

En este ejemplo, se usa curl para enviar una solicitud a la API de Vision mediante la siguiente imagen:

URI de Cloud Storage

gs://cloud-samples-data/vision/using_curl/shanghai.jpeg

URL HTTPS:

https://console.cloud.google.com/storage/browser/cloud-samples-data/vision/using_curl/shanghai.jpeg

Imagen de una calle en Shanghái — *Crédito de la imagen*: Steve Long en Unsplash.

Crea el JSON de la solicitud

En el siguiente archivo request.json, se muestra cómo solicitar tres características de images:annotate y limitar los resultados en la respuesta.

Crea el archivo de solicitud JSON con el siguiente texto y guárdalo como un archivo de texto sin formato request.json en tu directorio de trabajo:

request.json

{
  "requests": [
    {
      "image": {
        "source": {
          "imageUri": "gs://cloud-samples-data/vision/using_curl/shanghai.jpeg"
        }
      },
      "features": [
        {
          "type": "LABEL_DETECTION",
          "maxResults": 3
        },
        {
          "type": "OBJECT_LOCALIZATION",
          "maxResults": 1
        },
        {
          "type": "TEXT_DETECTION",
          "maxResults": 1,
          "model": "builtin/latest"
        }
      ]
    }
  ]
}

Detalles del valor de campo

image.source.gcsImageUri: Indica la imagen almacenada en un bucket de Cloud Storage. Cambia esta solicitud a image.source.imageUri para un URI disponible al público, o a image.content a fin de pasar una representación de string codificada en base64 de una imagen.
features: Un objeto que representa un tipo de característica específica. Puedes solicitar varios tipos de características para una sola imagen.

type: Es el valor de enumeración que especifica una característica.
maxResults: Es un valor límite en los resultados que se muestran (opcional).
model: Si corresponde, puedes especificar builtin/stable (la opción predeterminada si no está configurada) o builtin/latest para elegir tu modelo (opcional). Consulta Notas de la versión para obtener una lista de los modelos actualizados recientemente.

Envía la solicitud

Puedes usar curl y el contenido del cuerpo de request.json para enviar la solicitud a la API de Vision. Ingresa lo siguiente en la línea de comandos:

curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "x-goog-user-project: PROJECT_ID" \
    -H "Content-Type: application/json; charset=utf-8" \
    https://vision.googleapis.com/v1/images:annotate -d @request.json

Interpreta la respuesta

Deberías ver una respuesta JSON similar a la que se muestra a continuación.

En el cuerpo JSON de la solicitud se especificó maxResults para cada tipo de anotación. Por lo tanto, en la respuesta JSON verás lo que se muestra a continuación:

tres resultados labelAnnotations
un resultado textAnnotations (abreviado para mayor claridad)
un resultado localizedObjectAnnotations

Respuesta

{
  "responses": [
    {
      "labelAnnotations": [
        {
          "mid": "/m/09g5pq",
          "description": "People",
          "score": 0.9504782,
          "topicality": 0.9504782
        },
        {
          "mid": "/m/01c8br",
          "description": "Street",
          "score": 0.8911568,
          "topicality": 0.8911568
        },
        {
          "mid": "/m/079bkr",
          "description": "Mode of transport",
          "score": 0.89089024,
          "topicality": 0.89089024
        }
      ],
      "textAnnotations": [
        {
          "locale": "zh",
          "description": "牛牛面馆\n",
          "boundingPoly": {
            "vertices": [
              {
                "x": 159,
                "y": 212
              },
              {
                "x": 947,
                "y": 212
              },
              {
                "x": 947,
                "y": 354
              },
              {
                "x": 159,
                "y": 354
              }
            ]
          }
        },
        ...
      ],
      "fullTextAnnotation": {
        "pages": [
          {
            ...
                "paragraphs": [
                  {
                    ...
                    "words": [
                      {
                        ...
                        "symbols": [
                          {
                            ...
                ],
                "blockType": "TEXT"
              }
            ]
          }
        ],
        "text": "牛牛面馆\n"
      },
      "localizedObjectAnnotations": [
        {
          "mid": "/m/01g317",
          "name": "Person",
          "score": 0.94413143,
          "boundingPoly": {
            "normalizedVertices": [
              {
                "x": 0.26063988,
                "y": 0.46869153
              },
              {
                "x": 0.40736017,
                "y": 0.46869153
              },
              {
                "x": 0.40736017,
                "y": 0.8957791
              },
              {
                "x": 0.26063988,
                "y": 0.8957791
              }
            ]
          }
        }
      ]
    }
  ]
}

Resultados de detección de etiquetas

descripción: “Personas” (People), puntaje: 0.950
descripción: “Calle” (Street), puntaje: 0.891
descripción: “Modo de transporte” (Mode of transport), puntaje: 0.890

Resultados de detección de texto

texto: 牛牛面馆\n
vértices: (x: 159, y: 212), (x: 947, y: 212), (x: 947, y: 354), (x: 159, y: 354)

Resultados de detección de objetos

nombre: “Persona” (Person), puntuación: 0.944
vértices normalizados: (x: 0.260, y: 0.468), (x: 0.407, y: 0.468), (x: 0.407, y: 0.895), (x: 0.260, y: 0.895)

¡Felicitaciones! Enviaste tu primera solicitud a la API de Vision.

Realiza una limpieza

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que se usaron en esta página, borra el proyecto de Cloud que tiene los recursos.

Opcional: Revoca credenciales desde gcloud CLI.

gcloud auth revoke

¿Qué sigue?

Ve una lista de todos los tipos de funciones y sus usos.
Comienza a usar la API de Vision en el idioma que prefieras mediante una biblioteca cliente de esta API.
Usa las guías prácticas para obtener más información sobre funciones específicas, ver ejemplos de anotaciones y obtener anotaciones para un archivo o una imagen individuales.
Obtén más información sobre la anotación por lotes para imágenes y archivos (PDF, TIFF y GIF).
Explora una lista completa de las muestras de código de la biblioteca cliente.