La API de Vision puede detectar y extraer información sobre las entidades de una imagen en un amplio grupo de categorías.
Las etiquetas pueden identificar objetos generales, ubicaciones, actividades, especies de animales, productos y mucho más. Si necesitas etiquetas personalizadas de orientación, Cloud AutoML Vision te permite entrenar un modelo de aprendizaje automático personalizado para clasificar imágenes.
Las etiquetas se muestran solo en inglés. La API de Cloud Translation puede traducir etiquetas en inglés a muchos otros idiomas.
Por ejemplo, la imagen anterior puede mostrar la siguiente lista de etiquetas:
Descripción | Puntaje |
---|---|
Calle | 0.872 |
Instantánea | 0.852 |
Pueblo | 0.848 |
Noche | 0.804 |
Callejón | 0.713 |
Solicitudes de detección de etiquetas
Configura el proyecto de Google Cloud y la autenticación
Detecta etiquetas en una imagen local
Puedes usar la API de Vision para realizar la detección de características en un archivo de imagen local.
Para las solicitudes de REST, envía el contenido del archivo de imagen como una string codificada en base64 en el cuerpo de tu solicitud.
Para las solicitudes de biblioteca cliente y gcloud
, especifica la ruta a una imagen local en tu solicitud.
REST
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
- BASE64_ENCODED_IMAGE: Es la representación en base64 (string ASCII) de los datos de la imagen binaria. Esta string debería ser similar a la siguiente:
/9j/4QAYRXhpZgAA...9tAVx/zDQDlGxn//2Q==
- RESULTS_INT: Un valor de número entero de resultados que se mostrarán (opcional). Si omites el campo
"maxResults"
y su valor, la API muestra el valor predeterminado de 10 resultados. Este campo no se aplica a los siguientes tipos de funciones:TEXT_DETECTION
,DOCUMENT_TEXT_DETECTION
oCROP_HINTS
. - PROJECT_ID es el ID del proyecto de Google Cloud.
Método HTTP y URL:
POST https://vision.googleapis.com/v1/images:annotate
Cuerpo JSON de la solicitud:
{ "requests": [ { "image": { "content": "BASE64_ENCODED_IMAGE" }, "features": [ { "maxResults": RESULTS_INT, "type": "LABEL_DETECTION" } ] } ] }
Para enviar tu solicitud, elige una de estas opciones:
curl
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: PROJECT_ID" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://vision.googleapis.com/v1/images:annotate"
PowerShell
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://vision.googleapis.com/v1/images:annotate" | Select-Object -Expand Content
Si la solicitud se completa de forma correcta, el servidor muestra un código de estado HTTP 200 OK
y la respuesta en formato JSON.
Una respuesta LABEL_DETECTION
incluye las etiquetas detectadas, su puntuación, novedad y un ID de etiqueta opaco; en ella se ilustra lo siguiente:
mid
: si está presente, contiene un identificador generado por una máquina (MID) que corresponde a la entrada del gráfico de conocimiento de Google de la entidad. Ten en cuenta que los valoresmid
son únicos en distintos idiomas, por lo que puedes usarlos para relacionar entidades de diferentes idiomas. Para inspeccionar los valores de la MID, consulta la documentación de la API de gráfico de conocimiento de Google.description
: Es la descripción de la etiqueta.score
: Es la puntuación de confianza, varía de 0 (sin confianza) a 1 (confianza muy alta).topicality
: Es la relevancia de la etiqueta ICA (Anotación del contenido de la imagen) para la imagen. Mide la importancia que tiene una etiqueta para el contexto general de una página.
{ "responses": [ { "labelAnnotations": [ { "mid": "/m/01c8br", "description": " Street", "score": 0.87294734, "topicity": 0.87294734 }, { "mid": "/m/06pg22", "description": "Instantánea", "score": 0.3,0599, "topicityness": 0.45990 }, { "mid": "/m/0dx1j", "description": "Town", "score": 0.481104, "topicityity": 0.481104 }, { "mid": "/m/01d74z", "description" ": "Night", "score": 0.0408716, "topicity": 0.80408716 }, { "mid": "/m/01lwf0", " description": "Alley", "score": 0.7133322, "topicity": 0.7.133322 } ] } }
Go
Antes de probar este código de muestra, sigue las instrucciones de configuración para Go que se encuentran en la Guía de inicio rápido de Vision sobre cómo usar las bibliotecas cliente. Si quieres obtener más información, consulta la documentación de referencia de la API de Vision para Go.
Para autenticarte en Vision, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Java
Antes de probar este código de muestra, sigue las instrucciones de configuración para Java que se encuentran la Guía de inicio rápido de la API de Vision sobre cómo usar las bibliotecas cliente. Si quieres obtener más información, consulta la documentación de referencia de la API de Vision para Java.
Node.js
Antes de probar este código de muestra, sigue las instrucciones de configuración para Node.js que se encuentran en la Guía de inicio rápido de Vision sobre cómo usar las bibliotecas cliente. Si quieres obtener más información, consulta la documentación de referencia de la API de Vision para Node.js.
Para autenticarte en Vision, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Python
Antes de probar este código de muestra, sigue las instrucciones de configuración para Python que se encuentran en la Guía de inicio rápido de Vision sobre cómo usar las bibliotecas cliente. Si quieres obtener más información, consulta la documentación de referencia de la API de Vision para Python.
Para autenticarte en Vision, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Idiomas adicionales
C#: sigue lasinstrucciones de configuración de C# en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Vision para .NET.
PHP: sigue las instrucciones de configuración de PHP en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Vision para PHP.
Ruby: sigue las instrucciones de configuración de Ruby en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Vision para Ruby.
Detecta etiquetas en una imagen remota
Puedes usar la API de Vision para realizar funciones de detección de características en un archivo de imagen remoto ubicado en Cloud Storage o en la Web. Para enviar una solicitud de archivo remoto, especifica la URL web del archivo o el URI de Cloud Storage en el cuerpo de la solicitud.
REST
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
- CLOUD_STORAGE_IMAGE_URI: La ruta a un archivo de imagen válido en un depósito de Cloud Storage. Como mínimo, debes tener privilegios de lectura en el archivo.
Ejemplo:
gs://cloud-samples-data/vision/label/setagaya.jpeg
- RESULTS_INT: Un valor de número entero de resultados que se mostrarán (opcional). Si omites el campo
"maxResults"
y su valor, la API muestra el valor predeterminado de 10 resultados. Este campo no se aplica a los siguientes tipos de funciones:TEXT_DETECTION
,DOCUMENT_TEXT_DETECTION
oCROP_HINTS
. - PROJECT_ID es el ID del proyecto de Google Cloud.
Método HTTP y URL:
POST https://vision.googleapis.com/v1/images:annotate
Cuerpo JSON de la solicitud:
{ "requests": [ { "image": { "source": { "gcsImageUri": "CLOUD_STORAGE_IMAGE_URI" } }, "features": [ { "maxResults": RESULTS_INT, "type": "LABEL_DETECTION" }, ] } ] }
Para enviar tu solicitud, elige una de estas opciones:
curl
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: PROJECT_ID" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://vision.googleapis.com/v1/images:annotate"
PowerShell
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://vision.googleapis.com/v1/images:annotate" | Select-Object -Expand Content
Si la solicitud se completa de forma correcta, el servidor muestra un código de estado HTTP 200 OK
y la respuesta en formato JSON.
Una respuesta LABEL_DETECTION
incluye las etiquetas detectadas, su puntuación, novedad y un ID de etiqueta opaco; en ella se ilustra lo siguiente:
mid
: si está presente, contiene un identificador generado por una máquina (MID) que corresponde a la entrada del gráfico de conocimiento de Google de la entidad. Ten en cuenta que los valoresmid
son únicos en distintos idiomas, por lo que puedes usarlos para relacionar entidades de diferentes idiomas. Para inspeccionar los valores de la MID, consulta la documentación de la API de gráfico de conocimiento de Google.description
: Es la descripción de la etiqueta.score
: Es la puntuación de confianza, varía de 0 (sin confianza) a 1 (confianza muy alta).topicality
: es la relevancia de la etiqueta de anotación de contenido de imagen (ICA) para la imagen. Mide la importancia que tiene una etiqueta para el contexto general de una página.
{ "responses": [ { "labelAnnotations": [ { "mid": "/m/01c8br", "description": " Street", "score": 0.87294734, "topicity": 0.87294734 }, { "mid": "/m/06pg22", "description": "Instantánea", "score": 0.3,0599, "topicityness": 0.45990 }, { "mid": "/m/0dx1j", "description": "Town", "score": 0.481104, "topicityity": 0.481104 }, { "mid": "/m/01d74z", "description" ": "Night", "score": 0.0408716, "topicity": 0.80408716 }, { "mid": "/m/01lwf0", " description": "Alley", "score": 0.7133322, "topicity": 0.7.133322 } ] } }
Go
Antes de probar este código de muestra, sigue las instrucciones de configuración para Go que se encuentran en la Guía de inicio rápido de Vision sobre cómo usar las bibliotecas cliente. Si quieres obtener más información, consulta la documentación de referencia de la API de Vision para Go.
Para autenticarte en Vision, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Java
Antes de probar este código de muestra, sigue las instrucciones de configuración para Java que se encuentran la Guía de inicio rápido de la API de Vision sobre cómo usar las bibliotecas cliente. Si quieres obtener más información, consulta la documentación de referencia de la API de Vision para Java.
Node.js
Antes de probar este código de muestra, sigue las instrucciones de configuración para Node.js que se encuentran en la Guía de inicio rápido de Vision sobre cómo usar las bibliotecas cliente. Si quieres obtener más información, consulta la documentación de referencia de la API de Vision para Node.js.
Para autenticarte en Vision, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Python
Antes de probar este código de muestra, sigue las instrucciones de configuración para Python que se encuentran en la Guía de inicio rápido de Vision sobre cómo usar las bibliotecas cliente. Si quieres obtener más información, consulta la documentación de referencia de la API de Vision para Python.
Para autenticarte en Vision, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
gcloud
Para detectar etiquetas en una imagen, usa el comando gcloud ml vision detect-labels
como se muestra en el siguiente ejemplo:
gcloud ml vision detect-labels gs://cloud-samples-data/vision/label/setagaya.jpeg
Lenguajes adicionales
C#: sigue lasinstrucciones de configuración de C# en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Vision para .NET.
PHP: sigue las instrucciones de configuración de PHP en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Vision para PHP.
Ruby: sigue las instrucciones de configuración de Ruby en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Vision para Ruby.
Prueba la personalización
Prueba la detección de etiquetas a continuación. Puedes usar la imagen ya especificada (gs://cloud-samples-data/vision/label/setagaya.jpeg
) o especificar tu propia imagen en su lugar. Si deseas enviar la solicitud, selecciona Ejecutar.
Cuerpo de la solicitud:
{ "requests": [ { "features": [ { "maxResults": 5, "type": "LABEL_DETECTION" } ], "image": { "source": { "imageUri": "gs://cloud-samples-data/vision/label/setagaya.jpeg" } } } ] }