Traduce documentos
Cloud Translation Advanced proporciona una API de traducción de documentos para traducir directamente documentos con formato, como PDF y DOCX. En comparación con las traducciones de texto sin formato, Document Translation conserva el formato y el diseño originales de los documentos traducidos para ayudarte a conservar gran parte del contexto original, como las divisiones de los párrafos.
En las siguientes secciones, se describe cómo traducir documentos y usar Document Translation con otras funciones de Cloud Translation Advanced, como los glosarios y los modelos de AutoML Translation. Document Translation es compatible con solicitudes de traducción en línea y por lotes.
Para traducir texto sin formato y traducciones HTML, consulta Traducir texto.
Formatos de archivo compatibles
Document Translation admite los siguientes tipos de archivos de entrada y sus tipos de archivos de salida asociados.
Entradas | Tipo de documento MIME | Salida |
---|---|---|
DOC* | application/msword | DOC, DOCX |
DOCX* | application/vnd.openxmlformats-officedocument.wordprocessingml.document | DOCX |
PDF† | application/pdf | PDF, DOCX |
PPT | application/vnd.ms-powerpoint | PPT, PPTX |
PPTX | application/vnd.openxmlformats-officedocument.presentationml.presentation | PPTX |
XLS | application/vnd.ms-excel | XLS, XLSX |
XLSX | application/vnd.openxmlformats-officedocument.spreadsheetml.sheet | XLSX |
* El contenido dentro de los cuadros de texto no se traduce y permanece en el idioma de origen.
† La traducción de documentos admite documentos PDF nativos y escaneados con algunas diferencias. Para manejar el formato óptimo, usa archivos PDF nativos cuando sea posible. La traducción de archivos PDF escaneados genera una pérdida de formato. Los diseños complejos de PDF también pueden generar cierta pérdida de formato, que pueden incluir tablas de datos, diseños de varias columnas y gráficos con etiquetas o leyendas.
Si tienes contenido en PDF en formato DOCX o PPTX, te recomendamos que traduzcas el contenido mediante esos formatos antes de convertirlos en PDF. En general, Document Translation conserva el diseño y el estilo de un documento de DOCX y PPTX mejor que los archivos PDF. Después de la traducción de un documento, puedes convertir los resultados en archivos PDF.
Traducciones de documentos PDF nativos y escaneados
Document Translation admite archivos PDF nativos y escaneados, como las traducciones en o desde idiomas que se leen de derecha a izquierda. La compatibilidad con las conversiones de PDF a DOCX está disponible solo para las traducciones de documentos por lotes en archivos PDF nativos. Además, Document Translation conserva los hipervínculos y el tamaño y color de la fuente solo para los archivos PDF nativos (en el caso de las traducciones síncronas y por lotes).
Si traduces un archivo PDF con una combinación de contenido PDF nativo y escaneado, el contenido analizado no se traducirá.
Antes de comenzar
Antes de comenzar a usar la API de Cloud Translation, debes tener un proyecto que tenga habilitada esta API y las credenciales adecuadas. También puedes instalar bibliotecas cliente para los lenguajes de programación comunes que te ayudarán a realizar llamadas a la API. Para obtener más información, consulta la página Configuración.
Permisos necesarios
Para las solicitudes que requieren acceso a Cloud Storage, como la traducción de documentos por lotes, es posible que necesites permisos de Cloud Storage para leer archivos de entrada o enviar archivos de salida a un bucket. Por ejemplo, para leer archivos de entrada de un bucket, al menos debes tener permisos de objetos de lectura (proporcionados por la función roles/storage.objectViewer
) en el bucket. Para obtener más información sobre las funciones de Cloud Storage, consulta su documentación.
Traduce documentos (en línea)
La traducción en línea proporciona procesamiento en tiempo real (procesamiento síncrono) de un solo archivo.
En el caso de los archivos PDF, el tamaño del archivo puede ser de hasta 20 MB y hasta 300 páginas para los archivos PDF nativos (el campo isTranslateNativePdfOnly
debe ser true
). Si habilitas el campo enableShadowRemovalNativePdf
, el límite es de 20 páginas. Para los archivos PDF escaneados, el límite es de 20 páginas.
En otros tipos de documentos, los tamaños de archivo no pueden superar los 20 MB sin límite de páginas.
Traduce un documento desde Cloud Storage
En el siguiente ejemplo, se traduce un archivo de un bucket de Cloud Storage y se muestra el resultado a un bucket de Cloud Storage. La respuesta también muestra un flujo de bytes. Puedes especificar el tipo de MIME; Si no lo haces, Document Translation lo determina mediante la extensión del archivo de entrada.
Si no especificas un código de idioma de origen, Document Translation detecta el idioma por ti. El idioma detectado se incluye en el resultado del campo detectedLanguageCode
.
REST
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
- PROJECT_NUMBER_OR_ID: el ID numérico o alfanumérico del proyecto de Google Cloud.
- LOCATION: la región en la que deseas ejecutar esta operación Por ejemplo:
us-central1
- SOURCE_LANGUAGE: el código de idioma del documento de entrada (opcional) Si lo conoces, configura uno de los códigos de idioma que aparecen en la sección Idiomas admitidos.
- TARGET_LANGUAGE: el idioma de destino al que se traducirá el documento de entrada. Establece uno de los códigos de idioma que se indican en Idiomas admitidos.
- INPUT_FILE_PATH por la ubicación de Cloud Storage y el nombre de archivo del documento de entrada
- OUTPUT_FILE_PREFIX: la ubicación de Cloud Storage en la que se almacenará el documento de salida
- IS_NATIVE: (Opcional) Para los documentos PDF nativos, un valor booleano que indica si tu solicitud usa el límite de páginas PDF nativas o analizadas. Si es verdadero, el límite de página se aumenta a 300 páginas solo para documentos nativos en PDF. Si es falso o no se especifica, se usa el límite de páginas PDF analizadas (20 páginas).
Método HTTP y URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:translateDocument
Cuerpo JSON de la solicitud:
{ "source_language_code": "SOURCE_LANGUAGE", "target_language_code": "TARGET_LANGUAGE", "document_input_config": { "gcsSource": { "inputUri": "gs://INPUT_FILE_PATH" } }, "document_output_config": { "gcsDestination": { "outputUriPrefix": "gs://OUTPUT_FILE_PREFIX" } }, "isTranslateNativePdfOnly": IS_NATIVE }
Para enviar tu solicitud, expande una de estas opciones:
Deberías recibir una respuesta JSON similar a la que se muestra a continuación:
{ "documentTranslation": { "byteStreamOutputs": ["BYTE_STREAM"], "mimeType": "MIME_TYPE" }, "model": "projects/PROJECT_NUMBER/locations/LOCATION/models/general/nmt" }
Node.js
Antes de probar este ejemplo, sigue las instrucciones de configuración para Node.js que encontrarás en la guía de inicio rápido de Cloud Translation sobre las bibliotecas cliente. Si deseas obtener más información, consulta la documentación de referencia de la API de Cloud Storage Node.js.
Para autenticarte en Cloud Translation, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Traduce un documento intercalado
En el siguiente ejemplo, se envía un documento intercalado como parte de la solicitud. Debes incluir el tipo de MIME para traducciones de documentos intercalados.
Si no especificas un código de idioma de origen, Document Translation detecta el idioma por ti. El idioma detectado se incluye en el resultado del campo detectedLanguageCode
.
REST
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
- PROJECT_NUMBER_OR_ID: el ID numérico o alfanumérico del proyecto de Google Cloud.
- LOCATION: la región en la que deseas ejecutar esta operación Por ejemplo:
us-central1
- SOURCE_LANGUAGE: el código de idioma del documento de entrada (opcional) Si lo conoces, configura uno de los códigos de idioma que aparecen en la sección Idiomas admitidos.
- TARGET_LANGUAGE: el idioma de destino al que se traducirá el documento de entrada. Establece uno de los códigos de idioma que se indican en Idiomas admitidos.
- MIME_TYPE: el formato del documento de origen, como
application/pdf
- INPUT_BYTE_STREAM: el contenido del documento de entrada representado como un flujo de bytes
- OUTPUT_FILE_PREFIX: la ubicación de Cloud Storage en la que se almacenará el documento de salida
- IS_NATIVE: (Opcional) Para los documentos PDF nativos, un valor booleano que indica si tu solicitud usa el límite de páginas PDF nativas o analizadas. Si es verdadero, el límite de página se aumenta a 300 páginas solo para documentos nativos en PDF. Si es falso o no se especifica, se usa el límite de páginas PDF analizadas (20 páginas).
Método HTTP y URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:translateDocument
Cuerpo JSON de la solicitud:
{ "source_language_code": "SOURCE_LANGUAGE", "target_language_code": "TARGET_LANGUAGE", "document_input_config": { "mimeType": "MIME_TYPE", "content": "INPUT_BYTE_STREAM" }, "document_output_config": { "gcsDestination": { "outputUriPrefix": "gs://OUTPUT_FILE_PREFIX" } }, "isTranslateNativePdfOnly": IS_NATIVE }
Para enviar tu solicitud, expande una de estas opciones:
Deberías recibir una respuesta JSON similar a la que se muestra a continuación:
{ "documentTranslation": { "byteStreamOutputs": ["BYTE_STREAM"], "mimeType": "MIME_TYPE" }, "model": "projects/PROJECT_NUMBER/locations/LOCATION/models/general/nmt" }
Python
Antes de probar este ejemplo, sigue las instrucciones de configuración para Python que encontrarás en la guía de inicio rápido de Cloud Translation sobre las bibliotecas cliente. Si deseas obtener más información, consulta la documentación de referencia de la API de Cloud Storage Python.
Para autenticarte en Cloud Translation, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Usa un modelo o un glosario de AutoML
En lugar del modelo administrado por Google, puedes usar tus propios modelos de AutoML Translation para traducir documentos. Además de especificar un modelo, también puedes incluir un glosario para manejar la terminología específica del dominio. Si especificas un modelo o un glosario, debes especificar el idioma de origen. En el siguiente ejemplo, se usa un modelo de AutoML y un glosario. Si el modelo o el glosario están en un proyecto diferente, debes tener el permiso de IAM correspondiente para acceder a esos recursos.
REST
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
- PROJECT_NUMBER_OR_ID: el ID numérico o alfanumérico del proyecto de Google Cloud.
- LOCATION: la región en la que deseas ejecutar esta operación, como
us-central1
. La ubicación debe coincidir con la región en la que se encuentran tu modelo, glosario o ambos. - SOURCE_LANGUAGE: es el código de idioma del documento de entrada. Establece uno de los códigos de idioma que se indican en Idiomas admitidos.
- TARGET_LANGUAGE: el idioma de destino al que se traducirá el documento de entrada. Establece uno de los códigos de idioma que se indican en Idiomas admitidos.
- INPUT_FILE_PATH por la ubicación de Cloud Storage y el nombre de archivo del documento de entrada
- OUTPUT_FILE_PREFIX: la ubicación de Cloud Storage en la que se almacenará el documento de salida
- MODEL_PROJECT_ID: el ID del proyecto en el que se encuentra el modelo
- MODEL_LOCATION: la región en la que se encuentra el modelo
- MODEL_ID: el ID del modelo que se usará
- GLOSSARY_PROJECT_ID: el ID del proyecto en el que se encuentra el glosario
- GLOSSARY_LOCATION: la región en la que se encuentra el glosario
- GLOSSARY_ID: es el ID del glosario que se usará
Método HTTP y URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:translateDocument
Cuerpo JSON de la solicitud:
{ "source_language_code": "SOURCE_LANGUAGE", "target_language_code": "TARGET_LANGUAGE", "document_input_config": { "gcsSource": { "inputUri": "gs://INPUT_FILE_PATH" } }, "document_output_config": { "gcsDestination": { "outputUriPrefix": "gs://OUTPUT_FILE_PREFIX" } }, "model": "projects/MODEL_PROJECT_ID/locations/MODEL_LOCATION/models/MODEL_ID", "glossary_config": { "glossary": "projects/GLOSSARY_PROJECT_ID/locations/MODEL_LOCATION/glossaries/GLOSSARY_ID" } }
Para enviar tu solicitud, expande una de estas opciones:
Deberías recibir una respuesta JSON similar a la que se muestra a continuación:
{ "documentTranslation": { "byteStreamOutputs": ["BYTE_STREAM"], "mimeType": "MIME_TYPE" }, "glossary_document_translation": { "byteStreamOutputs": ["BYTE_STREAM_USING_GLOSSARY"], "mimeType": "MIME_TYPE" }, "model": "projects/MODEL_PROJECT_ID/locations/MODEL_LOCATION/models/MODEL_ID", "glossaryConfig": { "glossary": "projects/GLOSSARY_PROJECT_ID/locations/MODEL_LOCATION/glossaries/GLOSSARY_ID" } }
Traduce documentos (por lotes)
La traducción por lotes te permite traducir varios archivos a varios idiomas en una sola solicitud. Para cada solicitud, puedes enviar hasta 100 archivos con un tamaño de contenido total de hasta 1 GB o 100 millones de puntos de código Unicode, el límite que se alcance primero. Puedes especificar un modelo de traducción particular para cada idioma.
Traduce varios documentos
En el siguiente ejemplo, se incluyen varios parámetros de configuración de entrada. Cada configuración de entrada es un puntero a un archivo en un bucket de Cloud Storage.
REST
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
- PROJECT_NUMBER_OR_ID: el ID numérico o alfanumérico del proyecto de Google Cloud
- LOCATION: la región en la que deseas ejecutar esta operación Por ejemplo:
us-central1
- SOURCE_LANGUAGE: el código de idioma de los documentos de entrada. Establece uno de los códigos de idioma que se indican en Idiomas admitidos.
- TARGET_LANGUAGE: los idioma de segmentación o idiomas a los que se traducen los documentos de entrada. Usa los códigos de idioma que se indican en Idiomas admitidos.
- INPUT_FILE_PATH: la ubicación de Cloud Storage y el nombre de archivo de uno o más documentos de entrada
- OUTPUT_FILE_PREFIX: la ubicación de Cloud Storage en la que se almacenan todos los documentos de salida
Método HTTP y URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:batchTranslateDocument
Cuerpo JSON de la solicitud:
{ "source_language_code": "SOURCE_LANGUAGE", "target_language_codes": ["TARGET_LANGUAGE", ...], "input_configs": [ { "gcsSource": { "inputUri": "gs://INPUT_FILE_PATH_1" } }, { "gcsSource": { "inputUri": "gs://INPUT_FILE_PATH_2" } }, ... ], "output_config": { "gcsDestination": { "outputUriPrefix": "gs://OUTPUT_FILE_PREFIX" } } }
Para enviar tu solicitud, expande una de estas opciones:
La respuesta contiene el ID de una operación de larga duración.{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.translation.v3.BatchTranslateDocumentMetadata", "state": "RUNNING" } }
Node.js
Antes de probar este ejemplo, sigue las instrucciones de configuración para Node.js que encontrarás en la guía de inicio rápido de Cloud Translation sobre las bibliotecas cliente. Si deseas obtener más información, consulta la documentación de referencia de la API de Cloud Storage Node.js.
Para autenticarte en Cloud Translation, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Python
Antes de probar este ejemplo, sigue las instrucciones de configuración para Python que encontrarás en la guía de inicio rápido de Cloud Translation sobre las bibliotecas cliente. Si deseas obtener más información, consulta la documentación de referencia de la API de Cloud Storage Python.
Para autenticarte en Cloud Translation, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Traduce y convierte un archivo PDF nativo
En el siguiente ejemplo, se traduce un archivo PDF nativo y se convierte en un archivo DOCX. Puedes especificar varias entradas de varios tipos de archivos (no todos tienen que ser archivos PDF nativos). Sin embargo, los archivos PDF escaneados no se pueden incluir cuando se incluye una conversión; la solicitud se rechaza y no se realizan traducciones. Solo los archivos PDF nativos se traducen y se convierten en archivos DOCX. Por ejemplo, si incluyes archivos PPTX, estos se traducen y se muestran como archivos PPTX.
Si traduces con frecuencia una combinación de archivos PDF nativos y escaneados, te recomendamos que los organices en buckets de Cloud Storage independientes. De esta manera, cuando solicitas una traducción por lotes y una conversión, puedes excluir con facilidad el bucket que contiene archivos PDF escaneados en lugar de tener que excluir archivos individuales.
REST
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
- PROJECT_NUMBER_OR_ID: el ID numérico o alfanumérico del proyecto de Google Cloud
- LOCATION: la región en la que deseas ejecutar esta operación Por ejemplo:
us-central1
- SOURCE_LANGUAGE: el código de idioma de los documentos de entrada. Establece uno de los códigos de idioma que se indican en Idiomas admitidos.
- TARGET_LANGUAGE: los idioma de segmentación o idiomas a los que se traducen los documentos de entrada. Usa los códigos de idioma que se indican en Idiomas admitidos.
- INPUT_FILE_PATH: La ubicación de Cloud Storage y el nombre de archivo de uno o más archivos PDF nativos.
- OUTPUT_FILE_PREFIX: la ubicación de Cloud Storage en la que se almacenan todos los documentos de salida
Método HTTP y URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:batchTranslateDocument
Cuerpo JSON de la solicitud:
{ "source_language_code": "SOURCE_LANGUAGE", "target_language_codes": ["TARGET_LANGUAGE", ...], "input_configs": [ { "gcsSource": { "inputUri": "gs://INPUT_FILE_PATH_1" } }, { "gcsSource": { "inputUri": "gs://INPUT_FILE_PATH_2" } }, ... ], "output_config": { "gcsDestination": { "outputUriPrefix": "gs://OUTPUT_FILE_PREFIX" } }, "format_conversions": { "application/pdf": "application/vnd.openxmlformats-officedocument.wordprocessingml.document" } }
Para enviar tu solicitud, expande una de estas opciones:
La respuesta contiene el ID de una operación de larga duración.{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.translation.v3.BatchTranslateDocumentMetadata", "state": "RUNNING" } }
Usa un modelo o un glosario de AutoML
En lugar del modelo administrado por Google, puedes usar tus propios modelos de AutoML Translation para traducir documentos. Además de especificar un modelo, también puedes incluir un glosario para manejar la terminología específica del dominio. Si especificas un modelo o un glosario, debes especificar el idioma de origen. En el siguiente ejemplo, se usa un modelo de AutoML y un glosario. Puedes especificar hasta 10 idiomas objetivo con su propio modelo y glosario.
Si especificas un modelo para algunos idiomas objetivo y no para otros, Document Translation usa el modelo administrado por Google para los idiomas no especificados. Del mismo modo, si especificas un glosario para algunos idiomas objetivo, la traducción de documentos no usa ningún glosario para los idiomas no especificados.
REST
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
- PROJECT_NUMBER_OR_ID: el ID numérico o alfanumérico del proyecto de Google Cloud
- LOCATION: la región en la que deseas ejecutar esta operación, como
us-central1
. La ubicación debe coincidir con la región en la que se encuentran tu modelo, glosario o ambos. - SOURCE_LANGUAGE: el código de idioma de los documentos de entrada. Establece uno de los códigos de idioma que se indican en Idiomas admitidos.
- TARGET_LANGUAGE: los idioma de segmentación o idiomas a los que se traducen los documentos de entrada. Usa los códigos de idioma que se indican en Idiomas admitidos.
- INPUT_FILE_PATH: la ubicación de Cloud Storage y el nombre de archivo de uno o más documentos de entrada
- OUTPUT_FILE_PREFIX: la ubicación de Cloud Storage en la que se almacenan todos los documentos de salida
- MODEL_PROJECT_ID: el ID del proyecto en el que se encuentra el modelo
- MODEL_LOCATION: la región en la que se encuentra el modelo
- MODEL_ID: el ID del modelo que se usará
- GLOSSARY_PROJECT_ID: el ID del proyecto en el que se encuentra el glosario
- GLOSSARY_LOCATION: la región en la que se encuentra el glosario
- GLOSSARY_ID: es el ID del glosario que se usará
Método HTTP y URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:translateDocument
Cuerpo JSON de la solicitud:
{ "source_language_code": "SOURCE_LANGUAGE", "target_language_codes": "[TARGET_LANGUAGE, ...]", "input_configs": [ { "gcsSource": { "inputUri": "gs://INPUT_FILE_PATH" } } ], "output_config": { "gcsDestination": { "outputUriPrefix": "gs://OUTPUT_FILE_PREFIX" } }, "models": { "TARGET_LANGUAGE": "projects/MODEL_PROJECT_ID/locations/MODEL_LOCATION/models/MODEL_ID", ... }, "glossaries": { "TARGET_LANGUAGE": { "glossary": "projects/GLOSSARY_PROJECT_ID/locations/MODEL_LOCATION/glossaries/GLOSSARY_ID" }, ... } }
Para enviar tu solicitud, expande una de estas opciones:
La respuesta contiene el ID de una operación de larga duración.{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.translation.v3.BatchTranslateDocumentMetadata", "state": "RUNNING" } }
Texto superpuesto
En algunos casos, las traducciones de PDF nativas pueden incluir texto traducido superpuesto en el texto de origen. Este problema se conoce como texto paralelo.
En algunos casos, puedes quitar el texto paralelo si habilitas la opción enableShadowRemovalNativePdf
. Si habilitas esta opción, la latencia de respuesta aumentará y, para las traducciones de documentos en línea, el límite de la página se reducirá a 20. Solo puedes saber si el documento requiere que se quite el texto paralelo después de traducirlo.
En otros casos, si la opción enableShadowRemovalNativePdf
no funciona, convierte el PDF en una imagen y, luego, tradúcelo. Por lo general, estos casos incluyen texto de varias capas, como cuando un texto seleccionable se encuentra sobre una imagen de fondo que también incluye texto. Convertir el PDF en una imagen permite que Cloud Translation procese el documento como un PDF escaneado. Para realizar la conversión, puedes usar Chrome (imprimir como imagen) o cualquier otra herramienta de terceros.
Orientación del texto
Para las traducciones de PDF escaneadas, el texto de origen debe segmentarse horizontalmente. Por ejemplo, si un documento analizado incluye texto que está pendiente o hacia abajo, es posible que Cloud Translation no analice correctamente todo el texto, lo que genera traducciones incorrectas o incompletas.
Si tus documentos no están orientados de manera coherente, puedes hacer que Cloud Translation los oriente por ti. En tu solicitud de traducción, habilita la opción enableRotationCorrection
para que el texto esté orientado de forma correcta antes de la traducción.
¿Qué sigue?
- El precio de Document Translation se calcula por página. Para obtener más información, consulta Precios.