Crear y gestionar conjuntos de datos

Un conjunto de datos contiene muestras representativas del tipo de contenido que quieres traducir, como pares de segmentos coincidentes en los idiomas de origen y de destino. El conjunto de datos se usa como entrada para entrenar un modelo.

Un proyecto puede tener varios conjuntos de datos, y cada uno de ellos se puede usar para entrenar un modelo independiente.

Crear conjunto de datos

Crea un conjunto de datos que contenga los datos de entrenamiento de tu modelo. Cuando creas un conjunto de datos, especificas los idiomas de origen y de destino de tus datos de entrenamiento. Para obtener más información sobre los idiomas y las variantes admitidos, consulta Idiomas admitidos en modelos personalizados.

UI web

La consola de AutoML Translation te permite crear un conjunto de datos e importar elementos en él.
  1. Ve a la consola de AutoML Translation.

    Ir a la página Traducción

  2. En el panel de navegación, haga clic en Conjuntos de datos.

  3. En la página Conjuntos de datos, haga clic en Crear conjunto de datos.

  4. En el cuadro de diálogo Crear conjunto de datos, especifica los detalles del conjunto de datos:

    • Escribe un nombre para el conjunto de datos.
    • Selecciona los idiomas de origen y de destino en las listas desplegables.
    • Haz clic en Crear.

REST

En el siguiente ejemplo se muestra cómo enviar una solicitud POST al método project.locations.datasets/create.

Antes de usar los datos de la solicitud, haz las siguientes sustituciones:

  • PROJECT_ID: tu ID de proyecto Google Cloud .
  • LOCATION: la región en la que se ubicará el conjunto de datos, como us-central1.
  • DATASET_NAME: nombre del conjunto de datos.
  • SOURCE_LANG_CODE: el código de idioma que especifica el idioma de origen del conjunto de datos.
  • TARGET_LANG_CODE: el código de idioma que especifica el idioma de destino del conjunto de datos.

Método HTTP y URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

Cuerpo JSON de la solicitud:

{
  "display_name": "DATASET_NAME",
  "source_language_code": "SOURCE_LANG_CODE",
  "target_language_code": "TARGET_LANG_CODE"
}

Para enviar tu solicitud, despliega una de estas opciones:

Deberías recibir una respuesta JSON similar a la siguiente:

{
  "name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID"
}

Idiomas adicionales

C#: Sigue las instrucciones de configuración de C# en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Cloud Translation para .NET.

PHP Sigue las instrucciones de configuración de PHP en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Cloud Translation para PHP.

Ruby: Sigue las instrucciones de configuración de Ruby en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Cloud Translation para Ruby.

Importar segmentos a un conjunto de datos

Una vez que haya creado un conjunto de datos, podrá importar pares de segmentos en él. Para obtener más información sobre cómo preparar los datos de origen, consulta el artículo Preparar datos de entrenamiento.

En cada archivo, la consola Google Cloud te permite etiquetar los pares de segmentos importados con uno o varios pares clave-valor. Las etiquetas facilitan la búsqueda y el filtrado de segmentos por fuente. Por ejemplo, un par clave-valor podría ser Domain:costmetics o Year:2020.

Puede añadir etiquetas al importar segmentos a través de la Google Cloud consola. La API no admite el etiquetado. Además, no puedes modificar ni añadir etiquetas a segmentos que ya se hayan importado.

UI web

En los siguientes pasos se importan elementos a un conjunto de datos.

  1. Ve a la consola de AutoML Translation.

    Ir a la página Traducción

  2. En el panel de navegación, haga clic en Conjuntos de datos.

  3. En la lista de conjuntos de datos, haga clic en el nombre del conjunto de datos al que quiera añadir datos de entrenamiento.

  4. Ve a la pestaña Importar.

  5. Añade archivos para importar pares de segmentos para entrenar el modelo.

    Sube archivos desde tu ordenador local a un segmento de Cloud Storage o selecciona archivos que ya tengas en Cloud Storage.

    De forma predeterminada, Cloud Translation divide automáticamente los datos en conjuntos de preparación, validación y prueba. Si quieres subir archivos independientes para cada división, selecciona Usar archivos distintos para la preparación, la validación y la prueba (avanzado). Usa esta opción si tu conjunto de datos tiene más de 100.000 pares de segmentos para no superar el límite máximo de 10.000 pares de segmentos de los conjuntos de validación y prueba.

  6. Para añadir etiquetas a los pares de segmentos, despliega Etiquetas (opcional).

    1. En la lista de archivos, haga clic en Editar para añadir una o varias etiquetas a todos los pares de segmentos de un archivo determinado.

    2. En el panel Etiquetas, haz clic en Añadir etiqueta.

    3. Introduce una clave y un valor. Podrás filtrar segmentos por este par clave-valor.

    4. Para añadir más etiquetas, haz clic en Añadir etiqueta.

    5. Cuando hayas terminado de añadir etiquetas, haz clic en Continuar.

  7. Haz clic en Continuar para importar los pares de segmentos.

    Una vez que se haya completado la importación, podrá ver los pares de frases importados en la pestaña Frases de su conjunto de datos. Puedes filtrar los segmentos por división (entrenamiento, validación o prueba) y por una o varias etiquetas.

REST

Usa el método projects.locations.datasets.importData para importar elementos en un conjunto de datos.

Antes de usar los datos de la solicitud, haz las siguientes sustituciones:

  • PROJECT_ID: tu ID de proyecto Google Cloud .
  • LOCATION: la región en la que se ubicará el conjunto de datos, como us-central1.
  • DATASET_ID: ID del conjunto de datos al que se van a añadir los datos.
  • FILE_DISPLAY_NAME: Nombre del archivo que contiene los datos que se van a importar.
  • USAGE: especifica la división de datos de estos pares de segmentos (TRAIN, VALIDATION o TEST).
  • FILE_PATH: ruta al archivo de datos de origen en Cloud Storage.

Método HTTP y URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData

Cuerpo JSON de la solicitud:

{
  "input_config": {
    "input_files": [
      {
        "display_name": "FILE_DISPLAY_NAME",
        "usage": "USAGE",
        "gcs_source": {
          "input_uris": "gs://FILE_PATH"
        }
      },
      ...
    ]
  }
}

Para enviar tu solicitud, despliega una de estas opciones:

Deberías recibir una respuesta JSON similar a la siguiente:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

Idiomas adicionales

C#: Sigue las instrucciones de configuración de C# en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Cloud Translation para .NET.

PHP Sigue las instrucciones de configuración de PHP en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Cloud Translation para PHP.

Ruby: Sigue las instrucciones de configuración de Ruby en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Cloud Translation para Ruby.

Una vez que hayas creado el conjunto de datos y lo hayas rellenado, podrás entrenar un modelo. Para obtener más información, consulta el artículo sobre cómo crear y gestionar modelos.

Problemas de importación

Cuando creas un conjunto de datos, AutoML Translation puede eliminar pares de segmentos si son demasiado largos, si los segmentos de los idiomas de origen y de destino son idénticos (sin traducir) o si hay duplicados (varios segmentos con el mismo texto en el idioma de origen).

En el caso de los pares de segmentos que sean demasiado largos, te recomendamos que los dividas en segmentos de unos 200 palabras o menos y que vuelvas a crear el conjunto de datos. El límite de 200 palabras es una estimación de la longitud máxima. Durante el procesamiento de tus datos, AutoML Translation usa un proceso interno para tokenizar los datos de entrada, lo que puede aumentar el tamaño de tus segmentos. Estos datos tokenizados son los que usa AutoML Translation para medir el tamaño de los datos.

Elimina de tu conjunto de datos los pares de segmentos que sean idénticos. Si quieres evitar que se traduzcan algunos segmentos, usa un recurso de glosario para crear un diccionario personalizado.

Exportar datos

Puede exportar pares de segmentos de conjuntos de datos a un segmento de Cloud Storage.

UI web

  1. Ve a la consola de AutoML Translation.

    Ir a la página Traducción

  2. En el panel de navegación, haga clic en Conjuntos de datos para ver una lista de sus conjuntos de datos.

  3. Haga clic en el nombre del conjunto de datos del que quiera exportar datos.

  4. En la página de detalles del conjunto de datos, haga clic en Exportar datos.

  5. Selecciona un destino de Cloud Storage donde se guardarán los archivos TSV exportados.

  6. Haz clic en Exportar.

    AutoML Translation genera archivos TSV cuyos nombres se corresponden con el conjunto de datos (preparación, validación y prueba).

REST

Usa el método projects.locations.datasets.exportData para exportar datos a Cloud Storage como archivos TSV.

Antes de usar los datos de la solicitud, haz las siguientes sustituciones:

  • PROJECT_ID: tu ID de proyecto Google Cloud .
  • LOCATION: región en la que se encuentra el conjunto de datos que se va a exportar, como us-central1.
  • DATASET_ID: ID del conjunto de datos que se va a exportar.
  • DESTINATION_DIRECTORY: ruta de Cloud Storage a la que se envía la salida.

Método HTTP y URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData

Cuerpo JSON de la solicitud:

{
  "output_config": {
    "gcs_destination": {
      "output_uri_prefix": "gs://DESTINATION_DIRECTORY"
    }
  }
}

Para enviar tu solicitud, despliega una de estas opciones:

Deberías recibir una respuesta JSON similar a la siguiente:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

Idiomas adicionales

C#: Sigue las instrucciones de configuración de C# en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Cloud Translation para .NET.

PHP Sigue las instrucciones de configuración de PHP en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Cloud Translation para PHP.

Ruby: Sigue las instrucciones de configuración de Ruby en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Cloud Translation para Ruby.

Mostrar conjuntos de datos

Muestra los conjuntos de datos disponibles en tu proyecto.

UI web

Para ver una lista de los conjuntos de datos disponibles mediante la consola de AutoML Translation, haz clic en Conjuntos de datos en el panel de navegación.

Para ver los conjuntos de datos de otro proyecto, selecciona el proyecto en la lista desplegable de la parte superior derecha de la barra de título.

REST

Antes de usar los datos de la solicitud, haz las siguientes sustituciones:

  • PROJECT_ID: tu ID de proyecto Google Cloud .
  • LOCATION: región en la que se encuentran los conjuntos de datos que se van a enumerar, como us-central1.

Método HTTP y URL:

GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

Para enviar tu solicitud, despliega una de estas opciones:

Deberías recibir una respuesta JSON similar a la siguiente:

{
  "datasets": [
    {
      "name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID",
      "displayName": "DATASET_NAME",
      "sourceLanguageCode": "SOURCE_LANG_CODE",
      "targetLanguageCode": "TARGET_LANG_CODE",
      "exampleCount": 8720,
      "createTime": "2022-10-19T23:24:34.734549Z",
      "updateTime": "2022-10-19T23:24:35.357525Z"
    },
    ...
  ]
}

Idiomas adicionales

C#: Sigue las instrucciones de configuración de C# en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Cloud Translation para .NET.

PHP Sigue las instrucciones de configuración de PHP en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Cloud Translation para PHP.

Ruby: Sigue las instrucciones de configuración de Ruby en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Cloud Translation para Ruby.

Eliminar un conjunto de datos

UI web

  1. En la consola de AutoML Translation, haz clic en Conjuntos de datos en el panel de navegación para ver la lista de conjuntos de datos disponibles.

  2. En el conjunto de datos que quieras eliminar, selecciona Más > Eliminar.

  3. En el cuadro de diálogo de confirmación, haz clic en Confirmar.

REST

Antes de usar los datos de la solicitud, haz las siguientes sustituciones:

  • PROJECT_ID: tu ID de proyecto Google Cloud .
  • LOCATION: región en la que se encuentran los conjuntos de datos que se van a enumerar, como us-central1.
  • DATASET_ID: ID del conjunto de datos que se va a eliminar.

Método HTTP y URL:

DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID

Para enviar tu solicitud, despliega una de estas opciones:

Deberías recibir una respuesta JSON similar a la siguiente:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata"
  },
  "done": true
}

Idiomas adicionales

C#: Sigue las instrucciones de configuración de C# en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Cloud Translation para .NET.

PHP Sigue las instrucciones de configuración de PHP en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Cloud Translation para PHP.

Ruby: Sigue las instrucciones de configuración de Ruby en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Cloud Translation para Ruby.