Crea y administra conjuntos de datos

Un conjunto de datos contiene muestras representativas del tipo de contenido que deseas traducir, como pares de segmentos equivalentes en los idiomas de origen y de destino. El conjunto de datos sirve como entrada para entrenar un modelo.

Un proyecto puede tener varios conjuntos de datos. Cada uno se puede usar para entrenar un modelo diferente.

Crea un conjunto de datos

Crea un conjunto de datos que contenga los datos de entrenamiento de tu modelo. Cuando creas un conjunto de datos, especificas los idiomas fuente y objetivo de tus datos de entrenamiento. Para obtener más información sobre los idiomas y las variantes admitidos, consulta Idiomas admitidos para modelos personalizados.

IU web

La consola de AutoML Translation te permite crear un conjunto de datos nuevo e importar elementos a él.
  1. Ve a la consola de AutoML Translation.

    Ir a la página Translation

  2. En el panel de navegación, haz clic en Conjuntos de datos.

  3. En la página Conjuntos de datos, haz clic en Crear conjunto de datos.

  4. En el cuadro de diálogo Crear conjunto de datos, especifica los detalles del conjunto de datos:

    • Ingresa un nombre para el conjunto de datos.
    • Selecciona el idioma de origen y el idioma objetivo en las listas desplegables.
    • Haz clic en Crear.

REST

A continuación, se muestra cómo enviar una solicitud POST al método project.locations.datasets/create.

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

  • PROJECT_ID es el ID del proyecto de Google Cloud.
  • LOCATION: La región en la que se ubicará el conjunto de datos, como us-central1.
  • DATASET_NAME: Un nombre para el conjunto de datos.
  • SOURCE_LANG_CODE: el código de idioma que especifica el idioma de origen del conjunto de datos.
  • TARGET_LANG_CODE: el código de idioma que especifica el idioma de destino del conjunto de datos.

Método HTTP y URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

Cuerpo JSON de la solicitud:

{
  "display_name": "DATASET_NAME",
  "source_language_code": "SOURCE_LANG_CODE",
  "target_language_code": "TARGET_LANG_CODE"
}

Para enviar tu solicitud, expande una de estas opciones:

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

{
  "name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID"
}

Lenguajes adicionales

C#: sigue lasinstrucciones de configuración de C# en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Cloud Translation para .NET.

PHP: sigue las instrucciones de configuración de PHP en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Cloud Translation para PHP.

Ruby: sigue las instrucciones de configuración de Ruby en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Cloud Translation para Ruby.

Importa segmentos a un conjunto de datos

Después de crear un conjunto de datos, puedes importar pares de segmentos al conjunto de datos. Para obtener detalles sobre cómo preparar datos de entrenamiento, consulta Cómo preparar los datos de entrenamiento.

Para cada archivo, la consola de Google Cloud te permite etiquetar pares de segmentos importados con uno o más pares clave-valor. El etiquetado facilita la búsqueda y el filtrado de segmentos por fuente. Por ejemplo, un par clave-valor podría ser Domain:costmetics o Year:2020.

Puedes agregar etiquetas cuando importas segmentos a través de la consola de Google Cloud; la API no admite el etiquetado. Tampoco puedes modificar las etiquetas ni agregar etiquetas a los segmentos que ya se importaron.

IU web

Sigue los pasos a continuación para importar elementos a un conjunto de datos existente.

  1. Ve a la consola de AutoML Translation.

    Ir a la página Translation

  2. En el panel de navegación, haz clic en Conjuntos de datos.

  3. En la lista de conjuntos de datos, haz clic en el nombre del conjunto de datos al que deseas agregar los datos de entrenamiento.

  4. Ve a la pestaña Importar.

  5. Agrega archivos a fin de importar pares de segmentos para el entrenamiento de modelos.

    Sube archivos de tu computadora local a un bucket de Cloud Storage o selecciona archivos existentes desde Cloud Storage.

    Según la configuración predeterminada, Cloud Translation divide automáticamente los datos en conjuntos de entrenamiento, validación y prueba. Si deseas subir archivos separados para cada división, selecciona Usar archivos distintos para el entrenamiento, la validación y las pruebas (avanzado). Usa esta opción si tu conjunto de datos tiene más de 100,000 pares de segmentos a fin de evitar exceder el límite máximo de 10,000 pares de segmentos para los conjuntos de validación y prueba.

  6. Para agregar etiquetas a pares de segmentos, expande Etiquetas (opcional).

    1. En la lista de archivos, haz clic en Editar para agregar una o más etiquetas a todos los pares de segmentos de un archivo determinado.

    2. En el panel Etiquetas, haz clic en Agregar etiqueta.

    3. Ingresa una clave y un valor. Podrás filtrar segmentos por este par clave-valor.

    4. Para agregar más etiquetas, haz clic en Agregar etiqueta.

    5. Haz clic en Continuar cuando termines de agregar etiquetas.

  7. Haz clic en Continuar para importar pares de segmentos.

    Una vez que se complete la importación, puedes ver los pares de oraciones importados en la pestaña Oraciones de tu conjunto de datos. Debes filtrar los segmentos por división (entrenamiento, validación o pruebas) y por una o más etiquetas.

REST

Usa el método projects.locations.datasets.importData para importar elementos a un conjunto de datos.

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

  • PROJECT_ID es el ID del proyecto de Google Cloud.
  • LOCATION: La región en la que se ubicará el conjunto de datos, como us-central1.
  • DATASET_ID: El ID del conjunto de datos al que se agregarán los datos.
  • FILE_DISPLAY_NAME: El nombre del archivo que contiene datos para importar.
  • USAGE: Especifica la división de datos para estos pares de segmentos (TRAIN, VALIDATION o TEST).
  • FILE_PATH: La ruta de acceso al archivo de datos de origen en Cloud Storage.

Método HTTP y URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData

Cuerpo JSON de la solicitud:

{
  "input_config": {
    "input_files": [
      {
        "display_name": "FILE_DISPLAY_NAME",
        "usage": "USAGE",
        "gcs_source": {
          "input_uris": "gs://FILE_PATH"
        }
      },
      ...
    ]
  }
}

Para enviar tu solicitud, expande una de estas opciones:

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

Lenguajes adicionales

C#: sigue lasinstrucciones de configuración de C# en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Cloud Translation para .NET.

PHP: sigue las instrucciones de configuración de PHP en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Cloud Translation para PHP.

Ruby: sigue las instrucciones de configuración de Ruby en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Cloud Translation para Ruby.

Después de crear y propagar el conjunto de datos, puedes entrenar un modelo. Para obtener más información, consulta Cómo crear y administrar modelos.

Problemas de importación

Cuando creas un conjunto de datos, AutoML Translation puede descartar pares de segmentos si son demasiado largos, si los segmentos en los idiomas de origen y destino son idénticos (sin traducir) o si hay duplicados (varios segmentos con el mismo texto en el idioma de origen).

Para los pares de segmentos demasiado largos, te recomendamos que dividas los segmentos en aproximadamente 200 palabras o menos y, luego, vuelvas a crear el conjunto de datos. Por lo tanto, el límite de 200 palabras es una estimación para la longitud máxima. Mientras se procesan tus datos, AutoML Translation usa un proceso interno para asignar tokens a los datos de entrada, lo que puede aumentar el tamaño de las oraciones. Estos datos con tokens asignados son los que AutoML Translation usa para medir el tamaño de los datos.

En el caso de los pares de segmentos que son idénticos, quítalos del conjunto de datos. Si quieres evitar que se traduzcan algunos segmentos, usa un recurso de glosario para crear un diccionario personalizado en su lugar.

Exporte datos

Puedes exportar pares de segmentos desde conjuntos de datos existentes a un bucket de Cloud Storage.

IU web

  1. Ve a la consola de AutoML Translation.

    Ir a la página Translation

  2. En el panel de navegación, haz clic en Conjuntos de datos para ver una lista de tus conjuntos de datos.

  3. Haz clic en el nombre del conjunto de datos del que deseas exportar datos.

  4. En la página de detalles del conjunto de datos, haz clic en Exportar datos.

  5. Selecciona un destino de Cloud Storage en el que se guarden los archivos TSV exportados.

  6. Haga clic en Exportar.

    AutoML Translation genera archivos TSV que tienen un nombre según su conjunto de conjuntos de datos (entrenamiento, validación y prueba).

REST

Usa el método projects.locations.datasets.exportData para exportar datos a Cloud Storage como archivos TSV.

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

  • PROJECT_ID es el ID del proyecto de Google Cloud.
  • LOCATION: La región en la que se encuentra el conjunto de datos que se exportará, como us-central1.
  • DATASET_ID: El ID del conjunto de datos que se exportará.
  • DESTINATION_DIRECTORY: La ruta de acceso de Cloud Storage a la que se envía el resultado.

Método HTTP y URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData

Cuerpo JSON de la solicitud:

{
  "output_config": {
    "gcs_destination": {
      "output_uri_prefix": "gs://DESTINATION_DIRECTORY"
    }
  }
}

Para enviar tu solicitud, expande una de estas opciones:

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

Lenguajes adicionales

C#: sigue lasinstrucciones de configuración de C# en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Cloud Translation para .NET.

PHP: sigue las instrucciones de configuración de PHP en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Cloud Translation para PHP.

Ruby: sigue las instrucciones de configuración de Ruby en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Cloud Translation para Ruby.

Mostrar lista de conjuntos de datos

Enumera los conjuntos de datos disponibles en tu proyecto.

IU web

Para ver una lista de los conjuntos de datos disponibles que usan la consola de AutoML Translation, haz clic en Conjuntos de datos en el panel de navegación.

Para ver los conjuntos de datos de otro proyecto, selecciónalo en la lista desplegable en la parte superior derecha de la barra de título.

REST

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

  • PROJECT_ID es el ID del proyecto de Google Cloud.
  • LOCATION: La región en la que se encuentran los conjuntos de datos que se van a enumerar, como us-central1.

Método HTTP y URL:

GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

Para enviar tu solicitud, expande una de estas opciones:

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

{
  "datasets": [
    {
      "name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID",
      "displayName": "DATASET_NAME",
      "sourceLanguageCode": "SOURCE_LANG_CODE",
      "targetLanguageCode": "TARGET_LANG_CODE",
      "exampleCount": 8720,
      "createTime": "2022-10-19T23:24:34.734549Z",
      "updateTime": "2022-10-19T23:24:35.357525Z"
    },
    ...
  ]
}

Lenguajes adicionales

C#: sigue lasinstrucciones de configuración de C# en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Cloud Translation para .NET.

PHP: sigue las instrucciones de configuración de PHP en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Cloud Translation para PHP.

Ruby: sigue las instrucciones de configuración de Ruby en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Cloud Translation para Ruby.

Borrar un conjunto de datos

IU web

  1. En la consola de AutoML Translation, haz clic en Conjuntos de datos desde el panel de navegación para ver la lista de conjuntos de datos disponibles.

  2. Para el conjunto de datos que deseas borrar, selecciona Más > Borrar.

  3. Haz clic en Confirmar en el cuadro de diálogo de confirmación.

REST

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

  • PROJECT_ID es el ID del proyecto de Google Cloud.
  • LOCATION: La región en la que se encuentran los conjuntos de datos que se van a enumerar, como us-central1.
  • DATASET_ID: El ID del conjunto de datos que se borrará.

Método HTTP y URL:

DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID

Para enviar tu solicitud, expande una de estas opciones:

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata"
  },
  "done": true
}

Lenguajes adicionales

C#: sigue lasinstrucciones de configuración de C# en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Cloud Translation para .NET.

PHP: sigue las instrucciones de configuración de PHP en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Cloud Translation para PHP.

Ruby: sigue las instrucciones de configuración de Ruby en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Cloud Translation para Ruby.