Crear un modelo de traducción personalizado

Entrena y usa un modelo de traducción personalizado con la consola Google Cloud . En el siguiente ejemplo se usa AutoML Translation para entrenar un modelo de traducción del inglés al español con un conjunto de datos que contiene pares de segmentos orientados a la tecnología procedentes de la localización de software.

Antes de empezar

Para empezar a usar AutoML Translation, tu proyecto debe tener habilitada la API Cloud Translation y debes tener los permisos que conceden los siguientes roles:

  • Rol Visor para ver los recursos de tu proyecto
  • Rol Editor de la API Cloud Translation para crear y gestionar conjuntos de datos y modelos
  • Rol Administrador de Storage para subir datos de entrenamiento a un segmento de Cloud Storage

Crear un conjunto de datos de traducción e importar pares de segmentos

  1. Descarga el archivo comprimido que contiene los datos de muestra para entrenar el modelo y extrae los archivos.

    En este tutorial, usarás el archivo TSV de inglés a español.

  2. Ve a la consola de AutoML Translation.

    Ir a la página Traducción

  3. En el panel de navegación, haga clic en Conjuntos de datos para ir a la página Conjuntos de datos.

  4. Haz clic en Crear conjunto de datos.

  5. En el cuadro de diálogo Crear conjunto de datos, especifica los detalles del conjunto de datos:

    1. Escribe tutorial_dataset como nombre del conjunto de datos.
    2. Selecciona Inglés (EN) como idioma de origen en la lista desplegable.
    3. Selecciona Español (ES) como idioma de destino.
    4. Haz clic en Crear.
  6. Una vez creado el conjunto de datos, haga clic en su nombre para ver los detalles.

  7. Ve a la pestaña Importar y sube el conjunto de datos en-es.tsv a Cloud Storage:

    1. Selecciona Subir archivos desde tu ordenador.
    2. Haz clic en Seleccionar archivos y elige el archivo en-es.tsv que has descargado y extraído anteriormente.
    3. Haz clic en Buscar para seleccionar o crear un segmento de Cloud Storage donde se almacene el archivo TSV. La región del segmento debe ser us-central1.
  8. Haz clic en Continuar.

    AutoML Translation divide automáticamente los datos en conjuntos de preparación, validación y prueba. Puedes ver estas divisiones y los pares de frases importados en la pestaña Frases de tu conjunto de datos.

Preparar un modelo

  1. Ve a la consola de AutoML Translation.

    Ir a la página Traducción

  2. En el panel de navegación, vaya a la página Conjuntos de datos.

  3. Haz clic en el conjunto de datos tutorial_dataset.

  4. Ve a la pestaña Entrenar.

  5. Haz clic en Iniciar entrenamiento para abrir el panel Entrenar nuevo modelo.

  6. Introduce tutorial_model como nombre del modelo.

  7. Haz clic en Iniciar entrenamiento.

Entrenar un modelo puede durar varias horas.

Evaluar el modelo

Comprueba cómo se compara el modelo con el modelo predeterminado de Google NMT, que se basa en pares de segmentos de tu conjunto de pruebas.

  1. Ve a la consola de AutoML Translation.

    Ir a la página Traducción

  2. En el panel de navegación, vaya a la página Modelos.

  3. Haz clic en el modelo tutorial_model.

  4. Haga clic en la pestaña Evaluar.

En la sección Evaluaciones anteriores, Cloud Translation muestra la puntuación BLEU de tu modelo en comparación con el modelo de traducción automática neuronal (NMT) de Google. La puntuación BLEU (Bilingual Evaluation Understudy) indica el grado de similitud entre el texto candidato y los textos de referencia. Los valores más cercanos a 100 representan textos más similares.

Usar el modelo de traducción

Desde la consola de Google Cloud , puedes usar tu modelo personalizado para traducir texto.

  1. Ve a la consola de AutoML Translation.

    Ir a la página Traducción

  2. En el panel de navegación, vaya a la página Modelos.

  3. Haz clic en el modelo tutorial_model.

  4. Haga clic en la pestaña Predecir.

  5. En el cuadro de texto Inglés, escribe el texto que quieras traducir y haz clic en Traducir.

    Puedes comparar los resultados de tu modelo personalizado con los del modelo de TNM de Google.

Limpieza

Para evitar cargos innecesarios, elimina tu modelo, conjunto de datos y en-es.tsvarchivo. Google Cloud También puedes usar elGoogle Cloud console para eliminar el proyecto si ya no lo necesitas.

Siguientes pasos

  • Para obtener información sobre los modelos personalizados, consulta la guía de inicio.
  • Para crear tu propio conjunto de datos y modelo personalizado, consulta el artículo Preparar datos de entrenamiento, donde se explica cómo preparar los datos.