Crie e faça a gestão de conjuntos de dados

Um conjunto de dados contém exemplos representativos do tipo de conteúdo que quer traduzir, como pares de segmentos correspondentes nos idiomas de origem e de destino. O conjunto de dados serve como entrada para preparar um modelo.

Um projeto pode ter vários conjuntos de dados. Cada um pode ser usado para preparar um modelo separado.

Crie um conjunto de dados

Crie um conjunto de dados para conter os dados de preparação do seu modelo. Quando cria um conjunto de dados, especifica os idiomas de origem e de destino dos seus dados de preparação. Para mais informações sobre os idiomas e as variantes suportados, consulte o artigo Suporte de idiomas para modelos personalizados.

IU da Web

A consola do AutoML Translation permite-lhe criar um novo conjunto de dados e importar itens para o mesmo.
  1. Aceda à consola do AutoML Translation.

    Aceder à página de tradução

  2. No painel de navegação, clique em Conjuntos de dados.

  3. Na página Conjuntos de dados, clique em Criar conjunto de dados.

  4. Na caixa de diálogo Criar conjunto de dados, especifique os detalhes sobre o conjunto de dados:

    • Introduza um nome para o conjunto de dados.
    • Selecione os idiomas de origem e de destino nas listas pendentes.
    • Clique em Criar.

REST

O exemplo seguinte mostra como enviar um pedido POST para o método project.locations.datasets/create.

Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:

  • PROJECT_ID: o ID do seu Google Cloud projeto.
  • LOCATION: a região onde o conjunto de dados vai estar localizado, como us-central1.
  • DATASET_NAME: um nome para o conjunto de dados.
  • SOURCE_LANG_CODE: o código do idioma que especifica o idioma de origem do conjunto de dados.
  • TARGET_LANG_CODE: o código do idioma que especifica o idioma de destino do conjunto de dados.

Método HTTP e URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

Corpo JSON do pedido:

{
  "display_name": "DATASET_NAME",
  "source_language_code": "SOURCE_LANG_CODE",
  "target_language_code": "TARGET_LANG_CODE"
}

Para enviar o seu pedido, expanda uma destas opções:

Deve receber uma resposta JSON semelhante à seguinte:

{
  "name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID"
}

Idiomas adicionais

C#: Siga as instruções de configuração do C# na página das bibliotecas de cliente e, em seguida, visite a documentação de referência do Cloud Translation para .NET.

PHP: Siga as instruções de configuração do PHP na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Cloud Translation para PHP.

Ruby: Siga as instruções de configuração do Ruby na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Cloud Translation para Ruby.

Importe segmentos para um conjunto de dados

Depois de criar um conjunto de dados, pode importar pares de segmentos para o conjunto de dados. Para ver detalhes sobre a preparação dos dados de origem, consulte o artigo Preparar dados de preparação.

Para cada ficheiro, a Google Cloud consola permite-lhe etiquetar pares de segmentos importados com um ou mais pares de chave-valor. A etiquetagem facilita a localização e a filtragem de segmentos por origem. Por exemplo, um par de chave-valor pode ser Domain:costmetics ou Year:2020.

Pode adicionar etiquetas quando importa segmentos através da Google Cloud consola;0x0A>a etiquetagem não é suportada pela API. Além disso, não pode modificar nem adicionar etiquetas a segmentos que já foram importados.

IU da Web

Os passos seguintes importam itens para um conjunto de dados existente.

  1. Aceda à consola do AutoML Translation.

    Aceder à página de tradução

  2. No painel de navegação, clique em Conjuntos de dados.

  3. Na lista de conjuntos de dados, clique no nome do conjunto de dados ao qual quer adicionar dados de preparação.

  4. Aceda ao separador Importar.

  5. Adicione ficheiros para importar pares de segmentos para a preparação de modelos.

    Carregue ficheiros do seu computador local para um contentor do Cloud Storage ou selecione ficheiros existentes do Cloud Storage.

    Por predefinição, o Cloud Translation divide automaticamente os seus dados em conjuntos de preparação, validação e teste. Se quiser carregar ficheiros separados para cada divisão, selecione Usar ficheiros separados para preparação, validação e testes (avançado). Use esta opção se o seu conjunto de dados tiver mais de 100 000 pares de segmentos para evitar exceder o limite máximo de 10 000 pares de segmentos para os conjuntos de validação e de teste.

  6. Para adicionar etiquetas a pares de segmentos, expanda Etiquetas (opcional).

    1. Na lista de ficheiros, clique em Editar para adicionar uma ou mais etiquetas a todos os pares de segmentos de um determinado ficheiro.

    2. No painel Etiquetas, clique em Adicionar etiqueta.

    3. Introduza uma chave e um valor. Pode filtrar segmentos por este par de chave-valor.

    4. Para adicionar mais etiquetas, clique em Adicionar etiqueta.

    5. Clique em Continuar quando terminar de adicionar etiquetas.

  7. Clique em Continuar para importar pares de segmentos.

    Após a conclusão da importação, pode ver os pares de frases importados no separador Frases do conjunto de dados. Filtra os segmentos por divisão (preparação, validação ou testes) e por uma ou mais etiquetas.

REST

Use o método projects.locations.datasets.importData para importar itens para um conjunto de dados.

Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:

  • PROJECT_ID: o ID do seu Google Cloud projeto.
  • LOCATION: a região onde o conjunto de dados vai estar localizado, como us-central1.
  • DATASET_ID: o ID do conjunto de dados ao qual adicionar dados.
  • FILE_DISPLAY_NAME: o nome do ficheiro que contém os dados a importar.
  • USAGE: especifica a divisão de dados para estes pares de segmentos (TRAIN, VALIDATION ou TEST).
  • FILE_PATH: O caminho para o ficheiro de dados de origem no Cloud Storage.

Método HTTP e URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData

Corpo JSON do pedido:

{
  "input_config": {
    "input_files": [
      {
        "display_name": "FILE_DISPLAY_NAME",
        "usage": "USAGE",
        "gcs_source": {
          "input_uris": "gs://FILE_PATH"
        }
      },
      ...
    ]
  }
}

Para enviar o seu pedido, expanda uma destas opções:

Deve receber uma resposta JSON semelhante à seguinte:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

Idiomas adicionais

C#: Siga as instruções de configuração do C# na página das bibliotecas de cliente e, em seguida, visite a documentação de referência do Cloud Translation para .NET.

PHP: Siga as instruções de configuração do PHP na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Cloud Translation para PHP.

Ruby: Siga as instruções de configuração do Ruby na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Cloud Translation para Ruby.

Depois de criar e preencher o conjunto de dados, pode preparar um modelo. Para mais informações, consulte o artigo Criar e gerir modelos).

Problemas de importação

Quando cria um conjunto de dados, o AutoML Translation pode ignorar pares de segmentos se forem demasiado longos, se os segmentos nos idiomas de origem e de destino forem idênticos (não traduzidos) ou se existirem duplicados (vários segmentos com o mesmo texto no idioma de origem).

Para pares de segmentos demasiado longos, recomendamos que divida os segmentos em aproximadamente 200 palavras ou menos e, em seguida, recrie o conjunto de dados. O limite de 200 palavras é uma estimativa do comprimento máximo. Durante o processamento dos seus dados, o AutoML Translation usa um processo interno para tokenizar os dados de entrada, o que pode aumentar o tamanho dos seus segmentos. Estes dados tokenizados são o que o AutoML Translation usa para medir o tamanho dos dados.

Para pares de segmentos idênticos, remova-os do conjunto de dados. Se quiser impedir a tradução de alguns segmentos, use um recurso de glossário para criar um dicionário personalizado.

Exportar dados

Pode exportar pares de segmentos de conjuntos de dados existentes para um contentor do Cloud Storage.

IU da Web

  1. Aceda à consola do AutoML Translation.

    Aceder à página de tradução

  2. No painel de navegação, clique em Conjuntos de dados para ver uma lista dos seus conjuntos de dados.

  3. Clique no nome do conjunto de dados para o qual quer exportar dados.

  4. Na página de detalhes do conjunto de dados, clique em Exportar dados.

  5. Selecione um destino do Cloud Storage onde os ficheiros TSV exportados são guardados.

  6. Clique em Exportar.

    O AutoML Translation gera ficheiros TSV com nomes de acordo com o respetivo conjunto de dados (treino, validação e teste).

REST

Use o método projects.locations.datasets.exportData para exportar dados para o Cloud Storage como ficheiros TSV.

Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:

  • PROJECT_ID: o ID do seu Google Cloud projeto.
  • LOCATION: a região onde se encontra o conjunto de dados a exportar, como us-central1.
  • DATASET_ID: o ID do conjunto de dados a exportar.
  • DESTINATION_DIRECTORY: o caminho do Cloud Storage para onde o resultado é enviado.

Método HTTP e URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData

Corpo JSON do pedido:

{
  "output_config": {
    "gcs_destination": {
      "output_uri_prefix": "gs://DESTINATION_DIRECTORY"
    }
  }
}

Para enviar o seu pedido, expanda uma destas opções:

Deve receber uma resposta JSON semelhante à seguinte:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

Idiomas adicionais

C#: Siga as instruções de configuração do C# na página das bibliotecas de cliente e, em seguida, visite a documentação de referência do Cloud Translation para .NET.

PHP: Siga as instruções de configuração do PHP na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Cloud Translation para PHP.

Ruby: Siga as instruções de configuração do Ruby na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Cloud Translation para Ruby.

Liste conjuntos de dados

Liste os conjuntos de dados disponíveis no seu projeto.

IU da Web

Para ver uma lista dos conjuntos de dados disponíveis através da consola do AutoML Translation, clique em Conjuntos de dados no painel de navegação.

Para ver os conjuntos de dados de um projeto diferente, selecione o projeto na lista pendente na parte superior direita da barra de título.

REST

Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:

  • PROJECT_ID: o ID do seu Google Cloud projeto.
  • LOCATION: a região onde os conjuntos de dados a listar estão localizados, como us-central1.

Método HTTP e URL:

GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

Para enviar o seu pedido, expanda uma destas opções:

Deve receber uma resposta JSON semelhante à seguinte:

{
  "datasets": [
    {
      "name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID",
      "displayName": "DATASET_NAME",
      "sourceLanguageCode": "SOURCE_LANG_CODE",
      "targetLanguageCode": "TARGET_LANG_CODE",
      "exampleCount": 8720,
      "createTime": "2022-10-19T23:24:34.734549Z",
      "updateTime": "2022-10-19T23:24:35.357525Z"
    },
    ...
  ]
}

Idiomas adicionais

C#: Siga as instruções de configuração do C# na página das bibliotecas de cliente e, em seguida, visite a documentação de referência do Cloud Translation para .NET.

PHP: Siga as instruções de configuração do PHP na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Cloud Translation para PHP.

Ruby: Siga as instruções de configuração do Ruby na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Cloud Translation para Ruby.

Eliminar um conjunto de dados

IU da Web

  1. Na consola do AutoML Translation, clique em Conjuntos de dados no painel de navegação para apresentar a lista de conjuntos de dados disponíveis.

  2. Para o conjunto de dados que quer eliminar, selecione Mais > Eliminar.

  3. Clique em Confirmar na caixa de diálogo de confirmação.

REST

Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:

  • PROJECT_ID: o ID do seu Google Cloud projeto.
  • LOCATION: a região onde os conjuntos de dados a listar estão localizados, como us-central1.
  • DATASET_ID: o ID do conjunto de dados a eliminar.

Método HTTP e URL:

DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID

Para enviar o seu pedido, expanda uma destas opções:

Deve receber uma resposta JSON semelhante à seguinte:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata"
  },
  "done": true
}

Idiomas adicionais

C#: Siga as instruções de configuração do C# na página das bibliotecas de cliente e, em seguida, visite a documentação de referência do Cloud Translation para .NET.

PHP: Siga as instruções de configuração do PHP na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Cloud Translation para PHP.

Ruby: Siga as instruções de configuração do Ruby na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Cloud Translation para Ruby.