Um conjunto de dados inclui amostras representativas do tipo de conteúdo que você quer traduzir, como pares de frases correspondentes nos idiomas de origem e chegada. O conjunto de dados serve como entrada para treinar um modelo.
Veja a seguir as principais etapas para criar um conjunto de dados:
- Criar um conjunto de dados e identificar os idiomas de origem e de chegada.
- Importar pares de frases para o conjunto de dados.
Um projeto pode ter vários conjuntos de dados, cada um usado para treinar um modelo separado. É possível ver uma lista dos conjuntos de dados disponíveis e excluir aqueles que não forem mais necessários.
Como criar um conjunto de dados
A primeira etapa na criação de um modelo personalizado é criar um conjunto de dados vazio que vai armazenar os dados de treinamento do modelo. Ao criar o conjunto, você identifica os idiomas de origem e chegada do modelo. Para mais informações sobre os idiomas e as variantes compatíveis, consulte Compatibilidade de idiomas para modelos personalizados.
IU da Web
A IU do AutoML Translation permite criar um novo conjunto de dados e importar itens para ele usando a mesma página.
Acesse a IU do AutoML Translation.
Selecione o projeto em que você ativou o AutoML Translation na lista suspensa, na parte superior direita da barra de título.
Na guia Conjuntos de dados, clique em Criar conjunto de dados.
Na caixa de diálogo Criar conjunto de dados, faça o seguinte:
- Insira o nome do conjunto de dados.
Selecione os idiomas de origem e chegada nas listas suspensas. Quando você escolhe um idioma em Traduzir de, os idiomas disponíveis em Traduzir para são exibidos.
Clique em Criar. A guia Importar é aberta.
REST
Enviar a solicitação de criação do conjunto de dados
Veja a seguir como enviar uma solicitação POST
para o método project.locations.datasets/create
.
O exemplo usa o token de acesso de uma conta de serviço configurada para o
projeto com a Google Cloud CLI.
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
- project-id: pelo código do projeto do Google Cloud Platform
- dataset-name: pelo nome do novo conjunto de dados
- source-language-code: pelo idioma do qual você quer traduzir, como um código ISO 639-1, como "en"
- target-language-code: pelo idioma do qual você quer traduzir, como um código ISO 639-1, como "es"
Método HTTP e URL:
POST https://automl.googleapis.com/v1/projects/project-id/locations/us-central1/datasets
Corpo JSON da solicitação:
{ "displayName": "dataset-name", "translationDatasetMetadata": { "sourceLanguageCode": "source-language-code", "targetLanguageCode": "target-language-code" } }
Para enviar a solicitação, expanda uma destas opções:
Você receberá uma resposta JSON semelhante a esta:
{ "name": "projects/project-number/locations/us-central1/operations/operation-id", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1.OperationMetadata", "createTime": "2019-10-01T22:13:48.155710Z", "updateTime": "2019-10-01T22:13:48.155710Z", "createDatasetDetails": {} } }
Ver os resultados
Para ver os resultados da sua solicitação, você precisa enviar uma solicitação GET
para o recurso operations
. Veja a seguir como fazer isso.
Antes de usar os dados da solicitação abaixo, faça estas substituições:
- operation-name: pelo nome da operação conforme retornado na resposta à chamada original para a API
- project-id: pelo código do projeto do Google Cloud Platform
Método HTTP e URL:
GET https://automl.googleapis.com/v1/operation-name
Para enviar a solicitação, expanda uma destas opções:
Você receberá uma resposta JSON semelhante a esta:
{ "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1.OperationMetadata", "createTime": "2019-10-01T22:13:48.155710Z", "updateTime": "2019-10-01T22:13:52.321072Z", ... }, "done": true, "response": { "@type": "resource-type", "name": "resource-name" } }
Go
Para saber como instalar e usar a biblioteca de cliente da AutoML Translation, consulte Bibliotecas de cliente da AutoML Translation. Para mais informações, consulte a documentação de referência da API AutoML Translation em Go.
Para autenticar no AutoML Translation, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Java
Para saber como instalar e usar a biblioteca de cliente da AutoML Translation, consulte Bibliotecas de cliente da AutoML Translation. Para mais informações, consulte a documentação de referência da API AutoML Translation em Java.
Para autenticar no AutoML Translation, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para saber como instalar e usar a biblioteca de cliente da AutoML Translation, consulte Bibliotecas de cliente da AutoML Translation. Para mais informações, consulte a documentação de referência da API AutoML Translation em Node.js.
Para autenticar no AutoML Translation, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar e usar a biblioteca de cliente da AutoML Translation, consulte Bibliotecas de cliente da AutoML Translation. Para mais informações, consulte a documentação de referência da API AutoML Translation em Python.
Para autenticar no AutoML Translation, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Outras linguagens
C#: Siga as Instruções de configuração do C# na página das bibliotecas de cliente e acesse a Documentação de referência do AutoML Translation para .NET.
PHP : Siga as Instruções de configuração do PHP na página das bibliotecas de cliente e acesse Documentação de referência do AutoML Translation para PHP.
Ruby Siga as Instruções de configuração do Ruby na página das bibliotecas de cliente e acesse Documentação de referência do AutoML Translation para Ruby.
Importar itens para um conjunto de dados
Depois de criar um conjunto de dados, você poderá importar pares de frases de treinamento para ele. Para mais detalhes sobre como preparar os dados de treinamento, consulte Como preparar dados de treinamento.
IU da Web
A IU do AutoML Translation permite criar um novo conjunto de dados e importar itens para ele usando a mesma página. Consulte Como criar um conjunto de dados. As etapas abaixo importam itens para um conjunto de dados existente.
Depois de criar a pasta do conjunto de dados, faça upload dos seus dados.Faça upload dos pares de frases que serão usados para treinar o modelo.
Na guia Importar, é possível fazer upload de arquivos TSV ou TMX do seu computador local ou do Cloud Storage. No caso de arquivos importados localmente, depois de selecioná-los, clique em Procurar. Uma lista de pastas será exibida. Selecione a pasta para onde você quer que os arquivos sejam enviados. Esse diretório hospedado no Cloud Storage é necessário para garantir o armazenamento dos dados.
Marque a caixa de seleção para Use arquivos separados para treinamento, validação e testes (avançado) se quiser fazer upload de arquivos diferentes contendo os pares de frases. Essa opção é recomendada caso seu conjunto de dados tenha mais de 100.000 pares de frases. Você precisa alocar no máximo 10.000 pares de frases para conjuntos de validação e testes. Caso contrário, o AutoML Translation retornará um erro.
Clique em Continuar.
Você retornou à página Conjuntos de dados. Seu conjunto de dados mostra uma animação de andamento enquanto seus documentos são importados. Quando o conjunto for enviado, você receberá uma mensagem no endereço de e-mail usado para se inscrever no programa.
Revise o conjunto de dados.
Depois que seus dados forem importados, selecione o conjunto na guia Conjuntos de dados para ver os detalhes dele. A guia Frase é ativada e mostra o nome do conjunto de dados. Os pares de frases são listados. Cada par recebe o status de "treinamento", "validação" ou "testes", indicando em qual etapa do processamento ele será usado.
REST
Use o
método projects.locations.datasets.importData
para importar itens para um conjunto de dados.
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
- dataset-name: pelo nome do conjunto de dados, conforme retornado pela API quando você o criou
- bucket-name: pelo intervalo do Cloud Storage que contém o CSV de entrada que descreve o conjunto de dados
- csv-file-name: o nome do arquivo CSV de entrada que descreve o conjunto de dados
- project-id: pelo código do projeto do Google Cloud Platform
Método HTTP e URL:
POST https://automl.googleapis.com/v1/dataset-name:importData
Corpo JSON da solicitação:
{ "inputConfig": { "gcsSource": { "inputUris": "gs://bucket-name/csv-file-name" } } }
Para enviar a solicitação, expanda uma destas opções:
Você receberá uma resposta JSON semelhante a esta:
{ "name": "projects/project-number/locations/us-central1/operations/operation-id", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata", "createTime": "2018-04-27T01:28:36.128120Z", "updateTime": "2018-04-27T01:28:36.128150Z", "cancellable": true } }
Go
Para saber como instalar e usar a biblioteca de cliente da AutoML Translation, consulte Bibliotecas de cliente da AutoML Translation. Para mais informações, consulte a documentação de referência da API AutoML Translation em Go.
Para autenticar no AutoML Translation, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Java
Para saber como instalar e usar a biblioteca de cliente da AutoML Translation, consulte Bibliotecas de cliente da AutoML Translation. Para mais informações, consulte a documentação de referência da API AutoML Translation em Java.
Para autenticar no AutoML Translation, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para saber como instalar e usar a biblioteca de cliente da AutoML Translation, consulte Bibliotecas de cliente da AutoML Translation. Para mais informações, consulte a documentação de referência da API AutoML Translation em Node.js.
Para autenticar no AutoML Translation, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar e usar a biblioteca de cliente da AutoML Translation, consulte Bibliotecas de cliente da AutoML Translation. Para mais informações, consulte a documentação de referência da API AutoML Translation em Python.
Para autenticar no AutoML Translation, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Outras linguagens
C#: Siga as Instruções de configuração do C# na página das bibliotecas de cliente e acesse a Documentação de referência do AutoML Translation para .NET.
PHP : Siga as Instruções de configuração do PHP na página das bibliotecas de cliente e acesse Documentação de referência do AutoML Translation para PHP.
Ruby Siga as Instruções de configuração do Ruby na página das bibliotecas de cliente e acesse Documentação de referência do AutoML Translation para Ruby.
Depois de criar e preencher o conjunto de dados, estará tudo pronto para você treinar o modelo. Consulte Como criar e gerenciar modelos.
Gerenciar conjuntos de dados
Como listar conjuntos de dados
Um projeto pode incluir vários conjuntos de dados. Esta seção descreve como recuperar uma lista dos conjuntos de dados disponíveis para um projeto.
IU da Web
Para ver uma lista dos conjuntos de dados disponíveis usando a IU do AutoML Translation, clique em Conjuntos de dados na parte superior esquerda do menu de navegação.
Para ver os conjuntos de dados de outro projeto, selecione o projeto na lista suspensa na parte superior direita da barra de título.
REST
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
- project-id: pelo código do projeto do Google Cloud Platform
Método HTTP e URL:
GET https://automl.googleapis.com/v1/projects/project-id/locations/us-central1/datasets
Para enviar a solicitação, expanda uma destas opções:
Você receberá uma resposta JSON semelhante a esta:
{ "datasets": [ { "name": "projects/project-number/locations/us-central1/datasets/dataset-id", "displayName": "dataset-display-name", "createTime": "2019-10-01T22:47:38.347689Z", "etag": "AB3BwFpPWn6klFqJ867nz98aXr_JHcfYFQBMYTf7rcO-JMi8Ez4iDSNrRW4Vv501i488", "translationDatasetMetadata": { "sourceLanguageCode": "source-language", "targetLanguageCode": "target-language" } }, ... ] }
Go
Para saber como instalar e usar a biblioteca de cliente da AutoML Translation, consulte Bibliotecas de cliente da AutoML Translation. Para mais informações, consulte a documentação de referência da API AutoML Translation em Go.
Para autenticar no AutoML Translation, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Java
Para saber como instalar e usar a biblioteca de cliente da AutoML Translation, consulte Bibliotecas de cliente da AutoML Translation. Para mais informações, consulte a documentação de referência da API AutoML Translation em Java.
Para autenticar no AutoML Translation, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para saber como instalar e usar a biblioteca de cliente da AutoML Translation, consulte Bibliotecas de cliente da AutoML Translation. Para mais informações, consulte a documentação de referência da API AutoML Translation em Node.js.
Para autenticar no AutoML Translation, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar e usar a biblioteca de cliente da AutoML Translation, consulte Bibliotecas de cliente da AutoML Translation. Para mais informações, consulte a documentação de referência da API AutoML Translation em Python.
Para autenticar no AutoML Translation, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Outras linguagens
C#: Siga as Instruções de configuração do C# na página das bibliotecas de cliente e acesse a Documentação de referência do AutoML Translation para .NET.
PHP : Siga as Instruções de configuração do PHP na página das bibliotecas de cliente e acesse Documentação de referência do AutoML Translation para PHP.
Ruby Siga as Instruções de configuração do Ruby na página das bibliotecas de cliente e acesse Documentação de referência do AutoML Translation para Ruby.
Excluir um conjunto de dados
IU da Web
Na IU do AutoML Translation, clique em Conjuntos de dados na parte superior esquerda do menu de navegação para exibir a lista de conjuntos de dados disponíveis.
Clique no menu de três pontos à direita da linha que você quer excluir e selecione Excluir.
Clique em Confirmar na caixa de diálogo de confirmação.
REST
- Substitua dataset-name pelo nome completo do conjunto de dados, a partir da resposta quando você o criou. O nome completo tem este formato:
projects/{project-id}/locations/us-central1/datasets/{dataset-id}
Antes de usar os dados da solicitação abaixo, faça estas substituições:
- dataset-name: pelo nome do conjunto de dados que você quer excluir, no formato
project/project-id/locations/us-central1/datasets/dataset-id
Método HTTP e URL:
DELETE https://automl.googleapis.com/v1/dataset-name
Para enviar a solicitação, expanda uma destas opções:
Você receberá uma resposta JSON semelhante a esta:
{ "name": "projects/project-number/locations/us-central1/operations/operation-id", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1.OperationMetadata", "createTime": "2019-10-02T16:43:03.923442Z", "updateTime": "2019-10-02T16:43:03.923442Z", "deleteDetails": {} }, "done": true, "response": { "@type": "type.googleapis.com/google.protobuf.Empty" } }
Go
Para saber como instalar e usar a biblioteca de cliente da AutoML Translation, consulte Bibliotecas de cliente da AutoML Translation. Para mais informações, consulte a documentação de referência da API AutoML Translation em Go.
Para autenticar no AutoML Translation, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Java
Para saber como instalar e usar a biblioteca de cliente da AutoML Translation, consulte Bibliotecas de cliente da AutoML Translation. Para mais informações, consulte a documentação de referência da API AutoML Translation em Java.
Para autenticar no AutoML Translation, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para saber como instalar e usar a biblioteca de cliente da AutoML Translation, consulte Bibliotecas de cliente da AutoML Translation. Para mais informações, consulte a documentação de referência da API AutoML Translation em Node.js.
Para autenticar no AutoML Translation, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar e usar a biblioteca de cliente da AutoML Translation, consulte Bibliotecas de cliente da AutoML Translation. Para mais informações, consulte a documentação de referência da API AutoML Translation em Python.
Para autenticar no AutoML Translation, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Outras linguagens
C#: Siga as Instruções de configuração do C# na página das bibliotecas de cliente e acesse a Documentação de referência do AutoML Translation para .NET.
PHP : Siga as Instruções de configuração do PHP na página das bibliotecas de cliente e acesse Documentação de referência do AutoML Translation para PHP.
Ruby Siga as Instruções de configuração do Ruby na página das bibliotecas de cliente e acesse Documentação de referência do AutoML Translation para Ruby.
Problemas de importação
Quando você cria um conjunto de dados, o AutoML Translation pode remover pares de frases se forem muito longos ou se os pares forem exatamente iguais nos idiomas de origem e de destino.
Para pares de frases muito longos, recomendamos que você divida as frases para aproximadamente 200 palavras ou menos e recrie o conjunto de dados para incluir os pares descartados. Ao processar seus dados, o AutoML Translation usa um processo interno para tokenizar os dados de entrada, o que pode aumentar o tamanho das frases. Esses dados tokenizados são usados pelo AutoML Translation para medir o tamanho dos dados. Portanto, o limite de 200 palavras é uma estimativa do tamanho máximo.
Para pares de frases que são iguais nos idiomas de origem e de chegada, é possível removê-los do conjunto de dados. Se você quiser manter essas frases não traduzidas, use um recurso de glossário para criar um dicionário personalizado que defina como o AutoML Translation lida com termos específicos.