Criar um modelo de ML usando o AutoML Natural Language

Neste guia de início rápido, mostramos como usar o AutoML Natural Language para criar um modelo de machine learning personalizado. É possível criar um modelo para classificar documentos, identificar entidades em documentos ou analisar a atitude emocional predominante em um documento.

Antes de começar

Crie o projeto

Antes de usar o AutoML Natural Language, você precisa criar um projeto do Google Cloud e ativar o AutoML Natural Language para esse projeto.

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  4. Ative as APIs Cloud AutoML and Storage.

    Ative as APIs

  5. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  6. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  7. Ative as APIs Cloud AutoML and Storage.

    Ative as APIs

Objetivos do modelo

O AutoML Natural Language pode treinar modelos personalizados para quatro tarefas distintas, conhecidas como objetivos do modelo:

  • A classificação de rótulo único classifica os documentos atribuindo um rótulo a eles
  • A classificação de vários rótulos permite que um documento seja atribuído a vários rótulos
  • A extração de entidade identifica as entidades nos documentos.
  • A análise de sentimento analisa atitudes em documentos

Para esse guia de início rápido, é possível escolher qual tipo de modelo criar, selecionando um dos três conjuntos de dados de amostra hospedados em um bucket público do Cloud Storage:

  • Para criar um modelo de classificação de rótulo único, use o conjunto de dados de "momentos felizes" derivado do conjunto de dados de código aberto HappyDB. O modelo resultante classifica os momentos felizes em categorias que refletem as causas da felicidade.

    Os dados são disponibilizados por meio de uma licença Creative Commons CCO de domínio público.

  • Para criar um modelo de extração de entidade, use um corpus de resumos de pesquisas biomédicas que mencione centenas de doenças e conceitos. O modelo resultante identifica essas entidades médicas em outros documentos.

    Este conjunto de dados está no domínio público como "United States Government Work", nos termos da Lei de direitos autorais dos Estados Unidos.

  • Para criar um modelo de análise de sentimento, use o conjunto de dados aberto de FigureEight, que analisa as menções no Twitter do medicamento de alergia Claritin.

criar um conjunto de dados

  1. Abra a IU do AutoML Natural Language e selecione Primeiros passos na caixa correspondente ao tipo de modelo que pretende treinar.

  2. Clique no botão Novo conjunto de dados na barra do título.

  3. Insira um nome para o conjunto de dados e selecione o objetivo do modelo que corresponda ao conjunto de dados de amostra escolhido.

    Deixe Local definido como Global.

  4. Na seção Importar itens de texto, escolha Selecionar um arquivo CSV no Cloud Storage e digite o caminho para o conjunto de dados que será usado na caixa de texto.

    • Para o conjunto de dados de "momentos felizes": cloud-ml-data/NL-classification/happiness.csv
    • Para o conjunto de dados da pesquisa biomédica: cloud-ml-data/NL-entity/dataset.csv
    • Para o conjunto de dados de sentimento do Claritin: cloud-ml-data/NL-sentiment/crowdflower-twitter-claritin-80-10-10.csv

    O prefixo gs:// é adicionado automaticamente. Se preferir, clique em Procurar e navegar até o arquivo CSV.

    Se você escolher o conjunto de dados de sentimento, o AutoML Natural Language solicitará o valor de sentimento máximo. O valor máximo desse conjunto de dados é 4.

  5. Clique em Criar conjunto de dados.

    Você retornará para a página Conjuntos de dados e verá uma animação de andamento enquanto os documentos estão sendo importados. Esse processo leva aproximadamente 10 minutos por 1.000 documentos, mas pode demorar mais ou menos tempo.

    Depois que o conjunto de dados for criado, você receberá uma mensagem no endereço de e-mail associado ao projeto.

Treine o modelo

Depois que seus dados de treinamento forem importados com êxito, selecione o conjunto de dados na página de listagem para ver os respectivos detalhes. O nome do conjunto de dados selecionado aparece na barra de título, e a página lista os documentos individuais no conjunto de dados com os respectivos rótulos. A barra de navegação à esquerda resume o número de documentos marcados e sem rótulos e permite filtrar a lista de documentos por rótulo.

Página de itens de texto

  1. Quando terminar de revisar o conjunto de dados, clique na guia Treinar logo abaixo da barra de título.

  2. Clique em Iniciar treinamento.

  3. Insira um nome para o novo modelo e marque a caixa de seleção Implantar modelo após o término do treinamento.

  4. Clique em Iniciar treinamento.

Esse processo pode levar várias horas para ser concluído. Depois que o modelo for treinado, você receberá uma mensagem no endereço de e-mail associado ao projeto.

Após o treinamento, a parte inferior da página Treinar mostrará métricas de alto nível para o modelo, como precisão e recall. Para ver mais detalhes, clique na guia Avaliar.

Usar o modelo personalizado

Depois que seu modelo for treinado, use-o para analisar outros documentos. Clique na guia Testar e usar logo abaixo da barra de título. Digite o texto na caixa Inserir texto ou o URL de um arquivo PDF ou TIFF em um bucket do Cloud Storage e clique em Prever. O AutoML Natural Language analisa o texto usando o modelo e exibe as anotações.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.

Para evitar cobranças desnecessárias do Google Cloud Platform, use o console do Google Cloud para excluir o projeto se ele não for mais necessário.

A seguir