Guia de início rápido

Nesta página, mostramos como dar os primeiros passos para usar o aplicativo da Web do Cloud Dataprep.

Antes de começar

Configurar um projeto

  1. Faça login na sua Conta do Google.

    Se você ainda não tiver uma, inscreva-se.

  2. Selecione ou crie um projeto do GCP.

    Acessar a página Gerenciar recursos

  3. Verifique se o faturamento foi ativado para o projeto.

    Saiba como ativar o faturamento

  4. Ativar Cloud Dataflow, BigQuery e Cloud Storage APIs.

    Ativar APIs

Criar um intervalo do Cloud Storage no projeto

  1. No Console do GCP, acesse o navegador do Cloud Storage.

    Acessar o navegador do Cloud Storage

  2. Clique em Criar intervalo.
  3. Na caixa de diálogo Criar intervalo, especifique os seguintes atributos:
  4. Clique em Criar.

Inicializar o Cloud Dataprep

Abra o aplicativo da Web do Cloud Dataprep. Ao abrir o Cloud Dataprep pela primeira vez, é necessário aceitar os Termos de Serviço, fazer login na Conta do Google e escolher um intervalo do Cloud Storage a ser usado com o Cloud Dataprep. Também é preciso permitir que o Trifacta, o host de aplicativos terceirizado, acesse os dados do projeto. Consulte Funções do Cloud Dataprep. Após a conclusão destas etapas, a página inicial do Cloud Dataprep é exibida com a tela "Flows" aberta.

Criar um fluxo

O Cloud Dataprep usa um espaço de trabalho flow para acessar e manipular conjuntos de dados. Na tela "Flows", clique em Create Flow, preencha um nome e uma descrição de fluxo e clique em Create. Como este Guia de início rápido usa dados de 2016 da United States Federal Elections Commission 2016, o fluxo se chama "FEC-2016", e a descrição se refere a esses dados.

A tela de fluxo é aberta.

Importar conjuntos de dados

Na página de fluxo, clique em Add Datasets para abrir a página "Add Datasets to Flow". Selecione Import Datasets e GCS Em Choose a file or folder, clique no widget de lápis do caminho de edição do GCS e insira gs://dataprep-samples/us-fec na caixa de texto do GCS. Em seguida, clique em Go.

Adicione os conjuntos de dados cn-2016.txt e itcont-2016.txt. Atribua a eles os nomes “Candidate Master 2016” e “Campaign Contributions 2016”, respectivamente. Depois que os conjuntos de dados estiverem listados no painel direito, clique em Import Datasets para retornar para "Add Datasets to Flow".

Selecione os conjuntos de dados na página "Add Datasets to Flow" e clique em Add para importar os conjuntos de dados para o fluxo.

Preparar o arquivo "Candidate"

No conjunto de dados "Candidate Master 2016", selecione Edit Recipe.

A visualização de grade é aberta. Nela, você pode explorar os dados e aplicar as etapas de transformação.

"column5" (Date/Time) contém um valor de ano. Arraste os anos 2016 e 2017 no histograma para selecioná-los. Talvez seja necessário expandir a coluna. Essas barras lado a lado são as mais altas no histograma.

O Cloud Dataprep sugerirá a etapa a seguir. Clique em Add to Recipe para restringir os dados de data de "Column5" a 2016-2017.

Em seguida, passe o cursor sobre a parte não correspondente (vermelha) do cabeçalho da "column6" (State) e clique nela para selecionar as linhas incompatíveis.

Clique no rótulo Transformed - 1,270 Rows acima de "column6" para ver o filtro de linhas transformadas.

Observe como esses valores incompatíveis se correlacionam com registros em outras colunas. A maioria desses registros tem o valor "P" em "column7" e "US" em "column6". Esses são candidatos presidenciais. A incompatibilidade ocorre porque "column6" está marcada como uma coluna "Estado" (indicada pelo ícone de sinalização), mas também inclui valores não relacionados a estados (como "US"). Para corrigir a incompatibilidade, vamos marcá-la como uma coluna "String".

Clique em Cancel na grade para cancelar a transformação, clique no ícone de sinalização acima de "column6" e selecione "String".

A incompatibilidade é removida, e o marcador da coluna agora está verde. Agora, vamos filtrar apenas os candidatos presidenciais. No histograma de "column7", clique na barra "P".

Selecione a sugestão a seguir e clique em Add to Recipe.

Unir o arquivo "Contributions"

Use o seletor do conjunto de dados na parte superior da página de visualização da grade para selecionar o conjunto de dados "Campaign Contributions 2016".

Remova delimitadores extras no conjunto de dados inserindo o seguinte no criador de etapas na parte inferior da página.

replace col: * with: '' on: `{start}"|"{end}` global: true

Copie e cole a string, acima, no criador de etapas (identificado Choose a transformation) na parte inferior da página de visualização de grade. O criador analisará a string e preencherá os campos de transformação de replace. Clique em Add to Recipe para aplicar a transformação.

No criador de etapas, digite "join" para abrir a visualização de união. Selecione "Candidate Master 2016" e clique em "Preview Selected Dataset".

Selecione a guia Join Keys. O Dataprep infere chaves comuns. Há muitos valores comuns que o Dataprep sugere como chaves de união. Edite o campo Join Keys e selecione Column 2 = column 11 como as chaves de união. Clique em Save.

Agora, selecione All na parte superior do painel Columns para adicionar todas as colunas de ambos os conjuntos de dados ao conjunto de dados unido e clique em Add to Recipe para retornar à visualização de grade.

Vamos gerar um resumo útil por meio da agregação, do cálculo da média e da contagem das contribuições na coluna 16 e com o agrupamento dos candidatos por códigos, nomes e afiliação partidária nas colunas 2, 24, 8, respectivamente.

Clique em Switch to editor na parte inferior da página de visualização de grade e digite a fórmula a seguir na caixa do editor para visualizar os dados agregados. Clique em Add to Recipe para ver os dados agregados na visualização de grade.

aggregate value: sum(column16),average(column16),countif(column16 > 0) group: column2,column24,column8

Agora você tem uma tabela de resumo dos principais candidatos presidenciais dos EUA e as respectivas métricas de contribuição da campanha de 2016.

Próximas etapas

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.