Painel de amostras

A página "Transformer" exibe conjuntos de dados menores integralmente. Para conjuntos de dados maiores, os dados de origem são amostrados para uso na página "Transformer".

No topo da página "Transformer", o tipo da amostra atual é exibido ao lado do nome do conjunto de dados. Para abrir o painel"Amostras", clique no link. No exemplo abaixo, o link "Dados completos" indica que a amostra atual na página do "Transformer" é o conjunto de dados inteiro:

Figura: clique no link "Amostras".

O painel "Amostras" é exibido no lado direito da tela:

Figura: painel "Amostras"

Amostra atual:

Na parte superior do painel, você pode revisar a amostra carregada atualmente. Cada usuário tem a própria amostra ativa em um conjunto de dados.

  • Inicial: por padrão, o aplicativo carrega as primeiras N linhas do conjunto de dados como a amostra inicial quando a página do "Transformer" é aberta. O número de linhas depende da contagem de colunas, densidade de dados e outros fatores. Se o conjunto de dados for pequeno o suficiente, ele será usado na totalidade.

    OBSERVAÇÃO: por padrão, as amostras podem ter até 10 MB de tamanho. Conjuntos de dados menores do que esse limite são carregados integralmente.

  • Clique no link no cartão de amostra atual para ver a lista de todas as amostras disponíveis.

    Dica: para alterar o nome de uma amostra, clique no cartão dela na lista de todas as amostras disponíveis. Em seguida, clique no ícone de edição.

Novas amostras:

Abaixo da amostra atual, você pode revisar as opções disponíveis para criar novas amostras. Cada tipo de amostra reflete um método de coleta diferente.

  • Para coletar uma nova amostra, clique no cartão de amostra apropriado. Veja abaixo.

  • Para cancelar uma coleta de amostra, clique no X ao lado da barra de progresso. A amostra interrompida será listada como indisponível. Você pode fazer o download dos registros da coleta de amostra inacabada.

    Para visualizar o job de amostragem no Cloud Dataflow, clique no ícone ao lado da barra de progresso.

  • Após a criação de uma amostra, você pode carregá-la a qualquer momento, desde que ainda esteja válida. Ao lado de uma amostra coletada, clique em Carregar amostra.
  • Para mais informações sobre os métodos de amostragem, consulte Visão geral da amostragem.

Barra de status:

Na parte inferior da página "Transformer", você pode revisar o número de linhas e colunas e a contagem de tipos de dados na amostra exibida atualmente.

OBSERVAÇÃO: conforme você adiciona etapas de transformação ao roteiro, os valores na barra de status mudam para refletir o estado atual da amostra carregada.

OBSERVAÇÃO: algumas operações, como union, podem alterar a contagem de linhas sem invalidar a amostra. Se a operação aumentar o tamanho do conjunto de dados além do limite de tamanho de amostra imposto pelo aplicativo, um subconjunto dessas linhas será exibido. Esse é um problema conhecido.

Coletar nova amostra

Novas amostras são coletadas com base na localização atual na receita no momento da coleta. Se a receita contiver etapas que se mesclem em outros conjuntos de dados, essas junções são executadas para reunir os dados a partir dos quais a amostra é executada.

Figura: painel "Coletar nova amostra"

OBSERVAÇÃO: com exceção da amostra inicial, todas as amostras são geradas com base nas etapas que levam ao local do cursor na receita. Se as etapas anteriores forem excluídas ou modificadas, a amostra coletada pode ser invalidada.

OBSERVAÇÃO: ao fazer amostragem de dados comprimidos, a fonte é descomprimida e uma nova amostra dela é carregada na grade de dados. Como resultado, o tamanho da amostra que você vê na grade corresponde aos dados descomprimidos.

Etapas:

  1. No painel "Amostras", selecione o tipo de amostra a ser criada. Para mais informações sobre os tipos de amostra, consulte Visão geral da amostragem.
  2. No painel "Coletar nova amostra", especifique os parâmetros a seguir. Alguns podem não ser necessários para o método de amostragem:

    1. Escolher um método de amostragem: selecione ou insira o tipo de amostra. Se você selecionar previamente um método de amostragem, esse valor é preenchido para você.

    2. Nome: é possível inserir um novo nome da amostra se necessário.

      Dica: nomear suas amostras facilita encontrá-las mais tarde. Por exemplo, é possível adicionar um carimbo de data ao nome para identificar quando a amostra foi capturada.

    3. Tipo de verificação (não se aplica a todos os métodos de amostragem): Quick realiza uma verificação aleatória do conjunto de dados para extrair o número apropriado de linhas para a amostra. Full reúne a amostra de todo o conjunto de dados. Dependendo do tamanho do conjunto de dados, esse método pode demorar um pouco.

    4. Coluna ou colunas: (estratificado, baseado em cluster) Nome da coluna de onde serão coletados os valores a serem avaliados (Baseado em anomalia) É feita a especificação do nome ou dos nomes de uma ou mais colunas contendo as anomalias a serem incluídas na amostra. Várias colunas podem ser especificadas por valores separados por vírgulas. Um intervalo de colunas pode ser especificado usando o caractere til (~).
    5. Condição: (baseado em filtro, estratificado, baseado em cluster, baseado em anomalias) A amostra é filtrada com base em uma condição específica. Exemplo:

      invoiceDate > 90
    6. Tipo de anomalia (baseado em anomalias): selecione o tipo de valores anômalos a serem incluídos na sua amostra (inválido, ausente ou ambos os tipos).
    7. Modificações de variáveis: se uma ou mais variáveis estiverem associadas ao seu conjunto de dados, será possível definir as substituições de valor a serem aplicadas durante a execução da amostra.

      1. É possível usar essas substituições para coletar dados de diferentes arquivos de origem no seu conjunto de dados com parâmetros.

      2. Uma variável pode ter um valor padrão vazio.
      3. Para mais informações, consulte Visão geral da parametrização.

  3. Para começar a coletar a amostra, clique em Coletar.
  4. Você pode continuar trabalhando enquanto a amostra é coletada. Quando ela estiver disponível, uma mensagem de status será exibida na página "Transformer".
  5. Você pode clicar em Carregar amostra no painel "Amostras" para começar a usá-la.

Amostras coletadas

No painel "Amostras coletadas", você pode revisar as amostras disponíveis e indisponíveis. É possível revisar os valores de substituição da variável que foram aplicados durante a amostragem, se necessário.

Para usar uma das amostras disponíveis, selecione o cartão correspondente. A amostra é carregada na grade de dados.

OBSERVAÇÃO: se você adicionar etapas de receita que alterem o número de linhas no seu conjunto de dados (ou alguma outra etapa de caso extremo), algumas de suas amostras existentes poderão não ser mais válidas. Quando você executar uma ação de junção, união ou exclusão ou editar etapas antes dessa ação, a caixa de diálogo "Alterar receita" poderá ser exibida, incluindo a mensagem abaixo:

A alteração invalidará algumas das amostras disponíveis atualmente para esta fonte. As amostras inválidas serão desativadas.

Para mais informações sobre os tipos de transformações que podem invalidar amostras, consulte Etapas de remodelagem.

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.