Página "Run Job"

Na página "Executar job", você pode especificar jobs de transformação e perfil para o conjunto de dados atualmente carregado. As opções disponíveis incluem formatos de saída e destinos de saída.

Dica: as colunas ocultadas na página do Transformer ainda aparecem na saída gerada. Antes de executar um job, você deve verificar se todas as colunas atualmente ocultas podem ser incluídas na saída.

Figura: página "Executar job"

Opções

Resultados do perfil: você tem a opção de desativar a criação de perfil da saída. Isso pode melhorar a velocidade de execução geral do job. Quando o job de criação de perfil encerrar, os detalhes serão disponibilizados na página "Detalhes do job", incluindo links para fazer o download dos resultados.

OBSERVAÇÃO: as porcentagens para valores de coluna válidos, ausentes ou incompatíveis podem não somar 100% devido ao arredondamento.

Consulte Página "Detalhes do job".

Ações de publicação

É possível adicionar, remover ou editar as saídas geradas a partir deste job. Por padrão, uma saída CSV para o diretório principal no armazenamento de dados selecionado está incluída na lista de destinos, que pode ser removida, se necessário. É preciso incluir pelo menos um destino de saída.

Colunas:

  • Ações: lista a ação e o formato da saída.
  • Local: diretório e nome de arquivo ou tabela onde a saída deve ser gravada.
  • Configurações: identifica o formato de saída e a compressão, se aplicável, da publicação.

Ações:

  • Para alterar formato, local e configurações de uma saída, clique no ícone de edição.
  • Para excluir uma saída, clique no ícone X.

Adicionar ação de publicação

Nos armazenamentos de dados disponíveis na coluna da esquerda, selecione o destino da publicação.

Figura: adicionar ação de publicação

OBSERVAÇÃO: não crie ações de publicação separadas que se apliquem ao mesmo arquivo ou tabela de banco de dados.

Etapas:

  1. Selecionar o destino de publicação. Clique em um ícone na coluna da esquerda.
    1. BigQuery: você pode publicar seus resultados no projeto atual ou em outro a que você tenha acesso.

      Observação: você precisa ter acesso de leitura e gravação ao banco de dados do BigQuery em que você está publicando. Para mais informações, consulte Como usar o BigQuery.

      Para publicar em um projeto diferente, clique no link do BigQuery na frente da localização atual. Em seguida, insira o identificador para o projeto em que você quer publicar os resultados do job.

      Dica: seus projetos e os identificadores deles estão disponíveis para revisão na barra de menu do Cloud Dataprep by TRIFACTA INC.. Consulte Referência de IU.

      Clique em Ir. Navegue até o banco de dados em que você quer gravar os resultados do BigQuery. Para mais informações, consulte Navegador do BigQuery.

  2. Localizar um destino de publicação: siga um destes procedimentos.

    1. Explorar:

      OBSERVAÇÃO: é preciso que o local de publicação já exista para que seja possível publicar nele. O usuário da publicação precisa ter permissões de gravação no local.

      No Google Cloud Storage, você pode criar uma nova pasta em um local acessível.
      1. Para classificar as listagens do diretório atual, clique nos circunflexos ao lado de qualquer nome de coluna.
      2. Para diretórios maiores, navegue usando os controles de paginação.
      3. Use a localização atual para explorar o armazenamento de dados de destino. Navegue pelas pastas conforme necessário.
    2. Pesquisar: use a barra de pesquisa para procurar locais específicos apenas na pasta atual.
    3. Entrada manual: clique no ícone de edição para editar ou colar manualmente em um destino.
  3. Criar pasta: dependendo do destino de armazenamento, você pode clicar nele para criar uma nova pasta para o job dentro dele. Não inclua espaços no nome da sua pasta.
  4. Criar um novo arquivo: insira o nome do arquivo onde salvar o conjunto de dados.

    1. Selecione o formato do armazenamento de dados.
    2. Formatos de saída aceitos:
      1. CSV
      2. JSON
      3. Avro
    3. Você também pode fazer gravações como BigQuery Table, se estiver conectado ao BigQuery.
  5. BigQuery: ao publicar no BigQuery, você precisa especificar a tabela onde publicar e ações relacionadas. Saiba mais a seguir.
  6. Para salvar o destino da publicação, clique em Adicionar.

Variáveis

Se algum dos conjuntos de dados contiver parâmetros variáveis, você poderá realizar modificações nos valores padrão das variáveis. Clique no valor padrão listado e insira um novo valor. Uma variável pode ter um valor padrão vazio.

OBSERVAÇÃO: as modificações de variáveis aplicam-se apenas a este job. Jobs subsequentes usam os valores padrão de variáveis, a menos que sejam especificados novamente. Nenhuma validação de dados é executada em entradas para valores de modificação.

Para mais informações sobre variáveis, consulte Visão geral da parametrização.

Configurações de arquivo

Ao gerar resultados baseados em arquivos, você pode configurar o nome do arquivo, o formato de armazenamento, a compactação, o número de arquivos e as ações de atualização no painel à direita.

Figura: configurações do arquivo de saída

Defina as seguintes configurações.

  1. Criar um novo arquivo: insira o nome do arquivo a criar. Uma extensão de nome de arquivo é adicionada automaticamente, então você deve omitir a extensão do nome do arquivo.
  2. Diretório de saída: valor somente leitura referente ao diretório atual.
    1. Para alterá-lo, navegue até o diretório apropriado.

  3. Formato de armazenamento de dados: selecione o formato de saída que você quer gerar para o job.
    1. Avro:

      Esse é o formato preferencial para importar um arquivo para o BigQuery.
    2. CSV e JSON: formatos compatíveis com todos os tipos de conjuntos de dados importados e todos os ambientes de execução.

    3. Para mais informações, consulte Formatos de arquivo compatíveis.
  4. Ação de publicação: selecione uma das seguintes opções:

    OBSERVAÇÃO: se vários jobs estiverem tentando publicar no mesmo nome de arquivo, um sufixo numérico (_N) será adicionado ao final dos nomes de arquivos subsequentes (por exemplo, filename_1.csv).

    1. Criar novo arquivo a cada execução: para cada execução de job com o destino de publicação selecionado, um novo arquivo é criado com o mesmo nome base e o número do job anexado a ele. Por exemplo, myOutput_2.csv, myOutput_3.csv e assim por diante.
    2. Anexar a este arquivo a cada execução: para cada job executado com o destino de publicação selecionado, o mesmo arquivo é anexado, o que significa que o arquivo cresce até que seja limpo ou cortado.

      Observação: a compactação de arquivos publicados não é compatível com a ação append.

    3. Substituir este arquivo a cada execução: para cada job executado com o destino de publicação selecionado, o arquivo existente é substituído pelo conteúdo dos novos resultados.
  5. Mais opções:

    1. Incluir cabeçalhos como primeira linha: para saídas CSV, você pode incluir cabeçalhos de coluna como a primeira linha da saída. Para outros formatos, esses cabeçalhos são incluídos automaticamente.

      OBSERVAÇÃO: os cabeçalhos não podem ser aplicados a saídas comprimidas.

    2. Incluir aspas: para saídas CSV, você pode incluir aspas duplas em todos os valores, incluindo cabeçalhos.

    3. Delimitador: para saídas CSV, você pode inserir o delimitador usado para separar campos na saída. O valor padrão é o delimitador global, que você pode modificar a cada job nesse campo.

      Dica: se necessário para seu job, é possível inserir caracteres Unicode no seguinte formato: \uXXXX.

    4. Arquivo único: a saída é gravada em um único arquivo.

    5. Vários arquivos: a saída é gravada em vários arquivos.
  6. Para salvar o destino da publicação, clique em Adicionar.

Configurações da tabela do BigQuery

Ao publicar no BigQuery, conclua as seguintes etapas para configurar a tabela e as configurações para aplicar à ação de publicação.

Etapas:

  1. Selecionar local: percorra o navegador do BigQuery para selecionar o banco de dados e a tabela onde publicar.
    1. Para criar uma nova tabela, clique em Criar uma nova tabela.
  2. Selecionar as opções da tabela:
    1. Nome da tabela:

      OBSERVAÇÃO: o BigQuery não é compatível com destinos que tenham um ponto (.) no nome.

      1. Nova tabela: insira um nome para ela. Você pode usar um nome de tabela pré-existente, que passará pelas verificações de esquema.
      2. Tabela existente: não é possível modificar o nome.
    2. Banco de dados de saída: para alterar o banco de dados no qual publicar, clique no ícone BigQuery na barra lateral. Selecione outro banco de dados.
    3. Ações de publicação: selecione uma das seguintes opções.
      1. Criar uma nova tabela a cada execução: cada execução gera uma nova tabela com um carimbo de data/hora anexado ao nome.
      2. Anexar a esta tabela a cada execução: cada execução adiciona novos resultados ao final da tabela.
      3. Truncar a tabela a cada execução: em cada execução, todos os dados da tabela são truncados e substituídos por novos resultados.
      4. Descartar a tabela a cada execução: em cada execução, a tabela é descartada (excluída) e todos os dados são excluídos. Uma nova tabela com o mesmo nome é criada e todos os resultados novos são adicionados a ela.
  3. Para salvar o destino da publicação, clique em Adicionar.

Configurações de execução do Dataflow

Por padrão, o Cloud Dataprep by TRIFACTA INC. executa o job na região us-central1 em uma máquina n1-standard-1. Conforme necessário, altere a localização geográfica e a máquina onde seu job é executado.

Dica: altere os valores padrão para o seguinte nas configurações do seu projeto. Consulte a página Configurações do projeto.

As alterações realizadas nessas configurações podem afetar os tempos de desempenho para execução do seu job.

ConfiguraçãoDescrição
Endpoint regionalUm endpoint regional lida com detalhes de execução para seu job do Dataflow, e o local dele determina onde o job do Dataflow é executado.
Zona

Uma subseção da região, uma zona contém recursos específicos para uma determinada região.

Selecione Auto Zone para permitir que a plataforma escolha a zona para você.

Tipo de máquina

Escolha o tipo de máquina em que você executará o job. O padrão é n1-standard-1.

Observação: nem todos os tipos de máquina são aceitos diretamente pelo Dataprep.

Para mais informações sobre esses endpoints regionais, consulte https://cloud.google.com/dataflow/docs/concepts/regional-endpoints.

Para mais informações sobre tipos de máquinas, https://cloud.google.com/compute/docs/machine-types.

Executar job

Para executar o job como configurado, clique em Executar job. O job entra na fila para execução.

O Cloud Dataflow impõe um limite ao tamanho do job, representado pelo JSON transmitido.

Dica: se esse limite for excedido, o job poderá falhar e apresentar um erro job graph too large. A solução é dividir o job em jobs menores, assim como dividir o roteiro em vários. Essa é uma limitação conhecida do Cloud Dataflow.

Depois que um job vai para a fila, é possível rastrear o progresso dele rumo à conclusão. Consulte a página Jobs.

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.