Página "Importar Dados"

Na página "Importar dados", é possível fazer upload ou selecionar conjuntos de dados das fontes que estejam nos armazenamentos de dados conectados. Na página "Biblioteca", clique em Importar dados.

Figura: página "Importar dados"

Para importar dados novos:

OBSERVAÇÃO: para fontes baseadas em arquivos, é esperado pelo Cloud Dataprep by TRIFACTA® INC. que, no arquivo de importação, cada linha de dados seja encerrada com um caractere de nova linha consistente, incluindo a última no arquivo.

  • Para arquivos únicos que não têm esse caractere final da nova linha, o registro final pode ser descartado.

Observação: para armazenamentos de dados externos baseados em arquivos, as seguintes limitações se aplicam:

  • Apenas os primeiros 10.000 arquivos podem ser recuperados.
  • A primeira amostra é retirada de um máximo de 100 arquivos no diretório. Se o tamanho desses 100 arquivos for inferior a 10 MB, a página "Transformador" indicará que isso representa o conjunto de dados completo.
  • Quando importado, o tamanho reportado pela computação na página "Visualização de fluxo" ficará acima dos primeiros 10.000 arquivos.
  • Os jobs são executados em todos os arquivos no diretório, mesmo que haja mais de 10.000 arquivos.

  1. Conecte-se à fonte dos seus dados:

    OBSERVAÇÃO: arquivos compactados são reconhecidos e podem ser importados de acordo com a extensão do arquivo.

    1. Upload: também é possível fazer upload de arquivos do sistema local no Cloud Dataprep by TRIFACTA® INC.

      Dica: arraste e solte arquivos da sua área de trabalho para fazer upload deles.

      Para alterar o local onde será feito o upload dos arquivos, clique em Edit. Navegue até o local escolhido no Google Cloud Storage.

    2. Google Cloud Storage: navegue ou procure seus arquivos do Google Cloud Storage para selecionar o conteúdo a ser importado. Consulte o Navegador do Google Cloud Storage.

      BigQuery: procure sua instância do BigQuery para tabelas a serem importadas como conjuntos de dados.

      Se você tiver permissões de leitura para vários projetos, poderá acessar as tabelas que fazem parte de outros projetos. Consulte o Navegador do BigQuery.

      OBSERVAÇÃO: ao trabalhar com conjuntos de dados de arquivos Avro, as informações de linhagem e a função SOURCEROWNUMBER não são aceitas.

    3. Para saber mais informações sobre os formatos de entrada compatíveis, consulte Formatos de arquivo compatíveis.

  2. Adicione conjuntos de dados:
    1. Quando você encontrar o diretório ou arquivo de origem:

      1. Passe o cursor do mouse sobre o nome de um arquivo para visualizar o conteúdo dele.

        OBSERVAÇÃO: a visualização não está disponível para fontes Avro ou Parquet.

      2. Clique no ícone de adição, ao lado do diretório, ou no nome do arquivo para adicioná-lo a um conjunto de dados.

        Dica: é possível importar vários conjuntos de dados simultaneamente. Veja abaixo.

    2. Arquivos em Excel: para adicionar todas as planilhas como um único conjunto de dados, clique no ícone de adição ao lado da pasta de trabalho pai. Também é possível adicionar folhas individuais como conjuntos de dados. Consulte Importar dados do Excel.

  3. Quando um conjunto de dados tiver sido selecionado, os seguintes campos aparecerão no lado direito da tela. Modifique conforme necessário:
    1. Nome do conjunto de dados: esse nome aparece na interface.
    2. Descrição do conjunto de dados: adicione uma descrição opcional que forneça detalhes sobre o conjunto de dados. Esta informação é visível em algumas áreas da interface.

      Dica: clique no ícone "Olho" para inspecionar o conteúdo do conjunto de dados antes da importação.

  4. Selecione um único conjunto de dados ou vários conjuntos para a importação.

  5. Modifique as configurações usadas durante a importação de arquivos individuais. No cartão para um conjunto de dados individual, clique em Editar configurações.

    OBSERVAÇÃO: em alguns casos, pode haver discrepâncias entre as contagens de linhas nos dados visualizados, em relação à grade de dados, após a importação do conjunto de dados. O motivo pode ser o arredondamento feito nas contagens de linhas na visualização.

    1. Codificação por arquivo: por padrão, no Cloud Dataprep by TRIFACTA INC., ocorre a tentativa de interpretar a codificação usada no arquivo. Em alguns casos, o painel de visualização de dados pode conter dados ilegíveis, devido a uma falta de correspondência nas codificações. Na caixa de diálogo "Visualização de dados", selecione uma codificação diferente para o arquivo. Quando a codificação correta é selecionada, a visualização exibe os dados conforme o esperado.

    2. Detecção da estrutura: por padrão, no Cloud Dataprep by TRIFACTA INC., ocorre a tentativa de interpretar a estrutura dos dados durante a importação. Com essa estruturação, é feita a tentativa de aplicar uma estrutura tabular inicial ao conjunto de dados.
      1. A menos que você tenha problemas específicos com a estrutura inicial, você precisa deixar essa configuração habilitada. As receitas criadas a partir desses conjuntos de dados importados incluem automaticamente a estruturação como as primeiras etapas ocultas. Essas etapas não estão disponíveis para edição, mas você pode removê-las pelo painel "Receita". Veja o Painel Receita.
      2. Quando a detecção da estrutura é desativada, os conjuntos de dados importados com esquema não detectado são rotulados, como conjuntos de dados não estruturados. Quando as receitas são criadas para esses conjuntos de dados não estruturados, os conjuntos de dados de estruturação são adicionados à receita e podem ser editados conforme necessário.
      3. Para saber mais informações, consulte Etapas de análise inicial.
    3. Inferência do tipo de dados da coluna: escolha se vai aplicar ou não a inferência de tipo do Cloud Dataprep ao seu conjunto de dados.

      1. No painel de visualização, veja o tipo de dados a ser aplicado após a implantação do conjunto de dados. Este tipo de dados pode mudar se a inferência do tipo de dados da coluna está ativada ou desativada para o conjunto de dados.

      2. Para ativar a inferência de tipo do Cloud Dataprep, marque a caixa de seleção "Inferência do tipo de dados da coluna".

        Dica: para ver os efeitos da inferência de tipo do Cloud Dataprep, alterne a caixa de seleção e verificar o tipo de dados listado na parte superior das colunas individuais. Para substituir o tipo de dados de uma coluna individual, clique no nome do tipo de dados e selecione um novo valor.

  6. Se você tiver selecionado um único conjunto de dados para importar:

    1. Para transformá-lo imediatamente, clique em Importar e transformar. O conjunto de dados é importado. Uma receita é criada para ele, adicionada a um fluxo e carregada na página "Transformador" para transformação. Consulte a página "Transfomador".
    2. Para importar o conjunto de dados, clique em Importar. O conjunto de dados importado é criado. Adicione-o a um fluxo e crie uma receita para ele mais tarde. Veja a Página da Biblioteca.
  7. Caso você tenha selecionado vários conjuntos de dados para importar:
    1. Para importar os conjuntos de dados selecionados, clique em Importar conjuntos de dados. Os conjuntos de dados importados são criados. Comece a trabalhar com esses conjuntos de dados importados agora ou depois.
    2. Para importar os conjuntos de dados selecionados e adicioná-los a um fluxo:
      1. Clique na caixa de seleção "Adicionar conjunto de dados ao fluxo".
      2. Clique na caixa de texto para ver os fluxos disponíveis ou comece a digitar um novo nome.
      3. Clique em Importar e adicionar ao fluxo.
      4. Os conjuntos de dados são importados e as receitas associadas são criadas. Esses conjuntos de dados e receitas são adicionados ao fluxo selecionado.
      5. Para qualquer conjunto de dados que tenha sido adicionado a um fluxo, revise e execute ações nele. Veja Página Flow View.
  8. Se você não estiver convertendo os conjuntos de dados imediatamente, os conjuntos de dados que você acabou de importar estarão listados na parte superior da página da biblioteca. Veja a Página da Biblioteca.

Importar vários conjuntos de dados

É possível importar vários conjuntos de dados, de várias fontes, ao mesmo tempo. Na página "Importar dados", continue selecionando origens. Assim, novos cartões de conjuntos de dados serão adicionados ao painel direito.

OBSERVAÇÃO: se você estiver importando dados de vários arquivos ao mesmo tempo, eles não são necessariamente lidos em uma ordem regular ou previsível.

OBSERVAÇÃO: quando você importa um conjunto de dados com parâmetros de vários arquivos, somente o primeiro arquivo correspondente é exibido no painel à direita

No painel à direita, é possível visualizar cada conjunto de dados e fazer as alterações conforme necessário.

Figura: importar vários conjuntos de dados

  • Para remover um conjunto de dados da importação, clique no "X" no cartão correspondente.
  • Para adicionar conjuntos de dados a um fluxo, clique na caixa de seleção. Em seguida, selecione um fluxo ou insira o nome de um novo fluxo para conter seus conjuntos de dados.
  • Para importar conjuntos de dados, clique em Importar ou Importar e adicionar ao fluxo.
Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.