Transferências do Amazon S3

O serviço de transferência de dados do BigQuery para Amazon S3 permite agendar e gerenciar automaticamente jobs de carregamento recorrentes do Amazon S3 para o BigQuery.

Antes de começar

Antes de criar uma transferência do Amazon S3, siga estas recomendações:

Limitações

As transferências do Amazon S3 estão sujeitas às seguintes limitações:

Permissões exigidas

Antes de criar uma transferência do Amazon S3, siga estas recomendações:

  • Certifique-se de que a pessoa que está criando a transferência tenha as seguintes permissões obrigatórias no BigQuery:

    • Permissões bigquery.transfers.update para criar a transferência
    • Permissões bigquery.datasets.update no conjunto de dados de destino

    O papel predefinido do IAM bigquery.admin para envolvidos no projeto inclui as permissões bigquery.transfers.update e bigquery.datasets.update. Para mais informações sobre papéis do IAM no BigQuery, consulte Controle de acesso.

  • Consulte a documentação do Amazon S3 para garantir que você tenha configurado as permissões necessárias para ativar a transferência. No mínimo, os dados de origem do Amazon S3 precisam ter a política gerenciada pela AWS AmazonS3ReadOnlyAccess aplicada a eles.

Como configurar uma transferência de dados do Amazon S3

Para criar uma transferência de dados do Amazon S3:

Console

  1. Acesse a IU da Web do BigQuery.

    Acessar a IU da Web do BigQuery

  2. Clique em Transferências.

  3. Clique em + CRIAR UMA TRANSFERÊNCIA.

  4. Na página Criar transferência:

    • Na seção Tipo de origem, para Origem, escolha Amazon S3.

      Origem da transferência

    • Na seção Nome da configuração de transferência, para Nome de exibição, insira um nome para a transferência, como My Transfer. Esse nome pode ter qualquer valor que identifique facilmente a transferência, caso seja necessário modificá-la futuramente.

      Nome da transferência

    • Na seção Opções de agendamento, para Agendamento, deixe o valor padrão (Iniciar agora) ou clique em Iniciar em um horário definido.

      • Para Repetições, escolha uma opção para a frequência de execução da transferência. As opções são estas:

        • Diário (padrão)
        • Semanalmente
        • Mensalmente
        • Personalizada
        • Sob demanda

        Se você escolher uma opção diferente de "Diário", outras opções estarão disponíveis. Por exemplo, se você escolher "Semanal", aparecerá uma opção para selecionar o dia da semana.

      • Para Data de início e ambiente de execução, insira a data e a hora para iniciar a transferência. Se você escolher Iniciar agora, essa opção ficará desativada.

        Programação de transferência

    • Na seção Configurações de destino, para o Conjunto de dados de destino, escolha o conjunto de dados criado para armazenar seus dados.

      Transferir conjunto de dados

    • Na seção Detalhes da fonte de dados, siga estas etapas:

      • Para a Tabela de destino, insira o nome da tabela criada para armazenar os dados no BigQuery. Os nomes de tabelas de destino oferecem suporte a parâmetros.
      • Para o URI do Amazon S3, insira o URI no seguinte formato s3://mybucket/myfolder/... Os URIs também oferecem suporte a parâmetros.
      • Para Código da chave de acesso, insira seu código de chave de acesso.
      • Para Chave de acesso secreta, insira sua chave de acesso secreta.
      • Para Formato de arquivo, escolha seu formato de dados: JSON (delimitado por nova linha), CSV, Avro, Parquet ou Orc.

        Detalhes da fonte do S3

    • Na seção Opções de transferência, para Número de erros permitidos, insira um valor inteiro para o número máximo de registros inválidos que podem ser ignorados.

      Número de erros permitidos

    • Se você escolheu CSV ou JSON como seu formato de arquivo, na seção JSON, CSV, marque Ignorar valores desconhecidos para aceitar linhas que contenham valores que não correspondam ao esquema. Valores desconhecidos são ignorados. Para arquivos CSV, esta opção ignora valores extras no final de uma linha.

      Ignorar valores desconhecidos

    • Se você escolheu CSV como seu formato de arquivo, na seção CSV, insira outras opções de CSV que quiser para carregar dados.

      Opções de CSV

    • Opcional: na seção Opções de notificação, siga estas etapas:

      • Clique no botão para ativar as notificações por e-mail. Quando você ativa essa opção, o administrador de transferência recebe uma notificação por e-mail quando uma execução de transferência falha.
      • Em Selecionar um tópico do Cloud Pub/Sub, escolha o nome do seu tópico ou clique em Criar um tópico. Essa opção configura notificações de execução do Cloud Pub/Sub para sua transferência. No momento, essas notificações estão na versão Alfa.
  5. Clique em Salvar.

IU clássica

  1. Acesse a IU da Web do BigQuery.

    Acessar a IU da Web do BigQuery

  2. Clique em Transferências.

  3. Clique em Adicionar transferência.

  4. Na página Nova transferência, siga estas etapas:

    • Para Origem, escolha Amazon S3.
    • Em Nome de exibição, digite um nome para a transferência, como My Transfer. Esse nome pode ter qualquer valor que identifique facilmente a transferência, caso seja necessário modificá-la futuramente.
    • (Opcional) Em Programação, deixe o valor padrão Diária (a cada 24 horas, com base na hora da criação) ou clique em Editar para alterar a hora. Também é possível alterar o intervalo para "Semanal", "Mensal" ou "Personalizado". Se você selecionar "Personalizado", especifique um horário em estilo "Cron", por exemplo, every 12 hours. O período mais curto permitido é de 12 horas. Veja o campo schedule em TransferConfig para ver outros valores de API válidos.
    • Em Conjunto de dados de destino, escolha o conjunto de dados apropriado.
    • Em Tabela de destino, digite o nome da sua tabela de destino. Ela precisa seguir as regras de nomenclatura de tabela. O nome da tabela de destino também aceita parâmetros.
    • Para o URI do Amazon S3, insira o URI do Amazon S3. Há suporte para caracteres curinga e parâmetros.
    • Para Código da chave de acesso, insira seu código de chave de acesso.
    • Para Chave de acesso secreta, insira sua chave de acesso secreta.
    • Para Formato de arquivo, escolha seu formato de dados: JSON (delimitado por nova linha), CSV, Avro, Parquet ou Orc.
    • Na seção Opções de transferência - Todos os formatos, siga estas etapas:
      • Em Número de erros permitidos, digite o número máximo de registros corrompidos que o BigQuery pode ignorar ao executar o job. Se o número de registros corrompidos exceder esse valor, o erro “inválido” será retornado no resultado do job, e ele falhará. O valor padrão é 0.
    • Se você escolheu CSV ou JSON como seu formato de dados, na seção Opções de Transferência - JSON, CSV:
      • Marque a caixa Ignorar valores desconhecidos se quiser que a transferência elimine dados que não se ajustem ao esquema da tabela de destino.
    • Se você escolheu CSV como seu formato de dados, na seção Opções de Transferência - CSV:

      • Em Delimitador de campo, insira o caractere que separa os campos. O valor padrão é uma vírgula.
      • Em Linhas de cabeçalho a serem ignoradas, digite o número de linhas de cabeçalho nos arquivos de origem, se você não quiser importá-las. O valor padrão é 0.
      • Marque a caixa Permitir novas linhas entre aspas se quiser permitir novas linhas dentro dos campos entre aspas.
      • Marque a caixa Permitir linhas dentadas se quiser permitir a transferência de linhas com colunas NULLABLE ausentes.
    • Opcional: expanda a seção Avançado e configure as notificações de execução da transferência. As notificações de execução de transferência estão na versão Alfa.

    • Em Tópico do Cloud Pub/Sub, digite o nome do tópico. Por exemplo, projects/myproject/topics/mytopic.

    • Marque Enviar notificações por e-mail para permitir notificações por e-mail sobre falhas na execução da transferência.

      Tópico do Cloud Pub/Sub

  5. Clique em Adicionar.

Solução de problemas na configuração da transferência do Amazon S3

Se você encontrar problemas ao configurar sua transferência, consulte a página de solução de problemas para ver as etapas de solução de problemas.

Como consultar dados

Quando os dados são transferidos para o BigQuery, eles são gravados em tabelas particionadas por tempo de processamento. Para mais informações, consulte Introdução às tabelas particionadas.

Use a pseudocoluna _PARTITIONTIME para consultar suas tabelas diretamente em vez de usar visualizações geradas automaticamente. Para mais informações, consulte Como consultar tabelas particionadas.

A seguir

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Precisa de ajuda? Acesse nossa página de suporte.