Consultar dados do Drive
Neste documento, descrevemos como consultar dados armazenados em uma tabela externa do Google Drive.
O BigQuery aceita consultas de arquivos pessoais do Google Drive e arquivos compartilhados. Confira mais informações em Treinamento e ajuda do Google Drive.
É possível consultar os dados do Drive em uma tabela externa permanente ou tabela externa temporária que é criada quando você executa a consulta.
Limitações
Para limitações relacionadas a tabelas externas, consulte Limitações de tabelas externas.
Funções exigidas
Para consultar tabelas externas do Drive, verifique se você tem os seguintes papéis:
- Leitor de dados do BigQuery (
roles/bigquery.dataViewer
) - Usuário do BigQuery (
roles/bigquery.user
)
Dependendo das suas permissões, é possível conceder esses papéis a você mesmo ou pedir ao administrador para concedê-los. Para mais informações sobre como conceder papéis, consulte Como visualizar os papéis atribuíveis em recursos.
Para conferir as permissões exatas do BigQuery necessárias para consultar tabelas externas, expanda a seção Permissões necessárias:
Permissões necessárias
bigquery.jobs.create
bigquery.readsessions.create
: obrigatório apenas se você estiver lendo dados com a API BigQuery Storage Readbigquery.tables.get
bigquery.tables.getData
Essas permissões também podem ser concedidas com papéis personalizados ou outros papéis predefinidos.
Permissões do Drive
Para consultar dados externos no Google Drive, você precisa ter, no
mínimo, acesso de View
ao arquivo do Google Drive vinculado à tabela externa.
Escopos de instâncias do Compute Engine
Ao criar uma instância do Compute Engine, especifique uma lista de escopos para ela. Os escopos controlam o acesso da instância aos produtos do Google Cloud, incluindo o Drive. Os aplicativos em execução na VM usam a conta do serviço para chamar as APIs do Google Cloud.
Se você configurar uma instância do Compute Engine para ser executada
como uma conta de serviço
e essa conta acessar uma tabela externa vinculada a uma fonte de dados
do Drive, precisará adicionar o
Escopo do OAuth para o Drive
(https://www.googleapis.com/auth/drive.readonly
) para a instância.
Para mais informações sobre como aplicar escopos a uma instância do Compute Engine, consulte Como alterar a conta de serviço e os escopos de acesso de uma instância. Acesse Contas de serviço para saber mais sobre esse tipo de conta do Compute Engine.
Consultar dados do Drive usando tabelas externas permanentes
Depois de criar uma tabela externa do Drive, você poderá consultá-la usando a sintaxe do Google SQL, como se fosse uma tabela padrão do BigQuery. Por exemplo, SELECT field1, field2
FROM mydataset.my_drive_table;
.
Consultar dados do Drive usando tabelas temporárias
A consulta a uma fonte de dados externa usando uma tabela temporária é útil quando você quer consultar dados externos apenas uma vez, com um propósito específico, ou executar processos de Extração, transformação e carregamento (ETL).
Para consultar uma fonte de dados externa sem criar uma tabela permanente, forneça uma definição de tabela para a tabela temporária e use-a em um comando ou uma chamada para consultar a tabela temporária. É possível fornecer a definição da tabela de uma destas maneiras:
- Um arquivo de definição da tabela
- uma definição de esquema in-line;
- Um arquivo de esquema JSON
O arquivo de definição de tabela ou esquema fornecido é usado para criar a tabela externa temporária, e a consulta será executada nela.
A tabela externa temporária não é criada em um dos conjuntos de dados do BigQuery. Como ela não fica armazenada permanentemente em um conjunto de dados, não é possível compartilhá-la com outros.
Criar e consultar tabelas temporárias
É possível criar e consultar uma tabela temporária vinculada a uma fonte de dados externa usando a ferramenta de linha de comando bq, a API ou as bibliotecas de cliente.
bq
Consulte uma tabela temporária vinculada a uma fonte de dados externa usando o comando bq query
com a sinalização --external_table_definition
. Ao usar
a ferramenta de linha de comando bq para consultar uma tabela temporária vinculada a uma fonte de dados externa,
é possível identificar o esquema dessa tabela usando:
- um arquivo de definição de tabela (armazenado em sua máquina local)
- uma definição de esquema in-line;
- um arquivo de esquema JSON (armazenado em sua máquina local).
Para consultar uma tabela temporária vinculada à sua fonte de dados externa usando um arquivo de definição de tabela, insira o seguinte comando:
bq --location=LOCATION query \ --external_table_definition=TABLE::DEFINITION_FILE \ 'QUERY'
Em que:
LOCATION
é o local. A sinalização--location
é opcional;TABLE
é o nome da tabela temporária que você está criando;DEFINITION_FILE
é o caminho do arquivo de definição de tabela na sua máquina local;QUERY
é a consulta que você está enviando para a tabela temporária.
Por exemplo, o comando a seguir cria e consulta uma tabela temporária
chamada sales
usando um arquivo de definição de tabela chamado sales_def
.
bq query \
--external_table_definition=sales::sales_def \
'SELECT
Region,Total_sales
FROM
sales'
Para consultar uma tabela temporária vinculada à sua fonte de dados externa usando uma definição de esquema in-line, digite o seguinte comando.
bq --location=LOCATION query \ --external_table_definition=TABLE::SCHEMA@SOURCE_FORMAT=DRIVE_URI \ 'QUERY'
Em que:
LOCATION
é o local. A sinalização--location
é opcional;TABLE
é o nome da tabela temporária que você está criando;SCHEMA
é a definição de esquema in-line no formatoFIELD:DATA_TYPE,FIELD:DATA_TYPE
;SOURCE_FORMAT
éCSV
,NEWLINE_DELIMITED_JSON
,AVRO
ouGOOGLE_SHEETS
;DRIVE_URI
é o URI do Drive;QUERY
é a consulta que você está enviando para a tabela temporária.
Por exemplo, o comando a seguir cria e consulta uma tabela temporária
chamada sales
vinculada a um arquivo CSV armazenado no Drive com a
seguinte definição de esquema: Region:STRING,Quarter:STRING,Total_sales:INTEGER
.
bq --location=US query \
--external_table_definition=sales::Region:STRING,Quarter:STRING,Total_sales:INTEGER@CSV=https://drive.google.com/open?id=1234_AbCD12abCd \
'SELECT
Region,Total_sales
FROM
sales'
Para consultar uma tabela temporária vinculada à sua fonte de dados externa usando um arquivo de esquema JSON, insira o seguinte comando.
bq --location=LOCATION query \ --external_table_definition=SCHEMA_FILE@SOURCE_FORMT=DRIVE_URI \ 'QUERY'
Em que:
LOCATION
é o local. A sinalização--location
é opcional;SCHEMA_FILE
é o caminho para o arquivo de esquema JSON na sua máquina local;SOURCE_FILE
éCSV
,NEWLINE_DELIMITED_JSON
,AVRO
ouGOOGLE_SHEETS
;DRIVE_URI
é o URI do Drive;QUERY
é a consulta que você está enviando para a tabela temporária.
Por exemplo, o comando a seguir cria e consulta uma tabela temporária
chamada sales
vinculada a um arquivo CSV armazenado no Drive usando o
arquivo de esquema /tmp/sales_schema.json
.
bq query \
--external_table_definition=sales::/tmp/sales_schema.json@CSV=https://drive.google.com/open?id=1234_AbCD12abCd \
'SELECT
Total_sales
FROM
sales'
API
Crie uma configuração de job de consulta. Consulte Como consultar dados para informações sobre como chamar
jobs.query
ejobs.insert
.Especifique a fonte de dados externa criando um
ExternalDataConfiguration
.
Python
Antes de testar esta amostra, siga as instruções de configuração do Python no Guia de início rápido do BigQuery: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API BigQuery em Python.
Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, acesse Configurar a autenticação para bibliotecas de cliente.
Java
Antes de testar esta amostra, siga as instruções de configuração do Java no Guia de início rápido do BigQuery: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API BigQuery em Java.
Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, acesse Configurar a autenticação para bibliotecas de cliente.
Solução de problemas
String de erro: Resources exceeded during query execution: Google Sheets service
overloaded.
Esse pode ser um erro temporário que pode ser corrigido executando a consulta novamente. Se o erro persistir após uma nova execução da consulta, simplifique sua planilha, por exemplo, minimizando o uso de fórmulas. Para mais informações, consulte Limitações de tabela externa.
A seguir
- Saiba mais sobre como usar o SQL no BigQuery.
- Saiba mais sobre tabelas externas.
- Saiba mais sobre as cotas do BigQuery.