Introdução aos BigQuery DataFrames
O BigQuery DataFrames é um conjunto de bibliotecas Python de código aberto que permite aproveitar o processamento de dados do BigQuery usando APIs conhecidas do Python. O BigQuery DataFrames fornece um DataFrame Pythonic com tecnologia do mecanismo do BigQuery e implementa as APIs pandas e scikit-learn enviando o processamento para o BigQuery por meio da conversão de SQL. Isso permite que você use o BigQuery para explorar e processar terabytes de dados e também treinar modelos de machine learning (ML), tudo com APIs Python.
O diagrama a seguir descreve o fluxo de trabalho do DataFrames do BigQuery:
Benefícios dos DataFrames do BigQuery
O BigQuery DataFrames faz o seguinte:
- Oferece mais de 750 APIs pandas e scikit-learn implementadas por meio da conversão SQL transparente para APIs do BigQuery e do BigQuery ML.
- Adiar a execução de consultas para melhorar o desempenho.
- Amplia as transformações de dados com funções Python definidas pelo usuário para permitir processar dados no Google Cloud. Elas são implantadas automaticamente como funções remotas do BigQuery.
- Integração com a Vertex AI para permitir o uso de modelos do Gemini para geração de texto.
Licenciamento
O DataFrames do BigQuery é distribuído com a licença Apache-2.0.
O BigQuery DataFrames também contém código derivado dos seguintes pacotes de terceiros:
Para mais detalhes, consulte o diretório
third_party/bigframes_vendored
no repositório GitHub do DataFrames do BigQuery.
Cotas e limites
- As cotas do BigQuery se aplicam aos DataFrames do BigQuery, incluindo hardware, software e componentes de rede.
- Há suporte para um subconjunto de pandas e APIs do scikit-learn. Para mais informações, consulte APIs pamdas compatíveis.
- É necessário limpar explicitamente qualquer função do Cloud Run criada automaticamente como parte da limpeza da sessão. Para mais informações, consulte APIs pandas compatíveis.
Preços
- O BigQuery DataFrames é um conjunto de bibliotecas Python de código aberto disponíveis para download sem custo financeiro adicional.
- O BigQuery DataFrames usa o BigQuery, as funções do Cloud Run, a Vertex AI e outros serviços do Google Cloud, que têm custos próprios.
- Durante o uso regular, o DataFrames do BigQuery armazena dados temporários,
como resultados intermediários, nas tabelas do BigQuery. Por padrão, elas são mantidas por sete dias e você é cobrado pelos dados armazenados nelas. As tabelas são criadas no conjunto de dados
_anonymous_
do projeto do Google Cloud especificado na opçãobf.options.bigquery.project
.
A seguir
- Usar DataFrames do BigQuery
- Testar os DataFrames do BigQuery
- Referência da API BigQuery DataFrames
- Notebooks de amostra do DataFrames do BigQuery
- Código-fonte de DataFrames do BigQuery (GitHub)