Introdução aos BigQuery DataFrames
O BigQuery DataFrames é um conjunto de bibliotecas Python de código aberto que permite aproveitar o processamento de dados do BigQuery usando APIs conhecidas do Python. O BigQuery DataFrames implementa as APIs pandas e scikit-learn enviando o processamento para o BigQuery por meio da conversão de SQL. Isso permite que você use o BigQuery para explorar e processar terabytes de dados e também treinar modelos de machine learning (ML), tudo com APIs Python.
O DataFrames do BigQuery oferece os seguintes benefícios:
- Mais de 750 APIs pandas e scikit-learn implementadas por meio da conversão SQL transparente para APIs do BigQuery e do BigQuery ML.
- Execução adiada de consultas para melhorar o desempenho.
- Ampliação de transformações de dados com funções Python definidas pelo usuário para permitir processar dados na nuvem. Elas são implantadas automaticamente como funções remotas do BigQuery.
- Integração com a Vertex AI que permite usar modelos do Gemini para geração de texto.
Licenciamento
O DataFrames do BigQuery é distribuído com a licença Apache-2.0. Ele também contém código derivado dos seguintes pacotes de terceiros:
Para mais detalhes, consulte o diretório
third_party/bigframes_vendored
no repositório GitHub do DataFrames do BigQuery.
Cotas e limites
- As cotas do BigQuery se aplicam aos DataFrames do BigQuery, incluindo hardware, software e componentes de rede.
- Há suporte para um subconjunto de pandas e APIs do scikit-learn. Para mais informações, consulte APIs pamdas compatíveis.
- É necessário limpar explicitamente qualquer função do Cloud Run criada automaticamente como parte da limpeza da sessão. Para mais informações, consulte APIs pandas compatíveis.
Preços
- O BigQuery DataFrames é um conjunto de bibliotecas Python de código aberto disponíveis para download sem custo financeiro adicional.
- O BigQuery DataFrames usa o BigQuery, as funções do Cloud Run, a Vertex AI e outros serviços do Google Cloud, que têm custos próprios.
- Durante o uso regular, o DataFrames do BigQuery armazena dados temporários,
como resultados intermediários, nas tabelas do BigQuery. Por padrão, elas são mantidas por sete dias e você é cobrado pelos dados armazenados nelas. As tabelas são criadas no conjunto de dados
_anonymous_
do projeto especificado na opçãobf.options.bigquery.project
.
A seguir
- Usar DataFrames do BigQuery
- Conheça o guia de início rápido do BigQuery DataFrames
- Referência da API BigQuery DataFrames
- Notebooks de amostra do DataFrames do BigQuery
- Código-fonte de DataFrames do BigQuery (GitHub)