Introdução aos BigQuery DataFrames

O BigQuery DataFrames é um conjunto de bibliotecas Python de código aberto que permite aproveitar o processamento de dados do BigQuery usando APIs conhecidas do Python. O BigQuery DataFrames fornece um DataFrame Pythonic com tecnologia do mecanismo do BigQuery e implementa as APIs pandas e scikit-learn enviando o processamento para o BigQuery por meio da conversão de SQL. Isso permite que você use o BigQuery para explorar e processar terabytes de dados e também treinar modelos de machine learning (ML), tudo com APIs Python.

O diagrama a seguir descreve o fluxo de trabalho do DataFrames do BigQuery:

Fluxo de trabalho do BigQuery DataFrames

Benefícios dos DataFrames do BigQuery

O BigQuery DataFrames faz o seguinte:

  • Oferece mais de 750 APIs pandas e scikit-learn implementadas por meio da conversão SQL transparente para APIs do BigQuery e do BigQuery ML.
  • Adiar a execução de consultas para melhorar o desempenho.
  • Amplia as transformações de dados com funções Python definidas pelo usuário para permitir processar dados no Google Cloud. Elas são implantadas automaticamente como funções remotas do BigQuery.
  • Integração com a Vertex AI para permitir o uso de modelos do Gemini para geração de texto.

Licenciamento

O DataFrames do BigQuery é distribuído com a licença Apache-2.0.

O BigQuery DataFrames também contém código derivado dos seguintes pacotes de terceiros:

Para mais detalhes, consulte o diretório third_party/bigframes_vendored no repositório GitHub do DataFrames do BigQuery.

Cotas e limites

  • As cotas do BigQuery se aplicam aos DataFrames do BigQuery, incluindo hardware, software e componentes de rede.
  • Há suporte para um subconjunto de pandas e APIs do scikit-learn. Para mais informações, consulte APIs pamdas compatíveis.
  • É necessário limpar explicitamente qualquer função do Cloud Run criada automaticamente como parte da limpeza da sessão. Para mais informações, consulte APIs pandas compatíveis.

Preços

  • O BigQuery DataFrames é um conjunto de bibliotecas Python de código aberto disponíveis para download sem custo financeiro adicional.
  • O BigQuery DataFrames usa o BigQuery, as funções do Cloud Run, a Vertex AI e outros serviços do Google Cloud, que têm custos próprios.
  • Durante o uso regular, o DataFrames do BigQuery armazena dados temporários, como resultados intermediários, nas tabelas do BigQuery. Por padrão, elas são mantidas por sete dias e você é cobrado pelos dados armazenados nelas. As tabelas são criadas no conjunto de dados _anonymous_ do projeto do Google Cloud especificado na opção bf.options.bigquery.project.

A seguir