Usar DataFrames do BigQuery
Para receber suporte durante a prévia, envie um e-mail para bigframes-feedback@google.com.
Neste documento, descrevemos como usar o BigQuery DataFrames para analisar e manipular dados em um notebook do BigQuery.
O BigQuery DataFrames é uma biblioteca de cliente do Python que pode ser usada para analisar dados e realizar tarefas de machine learning nos notebooks do BigQuery.
Os BigQuery DataFrames consistem nas seguintes partes:
bigframes.pandas
implementa uma API semelhante a pandas no BigQuery.bigframes.ml
implementa uma API semelhante a scikit-learn com o BigQuery ML.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
Verifique se a API BigQuery está ativada.
Se você criou um novo projeto, a API BigQuery será ativada automaticamente.
Permissões necessárias
Para usar o BigQuery DataFrames em um notebook do BigQuery, você precisa dos seguintes papéis do Identity and Access Management (IAM):
- Usuário do BigQuery (
roles/bigquery.user
) - Usuário do ambiente de execução do notebook (
roles/aiplatform.notebookRuntimeUser
) - Criador de código (
roles/dataform.codeCreator
)
Criar um notebook
Siga as instruções em Criar um notebook a partir do editor do BigQuery para criar um novo notebook.
Configurar opções do BigQuery DataFrames
Após a instalação, é preciso especificar o local e o projeto em que você quer usar o BigQuery DataFrames.
É possível definir o local e o projeto no notebook da seguinte maneira:
Usar bigframes.pandas
A API bigframes.pandas
fornece uma API semelhante a pandas
que pode ser usada para analisar e manipular dados no BigQuery. A API bigframes.pandas
é escalonável para permitir o processamento de terabytes de dados do BigQuery e usa o mecanismo de consulta do BigQuery para realizar cálculos.
A API bigframes.pandas
oferece os seguintes recursos:
- Entrada e saída
- É possível acessar dados de várias fontes, incluindo arquivos CSV locais, arquivos do Cloud Storage, DataFrames
pandas
, modelos do BigQuery e funções do BigQuery, e carregá-los em um DataFrame do BigQuery. Também é possível criar tabelas do BigQuery pelo BigQuery DataFrames. - Manipulação de dados
- É possível usar o Python no lugar do SQL para o desenvolvimento.
É possível desenvolver todas as manipulações de dados do BigQuery em Python, eliminando a necessidade de alternar entre linguagens e tentar capturar instruções SQL como strings de texto. A API
bigframes.pandas
oferece mais de 250 funçõespandas
. - Ecossistema e visualizações em Python
- A API
bigframes.pandas
é um gateway para o ecossistema completo de ferramentas em Python. A API permite operações estatísticas avançadas, e é possível ver as agregações geradas pelo BigQuery DataFrames. Também é possível alternar de um DataFrame do BigQuery para umpandas
com operações de amostragem integradas. - Funções personalizadas do Python
- É possível usar funções e pacotes personalizados do Python. Com
bigframes.pandas
, é possível implantar funções remotas que executam funções Python escalares na escala do BigQuery. É possível manter essas funções de volta no BigQuery como rotinas SQL e usá-las como funções SQL.
Carregar dados de uma tabela ou consulta do BigQuery
É possível criar um DataFrame com base em uma tabela ou consulta do BigQuery da seguinte maneira:
Carregar dados de um arquivo CSV
É possível criar um DataFrame com base em um arquivo CSV local ou do Cloud Storage da seguinte maneira:
Inspecionar e manipular dados
É possível usar bigframes.pandas
para realizar operações de inspeção e cálculo de dados.
O exemplo de código a seguir mostra o uso de bigframes.pandas
para inspecionar a coluna body_mass_g
, calcular a body_mass
média e calcular a média body_mass
por species
:
Usar bigframes.ml
A API bigframes.ml
semelhante a scikit-learn permite criar vários tipos de modelos de machine learning.
Regressão
O exemplo de código abaixo mostra o uso de bigframes.ml
para realizar as seguintes ações:
- Carregar dados do BigQuery
- Limpar e preparar dados de treinamento
- Criar e aplicar um modelo de regressão
bigframes.ml.LinearRegression
Clustering
Use o módulo bigframes.ml.cluster
para criar estimadores para modelos de clustering.
O exemplo de código a seguir mostra o uso da classe bigframes.ml.cluster
KMeans
para criar um modelo de clustering K-means para segmentação de dados:
Modelos LLM remotos
É possível usar o módulo bigframes.ml.llm
para criar estimadores para modelos de linguagem grandes (LLMs) remotos.
O exemplo de código a seguir mostra o uso da classe bigframes.ml.llm
PaLM2TextGenerator
para criar um modelo gerador de texto PaLM2 para geração de texto:
Preços
O DataFrames do BigQuery é uma biblioteca Python de código aberto. O código-fonte está disponível para visualização e download no GitHub. É possível instalar a biblioteca PyPI. A biblioteca também pode estar disponível em outros gerenciadores de pacotes gerenciados pela comunidade.
O DataFrames do BigQuery usa o BigQuery, o Cloud Functions, a Vertex AI e outros serviços do Google Cloud, que têm custos próprios. Durante o uso regular, a biblioteca armazena dados em tabelas intermediárias do BigQuery, que têm uma duração de sete dias por padrão.
A seguir
Para aprender a realizar tarefas de análise e machine learning usando o BigQuery DataFrames em um notebook do BigQuery, consulte o guia de início rápido do BigQuery DataFrames.
Para conhecer o BigQuery DataFrames, consulte os documentos de referência da biblioteca do BigQuery DataFrames.
Para conhecer o código-fonte, consulte Código-fonte do BigQuery DataFrames no GitHub.