从 datalab Python 软件包迁移

datalab Python 软件包用于通过 Datalab 笔记本与 Google Cloud 服务进行交互。datalab Python 软件包中包含支持部分 BigQuery API 方法的 Jupyter 魔法命令和 Python 模块，例如 google.datalab.bigquery。

BigQuery 客户端库 google-cloud-bigquery 是用于与 BigQuery 进行交互的 Python 官方库。该客户端库提供了一个用于运行查询的 Jupyter 单元魔法命令，其功能是使用 Pandas DataFrame 发送和检索数据。此库支持全部 BigQuery 功能。下面的代码示例演示了熟悉 datalab Python 软件包的开发者如何使用 google-cloud-bigquery 库来执行常见的 BigQuery 操作。

请参阅 requirements.txt 文件，查看用于这些代码段的库版本。

使用 Jupyter 魔法命令和 shell 命令

这两个库都支持使用单元魔法命令查询 BigQuery 中存储的数据。但它们在使用魔法命令上存在以下主要差异：

	`datalab`	`google-cloud-bigquery`
魔法命令名称	`bq`	`bigquery`
Jupyter 扩展程序名称（用于加载魔法命令）	`google.datalab.kernel`	`google.cloud.bigquery`
查询执行	查询定义和执行可以在不同的步骤中进行。	运行魔法命令时，始终会立即执行查询。
魔法命令所涵盖的功能	某些功能不受支持。	只有查询可以通过魔法命令执行。对于其他 BigQuery 功能，请使用命令行工具或 google.cloud.bigquery.Client 方法。
保存查询结果	查询结果可通过查询魔法命令保存到目标表中，但不能保存到变量中。如需将查询结果保存到变量中，请使用 python 而非魔法命令来执行查询（请参阅示例）。	查询结果可通过查询魔法命令保存到变量中，但不能保存到目标表中。如需将查询结果保存到目标表中，请使用 python 而非魔法命令来运行查询（请参阅示例）。

安装 Python 客户端库

如需安装 BigQuery 客户端库以及使用 pandas DataFrame 所需的依赖项，请在笔记本中输入以下命令：

!pip install --upgrade 'google-cloud-bigquery[bqstorage,pandas]'

安装软件包后重启内核。

加载魔法命令

Jupyter 魔法命令属于笔记本专属快捷命令，可让您以最简洁的语法来运行命令。Jupyter 笔记本已预先加载许多内置命令。 datalab 和 google-cloud-python Python 软件包还实现了其他一些魔法命令，您可以将这些命令加载到 Jupyter 笔记本（包括 Datalab）中以与 Google Cloud 进行交互。

`datalab`

datalab 魔法命令已预先加载到 Datalab 笔记本中。如需在 Jupyter 笔记本中加载此魔法命令，请输入以下命令：

%load_ext google.datalab.kernel

如需查看更多魔法命令加载选项，请参阅 datalab 库源代码库。

`google-cloud-bigquery`

如需加载 BigQuery 魔法命令，请输入以下命令：

%load_ext google.cloud.bigquery

BigQuery 单元魔法命令适用于所有安装了 google-cloud-bigquery 软件包的笔记本。

运行查询

以下示例演示了如何使用单元魔法命令来运行查询。这两个示例都运行查询并在输入单元下方显示结果。

`datalab`

查询结果会显示在输入单元下方。

%%bq query
SELECT word, SUM(word_count) as count
FROM `bigquery-public-data.samples.shakespeare`
GROUP BY word
ORDER BY count ASC
LIMIT 100

`google-cloud-bigquery`

查询结果会以 Pandas DataFrame 的形式显示在输入单元下方。

%%bigquery
SELECT word, SUM(word_count) as count
FROM `bigquery-public-data.samples.shakespeare`
GROUP BY word
ORDER BY count ASC
LIMIT 100

运行查询并将结果存储在变量中

以下示例演示了如何运行查询，以及如何将结果存储在名为 my_variable 的变量中。

`datalab`

datalab 查询魔法命令可通过使用 --name 或 -n 标志传递名称来保存 SQL 查询，而无需运行该查询。

%%bq query -n my_query
SELECT name FROM `bigquery-public-data.usa_names.usa_1910_current`
WHERE state = "TX"
LIMIT 100

然后，可以单独执行保存的查询，并将结果存储到变量中。

import google.datalab.bigquery as bq

my_variable = my_query.execute().result().to_dataframe()

`google-cloud-bigquery`

%%bigquery my_variable
SELECT name FROM `bigquery-public-data.usa_names.usa_1910_current`
WHERE state = "TX"
LIMIT 100

其他命令

datalab 库包含适用于许多 BigQuery 操作类型的魔法命令，而 google-cloud-bigquery 库只有一个用于运行查询的单元魔法命令。如需运行查询之外的其他操作命令，请使用 bq 命令行工具。以下示例演示了如何使用 datalab 单元魔法命令或 BigQuery shell 命令列出 bigquery-public-data 项目的 samples 数据集内的所有表。

`datalab`

%bq tables list --dataset bigquery-public-data.samples

bq 命令行工具

如需开始使用作为 Google Cloud CLI 的一部分安装的 bq 命令行工具，请按照 Google Cloud CLI 安装说明进行操作。请注意，您必须在笔记本中的 shell 命令前面加上 !。设置好 bq 命令行工具且该工具在笔记本中可用后，输入以下命令，该命令等效于上面的 datalab 单元魔法命令。

!bq ls bigquery-public-data:samples

如需完整命令列表，请输入以下命令：

!bq help

使用 Python 代码

除了 Jupyter 魔法命令之外，您还可以在 datalab 和 google-cloud-bigquery 软件包中使用 Python 方法执行 BigQuery 操作。

运行查询

这两个库都支持运行查询并以 Pandas DataFrame 形式返回结果。

`datalab`

在 GitHub 上查看反馈

import google.datalab.bigquery as bq

sql = """
    SELECT name FROM `bigquery-public-data.usa_names.usa_1910_current`
    WHERE state = "TX"
    LIMIT 100
"""
df = bq.Query(sql).execute().result().to_dataframe()

`google-cloud-bigquery`

在 GitHub 上查看反馈

from google.cloud import bigquery

client = bigquery.Client()
sql = """
    SELECT name FROM `bigquery-public-data.usa_names.usa_1910_current`
    WHERE state = "TX"
    LIMIT 100
"""
df = client.query(sql).to_dataframe()

将数据加载到 BigQuery 表中

以下示例演示了如何创建新数据集，并将 Cloud Storage 中的 CSV 文件的数据加载到新表中。

`datalab`

在 GitHub 上查看反馈

import google.datalab.bigquery as bq

# Create the dataset
dataset_id = 'import_sample'
bq.Dataset(dataset_id).create()

# Create the table
schema = [
    {'name': 'name', 'type': 'STRING'},
    {'name': 'post_abbr', 'type': 'STRING'},
]
table = bq.Table(
    '{}.us_states'.format(dataset_id)).create(schema=schema)
table.load(
    'gs://cloud-samples-data/bigquery/us-states/us-states.csv',
    mode='append',
    source_format='csv',
    csv_options=bq.CSVOptions(skip_leading_rows=1)
)  # Waits for the job to complete

`google-cloud-bigquery`

在 GitHub 上查看反馈

from google.cloud import bigquery

client = bigquery.Client(location='US')

# Create the dataset
dataset_id = 'import_sample'
dataset = client.create_dataset(dataset_id)

# Create the table
job_config = bigquery.LoadJobConfig(
    schema=[
        bigquery.SchemaField('name', 'STRING'),
        bigquery.SchemaField('post_abbr', 'STRING')
    ],
    skip_leading_rows=1,
    # The source format defaults to CSV, so the line below is optional.
    source_format=bigquery.SourceFormat.CSV
)
load_job = client.load_table_from_uri(
    'gs://cloud-samples-data/bigquery/us-states/us-states.csv',
    dataset.table('us_states'),
    job_config=job_config
)
load_job.result()  # Waits for table load to complete.

如需查看使用 BigQuery Python 客户端库的更多示例，请参阅批量加载数据和将数据流式插入到 BigQuery。

将 pandas DataFrame 数据加载到 BigQuery 表中

以下示例演示了如何创建新数据集，并将数据从 pandas DataFrame 加载到新表中。

某些 BigQuery 操作（例如创建数据集）需要提供位置。如果在初始化 google-cloud-bigquery 客户端时向其提供了位置，则此位置将成为使用该客户端创建的作业、数据集和表的默认位置。datalab 库未提供数据集或作业位置的指定方法，这可能会导致意外行为。如需了解详情，请参阅数据集位置。

`datalab`

将 Pandas DataFrame 数据加载到 BigQuery 表时，datalab 库会执行流式插入。因此，查询可能无法立即找到数据。如需了解详情，请参阅将数据流式插入到 BigQuery。

在 GitHub 上查看反馈

import google.datalab.bigquery as bq
import pandas

# Create the dataset
dataset_id = 'import_sample'
bq.Dataset(dataset_id).create()

# Create the table and load the data
dataframe = pandas.DataFrame([
    {'title': 'The Meaning of Life', 'release_year': 1983},
    {'title': 'Monty Python and the Holy Grail', 'release_year': 1975},
    {'title': 'Life of Brian', 'release_year': 1979},
    {
        'title': 'And Now for Something Completely Different',
        'release_year': 1971
    },
])
schema = bq.Schema.from_data(dataframe)
table = bq.Table(
    '{}.monty_python'.format(dataset_id)).create(schema=schema)
table.insert(dataframe)  # Starts steaming insert of data

`google-cloud-bigquery`

BigQuery 客户端库会将 Pandas DataFrame 数据转换为 Parquet 格式并执行加载作业（而不是流式插入）。完成加载作业后，数据将立即可用。

在 GitHub 上查看反馈

from google.cloud import bigquery
import pandas

client = bigquery.Client(location='US')

dataset_id = 'import_sample'
dataset = client.create_dataset(dataset_id)

# Create the table and load the data
dataframe = pandas.DataFrame([
    {'title': 'The Meaning of Life', 'release_year': 1983},
    {'title': 'Monty Python and the Holy Grail', 'release_year': 1975},
    {'title': 'Life of Brian', 'release_year': 1979},
    {
        'title': 'And Now for Something Completely Different',
        'release_year': 1971
    },
])
table_ref = dataset.table('monty_python')
load_job = client.load_table_from_dataframe(dataframe, table_ref)
load_job.result()  # Waits for table load to complete.