pandas-gbq에서 이전

pandas-gbq 라이브러리는 Pandas 커뮤니티에서 주도하는 프로젝트입니다. BigQuery 클라이언트 라이브러리google-cloud-bigquery는 BigQuery와 상호작용하는 공식 Python 라이브러리입니다. 현재 pandas-gbq 라이브러리를 사용하고 있다면 이미 google-cloud-bigquery 라이브러리를 사용하고 있는 셈입니다. pandas-gbqgoogle-cloud-bigquery를 사용해 BigQuery로 API를 호출하기 때문입니다. 또한 Pandas에서 BigQuery로 쉽게 연결할 수 있는 인터페이스를 제공하지만 google-cloud-bigquery 라이브러리에서 다양하게 제공하는 기능을 지원하지 못합니다.

이번 주제에서는 Python 코드를 업데이트하여 pandas-gbq가 아닌 google-cloud-bigquery를 사용하는 데 필요한 변경 사항에 대해 자세히 알아보겠습니다. 이번 주제의 코드 샘플에서는 다음과 같이 두 가지 라이브러리 버전을 사용합니다.

google-cloud-bigquery[pandas,pyarrow]==1.7.0
pandas-gbq==0.7.0

기능 및 지원과 관련하여 두 라이브러리의 가장 큰 차이는 다음과 같습니다.

pandas-gbq google-cloud-bigquery
지원 PyData 및 자발적 재능기부자가 오픈소스 라이브러리를 관리합니다. Google 및 자발적 재능기부자가 오픈소스 라이브러리를 관리합니다.
적용되는 BigQuery API 기능 쿼리를 실행하고, 데이터를 Pandas DataFrames에서 테이블로 저장하는 기능으로 제한됩니다. Pandas DataFrames를 비롯해 쿼리 실행을 위한 Jupyter 매직을 읽고 쓸 수 있도록 추가로 지원되는 기능을 포함해 모든 BigQuery API 기능이 제공됩니다.
새 기능이 추가되는 주기 자발적 재능기부자가 구현하는 경우에 한해 새 기능이 라이브러리에 추가됩니다. 새 기능이 BigQuery API로 배포되면서 구현됩니다.
docs / source docs / source

쿼리 실행

두 라이브러리 모두 BigQuery에 저장되는 데이터에 대한 쿼리를 지원합니다. 두 라이브러리의 가장 큰 차이점은 다음과 같습니다.

pandas-gbq google-cloud-bigquery
기본 SQL 구문 이전 SQL 표준 SQL
쿼리 구성 BigQuery REST 참조에서 지정하는 형식의 사전 형태로 전송됩니다. QueryJobConfig 클래스를 사용합니다. 여기에는 다양한 API 구성 옵션을 위한 속성이 포함되어 있습니다.

표준 SQL 구문을 사용한 데이터 쿼리

다음 샘플은 프로젝트를 명시적으로 지정할 때와 지정하지 않을 때 표준 SQL 쿼리를 실행하는 방법을 나타낸 것입니다. 두 라이브러리 모두 프로젝트를 지정하지 않을 경우에는 기본 사용자 인증 정보를 통해 프로젝트를 확인할 수 있습니다.

pandas-gbq:

import pandas

sql = """
    SELECT name
    FROM `bigquery-public-data.usa_names.usa_1910_current`
    WHERE state = 'TX'
    LIMIT 100
"""

# Run a Standard SQL query using the environment's default project
df = pandas.read_gbq(sql, dialect='standard')

# Run a Standard SQL query with the project set explicitly
project_id = 'your-project-id'
df = pandas.read_gbq(sql, project_id=project_id, dialect='standard')

google-cloud-bigquery:

from google.cloud import bigquery

client = bigquery.Client()
sql = """
    SELECT name
    FROM `bigquery-public-data.usa_names.usa_1910_current`
    WHERE state = 'TX'
    LIMIT 100
"""

# Run a Standard SQL query using the environment's default project
df = client.query(sql).to_dataframe()

# Run a Standard SQL query with the project set explicitly
project_id = 'your-project-id'
df = client.query(sql, project=project_id).to_dataframe()

이전 SQL 구문을 사용한 데이터 쿼리

다음 샘플은 이전 SQL 구문을 사용하여 쿼리를 실행하는 방법을 나타낸 것입니다. 쿼리를 표준 SQL로 업데이트하는 방법에 대한 자세한 내용은 표준 SQL 이전 가이드를 참조하세요.

pandas-gbq:

import pandas

sql = """
    SELECT name
    FROM [bigquery-public-data:usa_names.usa_1910_current]
    WHERE state = 'TX'
    LIMIT 100
"""

df = pandas.read_gbq(sql, dialect='legacy')

google-cloud-bigquery:

from google.cloud import bigquery

client = bigquery.Client()
sql = """
    SELECT name
    FROM [bigquery-public-data:usa_names.usa_1910_current]
    WHERE state = 'TX'
    LIMIT 100
"""
query_config = bigquery.QueryJobConfig(use_legacy_sql=True)

df = client.query(sql, job_config=query_config).to_dataframe()

구성을 사용한 쿼리 실행

BigQuery API 요청을 사용해 구성을 전송하려면 매개변수가 있는 쿼리를 실행하거나, 혹은 쿼리 결과를 저장할 대상 테이블을 지정하는 등 복잡한 작업을 수행해야 합니다. pandas-gbq에서는 BigQuery REST 참조에 지정된 사전 형식으로 구성을 전송해야 합니다. google-cloud-bigquery에서는 복잡한 작업을 구성하는 데 필요한 속성이 포함된 작업 구성 클래스(예: QueryJobConfig)가 제공됩니다.

다음 샘플을 이름이 지정된 매개변수를 사용해 쿼리를 실행하는 방법을 나타낸 것입니다.

pandas-gbq:

import pandas

sql = """
    SELECT name
    FROM `bigquery-public-data.usa_names.usa_1910_current`
    WHERE state = @state
    LIMIT @limit
"""
query_config = {
    'query': {
        'parameterMode': 'NAMED',
        'queryParameters': [
            {
                'name': 'state',
                'parameterType': {'type': 'STRING'},
                'parameterValue': {'value': 'TX'}
            },
            {
                'name': 'limit',
                'parameterType': {'type': 'INTEGER'},
                'parameterValue': {'value': 100}
            }
        ]
    }
}

df = pandas.read_gbq(sql, configuration=query_config)

google-cloud-bigquery:

from google.cloud import bigquery

client = bigquery.Client()
sql = """
    SELECT name
    FROM `bigquery-public-data.usa_names.usa_1910_current`
    WHERE state = @state
    LIMIT @limit
"""
query_config = bigquery.QueryJobConfig(
    query_parameters=[
        bigquery.ScalarQueryParameter('state', 'STRING', 'TX'),
        bigquery.ScalarQueryParameter('limit', 'INTEGER', 100)
    ]
)

df = client.query(sql, job_config=query_config).to_dataframe()

Pandas DataFrame에서 BigQuery 테이블로 로드

두 라이브러리 모두 Pandas DataFrame에서 BigQuery의 새 테이블로 데이터를 업로드할 수 있는 기능을 지원합니다. 가장 큰 차이점은 다음과 같습니다.

pandas-gbq google-cloud-bigquery
지원되는 유형 API로 전송하기 전에 DataFrame을 CSV 형식으로 변환하지만 중첩 또는 배열 값을 지원하지는 않습니다. API로 전송하기 전에 DataFrame을 Parquet 형식으로 변환하며, 중첩 및 배열 값을 지원합니다. 단, DataFrame 데이터를 BigQuery API로 전송할 때 사용되는 Parquet 엔진인 pyarrow가 설치되어 있어야 DataFrame을 테이블에 로드할 수 있습니다.
구성 로드 BigQuery REST 참조에서 지정하는 형식의 사전 형태로 전송됩니다. 다양한 API 구성 옵션에 관한 속성이 포함된 LoadJobConfig 클래스를 사용합니다.

pandas-gbq:

import pandas

df = pandas.DataFrame(
    {
        'my_string': ['a', 'b', 'c'],
        'my_int64': [1, 2, 3],
        'my_float64': [4.0, 5.0, 6.0],
    }
)
full_table_id = 'my_dataset.new_table'
project_id = 'my-project-id'

df.to_gbq(full_table_id, project_id=project_id)

google-cloud-bigquery:

from google.cloud import bigquery
import pandas

df = pandas.DataFrame(
    {
        'my_string': ['a', 'b', 'c'],
        'my_int64': [1, 2, 3],
        'my_float64': [4.0, 5.0, 6.0],
    }
)
client = bigquery.Client()
dataset_ref = client.dataset('my_dataset')
table_ref = dataset_ref.table('new_table')

client.load_table_from_dataframe(df, table_ref).result()

pandas-gbq에서 지원되지 않는 기능

pandas-gbq 라이브러리가 데이터를 쿼리하거나 데이터를 테이블에 쓸 때 유용한 인터페이스를 제공하는 것은 사실이지만 아래 기능 등을 포함해 BigQuery API 기능의 대부분을 지원하지 못합니다.

이 페이지가 도움이 되었나요? 평가를 부탁드립니다.

다음에 대한 의견 보내기...

도움이 필요하시나요? 지원 페이지를 방문하세요.