BigQuery DataFrames 소개
BigQuery DataFrames는 익숙한 Python API를 사용하여 BigQuery 데이터 처리를 활용할 수 있는 오픈소스 Python 라이브러리 집합입니다. BigQuery DataFrames는 BigQuery 엔진을 기반으로 하는 Pythonic DataFrame을 제공하며, SQL 변환을 통해 처리를 BigQuery로 내보내 Pandas 및 scikit-learn API를 구현합니다. 이를 통해 BigQuery를 사용하여 Python API로 테라바이트 단위의 데이터를 탐색 및 처리하고 머신러닝(ML) 모델을 학습시킬 수도 있습니다.
다음 다이어그램은 BigQuery DataFrames의 워크플로를 설명합니다.
BigQuery DataFrames 이점
BigQuery DataFrames는 다음을 실행합니다.
- BigQuery 및 BigQuery ML API로의 투명한 SQL 변환을 통해 구현되는 750개 이상의 Pandas 및 scikit-learn API를 제공합니다.
- 성능 향상을 위해 쿼리 실행을 지연합니다.
- 사용자 정의 Python 함수로 데이터 변환을 확장하여 Google Cloud에서 데이터를 처리할 수 있습니다. 이러한 함수는 BigQuery 원격 함수로 자동 배포됩니다.
- Vertex AI와 통합하여 텍스트 생성에 Gemini 모델을 사용합니다.
라이선스
BigQuery DataFrames는 Apache-2.0 라이선스로 배포됩니다.
BigQuery DataFrames에는 다음 서드 파티 패키지에서 파생된 코드도 포함됩니다.
자세한 내용은 BigQuery DataFrames GitHub 저장소의 third_party/bigframes_vendored
디렉터리를 참조하세요.
할당량 및 한도
- BigQuery 할당량이 하드웨어, 소프트웨어, 네트워크 구성요소를 비롯한 BigQuery DataFrames에 적용됩니다.
- Pandas 및 scikit-learn API의 하위 집합이 지원됩니다. 자세한 내용은 지원되는 Pandas API를 참조하세요.
- 세션 정리 과정에서 자동으로 생성된 Cloud Run Functions 함수를 명시적으로 삭제해야 합니다. 자세한 내용은 지원되는 Pandas API를 참조하세요.
가격 책정
- BigQuery DataFrames는 추가 비용 없이 다운로드할 수 있는 오픈소스 Python 라이브러리 집합입니다.
- BigQuery DataFrames는 BigQuery, Cloud Run Functions, Vertex AI, 기타 Google Cloud 서비스를 사용하며 이는 자체 비용이 발생합니다.
- 일반적인 사용 중에 BigQuery DataFrames는 중간 결과와 같은 임시 데이터를 BigQuery 테이블에 저장합니다. 이러한 테이블은 기본적으로 7일 동안 유지되며 테이블에 저장된 데이터에 대한 요금이 부과됩니다. 테이블은
bf.options.bigquery.project
옵션에서 지정한 Google Cloud 프로젝트의_anonymous_
데이터 세트에 생성됩니다.
다음 단계
- BigQuery DataFrames 사용
- BigQuery DataFrames 사용해 보기
- BigQuery DataFrames API 참조
- BigQuery DataFrames 샘플 노트북
- BigQuery DataFrames 소스 코드(GitHub)