BigQuery DataFrames 소개
BigQuery DataFrames는 익숙한 Python API를 사용하여 BigQuery 데이터 처리를 활용할 수 있는 오픈소스 Python 라이브러리 집합입니다. BigQuery DataFrames는 SQL 변환을 통해 처리를 BigQuery로 내보내 Pandas 및 scikit-learn API를 구현합니다. 이를 통해 BigQuery를 사용하여 Python API로 테라바이트 단위의 데이터를 탐색 및 처리하고 머신러닝(ML) 모델을 학습시킬 수도 있습니다.
BigQuery DataFrames는 다음과 같은 이점을 제공합니다.
- BigQuery 및 BigQuery ML API로의 투명한 SQL 변환을 통해 구현되는 750개 이상의 Pandas 및 scikit-learn API.
- 성능 향상을 위한 지연된 쿼리 실행.
- 클라우드에서 데이터를 처리할 수 있도록 사용자 정의 Python 함수로 데이터 변환을 확장. 이러한 함수는 BigQuery 원격 함수로 자동 배포됩니다.
- Vertex AI와 통합하여 텍스트 생성에 Gemini 모델을 사용.
라이선스
BigQuery DataFrames는 Apache-2.0 라이선스로 배포됩니다. 또한 다음과 같은 서드 파티 패키지에서 파생된 코드도 포함됩니다.
자세한 내용은 BigQuery DataFrames GitHub 저장소의 third_party/bigframes_vendored
디렉터리를 참조하세요.
할당량 및 한도
- BigQuery 할당량이 하드웨어, 소프트웨어, 네트워크 구성요소를 비롯한 BigQuery DataFrames에 적용됩니다.
- Pandas 및 scikit-learn API의 하위 집합이 지원됩니다. 자세한 내용은 지원되는 Pandas API를 참조하세요.
- 세션 정리 과정에서 자동으로 생성된 Cloud Run Functions 함수를 명시적으로 삭제해야 합니다. 자세한 내용은 지원되는 Pandas API를 참조하세요.
가격 책정
- BigQuery DataFrames는 추가 비용 없이 다운로드할 수 있는 오픈소스 Python 라이브러리 집합입니다.
- BigQuery DataFrames는 BigQuery, Cloud Run Functions, Vertex AI, 기타 Google Cloud 서비스를 사용하며 이는 자체 비용이 발생합니다.
- 일반적인 사용 중에 BigQuery DataFrames는 중간 결과와 같은 임시 데이터를 BigQuery 테이블에 저장합니다. 이러한 테이블은 기본적으로 7일 동안 유지되며 테이블에 저장된 데이터에 대한 요금이 부과됩니다. 테이블은
bf.options.bigquery.project
옵션에서 지정한 프로젝트의_anonymous_
데이터 세트에 생성됩니다.
다음 단계
- BigQuery DataFrames 사용
- BigQuery DataFrames 빠른 시작 사용해 보기
- BigQuery DataFrames API 참조
- BigQuery DataFrames 샘플 노트북
- BigQuery DataFrames 소스 코드(GitHub)