BigQuery 개요
BigQuery는 머신러닝, 지리정보 분석, 비즈니스 인텔리전스와 같은 기본 제공 기능으로 데이터를 관리하고 분석할 수 있게 해주는 완전 관리형 엔터프라이즈 데이터 웨어하우스입니다. BigQuery의 서버리스 아키텍처에서는 SQL 쿼리를 사용하여 제로 인프라 관리에 관한 조직의 가장 큰 질문을 해결할 수 있습니다. 통합 쿼리를 통해 외부 소스의 데이터를 읽고 스트리밍으로 연속 데이터 업데이트를 지원합니다. BigQuery의 확장 가능한 분산형 분석 엔진을 통해 테라바이트급 쿼리를 초 단위로 수행하고 페타바이트급 쿼리를 분 단위로 쿼리할 수 있습니다.
BigQuery 아키텍처는 데이터를 수집, 저장, 최적화하는 스토리지 레이어와 분석 기능을 제공하는 컴퓨팅 레이어로 구성됩니다. 이러한 컴퓨팅 및 스토리지 레이어는 둘 사이에 필요한 통신을 가능하게 해주는 Google의 페타비트 규모 네트워크 덕분에 서로 독립적으로 효율적으로 작동합니다.
기존 데이터베이스는 일반적으로 읽기/쓰기 작업 및 분석 작업을 위한 리소스를 공유해야 합니다. 이로 인해 리소스 충돌이 발생할 수 있으며, 스토리지에서 데이터를 읽거나 쓰는 동안 쿼리 속도가 느려질 수 있습니다. 공유 리소스 풀은 권한 할당 또는 취소와 같은 데이터베이스 관리 태스크에 리소스가 필요할 때 부담이 증가할 수 있습니다. BigQuery에서는 컴퓨팅 레이어와 스토리지 레이어를 분리하여 각 레이어가 다른 레이어의 성능 또는 가용성에 영향을 미치지 않고 리소스를 동적으로 할당할 수 있습니다.
이러한 분리 원칙을 통해 다운타임이나 시스템 성능에 미치는 부정적인 영향 없이 스토리지 및 컴퓨팅 개선사항을 독립적으로 배포할 수 있기 때문에 BigQuery는 더욱 빠르게 혁신할 수 있습니다. 이는 BigQuery 엔지니어링팀에서 업데이트 및 유지보수를 처리하는 완전 관리형 서버리스 데이터 웨어하우스를 제공하는 데에도 중요합니다. 리소스를 프로비저닝하거나 수동으로 확장할 필요가 없으므로 기존의 데이터베이스 관리 태스크 대신 가치를 제공하는 데 집중할 수 있습니다.
BigQuery 인터페이스에는 Google Cloud 콘솔 인터페이스 및 BigQuery 명령줄 도구가 포함됩니다. 개발자 및 데이터 과학자는 Python, 자바, 자바스크립트, Go는 물론 BigQuery의 REST API 및 RPC API와 같은 익숙한 프로그래밍 언어의 클라이언트 라이브러리를 사용하여 데이터를 변환 및 관리할 수 있습니다. ODBC 및 JDBC 드라이버는 타사 도구 및 유틸리티를 포함하여 기존 애플리케이션과 상호작용할 수 있습니다.
데이터 분석가, 데이터 엔지니어, 데이터 웨어하우스 관리자, 데이터 과학자는 BigQuery를 통해 데이터를 로드, 처리, 분석하여 정보를 바탕으로 중요한 비즈니스 의사결정을 내릴 수 있습니다.
BigQuery 시작하기
몇 분 내에 BigQuery 탐색을 시작할 수 있습니다. BigQuery의 무료 사용 등급 또는 무료 샌드박스를 사용해서 데이터 로드 및 쿼리를 시작할 수 있습니다.
- BigQuery 샌드박스: BigQuery 샌드박스를 위험 없이 무료로 시작할 수 있습니다.
- Google Cloud 콘솔 빠른 시작: BigQuery 콘솔의 강력한 기능을 숙지할 수 있습니다.
- 공개 데이터 세트: 공개 데이터 세트 프로그램에서 대규모의 실제 데이터를 탐색하여 BigQuery의 성능을 경험할 수 있습니다.
BigQuery 살펴보기
BigQuery의 서버리스 인프라를 통해 리소스 관리 대신 데이터 자체에 집중할 수 있습니다. BigQuery는 클라우드 기반 데이터 웨어하우스와 강력한 분석 도구를 결합합니다.
BigQuery 스토리지
BigQuery는 분석 쿼리에 최적화된 열 형식 스토리지 형식을 사용하여 데이터를 저장합니다. BigQuery는 테이블, 행, 열로 데이터를 표현하고 데이터 트랜잭션 시맨틱스를 완전 지원합니다(ACID). BigQuery 스토리지는 고가용성을 위해 여러 위치 간에 자동으로 복제됩니다.
- 데이터 웨어하우스 및 데이터 마트에서 BigQuery 리소스를 구성하는 일반적인 패턴에 대해 알아보기
- 테이블 및 뷰의 BigQuery 최상위 컨테이너인 데이터 세트 알아보기
- 다음을 사용하여 BigQuery에 데이터 로드합니다.
- Storage Write API를 사용하여 데이터를 스트리밍합니다.
- Avro, Parquet, ORC, CSV, JSON, Datastore, Firestore를 포함한 형식을 사용하여 로컬 파일 또는 Cloud Storage에서 데이터를 일괄 로드합니다.
- BigQuery Data Transfer Service는 데이터 수집을 자동화합니다.
자세한 내용은 BigQuery 스토리지 개요를 참조하세요.
BigQuery 분석
기술적 및 예측적 분석 사용에는 비즈니스 인텔리전스, 임시 분석, 지리정보 분석, 머신러닝이 포함됩니다. BigQuery에 저장된 데이터를 쿼리하거나 Cloud Storage, Bigtable, Spanner, Google Drive에 저장된 Google Sheets를 포함하여 외부 테이블 또는 통합 쿼리를 사용하여 저장된 위치에서 데이터에 쿼리를 실행할 수 있습니다.
- 조인, 중첩 및 반복 필드, 분석 및 집계 함수, 멀티 문 쿼리, 지리정보 분석을 통한 다양한 공간 함수(지리 정보 시스템) 지원을 포함한 ANSI 표준 SQL 쿼리(SQL:2011 지원)
- 분석 공유를 위해 보기를 만듭니다.
- Looker Studio를 사용하는 BI Engine, Looker, Google Sheets, 타사 도구(Tableau 및 Power BI 등)를 포함한 비즈니스 인텔리전스 도구 지원
- BigQuery ML은 머신러닝 및 예측 분석 제공
- BigQuery Studio는 Python 노트북 및 노트북 및 저장된 쿼리 모두에 대한 버전 제어와 같은 기능을 제공합니다. 이러한 기능을 사용하면 BigQuery에서 데이터 분석 및 머신러닝(ML) 워크플로를 쉽게 완료할 수 있습니다.
- 외부 테이블 및 통합 쿼리로 BigQuery 외부 데이터 쿼리
자세한 내용은 BigQuery 분석 개요를 참조하세요.
BigQuery 관리
BigQuery는 데이터 및 컴퓨팅 리소스를 중앙에서 관리하고, Identity and Access Management(IAM)는 Google Cloud에서 사용되는 액세스 모델로 이러한 리소스를 보호하도록 도와줍니다. Google Cloud 보안 권장사항 기존 경계 보안 또는 보다 복잡하고 세밀한 심층 방어 접근 방식을 포함할 수 있는 견고하지만 유연한 접근 방식을 제공합니다.
- 데이터 보안 및 거버넌스 소개에서는 데이터 거버넌스와 BigQuery 리소스 보안을 위해 필요한 컨트롤에 대해 자세히 설명합니다.
- 작업은 BigQuery가 데이터 로드, 내보내기, 쿼리, 복사를 위해 사용자 대신 실행하는 작업입니다.
- 예약을 사용하면 주문형 가격 책정과 용량 기반 가격 책정 간의 전환이 가능합니다.
자세한 내용은 BigQuery 관리 소개를 참조하세요.
BigQuery 리소스
BigQuery 리소스를 살펴보세요.
- 출시 노트는 기능, 변경사항, 지원 중단에 대한 변경 로그를 제공합니다.
분석 및 스토리지를 위한 가격 책정을 참조하세요. 참조: BigQuery ML, BI Engine, Data Transfer Service 가격 책정.
위치는 데이터 세트를 만들고 저장할 위치(리전 및 멀티 리전 위치)를 정의합니다.
스마트 분석 참조 패턴은 일반적인 분석 기능 개발을 위한 권장사항을 포함하여 일반적인 분석 사용 사례에 대한 샘플 코드 및 기술 참조 가이드 링크를 제공합니다.
Stack Overflow에서는 BigQuery를 사용하는 개발자 및 분석가들을 위한 커뮤니티가 운영되고 있습니다.
BigQuery 지원은 BigQuery 관련 도움을 제공합니다.
Google BigQuery: 최종 가이드: 데이터 웨어하우징, 애널리틱스, 규모에 맞는 머신러닝을 통해 Valliappa Lakshmanan과 Jordan Tigani가 BigQuery 작동 방식을 설명하고 서비스 사용 방법에 대한 엔드 투 엔드 안내를 제공합니다.
API, 도구, 참조
BigQuery 개발자 및 분석가를 위한 참조 자료:
- GoogleSQL 사용에 대한 자세한 내용은 SQL 쿼리 문법을 참조하세요.
- BigQuery API 및 클라이언트 라이브러리에서는 BigQuery 기능 및 사용에 관한 개요를 제공합니다.
- BigQuery 코드 샘플은 C#, Go, 자바, Node.js, Python, Ruby에서 클라이언트 라이브러리에 대해 수백 개의 스니펫을 제공합니다. 또는 샘플 브라우저를 참조하세요.
- DML, DDL, 사용자 정의 함수(UDF) 문법을 사용하면 BigQuery 데이터를 관리하고 변환할 수 있습니다.
- bq 명령줄 도구 참조에서는
bq
CLI 인터페이스의 문법, 명령어, 플래그, 인수를 설명합니다. - ODBC/JDBC 통합은 BigQuery를 기존 도구 및 인프라에 연결합니다.
BigQuery 역할 및 리소스
BigQuery는 다음 역할 및 책임에 대한 데이터 전문가의 요구를 해결합니다.
데이터 분석가
다음을 수행해야 하는 경우 유용한 태스크 안내입니다.
- SQL 쿼리 문법으로 대화형 또는 일괄 쿼리를 사용하여 BigQuery 데이터를 쿼리합니다.
- SQL 표현식, 함수, 연산자를 참조하여 데이터를 쿼리합니다.
Looker, Looker Studio, Google Sheets 등의 도구를 사용하여 BigQuery 데이터를 분석하고 시각화합니다.
지리정보 분석을 사용해서 BigQuery의 지리정보 시스템으로 지리정보 데이터를 분석하고 시각화합니다.
다음 항목을 사용해서 쿼리 성능을 최적화합니다.
- 파티션을 나눈 테이블: 시간 또는 정수 범위를 기준으로 큰 테이블을 프루닝합니다.
- 구체화된 보기: 쿼리 최적화 또는 영구적인 결과 제공을 위해 캐시된 보기를 정의합니다.
- BI Engine: BigQuery의 빠른 인메모리 분석 서비스입니다.
Google Cloud 콘솔에서 직접 BigQuery의 데이터 분석 기능을 둘러보려면 둘러보기를 클릭합니다.
데이터 관리자
다음을 수행해야 하는 경우 유용한 태스크 안내입니다.
- 예약으로 주문형 및 용량 기반 가격 책정 간의 균형을 맞춰 비용 관리
- 데이터 세트, 테이블, 열, 행 또는 보기별로 데이터를 보호하기 위한 데이터 보안 및 거버넌스 이해
- 테이블 스냅샷으로 데이터를 백업하여 특정 시간에 테이블의 내용 보존
- 데이터 세트, 작업, 액세스 제어, 예약, 테이블 등의 메타데이터를 이해하기 위해 BigQuery INFORMATION_SCHEMA 보기
- BigQuery가 데이터를 로드, 내보내기, 쿼리, 복사하도록 작업 사용
- 로그 및 리소스를 모니터링하여 BigQuery 및 워크로드를 파악
자세한 내용은 BigQuery 관리 소개를 참조하세요.
Google Cloud 콘솔에서 직접 BigQuery 데이터 관리 기능을 둘러보려면 둘러보기를 클릭합니다.
데이터 과학자
다음을 수행하기 위해 BigQuery ML 머신 언어를 사용해야 할 경우에 도움이 되는 태스크 안내:
- 머신러닝 모델의 엔드 투 엔드 사용자 경험 이해
- BigQuery ML을 위한 액세스 제어 관리
- 다음을 포함한 BigQuery ML 모델 생성 및 학습
- 선형 회귀 예측
- 바이너리 로지스틱 및 멀티클래스 로지스틱 회귀 분류
- 데이터 세분화를 위한 K-평균 클러스터링
- Arima+ 모델을 사용하여 시계열 예측
데이터 개발자
다음을 수행해야 하는 경우 유용한 태스크 안내입니다.
- 다음을 사용하여 BigQuery에 데이터 로드
다음을 포함하는 코드 샘플 라이브러리 사용:
Google Cloud 샘플 브라우저(BigQuery 범위 지정)
BigQuery 동영상 튜토리얼
다음은 BigQuery를 시작하는 일련의 동영상 튜토리얼입니다.
제목 |
설명 |
---|---|
BigQuery 시작 방법(17:18) | BigQuery란 무엇이고 BigQuery를 사용하는 방법을 요약한 개요입니다. 세그먼트로는 ETL 파이프라인, 가격 책정 및 최적화, BigQuery ML 및 BI Engine, Google Cloud 콘솔에서 BigQuery 데모로 마무리 등이 있습니다. |
BigQuery란 무엇인가요?(4:39) | 분석가 및 개발자를 위해 대규모 데이터를 수집하고 저장하도록 설계된 BigQuery에 대한 BigQuery 개요 설명 |
BigQuery 샌드박스 사용(3:05) | 신용카드가 없어도 쿼리를 실행할 수 있도록 BigQuery 샌드박스를 설정하는 방법 |
질문하기, 쿼리 실행(5:11) | BigQuery UI에서 SQL 쿼리를 작성하고 실행하는 방법 및 성공적인 실행 방법 선택 |
BigQuery에 데이터 로드(5:31) | 데이터를 실시간으로 수집하고 분석하는 방법 또는 데이터를 일회성으로 일괄 분석하는 방법과 Dogs vs. Cats 데이터 이용 |
쿼리 결과 시각화(5:38) | 복잡한 데이터 세트를 쉽게 이해하고 내부화할 수 있게 해주는 데이터 시각화 방법 |
IAM으로 액세스 관리(5:23) | 다른 사용자가 BigQuery에서 IAM 권한 및 액세스 제어를 통해 데이터 세트를 쿼리하도록 허용하는 방법 |
쿼리 저장 및 공유(6:17) | BigQuery에서 간편하게 쿼리를 저장하고 공유하는 방법 |
승인된 뷰로 민감한 정보 보호(7:12) | 맞춤설정된 액세스 제어를 설정하여 데이터 세트를 다른 사용자와 쉽게 공유하는 방법 |
BigQuery로 외부 데이터 쿼리(5:49) | BigQuery에서 외부 데이터 소스를 설정하고 Cloud Storage, Cloud SQL, Google Drive 등에서 데이터를 쿼리하는 방법 |
사용자 정의 함수란? (4:59) | BigQuery에서 데이터 세트를 분석하기 위한 사용자 정의 함수(UDF)를 만드는 방법 |
다음 단계
- BigQuery 스토리지에 대한 개요는 BigQuery 스토리지 개요를 참조하세요.
- BigQuery 쿼리에 대한 개요는 BigQuery 분석 개요를 참조하세요.
- BigQuery 관리에 대한 개요는 BigQuery 관리 소개를 참조하세요.
- BigQuery 보안에 대한 개요는 데이터 보안 및 거버넌스 개요를 참조하세요.