데이터 웨어하우스를 BigQuery로 마이그레이션: 보고 및 분석

이 문서는 BigQuery로 데이터 웨어하우스 마이그레이션하는 과정을 살펴보는 시리즈 중 하나입니다. 데이터 웨어하우스가 BigQuery로 관리되는 경우 보고 및 분석을 위한 비즈니스 인텔리전스(BI) 솔루션이 포함된 유연한 제품군을 이용할 수 있습니다. 이 문서에서는 BigQuery에서 이러한 솔루션을 사용하여 데이터로부터 중요한 통찰을 얻는 방법을 설명합니다. Google 및 기술 파트너에서 제공되는 이러한 솔루션을 통해 여러 유형의 포괄적인 데이터 분석을 수행할 수 있습니다.

  • 기술적 애널리틱스: 실시간 및 이전 데이터를 분석하여 과거 행동을 설명합니다.
  • 예측적 애널리틱스: 발생 가능한 미래 성과를 예측하고 그러한 성과의 실현 가능성을 추정합니다.
  • 처방적 애널리틱스: 미래 성과가 비즈니스에 미치는 영향을 수량화하고 최상의 행동 방식을 제안합니다.

이 시리즈의 문서에는 다음과 같은 부분이 포함됩니다.

타사 솔루션 통합

타사 BI 솔루션을 사용하여 BigQuery로 데이터를 분석하는 경우, BigQuery와 해당 솔루션 사이의 연결을 설정하고 이를 제어하기 위해 몇 가지 초기 구성을 수행하는 것이 좋습니다.

네트워크 연결

외부 IP 주소를 사용하여 호스트 및 서비스에 배포되는 모든 BI 및 데이터 분석 솔루션은 공개 BigQuery REST API 및 RPC 기반의 BigQuery Storage API(베타)를 통해 인터넷으로 BigQuery에 액세스할 수 있습니다.

외부 IP 주소 없이 내부 IP 주소만 사용하여 Compute Engine VM 인스턴스에 배포되는 타사 BI 및 데이터 분석 솔루션은 비공개 Google 액세스를 사용하여 BigQuery와 같은 Google API 및 서비스에 연결할 수 있습니다. 비공개 Google 액세스는 서브넷 단위로 사용 설정되며, VPC 네트워크의 서브넷에 대한 설정입니다. 서브넷에 비공개 Google 액세스를 사용 설정하고 요구사항을 확인하려면 비공개 Google 액세스 구성을 참조하세요.

온프레미스 호스트에 배포되는 타사 BI 및 데이터 분석 솔루션은 온프레미스 호스트를 위한 비공개 Google 액세스를 사용하여 BigQuery와 같은 Google API 및 서비스에 연결할 수 있습니다. 이 서비스는 Cloud VPN 또는 Cloud Interconnect를 통해 데이터 센터에서 Google Cloud로의 비공개 연결을 설정합니다. 온프레미스 호스트는 외부 IP 주소가 필요하지 않으며, 대신 내부 RFC 1918 IP 주소를 사용합니다. 온프레미스 호스트에 비공개 Google 액세스를 사용 설정하려면 온프레미스 및 VPC 네트워크에 DNS, 방화벽 규칙, 경로를 구성해야 합니다. 온프레미스 호스트의 비공개 Google 액세스에 대한 세부정보는 온프레미스 호스트에 비공개 Google 액세스 구성을 참조하세요.

타사 BI 솔루션의 고유 인스턴스를 관리하려면 Google의 네트워크 백본을 활용하고 인스턴스와 BigQuery 사이의 지연 시간을 최소화하기 위해 이를 Compute Engine에 배포하는 것이 좋습니다.

가능한 모든 경우에 그리고 BI 솔루션에서 지원되는 경우, 보고서 또는 대시보드의 쿼리에 필터를 설정하는 것이 좋습니다. 이렇게 하면 필터가 BigQuery에 WHERE 절로 푸시됩니다. 이러한 필터를 설정해도 BigQuery가 스캔하는 데이터 양은 줄어들지 않지만, 네트워크를 통해 다시 돌아오는 데이터 양이 줄어듭니다.

네트워크 및 쿼리 최적화에 대한 자세한 내용은 BigQuery에 데이터 웨어하우스 마이그레이션: 성능 최적화쿼리 성능 최적화 소개를 참조하세요.

네이티브 및 ODBC/JDBC 통합

Google 데이터 스튜디오, Dataproc, Notebooks와 같은 Google의 BI 및 데이터 분석 제품과 Tableau와 같은 일부 타사 솔루션은 BigQuery REST API를 직접 사용하여 기본 BigQuery 통합을 제공합니다.

하지만 다른 타사 솔루션에서는 이와 동일한 수준의 직접 통합이 제공되지 않을 수 있습니다. 이러한 경우 Google은 BigQuery 표준 SQL의 성능을 활용하는 ODBCJDBC 드라이버를 제공하기 위해 Simba Technologies Inc.와 제휴를 맺었습니다. 이러한 드라이버는 사용자가 기본적인 통합 없이 기존의 도구와 인프라에 BigQuery의 성능을 연결할 수 있도록 지원하기 위해 제작되었습니다. ODBC/JDBC 연결로 제공되는 기능은 BigQuery의 전체 기능 중 일부에 속합니다. 때때로 ODBC/JDBC 연결은 네이티브 연결만큼 효율적으로 수행되지 않을 수 있습니다. 자세한 내용은 Google BigQuery를 위한 Simba 드라이버에 대한 Google 문서 및 Google BigQuery를 위한 SQL Connector가 포함된 ODBC 및 JDBC 드라이버에 대한 Simba 문서를 참조하세요.

인증

BigQuery API는 OAuth 2.0 액세스 토큰을 사용하여 요청을 인증합니다. OAuth 2.0 액세스 토큰은 API에 대한 임시 액세스 권한을 부여하는 문자열입니다. Google의 OAuth 2.0 서버는 모든 Google API에 액세스 토큰을 부여합니다. 액세스 토큰에는 토큰의 액세스를 제한하는 범위가 적용됩니다. BigQuery API와 연결되는 범위는 Google API 범위 전체 목록을 참조하세요.

기본 BigQuery 통합을 제공하는 BI 및 데이터 분석 솔루션은 OAuth 2.0 프로토콜 또는 고객이 제공한 서비스 계정 비공개 키를 사용하여 BigQuery에 대한 액세스 토큰을 자동으로 생성할 수 있습니다. 이와 비슷하게, Simba ODBC/JDBC 드라이버를 사용하는 솔루션도 Google 사용자 계정 또는 Google 서비스 계정에 대한 액세스 토큰을 얻을 수 있습니다.

대화형 대시보드 및 보고서

시각적 양식으로 데이터를 표현하는 것은 데이터 중심의 비즈니스 의사결정을 지원하기 위한 강력한 방법입니다. 실제로 시각화 도구는 사용자가 데이터를 분석하고 추론할 때 사용자를 보조하는 중요한 역할을 수행할 수 있습니다. 이러한 도구에서 시각적으로 표시되는 수량화된 메시지를 통해 사용자는 인과관계를 이해하고, 비정상 행동을 식별하고, 추세와 패턴을 파악할 수 있습니다.

다음 섹션에서는 BigQuery에 통합된 다양한 시각 도구를 사용하여 대화형 대시보드 및 보고서를 효과적으로 작성하는 방법을 살펴봅니다.

BI Engine

BI Engine은 BigQuery에 내장된 메모리 내 분석 서비스입니다. 이 서비스를 사용하면 다른 데이터 시각화 도구를 통해 데이터 탐색 및 분석을 빠르게 수행할 수 있습니다. BI Engine을 사용하면 1초 미만의 쿼리 응답 시간과 높은 동시 실행으로 BigQuery에 저장된 데이터를 분석할 수 있습니다. BI Engine에서는 성능, 확장성, 보안을 저해하지 않고, 최신 데이터를 사용하면서도 다양한 기능의 대화형 대시보드 및 보고서를 작성할 수 있습니다.

BI Engine은 데이터 스튜디오에서만 사용할 수 있습니다. 이 통합에 대한 자세한 내용은 데이터 스튜디오 사용 시작하기 가이드를 참조하세요.

BI Engine을 지원하지 않는 솔루션에서는 가능한 모든 경우에 BigQuery의 내장 캐시를 사용할 수 있습니다. 또한 BigQuery의 저비용 스토리지 이점을 활용해서 대규모 데이터세트에 대한 쿼리 결과를 새로운 개별 BigQuery 테이블로 구체화한 후 이러한 테이블의 결과를 읽을 수 있도록 BI 솔루션을 구성할 수 있습니다.

데이터 스튜디오

데이터 스튜디오는 무료로 사용할 수 있는 완전 관리형 시각화 및 보고 서비스입니다. 이 서비스의 대화형 대시보드를 통해 데이터에 숨겨진 핵심 정보를 찾아낼 수 있습니다. 데이터 스튜디오를 BigQuery BI Engine과 결합하면 대량 데이터세트에 대해서도 데이터 탐색 및 시각적인 데이터 표현을 1초 미만의 속도로 처리할 수 있습니다. 데이터 스튜디오에서 처리할 수 있는 작업은 다음과 같습니다.

  • 유연한 보고 캔버스와 수백 개의 시각화 및 BigQuery를 위한 기본 커넥터가 포함된 사전 빌드된 또는 커스텀 데이터 커넥터를 사용하여 드래그와 같은 쉬운 방법으로 대시보드 및 분석을 효율적으로 작성할 수 있습니다.
  • 빠른 시각적 상호작용, 실시간 대시보드 공동작업, Google 에코시스템 간의 심층 통합으로 사용자에게 영감을 주고 참여를 유도합니다.
  • 불필요한 IT 프로비저닝 또는 운영 없이 Google의 안전한 서버리스 플랫폼에서 전사적으로 셀프 서비스 또는 중앙화된 BI 워크로드를 확장합니다.

Google 애널리틱스 마케팅 사이트의 샘플 데이터 스튜디오 보고서

자세한 내용은 데이터 스튜디오 문서데이터 스튜디오 빠른 시작 가이드를 참조하세요. 또한 다음 가이드도 참조하세요.

Looker

Looker는 해당 BI 플랫폼을 통해 고객들을 위해 데이터 애널리틱스 및 빅 데이터 서비스를 생성합니다. Looker는 네이티브 BigQuery 통합을 제공하며 사용자 정의 함수 및 중첩 데이터와 같은 네이티브 BigQuery 기능을 지원합니다.

여러 기존 Looker 블록을 통해 다음과 같은 BigQuery의 고유한 기능을 사용할 수 있습니다.

Looker에서 BigQuery로의 연결을 설정하려면 적절한 BigQuery IAM 역할이 포함된 서비스 계정을 만든 후 서비스 계정의 비공개 키를 다운로드하고, 이 키를 Looker에 업로드해야 합니다. 연결 설정에 대한 자세한 가이드는 Google BigQuery Legacy SQL 및 Google BigQuery 표준 SQL을 위한 Looker 가이드를 참조하세요.

Google Cloud Marketplace에서 제공되는 Looker Test Drive를 BigQuery에서 실행하여 통합을 시도해 볼 수 있습니다. 자세한 내용은 Google Cloud를 위한 Looker 백서Looker 및 BigQuery로 Fastly 로그에서 실행 가능한 실시간 통찰을 얻는 방법의 사례 연구를 참조하세요.

Looker 대시보드, Fastly 로그 데이터를 사용하여 문제해결

Tableau

Tableau는 스프레드시트에서 관계형 데이터베이스 및 빅 데이터까지 다양한 소스의 정보를 대화형으로 검색하고 시각화할 수 있도록 디자인된 BI 및 분석 소프트웨어를 만듭니다. Tableau는 BigQuery와 같은 다양한 Google Cloud 제품들과의 네이티브 통합을 제공합니다.

자체 Tableau Server 인스턴스를 관리하려면 Google의 네트워크 백본을 활용하고 Tableau Server와 BigQuery 사이의 지연 시간을 최소화하기 위해 이를 Compute Engine에 배포하는 것이 좋습니다. 이 배포에 대한 자세한 내용은 Google Cloud에서 Tableau Server 설치 안내Compute Engine에서 Tableau Server 권장사항을 참조하세요.

Tableau 인스턴스가 실행 중이면 BigQuery를 데이터 소스로 추가할 수 있습니다. Tableau에서 BigQuery로의 요청을 인증하려면 이 튜토리얼에 설명된 대로 개별 Google 사용자에 대해 OAuth를 설정하거나 Tableau Server에 ODBC Simba 드라이버를 설치한 후 Tableau에서 Other Database(ODBC)를 데이터 소스로 선택할 수 있습니다. 대규모 데이터세트의 경우 라이브 연결을 사용하여 처리 및 캐싱 최적화를 BigQuery로 오프로드하는 것이 좋습니다. BigQuery에 Tableau를 사용할 때의 자세한 권장사항은 Zulily 세부 사례 연구를 참조하세요.

기타 제공업체

데이터 통합부터 애널리틱스까지 BigQuery 솔루션 제공업체들이 갖고 있는 업계 최고의 도구들이 데이터 로드, 변환 및 시각화를 위해 BigQuery에 통합되어 있습니다. 이러한 도구로 고객들은 BigQuery의 민첩성, 성능, 쉬운 사용성 이점을 활용해서 더 빠르고 더 강력한 통찰을 제공할 수 있습니다. 사용 가능한 제공업체 전체 목록을 참조하세요.

탐색적 SQL 분석

SQL(구조적 쿼리 언어)은 관계형 데이터베이스 관리 시스템에서 데이터를 관리하고 분석하도록 디자인된 인기 있는 언어입니다. BigQuery 표준 SQLANSI SQL 2011 표준을 준수합니다. 덕분에 이미 SQL 교육을 받은 데이터 분석가가 빠르게 작업을 시작하고 BigQuery로 대규모 데이터세트를 분석할 수 있습니다.

BigQuery에는 중첩 및 반복 데이터 쿼리와 사용자 정의 함수(UDF) 지정을 지원하는 확장 기능도 포함됩니다. UDF를 사용하면 다른 SQL 표현식이나 자바스크립트와 같은 또 다른 프로그래밍 언어를 사용하여 함수를 만들 수 있습니다. 이러한 함수는 열을 입력으로 받아서 작업을 수행하고 이러한 작업의 결과를 하나의 값으로 반환합니다.

다음 섹션에서는 SQL을 사용하여 BigQuery에 저장된 데이터를 처리하고 분석하는 여러 옵션들을 설명합니다.

BigQuery 사용자 인터페이스

BigQuery는 BigQuery 리소스를 만들고 관리하며 SQL 쿼리를 실행하는 데 사용할 수 있는 그래픽 웹 사용자 인터페이스(UI)를 Cloud Console에 표시합니다.

BigQuery 웹 UI 스크린샷

BigQuery 웹 UI를 사용하여 작업을 실행하거나 쿼리를 실행하면 관련 기록이 탐색창에 보존됩니다. 쿼리도 일종의 작업이지만 쿼리 기록은 사용하기 쉽게 별도로 유지됩니다. 리소스 섹션에는 고정된 프로젝트 목록이 포함되어 있습니다. 프로젝트를 확장하면 액세스할 수 있는 데이터세트와 테이블이 표시됩니다. 리소스 섹션에서 검색창을 사용하여 이름(프로젝트 이름, 데이터 세트 이름, 테이블 이름, 뷰 이름)별로 또는 라벨별로 리소스를 검색할 수 있습니다. 검색창에서는 현재 프로젝트와 고정된 프로젝트 내에서 완전히 일치하거나 일치하는 부분이 있는 모든 리소스를 검색합니다.

BigQuery UI에서는 쿼리를 저장 및 공유하거나 승인된 뷰를 정의하여 생산성을 높이고 공동작업을 지원할 수 있습니다. 또한 반복적으로 실행할 쿼리 일정을 예약할 수도 있습니다.

BigQuery 문서의 안내 가이드 섹션에서 다양한 웹 UI 예시를 볼 수 있습니다. BigQuery 웹 UI를 사용하여 데이터를 로드하고 쿼리하는 예시는 빠른 시작: BigQuery 웹 UI 사용을 참조하세요.

BigQuery Geo Viz

BigQuery Geographic Information Systems(GIS)는 공간 속성이 있는 데이터를 분석하고 작업할 수 있게 해주는 지리정보 데이터 유형 및 함수를 지원합니다.

BigQuery Geo Viz는 Google 지도 API를 사용하여 BigQuery에서 지리정보 데이터를 시각화하기 위한 웹 도구입니다. SQL 쿼리를 실행하고 대화형 지도에 결과를 표시할 수 있습니다. 유연한 스타일 지정 기능을 사용하여 데이터를 분석 및 탐색할 수 있습니다.

BigQuery Geo Viz는 모든 기능을 갖춘 BigQuery GIS 시각화 도구가 아닙니다. Geo Viz는 한 번에 쿼리 1개씩 BigQuery GIS 쿼리 결과를 지도에 시각화하는 간단한 방법입니다.

Geo Viz를 사용하여 BigQuery GIS 데이터를 시각화하는 예시를 보려면 데이터 분석용 BigQuery GIS 시작하기를 참조하세요.

샘플 Geo Viz 시각화

BigQuery ML

BigQuery ML에서는 표준 SQL 쿼리를 사용하여 BigQuery에서 머신러닝 모델을 만들고 실행할 수 있습니다. BigQuery ML에서는 SQL 실무자가 기존 SQL 도구 및 기술을 사용하여 모델을 빌드할 수 있기 때문에 머신러닝을 보다 쉽게 활용할 수 있습니다. BigQuery ML은 데이터를 이동할 필요가 없으므로 개발 속도가 빠르고, 분석가가 서술적 분석에서 예측 분석으로 전환할 수 있게 해줍니다.

대규모 데이터세트에 머신러닝을 적용하기 위해서는 광범위한 프로그래밍 노력과 ML 프레임워크에 대한 지식이 필요합니다. 이러한 요구사항 때문에 각 회사 내 극소수 직원만 솔루션 개발 과정에 포함되고, 데이터 전문 지식이 있어도 머신러닝과 프로그래밍 전문 지식이 별로 없는 데이터 분석가는 개발 참여가 제한됩니다.

샘플 ML 모델 학습 통계

BigQuery ML은 데이터 분석가도 기존의 SQL 도구와 기술을 통해 머신러닝을 활용할 수 있게 해줍니다. 분석가는 BigQuery ML을 사용하여 BigQuery에서 ML 모델을 빌드하고 평가할 수 있습니다. 더 이상 분석가가 소량의 데이터를 스프레드시트 또는 다른 애플리케이션으로 내보낼 필요가 없고, 데이터 사이언스팀의 제한된 리소스를 기다릴 필요가 없습니다.

BigQuery ML을 시작하려면 공식 BigQuery ML 문서, BigQuery ML 가이드, 웹 UI를 사용하여 BigQuery ML 시작하기 가이드를 참조하세요.

Dataflow SQL

Dataflow SQL에서는 BigQuery 웹 UI에서 SQL 쿼리를 사용하여 Dataflow 작업을 개발하고 실행할 수 있습니다. Dataflow SQL은 Apache Beam SQL과 통합되며 ZetaSQL의 변형 쿼리 구문을 지원합니다. ZetaSQL의 스트리밍 확장 프로그램을 사용하여 다음과 같이 스트리밍 데이터 동시 처리 파이프라인을 정의할 수 있습니다.

  • SQL 기술을 사용하여 BigQuery 웹 UI에서 스트리밍 파이프라인을 개발하고 실행합니다. SDK 개발 환경을 설정하거나 자바 또는 Python에서 프로그래밍하는 방법을 알 필요가 없습니다.
  • 스트림(예: Pub/Sub)과 스냅샷 데이터 세트(예: BigQuery 테이블)를 조인합니다.
  • 스키마를 테이블, 파일, Pub/Sub 주제와 같은 객체와 연결하여 SQL로 스트림 또는 정적 데이터세트를 쿼리합니다.
  • 분석과 대시보드에 사용할 수 있도록 결과를 BigQuery 테이블에 씁니다.

Dataflow SQL 쿼리 편집기를 사용하여 스트리밍 데이터 동시 처리 파이프라인 정의

또는 Apache Beam과 Dataflow는 Apache Beam 섹션에 설명된 바와 같이 다양한 프로그래밍 모델도 지원합니다.

Dataflow SQL에 대한 자세한 내용은 Dataflow SQL 문서Dataflow SQL UI 둘러보기를 참조하세요.

스프레드시트

스프레드시트는 데이터를 쉽게 공유하고 분석할 수 있기 때문에 많은 업무 분야에서 널리 사용되고 있습니다. 스프레드시트의 중요성을 고려할 때, 이를 BigQuery와 연결하면 새로운 방식의 공동작업을 지원하고 대규모 데이터세트를 분석할 때 빠르게 통찰을 얻을 수 있습니다.

Google 스프레드시트

Google 스프레드시트는 사용자가 스프레드시트를 만들고, 서식을 지정하고, 다른 사람들과 동시에 작업할 수 있게 해주는 온라인 스프레드시트 앱입니다. BigQuery와 Google 스프레드시트는 여러 방식으로 통합될 수 있습니다.

일부 제한이 있지만 BigQuery 사용자 인터페이스에서 Google 스프레드시트에 BigQuery의 쿼리 결과를 저장할 수 있습니다. 또한 통합 쿼리를 사용하여 BigQuery에서 Google 스프레드시트 파일을 포함하여 Google 드라이브에 저장된 데이터를 쿼리할 수도 있습니다.

BigQuery 사용자 인터페이스에서 Google 스프레드시트에 BigQuery 쿼리 결과 저장

이와 달리 연결형 스프레드시트는 권한 설정을 통해 데이터 보기, 편집 또는 공유 권한이 있는 사람을 제어하면서 조직 전반에 걸쳐 데이터 중심의 의사결정 및 공동작업을 효과를 높여주는 Google 스프레드시트의 한 가지 기능입니다.

연결형 스프레드시트는 BigQuery에 Google 스프레드시트 데이터 커넥터를 사용할 때 활성화됩니다. 최대 100억 개까지의 BigQuery 데이터 행에서 액세스, 분석, 시각화 및 공동작업을 수행할 수 있습니다. 이 기능을 사용하면 최종 사용자가 SQL에 능숙한 BigQuery 전문가 또는 분석가의 도움 없이도 유용한 정보를 확인할 수 있습니다. 결과적으로 스프레드시트 인터페이스의 익숙한 기능과 속도를 통해 빅데이터에 대한 직접 탐색, 피벗팅, 필터링, 차트 작성, 수식 기반 분석이 가능합니다.

BigQuery 쿼리 편집기가 포함된 연결형 스프레드시트

Microsoft Excel

BigQuery는 Excel 내에서 BigQuery에 쿼리할 수 있게 해주는 커넥터를 제공합니다. 이 기능은 Excel을 사용하여 데이터를 관리할 때 유용할 수 있습니다. BigQuery 커넥터는 BigQuery에 연결하고, 지정된 쿼리를 수행하고, 데이터를 다운로드하여 Excel에 전달합니다. 자세한 내용은 Excel용 BigQuery 커넥터 사용에 관한 가이드를 참조하세요.

또는 BigQuery ODBC 드라이버를 사용하여 ODBC API를 지원하는 도구(예: Microsoft Excel)를 BigQuery에 연결할 수 있습니다. 자세한 내용은 ODBC를 사용하여 Microsoft Excel에서 BigQuery에 연결 가이드를 참조하세요.

BigQuery 쿼리 방법을 보여주는 Excel 시트

메모장 및 프로그래매틱 분석

SQL이 강력한 쿼리 언어이긴 해도 특정 유형의 데이터를 분석하기 위해서는 Python, 자바, R과 같은 프로그래밍 언어에서 제공되는 구문 및 여러 내장된 통계 함수를 사용하는 것이 더 직관적이고 쉬울 수 있습니다.

마찬가지로 스프레드시트가 널리 사용되더라도, 때로는 복잡한 데이터 분석 및 탐색을 수행할 때 메모장과 같은 다른 프로그래밍 환경을 이용하는 것이 더 유연할 수 있습니다.

이 섹션에서는 BigQuery에서 관리되는 데이터를 분석하기 위한 코드를 작성하고 실행하는 여러 방법을 살펴봅니다.

Jupyter 메모장

Jupyter는 라이브 코드, 텍스트 설명, 시각화를 포함하는 메모장을 게시하기 위한 오픈소스 웹 기반 애플리케이션입니다. 이 플랫폼은 데이터과학자, 머신러닝 전문가, 학생들이 데이터 정리 및 변환, 수치 시뮬레이션, 통계적 모델링, 데이터 시각화, 머신러닝 등을 위해 일반적으로 사용하는 도구입니다.

Jupyter 노트북은 BigQuery용 IPython Magics를 사용하여 BigQuery와 직접 상호작용할 수 있는 강력한 대화형 셸인 IPython 커널을 기반으로 작성되었습니다. 또는 무엇이든 사용 가능한 BigQuery 클라이언트 라이브러리를 설치하여 Jupyter 메모장 인스턴스에서 BigQuery에 액세스할 수 있습니다. GeoJSON 확장 프로그램을 통해 Jupyter 메모장으로 BigQuery GIS 데이터를 시각화할 수 있습니다. BigQuery 통합에 대한 자세한 내용은 Jupyter 메모장에서 BigQuery 데이터 시각화 가이드를 참조하세요.

BigQuery GIS 데이터의 시각화를 보여주는 Jupyter 노트북 차트

JupyterLab은 Jupyter 노트북, 텍스트 편집기, 터미널, 커스텀 구성요소와 같이 문서 및 활동을 관리하기 위한 웹 기반 사용자 인터페이스입니다. JupyterLab에서는 탭과 분할자를 사용하여 작업 영역에 여러 문서 및 활동을 나란히 배열할 수 있습니다.

JupyterLab: 탭 및 분할자를 사용하여 작업 영역에 여러 문서 및 활동을 나란히 배열

다음 제품 중 하나를 사용하여 Jupyter 노트북과 JupyterLab 환경을 Google Cloud에 배포할 수 있습니다.

  • 노트북은 머신러닝 개발자와 데이터 과학자가 최신 데이터 과학 및 머신러닝 프레임워크를 사용할 수 있는 통합된 JupyterLab 환경을 제공하는 관리형 서비스입니다. 노트북은 BigQuery와 같은 다른 Google Cloud 데이터 제품과 통합되어, 데이터 수집으로부터 사전 처리 및 탐색, 모델 학습과 배포로 쉽게 이동할 수 있습니다. 기존 노트북을 Notebooks로 마이그레이션할 때는 해당 노트북에 사용되는 커스텀 종속 항목 설치가 필요할 수 있습니다. 자세한 내용은 노트북 개요 가이드를 참조하세요.
  • Dataproc은 간단하고 비용 효율적인 방식으로 Apache SparkApache Hadoop 클러스터를 실행하기 위한 빠르고 사용하기 쉬운 완전 관리형 서비스입니다. Jupyter 선택적 구성요소를 사용하여 Dataproc 클러스터에 Jupyter 메모장 및 JupyterLab을 설치할 수 있습니다. 이 구성요소는 PySpark 코드를 실행하기 위한 Python 커널을 제공합니다. 기본적으로 Dataproc은 Cloud Storage에 저장할 메모장을 자동으로 구성하여 다른 클러스터가 동일한 메모장 파일에 액세스할 수 있게 합니다. 기존 메모장을 Dataproc에 마이그레이션할 때는 메모장의 종속 항목이 지원되는 Dataproc 버전에 포함되는지 확인하세요. 커스텀 소프트웨어를 설치해야 할 경우 자체 Dataproc 이미지를 만들거나 자체 초기화 작업을 작성하거나 커스텀 Python 패키지 요구사항을 지정할 수 있습니다. 시작하려면 Dataproc 클러스터에 Jupyter 메모장 설치 및 실행 가이드를 참조하세요.

Apache Zeppelin

Apache Zeppelin은 데이터 애널리틱스를 위한 웹 기반 노트북을 제공하는 오픈소스 프로젝트입니다. Zeppelin 선택적 구성요소를 설치하여 Dataproc에 Apache Zeppelin 인스턴스를 배포할 수 있습니다. 기본적으로 메모장은 사용자가 지정하거나 클러스터를 만들 때 자동 생성되는 Cloud Dataproc 스테이징 버킷의 Cloud Storage에 저장됩니다. 클러스터를 만들 때 속성 zeppelin:zeppelin.notebook.gcs.dir을 추가하여 메모장 위치를 변경할 수 있습니다. 설치 및 구성에 대한 세부정보는 Zeppelin 구성요소 가이드를 참조하세요. 또한 Apache Zeppelin을 위한 BigQuery 인터프리터를 사용하여 BigQuery 데이터세트 분석 세부 예시를 참조하세요.

Zeppelin에 표시된 테이블 데이터의 SQL 분석

Apache Hadoop 및 Apache Spark

데이터 분석 파이프라인 마이그레이션 중에는 데이터 웨어하우스에서 직접 데이터를 처리해야 하는 일부 레거시 Apache HadoopApache Spark 작업을 마이그레이션해야 할 수 있습니다. 예를 들어 머신러닝 워크로드를 위한 기능을 추출해야 할 수 있습니다.

Dataproc을 사용하면 간단하고 비용 효율적인 방법으로 빠르고 사용하기 쉬운 완전 관리형 Hadoop 및 Spark 클러스터를 배포할 수 있습니다. Dataproc은 Apache Hadoop InputFormatOutputFormat 클래스의 추상화된 버전을 사용하여 Hadoop 및 Spark가 BigQuery에서 직접 데이터를 처리할 수 있게 해주는 자바 라이브러리인 BigQuery 커넥터와 통합됩니다. 또는 BigQuery에서 데이터를 읽기 위해 Google BigQuery용 Apache Spark SQL 커넥터(베타)를 설치할 수 있습니다. 이 커넥터는 BigQuery Storage API(베타)를 사용하여 gRPC를 통해 BigQuery에서 직접 데이터를 병렬로 스트리밍합니다.

기존 Hadoop 및 Spark 워크로드를 Dataproc에 마이그레이션할 때는 워크로드의 종속 항목이 지원되는 Dataproc 버전에 포함되는지 확인할 수 있습니다. 커스텀 소프트웨어를 설치해야 할 경우 자체 Dataproc 이미지를 만들거나 자체 초기화 작업을 작성하거나 커스텀 Python 패키지 요구사항을 지정할 수 있습니다.

시작하려면 Dataproc 빠른 시작 가이드BigQuery 커넥터 코드 샘플을 참조하세요.

Apache Beam

Apache BeamBigQuery용 커넥터를 포함하여 소스 및 싱크 커넥터의 생태계는 물론 다양한 창과 세션 분석 기본 도구를 제공하는 오픈소스 프레임워크입니다. Apache Beam은 스트리밍(실시간) 모드와 일괄(기록) 모드에서 신뢰성과 표현 능력을 동일하게 지원하면서 데이터를 변환하고 강화할 수 있게 해줍니다.

Dataflow는 Apache Beam 작업을 대규모로 실행하기 위한 완전 관리형 서비스입니다. Dataflow 서버리스 접근 방식은 성능, 확장, 가용성, 보안 및 규정 준수가 자동으로 처리되어 운영 오버헤드가 없기 때문에 서버 클러스터 관리 대신 프로그래밍에 집중할 수 있습니다.

확장된 복합 변환(MakeMapView)이 포함된 실행 그래프 부차 입력을 만드는 하위 변환(CreateDataflowView)이 선택되고 부차 입력 측정항목이 단계 탭에 표시됩니다.

Dataflow 작업은 명령줄 인터페이스, 자바 SDK, Python SDK를 통해 여러 방법으로 제출할 수 있습니다.

다른 프레임워크에서 Apache Beam 및 Dataflow로 데이터 쿼리 및 파이프라인을 마이그레이션하려면 Apache Beam 프로그래밍 모델 및 공식 Dataflow 문서를 참조하세요.

RStudio

데이터과학자는 종종 R 프로그래밍 언어를 사용하여 데이터 분석 도구와 통계 앱을 빌드합니다. RStudio는 R을 위한 무료 오픈소스 도구와 팀의 업무 확장 및 공유를 위한 기업용 전문 제품들을 개발하고 있습니다. RStudio Server Pro와 같은 RStudio 제품들은 R을 사용한 데이터 분석을 단순화하고 게시 및 공유를 위한 강력한 도구들을 제공합니다.

RStudio Server Pro는 상업적으로 라이센스가 필요한 주문형 통합 개발 환경(IDE)입니다. 이 제품은 인기 있는 RStudio 오픈소스 IDE에 있는 기능과 여러 R 버전 및 세션을 관리하는 기능과 향상된 보안, 턴키 편의성 등을 제공합니다.

Cloud Marketplace에서 Google Cloud용 RStudio Server Pro 구성요소를 배포할 수 있습니다. 이 버전은 RStudio Server Pro와 동일하지만 여러 R 버전의 사전 설치 및 공통 시스템 라이브러리가 포함되어 데이터과학자에게 더 편리합니다. 또한 R용 BigQuery 패키지인 bigrquery가 포함되어 있습니다. 이 패키지는 로우레벨 SQL 또는 하이레벨 dplyr 동사를 사용하여 BigQuery와 상호작용할 수 있게 해주는 DBIdplyr 백엔드를 제공합니다. 이 패키지를 사용하면 BigQuery 테이블을 쿼리하고 프로젝트, 데이터세트, 테이블, 작업에 대한 메타데이터를 검색할 수 있기 때문에 BigQuery에 저장된 데이터를 쉽게 사용할 수 있습니다. 자세한 내용은 Google Cloud용 RStudio Server Pro 시작하기 공식 가이드 및 Google Cloud를를 위한 RStudio Server Pro FAQ를 참조하세요.

또한 이 RStudio 가이드에 설명된 대로 RStudio Server의 오픈소스 버전을 Dataproc 클러스터에 설치할 수 있습니다. Dataproc에서 RStudio를 실행하면 Dataproc 자동 확장을 활용할 수 있다는 장점이 있습니다. 자동 확장을 사용할 수 있으면 SparkR 논리를 개발할 때 클러스터 크기를 최소한으로 지정할 수 있습니다. 대규모 처리를 위한 작업을 제출한 후에도 다른 작업을 수행하거나 서버를 수정할 필요가 없습니다. 단순히 SparkR 작업을 RStudio에 제출하면 설정된 간격 내에 Dataproc 클러스터가 작업 요구에 맞게 확장됩니다. Dataproc과의 RStudio 통합에 대한 세부정보는 공식 공지를 참조하세요.

RStudio 설정 개요

기타 리소스

BigQuery는 자바, Go, Python, 자바스크립트, PHP, Ruby와 같은 여러 프로그래밍 언어로 다양한 클라이언트 라이브러리를 제공합니다. Pandas와 같은 일부 데이터 분석 프레임워크는 기본적으로 BigQuery와 상호작용하는 플러그인을 제공합니다. 일부 실제 예시를 보려면 Bokeh 및 BigQuery로 커스텀 대화형 대시보드 만들기BigQuery Storage API를 사용하여 Pandas에 BigQuery 데이터 다운로드 가이드를 참조하세요.

마지막으로 셸 환경에서 프로그램을 작성하는 것이 더 좋으면 bq 명령줄 도구를 사용할 수 있습니다.

다음 단계