データ ウェアハウスの BigQuery への移行: レポートと分析

このドキュメントは、データ ウェアハウスの BigQuery への移行について説明するシリーズの一部です。BigQuery でデータ ウェアハウスを管理する場合は、柔軟性の高い BI ソリューションを使用してレポートや分析を行うことができます。BigQuery でこれらのソリューションを使用して、有益なデータ分析を行う方法について説明します。Google と Google の技術パートナーが、次のソリューションを提供します。これによって、さまざまな種類の包括的なデータ分析が可能になります。

  • 記述的分析: リアルタイムのデータと過去のデータを分析し、過去の挙動を把握します。
  • 予測分析: 将来の結果の可能性を予想し、その結果が実現する可能性を予測します。
  • 処方的分析: 将来の結果がビジネスに与える影響を定量化し、最適な行動方針を推薦します。

一連のドキュメントには、次のパートがあります。

サードパーティ製ソリューションとの統合

サードパーティの BI ソリューションを使用して BigQuery でデータを分析する場合は、初期構成を行って、BigQuery と選択したソリューション間の接続を確立することをおすすめします。

ネットワーク接続

外部 IP アドレスを持つホストとサービスにデプロイされる BI とデータ分析のソリューションはすべて、インターネット経由で公開 BigQuery REST API と RPC ベースの BigQuery Storage API(ベータ版) を介して BigQuery にアクセスできます。

内部 IP アドレスのみを使用する(外部 IP アドレスは使用しない)Compute Engine VM インスタンスにデプロイされるサードパーティの BI およびデータ分析ソリューションは、限定公開の Google アクセスを使用して Google API と BigQuery などのサービスにアクセスできます。サブネットごとに限定公開の Google アクセスを有効にします。これは VPC ネットワークのサブネットの設定です。限定公開の Google アクセスのサブネットを有効にして要件を表示するには、限定公開の Google アクセスの構成をご覧ください。

オンプレミス ホストにデプロイされるサードパーティの BI およびデータ分析ソリューションは、オンプレミス ホスト用の限定公開の Google アクセスを使用して、Google API と BigQuery などのサービスにアクセスできます。このサービスによって、データセンターから Google Cloud への Cloud VPN または Cloud Interconnect を介したプライベート接続が確立されます。オンプレミス ホストには、外部 IP アドレスは必要ありません。内部 RFC 1918 IP アドレスが使用されます。オンプレミス ホスト用の限定公開の Google アクセスを有効にするには、オンプレミス ネットワークと VPC ネットワークで、DNS、ファイアウォール ルール、ルートを構成する必要があります。オンプレミス ホスト用の限定公開の Google アクセスの詳細については、オンプレミス ホスト用の限定公開の Google アクセスの構成をご覧ください。

サードパーティによる BI ソリューションのインスタンスを管理する場合は、Google のネットワーク バックボーンを活用し、インスタンスと BigQuery 間のレイテンシを最小限に抑えるため、Compute Engine にデプロイすることを検討してください。

可能な限り、BI ソリューションでサポートされている場合は、レポートやダッシュボードのクエリでフィルタを設定することを検討してください。この手順は、フィルタを WHERE 句として BigQuery に push します。これらのフィルタを設定しても、BigQuery がスキャンするデータ量は減少しませんが、ネットワーク経由で返されるデータ量は減少します。

ネットワークとクエリの最適化について詳しくは、データ ウェアハウスの BigQuery への移行: パフォーマンスの最適化クエリ パフォーマンスの最適化の概要をご覧ください。

ネイティブ統合と ODBC / JDBC による統合

Google の BI およびデータ分析プロダクト(Google データポータルDataprocAI Platform Notebooks など)およびサードパーティ ソリューション(Tableau など)を使用すると、BigQuery REST API を直接使用して、BigQuery をネイティブに統合できます。

他のサードパーティ ソリューションでは、同じレベルの直接統合は提供されない場合があります。このような場合のために、Google は Simba Technology Inc. と協力して、BigQuery の Standard SQL の機能を使用する ODBC ドライバと JDBC ドライバを提供しています。これらのドライバの目的は、BigQuery の機能を、ネイティブ統合のない既存のツールとインフラストラクチャに接続することです。ODBC / JDBC 接続によって公開される機能は、必然的に BigQuery の全機能のサブセットになります。ODBC / JDBC 接続がネイティブ接続ほど効率的でない場合があります。詳細については、Google BigQuery の Simba ドライバに関する Google のドキュメントと Google BigQuery 用の SQL コネクタを使用した ODBC ドライバと JDBC ドライバに関する Simba のドキュメントをご覧ください。

認証

Google BigQuery API は、OAuth 2.0 アクセス トークンを使用してリクエストを認証します。OAuth 2.0 アクセス トークンは、API への一時的なアクセスを許可する文字列です。Google の OAuth 2.0 サーバーは、すべての Google API のアクセス トークンを許可します。アクセス トークンはスコープに関連付けられています。これは、トークンのアクセスに対する制限です。BigQuery API に関連するスコープについては、Google API スコープの全リストをご覧ください。

ネイティブ BigQuery 統合を提供する BI およびデータ分析ソリューションは、OAuth 2.0 プロトコルまたは、顧客指定のサービス アカウントの暗号鍵を使用して、BigQuery のアクセス トークンを自動的に生成できます。同様に、Simba ODBC / JDBC ドライバに依存するソリューションは、Google ユーザー アカウントまたは Google サービス アカウントのアクセス トークンも取得可能です。

インタラクティブなダッシュボードとレポート

データをビジュアルに表示することで、データドリブンのビジネス上の意思決定を強力に支援できます。可視化ツールは、ユーザーがデータを分析するうえで、大きな助けとなります。定量的なメッセージを視覚的に伝えることで、ユーザーは因果関係を理解、異常な動作を特定、傾向とパターンを特定できます。

次のセクションでは、BigQuery と統合して、魅力的かつ効果的なインタラクティブ ダッシュボードとレポートを作成するさまざまなビジュアル ツールについて説明します。

BI Engine

BI Engine は、BigQuery に組み込まれた高速のメモリ内分析サービスで、他のデータ可視化ツールを通じてデータの探索と分析を高速化します。BI Engine を使用すると、BigQuery に保存されたデータを分析できます。クエリ応答時間は 1 秒未満で、同時実行性にも優れています。BI Engine を使用すると、パフォーマンス、スケーリング、セキュリティ、データの鮮度を損なうことなく、高機能かつインタラクティブなダッシュボードとレポートを作成できます。

BI Engine は、データポータルでのみ使用できます。この統合の詳細については、データポータルのご利用方法を参照してください。

BI Engine がサポートされないソリューションでは、BigQuery の組み込みキャッシュを、可能な限り使用できます。また、BigQuery の低コスト ストレージを活用して、新しい BigQuery テーブルの大規模なデータセットのクエリ結果を具体化し、BI ソリューションを構成してテーブルから結果を読み取ることもできます。

データポータル

データポータルは、フルマネージドのデータ可視化とレポート作成の無料サービスです。組織のメンバーは、インタラクティブなダッシュボードを通じてデータから分析情報を引き出せます。データポータルと BigQuery BI Engine を組み合わせると、膨大なデータセットを対象としたデータ探索とビジュアルなインタラクションが 1 秒未満でできるようになります。データポータルには以下の特長があります。

  • 柔軟性の高いレポート キャンバス、多数の可視化機能、BigQuery 用のネイティブ コネクタを含む多数の組み込みデータコネクタやカスタム データコネクタを使用して、ドラッグするだけで使える効果的なダッシュボードと分析機能をビルドできます。
  • 高速なビジュアル インタラクティビティ、リアルタイム ダッシュボードによる共同作業、Google エコシステムを通じた緊密な統合により、ユーザーを刺激し、引きつけます。
  • Google のサーバーレスでセキュアなプラットフォーム上で、組織全体のセルフサービスと集中型の両方の BI ワークロードを IT プロビジョニングや管理の必要なしにスケーリングします。

Google アナリティクス マーケティング サイトのデータポータルのサンプル レポート。

詳しくは、データポータルのドキュメントデータポータルのクイック スタートガイドをご覧ください。また、以下のガイドもご覧ください。

Looker

Looker は、BI プラットフォームを通じてデータ分析とビッグデータ サービスを提供しています。ネイティブ BigQuery を統合し、ネイティブ BigQuery とユーザー定義関数やネストデータなどのネイティブ BigQuery 機能をサポートします。

複数の既存の Looker Block を使用すると、BigQuery の独自の機能を使用できます。

Looker から BigQuery への接続設定をするには、適切な BigQuery IAM のロールを持つサービス アカウントを作成し、サービス アカウントの秘密鍵をダウンロードして Looker にアップロードします。接続の設定に関する詳しいチュートリアルについては、Google BigQuery Legacy SQL と Google BigQuery Standard SQL を対象とした Looker チュートリアルを参照してください。

統合を試すには、Google Cloud Marketplace から入手できる BigQuery 上で Looker テストドライブを実行してください。詳しくは、Looker For Google Cloud Platform ホワイトペーパーLooker と BigQuery を使って Fastly ログからリアルタイムの実用的な洞察を引き出すにあるケーススタディを参照してください。

Looker ダッシュボード、Fastly のログデータを使用したトラブルシューティング

Tableau

Tableau は、ユーザーがスプレッドシート、リレーショナル データベース、ビッグデータの情報をインタラクティブに見つけて可視化するための BI と分析ソフトウェアを開発しています。Tableau は、BigQuery のような、さまざまな Google Cloud プロダクトとのネイティブな統合を提供します。

Tableau Server のインスタンスを管理する場合は、Google のネットワーク バックボーンを使用し、Tableau Server と BigQuery のレイテンシを最小限に抑えるために Compute Engine にデプロイすることをおすすめします。このデプロイの詳細は、Google Cloud 上の Tableau Server のインストールに関するチュートリアルCompute Engine での Tableau Server に関するベスト プラクティスをご覧ください。

Tableau インスタンスが実行中の場合は、BigQuery をデータソースとして追加できます。Tableau から BigQuery へのリクエストを認証するには、このチュートリアルの説明に従って個々の Google ユーザーに OAuth を設定するか、Tableau サーバーに ODBC Simba ドライバをインストールし、Tableau のデータソースとして他のデータベース(ODBC)を選択します。大規模なデータセットの場合は、ライブ接続により BigQuery に処理をオフロードし、キャッシュを最適化することをおすすめします。BigQuery で Tableau を使用する場合のベスト プラクティスの詳細については、Zulily による詳細なケーススタディをご覧ください。

他のプロバイダ

BigQuery ソリューション プロバイダは、データの統合から分析まで、業界最先端ツールの数々を BigQuery と統合し、データの読み込みや、変換、可視化を実現しています。これらのツールを使用すると、BigQuery の俊敏性やパフォーマンス、利便性を活用することで、価値のある分析情報をより迅速に引き出せます。利用可能なプロバイダの全一覧をご覧ください。

Exploratory による SQL 分析

SQL(Structured Query Language)は、リレーショナル データベース管理システムでデータを管理および分析するために設計された一般的な言語です。BigQuery Standard SQLANSI SQL 2011 標準に準拠しています。このコンプライアンスにより、SQL のトレーニングを受けたデータ アナリストは BigQuery を使用した大規模なデータセットの分析をすぐに開始できます。

BigQuery には、ネストされたデータと繰り返しデータのクエリおよびユーザー定義関数(UDF)の指定に対応した拡張機能もあります。UDF を利用すると、別の SQL 式、または JavaScript などの別のプログラミング言語を使用して関数を作成できます。これらの関数は入力列を受け取ってアクションを実行し、その結果を値として返します。

以下の各セクションでは、BigQuery に格納されたデータの処理と分析に、SQL を使用するための複数のオプションについて説明します。

BigQuery のユーザー インターフェース

BigQuery は、グラフィカルなウェブ ユーザー インターフェース(UI)を BigQuery リソースの作成と管理、SQL クエリの実行に使用できる Cloud Console に公開します。

BigQuery ウェブ UI のスクリーンショット

BigQuery ウェブ UI を使用してジョブの実行クエリの実行を行うと、その履歴はナビゲーション ペインに保存されます。クエリも一種のジョブですが、使いやすさを考えてクエリ履歴は別途保存されます。[リソース] セクションには、固定されたプロジェクトのリストが含まれています。プロジェクトを展開して、アクセス可能なデータセットとテーブルを表示できます。[リソース] セクションには検索ボックスが用意されており、名前(プロジェクト名、データセット名、テーブル名、ビュー名)またはラベルでリソースを検索できます。検索バーでは、現在のプロジェクト内および固定されたプロジェクト内の完全一致のリソースと部分一致のリソースがすべて検索されます。

BigQuery UI を使用すると、クエリを保存、共有し、承認されたビューを定義して生産性を高め、コラボレーションをサポートできます。クエリを定期的に実行するようにスケジュール設定することもできます。

ウェブ UI の例は、BigQuery ドキュメントの入門ガイドに多く記載されています。BigQuery ウェブ UI でデータを読み込み、クエリを実行する方法については、BigQuery ウェブ UI を使用したクイックスタートをご覧ください。

BigQuery Geo Viz

BigQuery 地理情報システム(GIS)は、地理空間データ型と関数をサポートしており、空間属性を持つデータを分析して操作できます。

BigQuery Geo Viz は、Google Maps API を使用して BigQuery の地理空間データを可視化するためのウェブツールです。SQL クエリを実行し、インタラクティブな地図に結果を表示できます。柔軟なスタイル設定機能を備えており、データの分析や探索に利用できます。

BigQuery Geo Viz は完全な機能を持つ BigQuery GIS 可視化ツールではありません。Geo Viz は、GIS クエリの結果を一度に 1 クエリずつ、地図上で可視化するための軽量な方法です。

Geo Viz を使用して BigQuery の GIS データを可視化する例については、データ アナリスト向けの BigQuery GIS スタートガイドをご覧ください。

Geo Viz 可視化サンプル。

BigQuery ML

BigQuery ML を使用すると、BigQuery で標準 SQL クエリを使用して、機械学習モデルを作成し実行できます。BigQuery ML は、既存の SQL ツールやスキルを活用してモデルを構築できるようにすることで、機械学習をより簡単なものにします。BigQuery ML では、データを移動する必要がないため、開発スピードを向上させることができます。またアナリストが、記述的な分析から予測的な分析に移行できます。

大規模なデータセットで機械学習を行うには、ML フレームワークに対する高度なプログラミング技術と知識が必要になります。このため、どの組織でもソリューションの開発はごく限られたメンバーで行われています。データをよく理解していても、プログラミングの経験が少なく、機械学習に詳しくないデータ アナリストは除外されています。

ML モデルのトレーニングの統計情報に関するサンプル。

BigQuery ML では、既存の SQL ツールとスキルで機械学習を使用できるため、データ アナリストも機械学習を簡単に利用できるようになります。アナリストは、BigQuery ML を使用して BigQuery に ML モデルを構築し、評価できます。スプレッドシートや他のアプリケーションに少量のデータをエクスポートする必要はありません。データ サイエンス チームの限られたリソースを待つ必要もありません。

BigQuery ML の使用を開始するには、公式の BigQuery ML ドキュメントBigQuery ML チュートリアルウェブ UI を使用した BigQuery ML のスタートガイドをご覧ください。

Dataflow SQL

Dataflow SQL では、SQL クエリを使用して、BigQuery ウェブ UI から Cloud Dataflow ジョブを開発して実行できます。Dataflow SQL は Apache Beam SQL と統合され、ZetaSQL クエリ構文のバリアントがサポートされます。ZetaSQL のストリーミング拡張機能を使用すると、ストリーミング データの並列処理パイプラインを定義できます。次に例を示します。

  • 既存の SQL スキルを使用して、BigQuery ウェブ UI からストリーミング パイプラインを開発して実行します。SDK 開発環境を設定する必要や、Java または Python でプログラミングを行う方法を理解している必要はありません。
  • ストリーム(Pub/Sub など)をスナップショット データセット(BigQuery テーブルなど)と結合します。
  • スキーマをオブジェクト(テーブル、ファイル、Pub/Sub トピックなど)と関連付けることによって、SQL でストリームや静的データセットのクエリを行います。
  • 分析やダッシュボード表示のために結果を BigQuery テーブルに書き込みます。

Dataflow SQL クエリエディタを使用してストリーミング データの並列処理パイプラインを定義します。

また、Apache Beam のセクションで説明されているように、Apache Beam と Dataflow は高度なプログラミング モデルもサポートしています。

Dataflow SQL について詳しくは、Dataflow SQL のドキュメントDataflow SQL UI のチュートリアルをご覧ください。

スプレッドシート

スプレッドシートは、ユーザーがデータを簡単に共有、分析できるため、多くのビジネスで広く利用されています。スプレッドシートの重要性を考慮すると、BigQuery にスプレッドシートを接続することで、新しいコラボレーションが可能になり、大規模なデータを分析する際に迅速に分析情報を得ることができます。

Google スプレッドシート

Google スプレッドシートはオンライン スプレッドシート アプリで、スプレッドシートの作成や書式設定、他のユーザーとの共同編集が可能です。BigQuery とスプレッドシートは、さまざまな方法で統合できます。

BigQuery のユーザー インターフェースからスプレッドシートに、BigQuery クエリの結果を保存できますが、いくつかの制限事項があります。連携クエリを使用することで、BigQuery のスプレッドシート ファイルなどの、Google ドライブに保存されたデータでクエリを実行することもできます。

BigQuery ユーザー インターフェースから BigQuery クエリの結果をスプレッドシートに保存します。

別の方法として、コネクテッド シートは、組織全体でデータドリブンの意思決定と共同作業を促進すると同時に、データの表示、編集、共有ができるユーザーを権限で制御するためのスプレッドシートの機能です。

コネクテッド シートによって、BigQuery のスプレッドシートのデータコネクタを使用すると、最大 100 億行の BigQuery データにアクセス、分析、可視化、共同作業を行うことができます。この機能を使用すると、エンドユーザーは BigQuery のエキスパートや SQL に精通したアナリストの助けを必要とせずに、分析情報を得ることができます。さらに、使い慣れた高速なスプレッドシート インターフェースによって、ビッグデータに対してセルフサービスの探索、ピボット処理、フィルタ処理、グラフ作成、数式ベースの分析ができます。

BigQuery クエリエディタを使用した接続シート。

Microsoft Excel

BigQuery には、Excel から BigQuery へのクエリを実行できるコネクタが用意されています。この機能は、Excel を使用してデータを管理する場合に便利です。BigQuery コネクタには、BigQuery に接続して指定されたクエリを実行し、そのデータを Excel にダウンロードして反映する機能があります。詳しくは、Excel 用の BigQuery コネクタの使用に関するガイドをご覧ください。

また、BigQuery 用 ODBC ドライバを使用すると、Microsoft Excel などの ODBC API をサポートするツールを BigQuery に接続できます。詳しくは、ODBC を使用して Microsoft Excel から BigQuery へ接続するに関するチュートリアルをご覧ください。

BigQuery をクエリする方法を示す Excel シート。

ノートブックとプログラマティック分析

SQL は強力なクエリ言語ですが、Python、Java、R などのプログラミング言語では、特定の種類のデータ分析に役立つ構文や、組み込みの統計関数が提供されています。

同様に、スプレッドシートは広く使用されていますが、ノートブックなどのプログラミング環境では、複雑なデータ分析や探索のためのフレキシブル環境が提供される場合があります。

このセクションでは、BigQuery で管理されるデータを分析するための、さまざまなコードの記述方法と実行方法を学びます。

Jupyter ノートブック

Jupyter は、ライブコード、テキスト記述、可視化を含むノートブックを公開するオープンソースのウェブ アプリケーションです。データ サイエンティスト、機械学習の専門家、学生がこのプラットフォームを、データの消去と変換、数値シミュレーション、統計モデル、データの可視化、機械学習などに利用しています。

Jupyter ノートブックは、BigQuery と直接対話できる強力な対話型シェルである IPython カーネル上に構築されています。これは BigQuery 用 IPython マジックを使用して BigQuery を直接操作できます。また、利用可能な BigQuery クライアント ライブラリをインストールして、Jupyter ノートブック インスタンスから BigQuery にアクセスすることも可能です。Jupyter ノートブックで GeoJSON 拡張機能を使用して、BigQuery GIS データを可視化できます。BigQuery の統合の詳細は、Jupyter ノートブックでの BigQuery データの可視化に関するチュートリアルを参照してください。

BigQuery GIS データの可視化を示す Jupyter ノートブックのチャート。

JupyterLab は、Jupyter ノートブック、テキスト エディタ、ターミナル、カスタム コンポーネントなどのドキュメントやアクティビティを管理するウェブベースのインターフェースです。JupyterLab では、複数のドキュメントやアクティビティを、タブと分割線を使って、作業領域に配置できます。

JupyterLab:複数のドキュメントやアクティビティをタブと分割線で並べて作業領域に配置。

Google Cloud に Jupyter ノートブックと JupyterLab 環境をデプロイするには、次のいずれかのプロダクトを使用します。

Apache Zeppelin

Apache Zeppelin は、データ分析にウェブベースのノートブックを提供するオープンソース プロジェクトです。Zeppelin のオプション コンポーネントをインストールすることにより、Dataproc に Apache Zeppelin のインスタンスをデプロイできます。デフォルトでは、ノートブックは Dataproc ステージング バケット内の Cloud Storage に保存されます。保存先バケットは、クラスタの作成時にユーザーが指定するか、指定がなければ自動作成されます。ノートブックの場所は、クラスタの作成時に zeppelin:zeppelin.notebook.gcs.dir というプロパティを追加して変更できます。インストールと構成の詳細については、Zeppelin コンポーネント ガイドをご覧ください。また、BigQuery Interpreter for Apache Zeppelin を使用した BigQuery データセットの分析の詳細な例も参照してください。

Zeppelin に表示されるテーブルデータの SQL 分析。

Apache Hadoop と Apache Spark

データ分析パイプラインの移行の一部として、データ ウェアハウスから直接データを処理する必要がある Apache Hadoop ジョブと Apache Spark ジョブを移行することもできます。たとえば、機械学習ワークロードの機能を抽出できます。

Dataproc を使用すると、高速で使いやすいフルマネージドの Hadoop クラスタと Spark クラスタを、簡単かつコスト効果の高い方法でデプロイできます。Dataproc は、BigQuery コネクタを統合します。この BigQuery コネクタは Java ライブラリで、これにより Hadoop と Spark は Apache Hadoop の InputFormat クラスと OutputFormat クラスの抽象化されたバージョンを使用して BigQuery のデータを直接処理することが可能になります。または、BigQuery からデータを読み取るために、Apache Spark SQL connector for Google BigQuery(ベータ版)をインストールできます。このコネクタは、BigQuery Storage API(ベータ版)を使用して、並列処理により BigQuery から gRPC に直接データをストリーミングします。

既存の Hadoop ワークロードと Spark ワークロードを Dataproc に移行する場合、移行するワークロードの依存関係が、サポートされている Dataproc バージョンの対象となるかを確認するにはこちらをご覧ください。カスタム ソフトウェアをインストールする必要がある場合は、独自の Dataproc イメージを作成する独自の初期化アクションを作成する、またはカスタム Python パッケージの要件を指定するオプションを検討してください。

ご利用にあたっては、Dataproc クイックスタート ガイドBigQuery コネクタのコードサンプルをご覧ください。

Apache Beam

Apache Beam は、ウィンドウ処理とセッション分析のプリミティブが豊富に用意されているだけでなく、ソースとシンクのコネクタからなるエコシステムも提供しているオープンソース フレームワークです。これには BigQuery 用のコネクタも含まれます。Apache Beam を使用して、ストリーミング(リアルタイム)モードのデータとバッチ(履歴)モードのデータを同等の信頼性と明瞭度で変換、拡充できます。

Dataflow は、Apache Beam ジョブを大規模に実行するためのフルマネージド サービスです。Dataflow のサーバーレス アプローチは、パフォーマンス、スケーリング、可用性、セキュリティ、コンプライアンスに自動的に対処することによって、運用上のオーバーヘッドを取り除きます。つまり、ユーザーはサーバー クラスタの管理ではなく、プログラミングに専念できるということです。

複合変換(MakeMapView)が展開された実行グラフ。副入力を作成するサブ変換(CreateDataflowView)が選択されていて、[ステップ] タブに、そのサブ変換での副入力の指標が表示されています。

Dataflow ジョブは、コマンドライン インターフェースJava SDK または Python SDK のいずれかを使用してさまざまな方法で送信できます。

データクエリとパイプラインを他のフレームワークから Apache Beam と Dataflow に移植するには、Apache Beam プログラミング モデルの詳細を確認して、公式の Dataflow ドキュメントをご覧ください。

RStudio

データ サイエンティストは、多くの場合 R プログラミング言語を使用して、データ分析ツールや統計アプリを開発しています。RStudio では、チームが業務を拡大し、共有するために、R およびエンタープライズ対応のプロフェッショナル プロダクトの無料オープンツールを開発できます。RStudio Server Pro などの RStudio 製品は、R によるデータ分析を簡素化し、パブリッシュと共有に役立つ強力なツールを提供します。

RStudio Server Pro は、オンデマンドで、商用ライセンスが付与された統合開発環境(IDE)です。人気の RStudio オープンソース IDE の機能とターンキーの利便性、強化されたセキュリティ、複数の R バージョンとセッションを管理する機能などを提供します。

Cloud Marketplace から RStudio Server Pro for Google Cloud コンポーネントをデプロイできます。このバージョンは、RStudio Server Pro と同じですが、複数バージョンの R と一般的なシステム ライブラリのプリインストールなど、データ サイエンティストにとっての利便性が向上しています。これには bigrquery という R 用の BigQuery パッケージも含まれています。これは、低レベルの SQL または高レベルの dplyr 動詞を使用して BigQuery と対話できる DBIdplyr バックエンドを提供します。このパッケージを使用すると、BigQuery テーブルにクエリを実行し、プロジェクト、データセット、テーブル、ジョブのメタデータを取得することで、BigQuery に格納されたデータを簡単に処理できます。詳しくは、RStudio Server Pro for Google Cloud のスタートガイドRStudio Server Pro for Google Cloud に関するよくある質問をご覧ください。

RStudio Server のオープンソース版を、この RStudio チュートリアルで説明されているように Dataproc クラスタにインストールすることもできます。Dataproc 上で RStudio を実行する利点は、Dataproc の自動スケーリングを利用できることです。自動スケーリングでは、SparkR ロジックの開発時に、クラスタの最小のサイズを設定できます。大規模な処理のためにジョブを送信した後、サーバーを変更する必要はありません。SparkR ジョブを RStudio に送信するだけで、Dataproc クラスタは、設定した間隔内でジョブのニーズに応じてスケーリングされます。RStudio と Dataproc の統合の詳細については、公式発表をご覧ください。

RStudio の設定の概要。

その他のリソース

BigQuery は、Java、Go、Python、JavaScript、PHP、Ruby などの複数のプログラミング言語で、多数のクライアント ライブラリを提供します。Pandas などのデータ分析フレームワークでは、BigQuery とネイティブに相互作用するプラグインを提供しています。具体的な例については、Bokeh と BigQuery によるカスタム インタラクティブ ダッシュボードの作成と、BigQuery Storage API を使用して BigQuery データを pandas にダウンロードするに関するチュートリアルをご覧ください。

最後に、シェル環境でプログラムを作成する場合は、bq コマンドライン ツールを使用します。

次のステップ