コンテンツに移動
データ分析

Crux、信頼性と費用対効果に優れたデータ配信のために BigQuery を選択

2021年7月30日
Google Cloud Japan Team

※この投稿は米国時間 2021 年 7 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。

編集者注: 今回は、データ エンジニアリング&オペレーション企業 Crux Informatics に、信頼性と費用対効果に優れたデータ配信の実現に、BigQuery がどのような役割を果たしているかについて伺いました。

Crux Informatics のミッションは、データの大規模な配信と取り込みにおける障害を取り除くことでデータを流動させることです。Crux は、データ サプライ チェーン全体から、企業がデータの価値を最大限に引き出すのを妨げているあらゆる摩擦を取り除き、企業がより賢明なビジネス上の意思決定を行えるようにしたいと考えています。

しかし、同業者なら誰もが知るとおり、データ業界に一瞬たりとも休息はなく、常に進化と変化を続けています。この業界では、「休んでいるデータ(Data at rest)」とは文字通りの意味ではありません。確かにデータ自体は動いていないかもしれませんが、そのデータの周辺では休みなく計算が行われます。そのため、強固かつスケーラブルで、費用対効果の高いインフラストラクチャが必要不可欠です。そのようなインフラストラクチャがなければ、スタートラインに立つこともできません。

そのため、一元化された大規模なデータクラウドを構築する際には、今のデータ ストレージのニーズに合ったソリューションを選ぶだけでは不十分でした。それだけでなく、データ配信の巨大なエコシステムと、何千もの企業の運用をサポートできるよう、今後の取り組みを見据えてソリューションに投資する必要がありました。

高パフォーマンスかつ低コストの取り込み

Crux では、BigQuery をデータ ウェアハウスとして使用しています。当社の BigQuery 導入の工程で特筆すべきは、他の企業と違い、データ分析プラットフォームをモダナイズするために新しいソリューションを求めていたわけではなかったという点です。すでに、AWS 上の Snowflake で構成された最新のクラウドベース インフラストラクチャを有しており、十分に機能していました。当社は以前から Google と提携し、当社のデータレイクを使用するお客様に高パフォーマンスなデータアクセスとデータ処理を提供していました。スピードを求める今日のデータ分析要件に対して従来のソリューションが不適切または時代遅れだったというわけではなく、どうしても移行が必要という状況ではありませんでした。

BigQuery を選ぶ理由となる利点は多数ありますが、最も重要な要因は間違いなく料金モデルでした。テクノロジー自体の費用対効果が優れているかどうかではなく、テクノロジーを使用する方法が費用対効果に優れているかどうかが重要でした。

使用するデータの量、日々追加されるサプライヤーの数、サポートしているデータユーザーの数が多く、データ共有に対する需要が高まっているため、当社のデータ使用量は非常に膨大です。しかし、データの使用自体が収益につながるわけではありません。当社のビジネスにおける価値は、データの説明、配信、検証、変換、分散にあります。そのため、取り込みの費用がゼロに近いコアシステムが必要でした。

BigQuery へのデータ読み込みには費用がかからないので、当社独自のビジネスモデルに非常にマッチしています。もちろん、ストレージに対しての支払いは発生しますが、BigQuery へデータを読み込むためのコンピューティング コストを心配する必要はありません。そのおかげで、他の大規模なデータ ウェアハウス ソリューションではなかなか実現できないような低価格で、非常に強固な基盤を構築できました。

コストゼロに近い高速取り込みと、すべてのデータを複数の形式で 1 か所に保存できる機能を組み合わせることで、数々のメリットや低コストであることを実感できます。

プラットフォームの統合でさらに優れたデータ エクスペリエンスを実現

BigQuery を選ぶメリットは価格だけではありません。それ以外にも、他の Google Cloud Platform(GCP)の各種ツールおよびサービスと統合し、BigQuery からアクセスできるというメリットがあります。たとえば、大規模な GCP エコシステムに存在する外部データソースとの接続を設定し、連携クエリを実行したり外部データテーブルを作成したりできます。

静的または半静的参照データの他に、リアルタイムのストリーミング データとも連携できます。たとえば、当社は市場価格をライブで取り込み、BigQuery にストリーミングしたいと考えていました。目的は必ずしもリアルタイムのデータ分析とは限りません。時間を置いて履歴分析に使用するためにリアルタイムでデータを収集するニーズが高まっています。もちろん、すぐに分析に使用するために収集するニーズも大きくなっています。

また、Dataflow のようなソリューションを利用することで、余分な労力をかけずにさらなる価値を得ることができています。Dataflow と BigQuery を使用してストリーミング データ処理を行うことで、統合プロセス全体がシームレスなものとなりました。

データのエンドユーザーの立場からも見てみましょう。BigQuery の統合により、当社の全体的な顧客満足度は向上しています。当社は、Google Cloud Storage、Amazon、Azure など、エンドユーザーが必要とする場所にデータを簡単に転送できます。また、お客様は独自のプロセスにオーバーヘッドを追加することなく、好みのビジネス インテリジェンス ツールを統合できます。当社での最も一般的なユースケースの一つとして、BigQuery へのインスタント ODBC 接続を作成する機能があります。この優れた機能のおかげで、当社のデータを使用するお客様に、全体的に以前よりも良いエクスペリエンスを提供できるようになりました。

さらに、BigQuery を使用すると追加コスト不要でクロスリージョン レプリケーションを簡単に使用できます。BigQuery は、クラウド上で動作するアプリケーションというより、クラウドそのものだと言えます。データベース レプリケーションを整理する代わりに追加ストレージの料金と下り(外向き)料金を支払うことで、従来に比べてほんのわずかな費用でデータセットをグローバルにホストできます。

適切なカスタマー サポートがもたらす変革

決断の最後のひと押しとなった差別化要因は、Google チームでした。Google のサポートのすばらしさは格別です。他のプロバイダの場合、必ずしも良いサービスを受けられるとは限りません。問題を報告する機能があり、報告すればしかるべき専門家がその問題にきちんと対応してくれると確信できるような、密接な関係性を持てることはまれです。

Google のサポートチームは常に迅速に応対し、すべての作業がスムーズに進むよう支援してくれます。実のところ、BigQuery を選んだ当初は費用が最大の関心事だったのですが、Google のサポートチームが関係を強固なものにしてくれました。

多くのプロバイダにとって、柔軟性、信頼性、スケーラビリティは多くの分野で必要不可欠な要素です。しかし、このレベルの配慮や細心の気遣いは、どこにでもあるものではありません。これこそが BigQuery を使用して得た Crux の成功の主要な要素です。そして今後もそれは変わらないでしょう。

本物のクラウドデータ ディール

組織が 1 つのタイプのデータアクセスしか必要としないことはほとんどありません。また、同じ組織内でもデータへのアプローチが統一されていることはまれです。Google Cloud と BigQuery の存在により、フルマネージドのグローバルなスケーリング、負荷管理、高パフォーマンス、誠実で実際的なサポートなど、データクラウドのメリットを余すところなくお客様にお届けすることができています。入力したデータをいつでも出力して利用できる。これこそが、サプライヤーやユーザーだけでなく、自社チームにも提供したいと当社が考えるエクスペリエンスです。この理念に基づき、当社のプラットフォームはこれからもお客様のニーズにお応えし、あらゆるソースからご希望の宛先へ、検証と変換もお望みのままに、データを配信していきます。

-Crux Informatics 最高技術責任者 Mark Etherington 氏

投稿先