Professional Data Engineer

ケーススタディの例: MJTelco

これは、Professional Data Engineer 認定試験で使用される可能性のあるケーススタディの例です。試験問題を補足するコンテキストを提供するためのもので、架空の会社やソリューションのコンセプトについて説明しています。

MJTelco ケーススタディ

会社の概要

MJTelco は、急速に成長している世界中の未開拓な市場でネットワークを構築しようとしているスタートアップ企業です。同社は、革新的な光通信ハードウェアの特許を取得しており、この特許によって、信頼性の高い高速バックボーン リンクを安価なハードウェアで大量に構築することを可能としています。

背景

経験豊富な通信会社の幹部によって設立された MJTelco は、宇宙での通信の課題を克服するために開発された技術を活用しています。同社事業の根本として、トポロジを継続的に最適化するためのリアルタイム分析や機械学習を取り入れた、分散データ インフラストラクチャの開発は不可欠です。同社のハードウェアは安価であるため、同社では流動的な地方政治が特定地域における可用性とコストに及ぼす影響に対応するべく、ネットワークに冗長性を持たせることを計画しています。

同社の管理チームと運用チームは世界中に拠点を置き、自社システムでデータ利用者とプロバイダとの間を多対多で結びつけています。 慎重に検討した結果、同社は、パブリック クラウドこそが自社のニーズを満たすうえで最適な環境であると判断しました。

ソリューションのコンセプト

MJTelco は現在、自社のラボで概念実証(PoC)プロジェクトを順調に進めています。同社には主に次の 2 つのニーズがあります。

  • 設置数が 5 万を超えた場合に、大幅に増加するデータフローに対応できるよう PoC をスケール、強化する。
  • トポロジ定義を制御するために使用する動的モデルを検証、改善できるよう機械学習サイクルを改良する。

また、MJTelco は、実験の実施、新機能の導入、本番環境の顧客へのサービス提供というニーズを満たすために、開発およびテスト、ステージング、本番の 3 種類の独立した運用環境を利用する予定です。

ビジネス要件

  • コストを最小限に抑えながら本番環境をスケールし、予測不可能で分散した電気通信ユーザー コミュニティが必要する時と場所に合わせてリソースをインスタンス化する。
  • 自社独自のデータに対するセキュリティを確保し、自社の持つ最先端の機械学習と分析技術を保護する。
  • 各地に分散した研究者が分析用データに確実かつタイムリーにアクセスできるようにする。
  • 顧客に影響を与えることなく、機械学習モデルの迅速なイテレーションをサポートする独立した環境を維持する。

技術的要件

  • テレメトリー データの伝送と保管を安全かつ効率的に行う。
  • インスタンスを迅速にスケールし、それぞれが複数のフローを持つ 10,000〜100,000 のデータ プロバイダをサポートする。
  • 約 1 億レコード/日のデータを最長 2 年まで追跡できるデータテーブルを参照した分析とプレゼンテーションを可能にする。
  • テレメトリー フローと本番環境における学習サイクルの両方でのデータ パイプラインの問題検知に焦点を当てた、モニタリング インフラストラクチャの迅速なイテレーションによる変更をサポートする。

CEO の言葉

当社のビジネスモデルは、自社特許、分析そして動的機械学習に依存しています。当社のハードウェアは安価でありながら高信頼性を実現できるように配置されいるため、他社に比べコスト面で有利となっています。当社は信頼性と容量におけるコミットメントを果たすべく、大規模な分散データ パイプラインを迅速に安定化させる必要があります。

CTO の言葉

当社のパブリック クラウド サービスは、宣伝したとおりに動作しなければなりません。そのためには、スケールすると同時にデータの安全性が確保できるリソースが必要です。また、当社のデータ サイエンティストが当社のモデルを慎重に検討し、すばやく変化に適応させることができる環境も必要です。当社はデータを処理するうえで自動化に依存しています。そのため、開発 / テスト環境でのイテレーションによる変更を、サービスに影響を与えることなく可能にする必要があります。

CFO の言葉

このプロジェクトは、データや分析に必要なハードウェアとソフトウェアを自社で維持するにはあまりにも大規模です。また、大量のデータフィードをモニタリングするためのスタッフを運用チームに配置する余裕はありません。そのため当社では自動化とインフラストラクチャを活用する予定です。Google Cloud の機械学習を活用することにより、量的調査担当者はデータ パイプラインの問題ではなく、価値の高い課題に取り組むことができるようになるでしょう。

< Professional Data Engineer 試験ガイドに戻る