Professional Data Engineer

ケーススタディの例: Flowlogistic

これは、Professional Data Engineer 認定試験で使用される可能性のあるケーススタディの例です。試験問題を補足するコンテキストを提供するために、架空の会社やソリューションのコンセプトについて説明しています。

Flowlogistic ケーススタディ

会社の概要

Flowlogistic は物流およびサプライ チェーンのリーディング プロバイダです。企業のリソース管理と最終目的地への輸送をグローバルに支援しています。同社は急速に成長し、鉄道、トラック、航空機、海上輸送にまでサービスを拡大しました。

背景

Flowlogistic は地域のトラック運送会社としてスタートし、その後他の物流市場へと事業を拡大しました。創業当時のインフラストラクチャをそのまま使用しているため、注文と荷物の管理、追跡がボトルネックになっています。運用を改善するために、同社は荷物 1 つ 1 つをリアルタイムに追跡できる独自の技術を開発しました。ところが、Apache Kafka をベースに構築されている現在の仕組みではそれだけのデータ量を処理しきれないため、その技術を展開できないでいます。それに加えて同社では、注文や荷物の分析をさらに進め、リソースの配備を最適化できるようにしたいと考えています。

ソリューションのコンセプト

Flowlogistic は、クラウドを使用して 2 つのことを実現したいと考えています。

  • 独自開発した技術を使って、積荷の現在地を示すリアルタイム荷物追跡システムを構築すること。
  • すべての注文データと配送ログ(構造化データと非構造化データを含む)を分析し、リソース配備、顧客ターゲティング、今後の展開を目指す市場の選定などの意思決定に活用すること。また、予測分析の活用により、遅配が発生する可能性を前もって把握すること。

既存の技術的環境

Flowlogistic のアーキテクチャは単一のデータセンターに配置されています。

  • データベース:
    • 物理サーバー 8 台(2 クラスタに分けて使用)
      • SQL Server - ユーザーデータ、インベントリ データ、静的データ
    • 物理サーバー 3 台
      • Cassandra - メタデータ、追跡メッセージ
    • Kafka サーバー 10 台 - 追跡メッセージの集計およびバッチ挿入
  • アプリケーション サーバー - 顧客向けフロントエンド、注文 / 税関処理用ミドルウェア
    • 仮想マシン 60 台(物理サーバー 20 台でホスト)
      • Tomcat - Java サービス
      • Nginx - 静的コンテンツ
      • バッチサーバー
  • ストレージ アプライアンス
    • 仮想マシン(VM)ホスト用 iSCSI
    • ファイバー チャネル ストレージ エリア ネットワーク(FC SAN) - SQL サーバー ストレージ
    • ネットワーク アタッチ ストレージ(NAS) - イメージ ストレージ、ログ、バックアップ
  • Apache Hadoop / Spark サーバー 10 台
    • コア データレイク
    • データ分析
  • 汎用サーバー 20 台
    • Jenkins、モニタリング、踏み台インスタンス、セキュリティ スキャナ、課金ソフトウェア

ビジネス要件

  • 本番環境を柔軟にスケールできる、信頼性と再現性の高い環境を構築する。
  • 中央のデータレイクにデータを集約して分析する。
  • 履歴データを使用して、将来の出荷に関する予測分析をする。
  • 独自開発の技術を利用して、正確な荷物の配送状況をグローバルに追跡する。
  • 新しいリソースを迅速にプロビジョニングし、ビジネスの俊敏性とイノベーションのスピードを向上させる。
  • アーキテクチャを分析し、クラウドでのパフォーマンス向上のために最適化する。
  • 以上の全要件が満たされ次第、クラウドに完全移行する。

技術的要件

  • ストリーミング データとバッチデータの両方を処理する。
  • 既存の Hadoop ワークロードを移行する。
  • 需要の変化に対応できるよう、アーキテクチャのスケーラビリティと柔軟性を確保する。
  • 可能な限り、マネージド サービスを使用する。
  • データは転送時も保管時も暗号化する。
  • データセンターの本番環境とクラウド環境の間を VPN で接続する。

CEO の言葉

当社はあまりにも速く成長してきたためインフラストラクチャのアップグレードが追い付かず、それによりさらなる成長と効率化が妨げられています。荷物の運送は効率化できていますが、データ移動の効率化はまだまだです。お客様の所在地や荷物の内容などをより簡単に把握できるよう、情報を整理する必要があります。

CTO の言葉

当社ではこれまで、IT の優先順位は高いものではありませんでした。ですから、扱うデータ量の増加に見合う技術投資は行ってきていません。優れた IT スタッフは在籍していますが、皆インフラの管理に忙殺されていて、データの整理、分析環境の構築、CFO の追跡技術を実装する方法の策定など、本当に重要な事項を実行することができません。

CFO の言葉

当社では、他社との差別化として、遅配があったら配送料を割り引くことにしています。ですから、荷物の現在地を常に把握できるかどうかは業績と収益に直接響いてきます。また、サーバー環境の拡大に投資することは避けたいです。

< Professional Data Engineer 認定試験ガイドに戻る