正式な計画なしで事業を運営することは、地図なしで都市を建設するようなものです。時間が経つにつれて、「データスワンプ」になってしまいます。これらは、誰も見つけられず、信頼できず、使用できない生データで満たされた巨大なストレージ領域です。設計なしにデータをため込むと、エンジニアリング チームは新しい機能の構築や AI モデルのトレーニングよりも、情報の探索に多くの時間を費やすことになります。
優れたアーキテクチャは、IT リーダーとビジネス リーダーの間の翻訳者としても機能します。リーダーが「顧客の動向をリアルタイムで把握する必要がある」と言った場合、アーキテクチャはその目標を技術的に実現します。エンジニアに、BigQuery などのツールへのストリーミング パイプラインを構築するように指示するかもしれません。この連携により、テクノロジーに費やされるすべてのドルが、実際に会社の成長に役立つことが保証されます。
最新のデータ アーキテクチャは、データの作成、移動、保存、精製、使用というライフサイクルに従います。この仕組みを理解するには、データがさまざまなシステムを通過する経路を確認すると役立ちます。
このシステムの技術的な構成要素は、開発者が構築するすべてのものの基盤として機能します。各部分には、それぞれ固有の役割があります。
すべてはデータが作成される場所から始まります。これは、顧客向けアプリ、工場現場のセンサー(IoT)、サードパーティ API などです。これらのソースは、構造化データ(名前や日付など)と非構造化データ(チャットログなど)をさまざまな速度で送信します。
これらは、日々のアプリデータを保存する専用のツールです。デベロッパーは、銀行取引などのためにリレーショナル データベースを使用し、ユーザー プロファイルなどのために非リレーショナル(NoSQL)データベースを使用します。最終的には、これらの「運用」ホームからデータを引き出して、より大規模なプロジェクトや ML トレーニングに使用する必要があります。
データレイクは、元データを保存するためのスケーラブルな大容量ストレージ領域です。データを最初にフォーマットする必要がないため、データをすばやく「着地」させることができます。すべてのチームが同じ未加工の情報にアクセスして、それぞれの特定のニーズに使用できるため、サイロ化が解消されます。
ここでは、本格的な作業のためにデータが整理されます。最新のデータ ウェアハウスと「マート」には、迅速なクエリとリアルタイムのアラートのための構造化されたスペースが用意されています。これにより、煩雑で整理されていないファイルによって速度が低下することなく、大規模なレポートを実行できます。
AI を機能させるには、新鮮なデータを継続的に取り込む必要があります。データ サイエンティストは、このアーキテクチャを使用してモデルのトレーニング用のデータを見つけます。その後、システムはモデルに新しい情報を継続的にフィードし、モデルが実世界で正確な状態を維持できるようにする必要があります。
データ ガバナンスには、データをクリーンかつ合法に保つためのルールとツールが含まれます。多くの場合、中央カタログを使用して、必要なものを見つけられるようにします。また、ロールを設定することで、適切なユーザーのみが機密情報を閲覧できるようにし、プライバシー法を遵守しています。
ほとんどの組織は、データフローを整理する 3 つの主な方法から選択します。
これは従来の方法です。会社全体のすべてのデータが、1 つの大きな統合されたウェアハウスまたはレイクに格納されます。「信頼できる唯一の情報源」を維持するのに最適で、1 つのルールセットを簡単に設定できます。ただし、ボトルネックになる可能性があります。すべてのチームが 1 つの中央 IT グループにデータの移動を依頼しなければならない場合は、会社が成長するにつれて作業の進展が遅くなります。
この最新のモデルでは、マーケティングや財務などのさまざまなビジネスチームが、それぞれのデータを所有して管理します。ルールとツールの共有セットによって接続されています。このモデルは、データメッシュやデータ ファブリックと呼ばれることが多く、一元管理を担う部門による処理を待つ必要がないため、チームの作業を迅速化できます。
データ レイクハウスは、データレイクの低コストで柔軟なストレージと、データ ウェアハウスの高パフォーマンスの管理およびトランザクションを組み合わせた最新のアーキテクチャです。基本的なレポート作成から高度な ML まで、すべてを単一の統合プラットフォームで直接実行できるため、ベンダー ロックインを回避できます。
ツールから始めるのではなく、「なぜ」から始めましょう。ビジネスが達成する必要があることを特定します。リアルタイムでクレジットカードの不正使用を検出する必要がある場合もあれば、生成 AI チャットボットを構築したい場合もあるでしょう。目標がわかれば、どのようなアーキテクチャが必要かがわかります。
すでに持っているものを見てみましょう。古い「レガシー」システム、データサイロ、データが滞留する場所を確認します。この監査により、保持できるものとクラウドに移行する必要があるものを判断できます。
テクノロジーを導入する前にルールを設定します。データの所有者と、データをクリーンに保つ方法を決定します。コンプライアンスを基盤に組み込んでおけば、後でセキュリティの脆弱性を慌てて修正する必要がなくなります。
スタックを選択します。データを移動、保存、変換するためのツールを、相互に連携して動作するものから選びます。Lakehouseやメッシュなど、選択したパターンをサポートし、将来の AI 計画に対応できることを確認します。
意思決定の向上
データが簡単に見つかり、信頼できるものであれば、リーダーは推測する必要がありません。リアルタイムのレポートや予測トレンドを確認して、行動を起こすことができます。これにより、「これはうまくいくかもしれない」という考えが「これはうまくいく」という確信に変わります。
業務の効率化とコスト削減
優れたアーキテクチャでは、同じデータを 3 か所に保存するために料金を支払う必要がなくなります。また、データの移動の退屈な部分を自動化します。これにより、クラウド料金を節約できるだけでなく、エンジニアが壊れたパイプラインの修正ではなく、新しい優れた機能の構築に集中できるようになります。
AI と ML の準備状況
質の高いデータがなければ、質の高い AI は実現できません。堅牢なアーキテクチャは、モデルが学習するために必要な、クリーンで整理された、管理されたデータを提供します。これにより、生成 AI が適切なコンテキストを把握して、有用で正確な回答を提示できるようになります。
最新のデータ アーキテクチャを構築するには、シームレスに連携するモジュール式のツールスタックが必要です。データ環境の構築、管理、保護に使用される主な Google Cloud プロダクトは次のとおりです。






