統合に関するヒントと高度な概念

この記事では、データの統合の仕組みを理解し、複雑なユースケースを解決するために役立つ、データの統合に関するアドバイスと詳細な情報を提供します。この記事を最大限に活用するには、データ ブレンディングの基本を理解している必要があります。このトピックの他の記事を参照してください。

使用可能なデータのサブセットのみを統合に含める必要がある

ベスト プラクティスとして、統合に基づくグラフで可視化する特定のフィールドのみを含めることをおすすめします。これが重要な理由は次のとおりです。

  • 統合を行うと、非常に大きなデータセットが作成され、BigQuery などの有料サービスでのパフォーマンス低下やクエリ費用の増加につながることがあります。
  • 統合に基づくグラフでは、グラフ内で未使用であっても、統合内のすべての行が計算されます。
    • たとえば、10 個のフィールドを含む統合を作成し、そのうち 1 個のフィールドのみを使用するグラフを定義するとします。Looker Studio は 10 個のフィールドを含む統合を計算し、統合の出力内にあるその 1 個のフィールドをクエリしてグラフを作成します。
    • 再集計は、基になるデータのサブセットが統合に含まれている場合にのみ行われます。

統合を使用して指標を再集計する

基になるデータソースから含めた指標の数値は、統合では集計されません。基になるデータソースのフィールド セットの一部が統合に含まれていない場合、これらの数値は新しいデータに基づいて再集計されます。このように統合を使用すると、平均の平均の計算など、すでに集計されているフィールドに別の集計を適用する必要がある場合に役立ちます。

詳細については、統合を使用してデータを再集計するをご覧ください。

単一のデータソースから統合を作成する

ブレンドで異なるデータソースを使用する必要はありません。同じデータソースの複数のテーブルを統合してデータを再集計することもできます。

たとえば、次の表に示すように、米国で最も人口の多い州の上位 3 つの郡の人口データを含むデータセットがあるとします。

状態

人口(2023 年推定)

カリフォルニア

ロサンゼルス郡

10,014,009

カリフォルニア

サンディエゴ郡

3,298,634

カリフォルニア

オレンジ郡

3,186,989

テキサス

ハリス郡

4,731,145

テキサス

ダラス郡

2,613,539

テキサス

ターラント郡

2,110,640

ニューヨーク

キングス郡(ブルックリン)

2,736,074

ニューヨーク

クイーンズ郡

2,405,464

ニューヨーク

ブロンクス郡

1,418,890

州内の各郡の人口の割合を計算したい場合、そのためには各州の総人口を個別のフィールドとして用意する必要があります。この指標はデータセットでは利用できません。ただし、次の手順に沿って、人口データソースを自身と統合することで、この指標を取得できます。

  1. ベース データセットを使用してデータソースを作成します。
  2. そのデータソースを使用するグラフをレポートに追加します。
  3. 2 つのテーブルを組み合わせて結合を作成します。各テーブルは、手順 1 で作成したデータソースを使用します。
    1. 表 1 には、次のフィールドを含めます。
      1. 人口
      2. [Population] の名前を [CountyPopulation] に変更します。
    2. テーブル 2 には、Population フィールドを追加し、名前を StatePopulation に変更します。
  4. 結合条件には左外部結合を使用し、テーブル 1 の State をテーブル 2 の State にリンクします。
  5. [保存] をクリックします。
  6. [X] をクリックしてレポート エディタに戻ります。

次に、レポートに新しいグラフ(表など)を追加し、次の手順でグラフのデータソースとして統合を選択します。

  1. グラフに [State]、[County]、[CountyPopulation]、[StatePopulation] の各フィールドを追加します。
  2. 各郡の州人口の割合を計算するには、新しい再集計データを使用した計算フィールドをグラフに追加します。
    1. プロパティ パネルで [指標を追加]、[フィールドを追加] の順にクリックします。
    2. フィールドに名前を付けます(例: Percent of State Population)。
    3. [計算式] ボックスに「(CountyPopulation / StatePopulation)*100」と入力します。
    4. (省略可)[表示形式] を設定して、パーセント値を希望するレベルで表示します(小数点以下 2 桁の場合は [パーセント(2)] など)。

完了すると、テーブルは次のようになります。

状態

CountyPopulation

StatePopulation

州の人口に占める割合

カリフォルニア

ロサンゼルス郡

10014009

16499632

60.69

テキサス

ハリス郡

4731145

9455324

50.04

カリフォルニア

サンディエゴ郡

3298634

16499632

19.99

カリフォルニア

オレンジ郡

3186989

16499632

19.32

ニューヨーク

キングス郡(ブルックリン)

2736074

6560428

41.71

テキサス

ダラス郡

2613539

9455324

27.64

ニューヨーク

クイーンズ郡

2405464

6560428

36.67

テキサス

ターラント郡

2110640

9455324

22.32

ニューヨーク

ブロンクス郡

1418890

6560428

21.63

統合内のテーブルの順序

Looker Studio では、統合内の結合設定が左端から順に評価されます。それから、右側にある次の結合に各結合の結果が適用されます。たとえば 3 つのテーブルの統合の場合、テーブル 1(左端)とテーブル 2(中央)間の結合設定が評価され、次に、その結果がテーブル 2 とテーブル 3(右端)間の結合設定で使用されます。

自動作成された統合のテーブルの順序

選択したグラフを統合すると、Looker Studio によってグラフごとにテーブルが作成され、対応するテーブルにグラフ内のフィールドが追加されます。統合内のテーブルの順序は、グラフを選択する順序と一致します。つまり、最初に選択したグラフが最初(左端)のテーブルになり、2 番目に選択したグラフが 2 番目のテーブルになるということです。

また、Looker Studio では各テーブルの結合設定が自動的に作成され、左外部結合タイプが使用されます。

デフォルト設定が意図したとおりになっていない場合や、テーブル間に明確な関連付けがない場合は、目標に合わせて統合を編集できます。

テーブルは統合の前に作成される

統合内の各テーブルのデータは、そのデータが最終統合に結合される前にクエリされます。結合が実行される前に、テーブルを生成するクエリに対してテーブルの期間、フィルタ、計算フィールドが適用されます。これらの要因により、統合テーブルに含まれるデータが影響を受け、統合の出力が変更される場合があります。

統合すると元のデータよりも多くの行が含まれる場合がある

統合グラフには、統合を構成する個々のデータソースに基づくグラフよりも多くのデータが表示されることがあります。結果は、データと、統合に選択した結合設定によって異なります。たとえば、左外部結合には、左側のテーブルにあるすべてのレコードと、結合条件で同じ値を共有する右側のテーブルのレコードすべてが含まれています。結合条件に一致が複数ある場合、統合データには一番左のデータソースにあるよりも多くの行が表示される可能性があります。

統合と明示的な期間およびフィルタ

統合内の行数を制限するには、期間の使用またはフィルタの適用という 2 つの方法があります。行を制限するには、統合に基づくグラフまたは統合を構成するテーブルを使用します。このプロセスは、「統合前」と「統合後」のどちらであるかを考えると参考になります。

期間またはフィルタを統合内のテーブルに適用した場合は、統合内の他のテーブルと統合する前に反映されます。期間外の行や、フィルタによって除外された行には、結合クエリを適用できません。

統合に基づくグラフに期間やフィルタを適用する場合は、統合が作成された後(「統合後」)にデータに適用されます。

この違いは、データと統合の設定によっては、グラフに表示される結果に大きく影響する場合があります。

統合と継承フィルタ

統合では、統合前または統合後のデータとフィルタとの互換性がある限り、レポート、ページ、またはグループ単位のフィルタが継承されます。統合で使用される基となるデータソースとの互換性がある場合、そのフィルタは統合前のデータに適用されます。それ以外の場合、フィルタは統合後のデータに適用されます。統合前または統合後のデータとの互換性がない場合には、そのフィルタは無視されます。

詳しくは、フィルタの継承をご覧ください。

統合に基づくグラフが継承フィルタの適用対象である場合、Looker Studio では、データが 5 段階のステップで処理されます。

(事前ブレンド):

  • ステップ 1: データが [データの統合] パネルで指定されたディメンションに基づいてグループ化され、集計されます。
  • ステップ 2: 継承されたディメンション フィルタと互換性のある指標フィルタが、[データの統合] パネルに含まれるデータソースに適用されます。

(ブレンド):

  • ステップ 3: データが指定された結合設定を使って統合されます。

(ブレンド後):

  • ステップ 4: データがグラフのディメンションに基づいてグループ化され、集計されます。
  • ステップ 5: 統合データと互換性のある指標フィルタが、グラフに適用されます。