統合に関するヒントと高度な概念

この記事では、データの統合に関するアドバイスと詳細情報を提供し、統合の仕組みを理解して複雑なユースケースを解決できるようにします。この記事を最大限に活用するには、このトピックの他の記事で説明されているデータ統合の基本をすでに理解しておく必要があります。

使用可能なデータのサブセットのみを統合に含める必要がある

ベスト プラクティスとして、統合に基づくグラフで可視化する特定のフィールドのみを含めることをおすすめします。これが重要な理由は次のとおりです。

  • 統合を行うと、非常に大きなデータセットが作成され、BigQuery などの有料サービスでのパフォーマンス低下やクエリ費用の増加につながることがあります。
  • 統合に基づくグラフでは、グラフで使用されていない場合でも、統合内のすべての行が計算されます。
    • たとえば、10 個のフィールドを含む統合を作成するとします。次に、それらのフィールドのうち 1 つのみを使用するグラフを定義します。データポータルは、10 個のフィールドの統合を計算し、統合の出力でその 1 つのフィールドをクエリしてグラフを作成します。
    • 再集計は、基になるデータのサブセットが統合に含まれている場合にのみ行われます

統合を使用して指標を再集計する

基になるデータソースから含めた指標の数値は、統合では集計されません。基になるデータソースのフィールド セットの一部が統合に含まれていない場合、これらの数値は新しいデータに基づいて再集計されます。このように統合を使用すると、平均の平均の計算など、すでに集計されているフィールドに別の集計を適用する必要がある場合に役立ちます。

詳しくは、統合を使用してデータを再集計するをご覧ください。

単一のデータソースから統合を作成する

統合では、異なるデータソースを使用する必要はありません。同じデータソースの複数のテーブルを統合してデータを再集計することもできます。

たとえば、次の表に示すように、人口が最も多い米国の州の上位 3 つの郡の人口データを含むデータセットがあるとします。

人口(2023 年の推定値)

カリフォルニア

ロサンゼルス郡

10,014,009

カリフォルニア

サンディエゴ郡

3,298,634

カリフォルニア

オレンジ郡

3,186,989

テキサス

ハリス郡

4,731,145

テキサス

ダラス郡

2,613,539

テキサス

タラント郡

2,110,640

ニューヨーク

キングス郡(ブルックリン)

2,736,074

ニューヨーク

クイーンズ郡

2,405,464

ニューヨーク

ブロンクス郡

1,418,890

州内の各郡の人口の割合を計算したいとします。そのためには、各州の総人口を独自のフィールドとして用意する必要があります。データセットでは、その指標は使用できませんが、次の手順で人口データソースを統合することで取得できます。

  1. ベースとなるデータセットを使用してデータソースを作成します。
  2. そのデータソースを使用するグラフをレポートに追加します。
  3. 2 つのテーブルを含む統合を作成します。各テーブルは、ステップ 1 で作成した同じデータソースを使用します。
    1. テーブル 1 には、次のフィールドを含めます。
      1. 人口
      2. 人口 の名前を 郡の人口 に変更します。
    2. テーブル 2 には、人口 フィールドのみを含め、そのフィールドの名前を 州の人口 に変更します。
  4. 結合条件には、左外部 結合を使用し、テーブル 1 の をテーブル 2 の にリンクします。
  5. [保存] をクリックします。
  6. [X] をクリックして、レポート エディタに戻ります。

次に、新しいグラフ(テーブルなど)をレポートに追加し、次の手順でグラフのデータソースとして統合を選択します。

  1. グラフに [**州**]、[**郡**]、[**郡の人口**]、[**州の人口**] フィールドを追加します。
  2. 郡ごとの州の人口の割合を計算するには、新しい再集計データを使用する計算フィールドをグラフに追加します。
    1. プロパティ パネルで、[**指標を追加**] をクリックし、[**フィールドを追加**] をクリックします。
    2. フィールドに名前を付けます(例: 州の人口の割合 )。
    3. [数式] ボックスに (CountyPopulation / StatePopulation)*100 と入力します。
    4. (省略可)[表示形式] を設定して、割合の値を特定のレベルで表示します(例: 小数点以下 2 桁の場合は [パーセント(2)])。

完了すると、テーブルは次のようになります。

CountyPopulation

StatePopulation

州の人口の割合

カリフォルニア

ロサンゼルス郡

10014009

16499632

60.69

テキサス

ハリス郡

4731145

9455324

50.04

カリフォルニア

サンディエゴ郡

3298634

16499632

19.99

カリフォルニア

オレンジ郡

3186989

16499632

19.32

ニューヨーク

キングス郡(ブルックリン)

2736074

6560428

41.71

テキサス

ダラス郡

2613539

9455324

27.64

ニューヨーク

クイーンズ郡

2405464

6560428

36.67

テキサス

タラント郡

2110640

9455324

22.32

ニューヨーク

ブロンクス郡

1418890

6560428

21.63

統合内のテーブルの順序

データポータルでは、統合内の結合設定が左端から順に評価されます。各結合の結果は、右側の次の結合に適用されます。たとえば、3 つのテーブルの統合では、テーブル 1(左端)とテーブル 2(中央)の間の結合設定が評価され、その結果がテーブル 2 とテーブル 3(右端)の間の結合設定で使用されます。

自動作成された統合のテーブルの順序

選択したグラフを統合すると、データポータルによってグラフごとにテーブルが作成され、対応するテーブルにグラフ内のフィールドが追加されます。統合内のテーブルの順序は、グラフを選択した順序と一致します。最初に選択したグラフが最初の(左端の)テーブルになり、2 番目に選択したグラフが 2 番目のテーブルになります。

また、データポータルでは各テーブルの結合設定が自動的に作成され、左外部結合タイプが使用されます。

デフォルト設定が意図したとおりになっていない場合や、テーブル間に明確な関連付けがない場合は、目標に合わせて統合を編集できます。

テーブルは統合の前に作成される

統合内の各テーブルのデータは、そのデータが最終統合に結合される前にクエリされます。結合が実行される前に、テーブルを生成するクエリに対してテーブルの期間、フィルタ、計算フィールドが適用されます。これらの要素は、統合テーブルに含まれるデータに影響し、統合の出力を変更する可能性があります。

統合には元のデータよりも多くの行が含まれる場合がある

統合されたグラフには、統合を構成する個々のデータソースに基づくグラフよりも多くのデータが表示されることがあります。結果は、データと統合に選択した結合設定によって異なります。たとえば、左外部結合には、左側のテーブルにあるすべてのレコードと、結合条件で同じ値を共有する右側のテーブルのレコードすべてが含まれています。結合条件に一致が複数ある場合、統合データには一番左のデータソースにあるよりも多くの行が表示される可能性があります。

統合と明示的な期間およびフィルタ

統合の行数を制限するには、期間を使用するか、フィルタを適用します。統合に基づくグラフまたは統合を構成するテーブルで、行を制限できます。このプロセスは、「統合前」または「統合後」のどちらであるかを考えると参考になります。

期間またはフィルタを統合内のテーブルに適用した場合は、統合内の他のテーブルと結合する前に反映されます。期間外の行や、フィルタによって除外された行には、結合クエリを適用できません。

統合に基づくグラフに期間やフィルタを適用する場合は、統合が作成された後(「統合後」)にデータに適用されます。

この違いは、データと統合の設定方法によっては、グラフに表示される結果に大きな影響を与える可能性があります。

統合と継承フィルタ

統合では、統合前または統合後のデータとフィルタとの互換性がある限り、レポート、ページ、またはグループ単位のフィルタが継承されます。統合で使用される基となるデータソースとの互換性がある場合、そのフィルタは統合前のデータに適用されます。それ以外の場合、フィルタは統合後のデータに適用されます。統合前または統合後のデータとの互換性がない場合には、そのフィルタは無視されます。

詳しくは、フィルタの継承をご覧ください。

統合に基づくグラフに継承フィルタが適用されると、データポータルは次の 5 つのステップでデータを処理します。

(統合前):

  • ステップ 1: データが [データの統合] パネルで指定されたディメンションに基づいてグループ化され、集計されます。
  • ステップ 2: 継承されたディメンション フィルタおよび互換性のある指標フィルタが、[データの統合] パネルに含まれるデータソースに適用されます。

(統合):

  • ステップ 3: 指定された結合設定を使用してデータが統合されます。

(統合後):

  • ステップ 4: グラフ内のディメンションに基づいてデータがグループ化され、集計されます。
  • ステップ 5: 統合データと互換性のある指標フィルタが、グラフに適用されます。