この記事では、データの統合に関するアドバイスと詳細情報を提供し、統合の仕組みを理解して複雑なユースケースを解決できるようにします。この記事を最大限に活用するには、このトピックの他の記事で説明されているデータ統合の基本をすでに理解しておく必要があります。
使用可能なデータのサブセットのみを統合に含める必要がある
ベスト プラクティスとして、統合に基づくグラフで可視化する特定のフィールドのみを含めることをおすすめします。これが重要な理由は次のとおりです。
- 統合を行うと、非常に大きなデータセットが作成され、BigQuery などの有料サービスでのパフォーマンス低下やクエリ費用の増加につながることがあります。
- 統合に基づくグラフでは、グラフで使用されていない場合でも、統合内のすべての行が計算されます。
- たとえば、10 個のフィールドを含む統合を作成するとします。次に、それらのフィールドのうち 1 つのみを使用するグラフを定義します。データポータルは、10 個のフィールドの統合を計算し、統合の出力でその 1 つのフィールドをクエリしてグラフを作成します。
- 再集計は、基になるデータのサブセットが統合に含まれている場合にのみ行われます
統合を使用して指標を再集計する
基になるデータソースから含めた指標の数値は、統合では集計されません。基になるデータソースのフィールド セットの一部が統合に含まれていない場合、これらの数値は新しいデータに基づいて再集計されます。このように統合を使用すると、平均の平均の計算など、すでに集計されているフィールドに別の集計を適用する必要がある場合に役立ちます。
詳しくは、統合を使用してデータを再集計するをご覧ください。
単一のデータソースから統合を作成する
統合では、異なるデータソースを使用する必要はありません。同じデータソースの複数のテーブルを統合してデータを再集計することもできます。
たとえば、次の表に示すように、人口が最も多い米国の州の上位 3 つの郡の人口データを含むデータセットがあるとします。
| 州 |
郡 |
人口(2023 年の推定値) |
|---|---|---|
| カリフォルニア |
ロサンゼルス郡 |
10,014,009 |
| カリフォルニア |
サンディエゴ郡 |
3,298,634 |
| カリフォルニア |
オレンジ郡 |
3,186,989 |
| テキサス |
ハリス郡 |
4,731,145 |
| テキサス |
ダラス郡 |
2,613,539 |
| テキサス |
タラント郡 |
2,110,640 |
| ニューヨーク |
キングス郡(ブルックリン) |
2,736,074 |
| ニューヨーク |
クイーンズ郡 |
2,405,464 |
| ニューヨーク |
ブロンクス郡 |
1,418,890 |
州内の各郡の人口の割合を計算したいとします。そのためには、各州の総人口を独自のフィールドとして用意する必要があります。データセットでは、その指標は使用できませんが、次の手順で人口データソースを統合することで取得できます。
- ベースとなるデータセットを使用してデータソースを作成します。
- そのデータソースを使用するグラフをレポートに追加します。
- 2 つのテーブルを含む統合を作成します。各テーブルは、ステップ 1 で作成した同じデータソースを使用します。
- テーブル 1 には、次のフィールドを含めます。
- 州、郡、人口。
- 人口 の名前を 郡の人口 に変更します。
- テーブル 2 には、人口 フィールドのみを含め、そのフィールドの名前を 州の人口 に変更します。
- テーブル 1 には、次のフィールドを含めます。
- 結合条件には、左外部 結合を使用し、テーブル 1 の 州 をテーブル 2 の 州 にリンクします。
- [保存] をクリックします。
- [X] をクリックして、レポート エディタに戻ります。

次に、新しいグラフ(テーブルなど)をレポートに追加し、次の手順でグラフのデータソースとして統合を選択します。
- グラフに [**州**]、[**郡**]、[**郡の人口**]、[**州の人口**] フィールドを追加します。
- 郡ごとの州の人口の割合を計算するには、新しい再集計データを使用する計算フィールドをグラフに追加します。
- プロパティ パネルで、[**指標を追加**] をクリックし、[**フィールドを追加**] をクリックします。
- フィールドに名前を付けます(例: 州の人口の割合 )。
- [数式] ボックスに
(CountyPopulation / StatePopulation)*100と入力します。 - (省略可)[表示形式] を設定して、割合の値を特定のレベルで表示します(例: 小数点以下 2 桁の場合は [パーセント(2)])。

完了すると、テーブルは次のようになります。
| 州 |
郡 |
CountyPopulation |
StatePopulation |
州の人口の割合 |
|---|---|---|---|---|
| カリフォルニア |
ロサンゼルス郡 |
10014009 |
16499632 |
60.69 |
| テキサス |
ハリス郡 |
4731145 |
9455324 |
50.04 |
| カリフォルニア |
サンディエゴ郡 |
3298634 |
16499632 |
19.99 |
| カリフォルニア |
オレンジ郡 |
3186989 |
16499632 |
19.32 |
| ニューヨーク |
キングス郡(ブルックリン) |
2736074 |
6560428 |
41.71 |
| テキサス |
ダラス郡 |
2613539 |
9455324 |
27.64 |
| ニューヨーク |
クイーンズ郡 |
2405464 |
6560428 |
36.67 |
| テキサス |
タラント郡 |
2110640 |
9455324 |
22.32 |
| ニューヨーク |
ブロンクス郡 |
1418890 |
6560428 |
21.63 |
統合内のテーブルの順序
データポータルでは、統合内の結合設定が左端から順に評価されます。各結合の結果は、右側の次の結合に適用されます。たとえば、3 つのテーブルの統合では、テーブル 1(左端)とテーブル 2(中央)の間の結合設定が評価され、その結果がテーブル 2 とテーブル 3(右端)の間の結合設定で使用されます。
自動作成された統合のテーブルの順序
選択したグラフを統合すると、データポータルによってグラフごとにテーブルが作成され、対応するテーブルにグラフ内のフィールドが追加されます。統合内のテーブルの順序は、グラフを選択した順序と一致します。最初に選択したグラフが最初の(左端の)テーブルになり、2 番目に選択したグラフが 2 番目のテーブルになります。
また、データポータルでは各テーブルの結合設定が自動的に作成され、左外部結合タイプが使用されます。
デフォルト設定が意図したとおりになっていない場合や、テーブル間に明確な関連付けがない場合は、目標に合わせて統合を編集できます。
テーブルは統合の前に作成される
統合内の各テーブルのデータは、そのデータが最終統合に結合される前にクエリされます。結合が実行される前に、テーブルを生成するクエリに対してテーブルの期間、フィルタ、計算フィールドが適用されます。これらの要素は、統合テーブルに含まれるデータに影響し、統合の出力を変更する可能性があります。
統合には元のデータよりも多くの行が含まれる場合がある
統合されたグラフには、統合を構成する個々のデータソースに基づくグラフよりも多くのデータが表示されることがあります。結果は、データと統合に選択した結合設定によって異なります。たとえば、左外部結合には、左側のテーブルにあるすべてのレコードと、結合条件で同じ値を共有する右側のテーブルのレコードすべてが含まれています。結合条件に一致が複数ある場合、統合データには一番左のデータソースにあるよりも多くの行が表示される可能性があります。
統合と明示的な期間およびフィルタ
統合の行数を制限するには、期間を使用するか、フィルタを適用します。統合に基づくグラフまたは統合を構成するテーブルで、行を制限できます。このプロセスは、「統合前」または「統合後」のどちらであるかを考えると参考になります。
期間またはフィルタを統合内のテーブルに適用した場合は、統合内の他のテーブルと結合する前に反映されます。期間外の行や、フィルタによって除外された行には、結合クエリを適用できません。
統合に基づくグラフに期間やフィルタを適用する場合は、統合が作成された後(「統合後」)にデータに適用されます。
この違いは、データと統合の設定方法によっては、グラフに表示される結果に大きな影響を与える可能性があります。
統合と継承フィルタ
統合では、統合前または統合後のデータとフィルタとの互換性がある限り、レポート、ページ、またはグループ単位のフィルタが継承されます。統合で使用される基となるデータソースとの互換性がある場合、そのフィルタは統合前のデータに適用されます。それ以外の場合、フィルタは統合後のデータに適用されます。統合前または統合後のデータとの互換性がない場合には、そのフィルタは無視されます。
詳しくは、フィルタの継承をご覧ください。
統合に基づくグラフに継承フィルタが適用されると、データポータルは次の 5 つのステップでデータを処理します。
(統合前):
- ステップ 1: データが [データの統合] パネルで指定されたディメンションに基づいてグループ化され、集計されます。
- ステップ 2: 継承されたディメンション フィルタおよび互換性のある指標フィルタが、[データの統合] パネルに含まれるデータソースに適用されます。
(統合):
- ステップ 3: 指定された結合設定を使用してデータが統合されます。
(統合後):
- ステップ 4: グラフ内のディメンションに基づいてデータがグループ化され、集計されます。
- ステップ 5: 統合データと互換性のある指標フィルタが、グラフに適用されます。