Как хранятся и отображаются данные

Выборка данных

Что такое выборка данных

Выборка – это анализ поднабора данных с целью выявить значимую информацию в большем наборе данных. Это позволяет быстрее извлекать данные и почти не влияет на их качество.

Например, если вы хотите рассчитать количество деревьев на площади в 100 гектаров с более или менее равномерным распределением деревьев, можно подсчитать количество деревьев на одном гектаре и умножить на 100. Или же можно подсчитать деревья на половине гектара и умножить полученное число на 200. Это позволяет определить количество деревьев на всей площади в 100 гектаров.

Почему может применяться выборка данных

В Google Аналитике выборка данных может применяться, если количество событий, используемых в отчетах, исследованиях или запросе, превосходит ограничение для ресурса. В этом случае Аналитика использует часть данных и масштабирует расчеты, чтобы вы получили репрезентативные результаты.

Если результаты создаются на основе выборки, на значке "Качество данных" показывается, какой процент данных был использован. Чем больше объем выборки, тем точнее результаты.

Какие ограничения действуют

Для запросов на уровне событий применяются ограничения в 10 млн событий для ресурсов Google Аналитики и до 1 млрд – для ресурсов Google Аналитики 360.

Первоначальный лимит по умолчанию для ресурсов Google Аналитики 360 составляет 100 миллионов событий на запрос, чтобы вы могли быстро получить репрезентативные результаты. Если вам нужна более высокая точность, нажмите на значок качества фидов и выберите "Подробные результаты", чтобы увеличить размер выборки для исследования.

Примечание. При фильтрации больших наборов данных по странам в стандартных отчетах Google Аналитики и разделе "Исследования" может выполняться выборка данных, даже если используются запросы на расширенные наборы данных. Это происходит потому, что фильтрация активирует другие методы обработки данных, которые с большей вероятностью приводят к выборке при работе с наборами данных, содержащими более 100 млн событий. Чтобы уменьшить эффект выборки, попробуйте сократить диапазон дат в отчетах или использовать альтернативные методы анализа.

Что делать с полными данными

Для создания полных отчетов в Google Аналитике используется алгоритм HyperLogLog++ (HLL++), позволяющий оценивать количество уникальных значений для распространенных показателей, в том числе "Пользователи" и "Сеансы". Такое использование алгоритма HLL++ повышает эффективность и точность расчетов и снижает предел погрешности. Этот алгоритм также можно использовать для работы с данными Google Аналитики в BigQuery. Подробнее о приблизительном расчете уникальных значений в Google Аналитике

Примечание. В большинстве случаев доля расхождений составляет менее 1 %, но может быть и выше, особенно при объединении нескольких показателей HLL++. В Google Аналитике используется эскиз HLL++ версии 14. Подробнее об эскизах HLL++

Эта информация оказалась полезной?

Как можно улучшить эту статью?
Поиск
Очистить поле поиска
Закрыть поиск
Главное меню
5933212916969579382
true
Поиск по Справочному центру
false
true
true
true
true
true
69256
false
false
false
false