Наш ассоциированный член www.Bikinika.com.ua

Семплування в Google Analytics і як його обійти

  1. Коли і чому відбувається семплірованіє
  2. Звіти за замовчуванням (Default Reports)
  3. Швидкі звіти (Ad-hoc Reports)
  4. Візуалізація переходів (Flow-visualization Reports)
  5. Звіти по багатоканальним послідовностям і атрибуції
  6. У чому мінуси семплірованія
  7. Як уникнути семплірованія
  8. В інтерфейсі Google Analytics
  9. 1. Скоротити звітний період
  10. 2. Не використовувати швидкі звіти
  11. 3. Налаштувати фільтри на рівні представлення
  12. 4. Створити окремий ресурс для кожного сайту
  13. Поза інтерфейсу Google Analytics
  14. 5. Використовувати Google Analytics API
  15. 6. Використовувати аддон Google Analytics Spreadsheet
  16. 7. Перейти на Google Analytics 360
  17. 8. Використовувати OWOX BI Pipeline

Матеріали для скачування

Кейси по маркетинг-аналітиці

978.32 Kb

Семплування допомагає зробити узагальнені висновки, коли неможливо або недоцільно аналізувати всі зібрані дані. Його суть в тому, що Google Analytics вибирає з усього обсягу даних лише якусь частину і використовує її для побудови звітів.

Семплування характерно не тільки для GA - його використовують в опитуваннях громадської думки, споживчих тестах, статистичних дослідженнях і т.д. Кожен раз, коли застосовується семплірованіє, є ризик отримати неточні результати. У цій статті ви дізнаєтеся, які причини і проблеми семплірованія, і як його уникнути.

У цій статті ви дізнаєтеся:

Коли і чому відбувається семплірованіє

Обробляти величезні масиви даних за максимально короткий час - непросте завдання навіть для Google. Щоб знизити навантаження на сервери і досягти балансу між швидкістю і точністю обробки, Google Analytics аналізує лише частина даних.

Як зрозуміти, що застосовувалася вибірка? Наведіть курсор на значок щита у верхній частині звіту, і ви побачите повідомлення «Звіт створений на основі аналізу N% від загального числа сеансів». Якщо цифра менше 100%, значить дані семпліровать.

Матеріали для скачування   Кейси по маркетинг-аналітиці   978

Зазвичай це відбувається, якщо кількість сесій за обраний період перевищує 500 тис. Однак варто пам'ятати, що семплірованіє залежить не тільки від кількості сеансів у звітах. Чим складніше запит, тим вище ризик отримати неточні дані. При цьому в різних звітах GA принцип вибірки відрізняється.

Звіти за замовчуванням (Default Reports)

У стандартних звітах з розділів «Аудиторія», «Джерела трафіку», «Поведінка» і «Переходи» семплірованіє не застосовується. Чому так відбувається? Для кожного ресурсу в Google Analytics зберігається повний набір даних. У свою чергу, для кожного уявлення в ресурсі створюються агреговані таблиці з комбінаціями певних параметрів і показників, взятих з повних даних. Інформація в агрегованих таблицях оновлюється щодня. Це означає, що показники для параметрів у звітах за умовчанням вже розраховані, і побудова звіту не займе багато часу.

На скріншоті нижче стандартний звіт, заснований на повних даних без семплірованія:

Швидкі звіти (Ad-hoc Reports)

Коли ви вносите зміни в звіт за замовчуванням: застосовуєте сегмент, фільтр або додаєте параметр, Google Analytics відправляє запит до даних в агрегованих таблицях. Те ж саме відбувається при створенні призначених для користувача звітів з комбінаціями параметрів і показників, яких немає в звітах за умовчанням. Якщо запитуваної інформації немає в таблицях, GA звертається до необроблених даних. Якщо в обраному періоді було більше 500 тис. Сесій, дані в звіті семпліруются.

Ось приклад звіту на основі семпліровать даних:

Візуалізація переходів (Flow-visualization Reports)

У звітах «Карта поведінки», «Карта подій», «Карта цілей», «Шляхи користувачів» і інших картах переходів Google Analytics обробляє максимум 100 тис. Сесій. Вище цього порога дані завжди семпліруются. Оскільки звіти з візуалізацією переходів і звіти за замовчуванням будуються на вибірках різних розмірів, одні і ті ж метрики в них можуть не збігатися.

Так виглядає звіт «Карта цілей», заснований на семпліровать даних:

Звіти по багатоканальним послідовностям і атрибуції

У звітах по багатоканальним послідовностям і атрибуції (Multi-Channel Funnel and Attribution Reports) вибірка не застосовується, якщо ви не зміните звіт будь-яким чином, наприклад, додавши сегмент або параметр. В іншому випадку ліміт семплірованія складе 1 млн конверсій.

У чому мінуси семплірованія

Якщо розмір вибірки, скажімо, 90% сесій, то інформація в ваших звітах, швидше за все, буде надійною. Однак чим нижче відсоток даних, який використовується для аналізу, тим менш точними будуть результати. Припустимо, ви бачите звіт, заснований на 1% від 100 сесій. Це означає, що Google Analytics проаналізував 1 сесію, помножив результат на 100 і видав його в звіті. Наскільки об'єктивною буде ваша оцінка, есліі 99% даних залишилися покриті мороком? Питання риторичне.

Не бачачи всієї картини, ви не можете повністю довіряти своїм даними. Коли виробник зубної пасти стверджує, що 8 з 10 стоматологів рекомендують її як кращу, звідки нам знати, скільки всього лікарів опитали? Раптом спеціально вибрали лояльних стоматологів, щоб забезпечити потрібне думку. Ваш мозок читає «8 з 10» і інтерпретує це як 80%, хоча багато що залишилося за кадром. При семплірованіє Google Analytics працює так само.

Семплування - невелика проблема, якщо ви дивитеся тільки на кількість сесій. Однак, коли мова йде про показники, пов'язаних з грошима, таких як цілі, конверсії та дохід, вибірка може коштувати вам ціле стан. Семпліровать звіти спотворюють показники. Через це ви ризикуєте не помітити рекламу, яка приносить прибуток, або навпаки - витрачати гроші на неефективні кампанії.

Як уникнути семплірованія

Чи варто боротися з семплірованіє, залежить від того, який рівень похибки ви допускаєте в звітах. Якщо ви вважаєте, що вибірка стала проблемою, ось кілька порад, як її уникнути або мінімізувати.

В інтерфейсі Google Analytics

Почнемо зі способів, для яких не потрібні додаткові інструменти - ви можете обійти семплірованіє за допомогою налаштувань облікового запису Google Analytics.

1. Скоротити звітний період

Чим довший період в звіті, тим більше даних потрібно обробити Google Analytics, і тим вище ризик семплірованія. І навпаки - за термін коротший можна отримати більш точні дані. Наприклад, вам потрібен звіт за півроку, але GA семплірует дані через високу кількість сесій. Якщо за місяць у вас в ресурсі збирається менше 500 тис. Відвідувань, спробуйте переглянути дані за кожен місяць і скласти результати.

Відвідувань, спробуйте переглянути дані за кожен місяць і скласти результати

2. Не використовувати швидкі звіти

Іноді у аналітиків виникає спокуса використовувати індивідуальні, швидкі звіти, хоча часто ту ж інформацію можна подивитися в звітах за умовчанням. Як ми писали вище, в більшості стандартних звітів Google Analytics вибірка не застосовується. Це означає, що уникаючи сегменти і додаткові параметри у звітах, можна отримати більш точні цифри.

Наприклад, ви хочете оцінити обсяг органічного трафіку на сайт. Можна застосувати сегмент «Безкоштовний трафік» в звіті «Сторінки входу», а можна відкрити стандартний звіт «Канали» і подивитися на органічний трафік з основним параметром «Сторінки входу». У першому випадку дані можуть семпліровать, а в другому ви побачите звіт на основі 100% сесій.

Слід згадати, що звіт за замовчуванням за день може містити максимум 50 тис. Рядків. У швидких звітах цей ліміт - 1 млн рядків в день. Коли кількість рядків у звітах перевищує цей поріг, то Google Analytics об'єднує всі залишилися дані в рядок «Інші».

Коли кількість рядків у звітах перевищує цей поріг, то Google Analytics об'єднує всі залишилися дані в рядок «Інші»

3. Налаштувати фільтри на рівні представлення

Google Analytics семплірует дані після застосування фільтрів рівня уявлення. Тобто вибірка робиться з сеансів, які пройшли через фільтр. Ви можете уникнути семплірованія, збираючи в поданні тільки необхідні дані і відсікаючи все зайве. Наприклад, ви хочете побачити, скільки відвідувачів зайшли на сайт завдяки пошуковим запитам, а використання сегмента «Безкоштовний трафік» призводить до семплірованіє. В такому випадку можна створити дублюючі уявлення і застосувати до нього фільтр, щоб бачити тільки органічний трафік:

В такому випадку можна створити дублюючі уявлення і застосувати до нього фільтр, щоб бачити тільки органічний трафік:

Цей підхід - не панацея для швидких запитів, так як в них все ще може застосовуватися вибірка при великих обсягах даних. Зате звіти за замовчуванням точно нададуть вам достовірну несемплірованную інформацію.

Зверніть увагу, що не рекомендується фільтрувати дані за параметрами рівня сторінки. Скажімо, у вас Ecommerce-сайт з різними категоріями продуктів і сторінками. Якщо ви використовуєте різні уявлення для кожного типу сторінки, сесія одного користувача може бути врахована в різних уявленнях. Через це загальна кількість сеансів може сильно завищуватиметься.

4. Створити окремий ресурс для кожного сайту

Загальноприйнята практика - відстежувати кілька сайтів в одному ресурсі Google Analytics і використовувати фільтри, якщо потрібно подивитися на дані конкретного сайту. Чим більше даних ви збираєте в одному ресурсі, тим вище ризик отримати звіт з вибіркою. Якщо це ваш випадок, використовуйте окремий ресурс для кожного сайту. Це зменшить обсяг трафіку в ресурсі, а з ним - і ризик семплірованія.

Це зменшить обсяг трафіку в ресурсі, а з ним - і ризик семплірованія

Поза інтерфейсу Google Analytics

Також можна уникнути семплірованія, вивантаживши дані з GA в Google BigQuery або Google Sheets. Майте на увазі, що неможливо отримати необроблені демографічні дані з Google Analytics, так як система їх завжди агрегує.

5. Використовувати Google Analytics API

Ще один спосіб вирішити проблему з семплірованіє - звертатися до даних програмно через Reporting API. Так, відповіді API можуть містити семпліровать дані, якщо обраний тривалий період часу. Однак API дозволяє вам вказати, скільки даних ви хочете отримати в одному запиті, а також встановити рівень семплірованія. Якщо у сайту високий трафік, вам знадобиться виконати сотні запитів, щоб витягти всі дані без семплірованія. API дозволяє відправляти до 50 тис. запитів в день на один проект і повертає до 10 тис. рядків на запит.

Недолік цього підходу в тому, що він забирає багато часу. Неможливо запускати тисячі щоденних запитів вручну, тому для автоматизації процесу потрібні навички програмування. Крім того, API дозволяє отримати максимум 7 параметрів і 10 показників в одному звіті:

При цьому в запиті завжди повинен бути хоча б один показник, і не всі параметри можна запитувати разом. Дізнатися більше про Reporting API ви можете в керівництві Google для розробників .

6. Використовувати аддон Google Analytics Spreadsheet

Офіційний аддон дозволяє автоматично і без програмування отримувати дані з Google Analytics в Google Sheets, розраховувати нові параметри і метрики, будувати звіти і ділитися ним з партнерами і колегами. У доповнення є ще одна перевага: з його допомогою можна вивантажити до 9 параметрів, що на 2 більше, ніж через Reporting API.

У доповнення є ще одна перевага: з його допомогою можна вивантажити до 9 параметрів, що на 2 більше, ніж через Reporting API

Однак Google Analytics Spreadsheet має обмеження - 400 тис. Осередків в одній таблиці. Через що вивантажити і обробити великі обсяги даних не вийде.

7. Перейти на Google Analytics 360

В платної версії Google Analytics передбачено кілька рішень для боротьби з вибіркою:

  • Високий поріг семплірованія - 100 млн сесій на рівні уявлення. Це в 200 разів більше даних у порівнянні з безкоштовною версією.
  • «Повні звіти» (Unsampled Reports), які можуть містити до 3 млн унікальних рядків даних. Повний звіт можна запускати разово при необхідності або за розкладом.
  • Спеціальні таблиці (Custom Tables) обсягом до 1 млн рядків в день, за допомогою яких можна отримати миттєвий доступ до несемплірованним даними, згрупованих за заданою комбінації параметрів, показників, сегментів і фільтрів. Кожна таблиця може містити до 6 параметрів, 25 показників, 5 фільтрів і 4 сегментів.

Завдяки високому ліміту вибірки в Google Analytics 360 ваші звіти будуть містити повні дані:

Завдяки високому ліміту вибірки в Google Analytics 360 ваші звіти будуть містити повні дані:

Крім того, Google Analytics 360 інтегрований з хмарним сховищем Google BigQuery. Це дозволяє автоматично імпортувати в сховище несемплірованние дані і за лічені секунди створювати звіти будь-якої структури і складності за допомогою SQL-запитів. Також користувачі GA 360 щомісяця отримують купон на 500 $ для оплати витрат в Google BigQuery.

Google Analytics 360 - це рішення для великого бізнесу, яке вимагає значних вкладень. Про перехід на платну версію варто задуматися, якщо ваш сайт отримує більше 10 млн хітів в місяць, семплірованіє постійно спотворює дані, а річний дохід дозволяє інвестувати в ліцензію. Детальніше про те, як розраховується вартість GA 360 , Ми розповіли на вебінарі.

8. Використовувати OWOX BI Pipeline

OWOX BI Pipeline допомагає уникнути вибірки без інвестицій в Google Analytics 360 або автоматизації запитів до API. Сирі несемплірованние дані потрапляють в Google BigQuery безпосередньо з сайту в реальному часі. Вам достатньо створити Custom Task або Custom HTML тег в своєму контейнері GTM - BI Pipeline зробить все інше. Оскільки OWOX BI використовує власний алгоритм формування сесій, дані завжди будуть несемплірованнимі, незалежно від кількості сесій в Google Analytics. Підписка на OWOX BI Pipeline коштує від 115 $ в місяць - ви можете спробувати його безкоштовно протягом 14 днів.

Підписка на OWOX BI Pipeline коштує від 115 $ в місяць -   ви можете спробувати його безкоштовно   протягом 14 днів

Підводячи підсумки, ми зібрали в одну таблицю всі способи обійти семплірованіє, їх плюси, мінуси і рекомендований обсяг даних. Підберіть рішення, яке підійде саме вам.

В інтерфейсі Google Analytics Рішення Google Analytics 360 Звіти за замовчуванням Скорочення звітного періоду Фільтри на рівні уявлення Плюси

  • Ліміт семплірованія: 100 млн сесій
  • Повні звіти без семплірованія
  • Спеціальні таблиці: до 1 млн рядків в день

Завжди без семплірованія, завдяки попередньо розрахованими даними Чим коротше часовий інтервал, тим точніше дані і менше ризик семплірованія Скоротіть обсяг аналізованих даних за допомогою фільтрів, наприклад, по трафіку Мінуси Висока вартість річної ліцензії

  • Максимум 2 параметра в звіті
  • Обмежений набір звітів
  • Щоб отримати дані за триваліший період, потрібно докласти більше зусиль
  • Максимум 5 параметрів в звіті
  • Параметри рівня сторінки збільшують кількість користувачів
  • Максимум 5 параметрів в звіті

Рекомендована кількість сесій в день 1 млн і більше 500 тис. 500 тис. 500 тис. Поза інтерфейсу Google Analytics Рішення Експорт даних з Google Analytics 360 в Google BigQuery OWOX BI Pipeline + Google BigQuery Google Analytics Core Reporting API Google Analytics Spreadsheet Add-on Плюси

  • Хітові дані доступні в режимі, близькому до реального часу
  • Експорт несемплірованних сесійних даних
  • Максимум 200 параметрів в звіті
  • Сирі дані про хіти доступні в реальному часі
  • Несемплірованние дані про сесії
  • Необмежена кількість параметрів в звітах
  • Безкоштовний Trial на 14 днів
  • Програмний спосіб отримати несемплірованние дані
  • API дозволяє відправляти до 50 тис. Запитів в день і повертає до 10 тис. Рядків на запит
  • Максимум 9 параметрів в звіті
  • без програмування

Мінуси Доступно тільки для користувачів Google Analytics 360 Сирі дані з AdWords потрібно імпортувати за допомогою Google BigQuery Data Transfer Service

  • Вимагає навичок програмування
  • Деякі параметри і показники не сумісні в одному звіті
  • Максимум 7 параметрів в запиті

Неможливо використовувати для великого обсягу даних Рекомендована кількість сесій в день 1 млн і більше 1 млн 1 млн 40 тис.

А як ви вирішуєте проблему семплірованія? Діліться ідеями і залишайте питання в коментарях.

Як зрозуміти, що застосовувалася вибірка?
Чому так відбувається?
Наскільки об'єктивною буде ваша оцінка, есліі 99% даних залишилися покриті мороком?
Коли виробник зубної пасти стверджує, що 8 з 10 стоматологів рекомендують її як кращу, звідки нам знати, скільки всього лікарів опитали?
А як ви вирішуєте проблему семплірованія?

Новости