Определение:
Исходные данные — это данные в исходном, необработанном виде. Они не были агрегированы, усреднены, отфильтрованы или преобразованы каким-либо образом.
Детальные данные имеет в виду данные на самом детальном уровне — отдельные записи, события и атрибуты, лежащие в основе сводных показателей, которые вы видите на информационной панели.
На практике эти два термина часто используются как синонимы. Оба относятся к базовому слою данных, который позволяет проводить более глубокий и точный анализ.
Что такое исходные данные?
Исходные данные собираются непосредственно из источника, такого как SDK, API, конвейер данных или событие устройства, и хранятся без каких-либо изменений. Это данные до начала любой обработки.
Сама по себе отдельная запись необработанных данных может не дать вам особой информации. Однако в совокупности, а также при наличии возможности самостоятельно выполнять запросы, фильтровать, объединять и анализировать данные, необработанные данные становятся одним из самых мощных инструментов, доступных команде по мобильному маркетингу или команде разработчиков продукта.
Большинство аналитических платформ по умолчанию отображают данные в агрегированном виде. Они обрабатывают исходные записи и выводят итоговые значения, средние показатели и сводные данные, которые полезны для быстрого анализа эффективности. Исходные данные лежат в основе этих сводных показателей, и именно они вам понадобятся, когда сводных данных будет недостаточно.
Что такое «гранулярные данные»?
Детальные данные — это данные, собранные на максимально возможном уровне детализации. В то время как агрегированные данные отражают итоговые показатели или средние значения, детальные данные представляют собой отдельные записи, составляющие эти итоговые показатели, каждая из которых имеет собственный набор атрибутов, временных меток и идентификаторов.
Полезный способ понять это различие:
| Тип данных | То, что вы видите |
| Агрегированные данные | Общая валовая выручка от покупок за данный день |
| Детальные данные | Каждая отдельная покупка: идентификатор товара, валюта, валовая выручка, чистая выручка, количество, временная метка, рекламный идентификатор, версия ОС и др. |
Сводный вид отличается быстротой и наглядностью.
Именно в режиме детализации вы можете проводить анализ, сегментировать данные и создавать модели.
Детальные данные и агрегированные данные
Агрегированные данные хорошо подходят для мониторинга. Они дают представление о том, что произошло на общем уровне, и сигнализируют, когда что-то выглядит подозрительно. Большинство информационных панелей построены именно на их основе, поскольку они просты для восприятия и позволяют быстро реагировать на ситуацию.
Детальные данные нужны вам, когда вы хотите понять, почему что-то произошло, или когда искомый ответ невозможно найти в сводных данных.
Некоторые вещи можно сделать только с помощью детализированных данных:
- Рассчитайте пользовательские показатели, которые ваша платформа не отображает по умолчанию
- Проанализировать поведение конкретного пользователя или последовательность событий
- Объедините наборы данных из двух разных источников. Например, сопоставьте данные о выручке от встроенных покупок (IAP) с данными об атрибуции установок, чтобы понять, какая рекламная сеть привлекла пользователя, совершившего покупку.
- Создавайте индивидуальные отчеты и информационные панели, адаптированные к конкретным задачам вашего бизнеса
- Проводить когортный анализ с уровнем детализации, выходящим за рамки возможностей готовых отчетов
Если для вашего анализа требуется больше информации, чем может отобразить информационная панель, вам понадобится доступ к необработанным, детализированным данным.
Почему необработанные данные имеют значение
Свобода задавать свои собственные вопросы
Информационные панели дают ответы на вопросы, которые заранее предусмотрели их разработчики. Необработанные данные позволяют задавать вопросы, для которых никто не додумался создать отчет, и получать достоверные ответы.
Точность превыше всего
Агрегированные данные сопряжены с компромиссами. Средние значения сглаживают колебания. Итоговые показатели скрывают распределение данных. Детальные данные позволяют получить полную картину без таких компромиссов.
Расчет пользовательских метрик
Если вам нужен показатель, который ваша аналитическая платформа не рассчитывает изначально, его можно создать с помощью детализированных данных. Вы определяете логику, применяете её к необработанным записям и получаете именно то число, которое вам нужно.
Объединение наборов данных
Для проведения некоторых наиболее ценных аналитических исследований требуется объединение данных из нескольких источников. Например, чтобы сопоставить данные о выручке по программе IAP с данными об атрибуции, необходимы исходные записи из обоих источников, имеющие общий идентификатор, такой как ID пользователя или ID устройства. Агрегированные данные невозможно сопоставить таким образом, чтобы получить значимые результаты.
Аудит и расследования
Когда какой-то показатель выглядит подозрительно или результаты кампании кажутся неверными, именно в детализированных данных можно найти ответ на вопрос, что на самом деле произошло. Они дают вам подтверждение.
Исходные данные и DataVault
Именно для этого компания Tenjin создала DataVault и Raw Data Exporter. Первый — это сервис хранения данных, который предоставляет прямой доступ к необработанным данным на уровне событий. Raw Data Exporter выполняет ту же функцию, но доступен непосредственно из панели управления Tenjin.
DataVault не ограничивается только той информацией, которая отображается на панели инструментов Tenjin: он позволяет запрашивать собственные данные, создавать настраиваемые отчеты, объединять наборы данных из разных источников и проводить детальный анализ, который невозможно осуществить с помощью стандартных отчетов. Ваши данные остаются в вашем распоряжении — они хранятся в доступном виде, готовые к использованию в соответствии с потребностями вашей команды.
Для команд с конкретными аналитическими потребностями, специалистов по обработке данных, желающих работать напрямую с необработанными записями, или всех, кому уже не хватает возможностей готовых информационных панелей, DataVault избавляет от зависимости от агрегированных представлений и предоставляет полный набор данных в полном объеме.
Примеры детализированных данных в мобильном маркетинге
Чтобы наглядно проиллюстрировать это, приведем несколько сценариев, в которых детализированные данные — единственный способ получить нужный ответ:
Расследование по вопросам доходов
Общую суточную выручку можно увидеть на панели инструментов. Однако чтобы узнать, сколько именно конкретный пользователь потратил на конкретный товар в конкретную дату, включая валюту, количество и чистую выручку после вычета комиссий, вам понадобится исходная запись о событии покупки.
Анализ атрибуции
Чтобы понять, какая рекламная сеть привела к установке приложения, которая впоследствии привела к появлению платного пользователя, необходимо сопоставить исходную запись об атрибуции с исходной записью о событии покупки с помощью общего идентификатора пользователя. Ни одна из этих записей не имеет смысла без другой.
Анализ когорты удержания клиентов
Для построения индивидуальной модели удержания для конкретной когорты привлечённых пользователей требуются данные о сессиях на уровне событий для каждого пользователя в этой когорте, а не предварительно агрегированный показатель удержания.
Расследование случаев мошенничества
Чтобы обнаружить необычные закономерности в данных о кликах или установках, например такие, которые могут свидетельствовать о нелегитимном трафике, необходимо анализировать отдельные записи, а не итоговые показатели. Если вы заметите подобные закономерности, вы можете воспользоваться ещё одним из наших инструментов — «Оптимизация Site ID» — в панели управления, чтобы заблокировать их на уровне Site ID.