定义:
原始数据 是指原始、未经处理的数据。该数据未经过任何形式的汇总、求平均值、过滤或转换。.
细粒度数据 指的是数据的最细粒度层级——即仪表盘上汇总数字背后所对应的各个记录、事件和属性。.
实际上,这两个术语常被互换使用。它们都指能够支持更深入、更精准分析的基础数据层。.
什么是原始数据?
原始数据直接从其来源(如 SDK、API、数据管道或设备事件)收集,并未经任何修改即被存储。这是在经过任何处理之前的数据。.
单个原始数据记录本身可能无法提供太多信息。但当这些数据被汇总起来,且您可以自由地对其进行查询、筛选、关联和分析时,原始数据便会成为移动营销或产品团队所能利用的最强大的资产之一。.
大多数分析平台默认以汇总形式显示数据。它们从原始记录中提取总计、平均值和摘要数据,这些数据有助于快速了解性能表现。原始数据正是这些摘要数据背后的基础,当摘要信息不足以满足需求时,您就需要查阅原始数据。.
什么是细粒度数据?
细粒度数据是指在尽可能细致的层面上捕获的数据。汇总数据提供的是总和或平均值,而细粒度数据则提供构成该总和的各个单独记录,每条记录都拥有自己的一套属性、时间戳和标识符。.
一种理解两者区别的实用方法:
| 数据类型 | 所见即所得 |
| 汇总数据 | 某一天的采购总收入 |
| 细粒度数据 | 每次单独购买:产品 ID、货币、总收入、净收入、数量、时间戳、广告 ID、操作系统版本等 |
汇总视图既快速又易于阅读。.
在“细粒度视图”中,您可以进行调查、细分和构建。.
细粒度数据与汇总数据
汇总数据非常适合用于监控。它能让你了解表面层面的情况,并在发现异常时发出提示。大多数仪表盘都是围绕汇总数据构建的,因为它易于阅读且便于快速采取行动。.
当您想了解某件事发生的原因,或者在汇总数据中找不到所需答案时,就需要详细数据。.
有些事情只有借助细粒度数据才能做到:
- 计算平台默认未显示的自定义指标
- 调查特定用户的行为或事件序列
- 将来自两个不同来源的数据集进行关联。例如,将应用内购(IAP)收入数据与安装归因数据进行匹配,以了解是哪一家广告网络促成了用户的购买行为。
- 根据您的具体业务需求,构建定制化的报告和仪表盘
- 以超越预置报告所允许的详细程度进行队列分析
如果您的分析需求超出了仪表盘所能展示的范围,您就需要获取原始的、细粒度的数据。.
为什么原始数据很重要
自由地提出自己的问题
仪表盘能解答其设计者预先设想的问题。而原始数据则能让你提出那些无人曾想到要为此制作报告的问题,并获得真实的答案。.
精确胜于近似
汇总数据往往需要权衡取舍。平均值会抹平数据波动,总和则掩盖了其背后的分布情况。而细粒度数据则能让你全面了解情况,无需做出这些妥协。.
自定义指标计算
如果您需要一个分析平台无法原生计算的指标,那么细粒度数据就是构建该指标的场所。您可以定义计算逻辑,将其应用于原始记录,从而精确获得所需的数值。.
数据集连接
一些最有价值的分析需要整合来自多个来源的数据。例如,要将应用内购(IAP)收入数据与归因数据进行关联,您需要两者的原始记录,且这些记录必须具有共同的标识符(如用户 ID 或设备 ID)。汇总数据无法以有意义的方式进行关联。.
审计与调查
当某项指标看起来有问题,或者某项广告活动的效果似乎不理想时,细粒度数据就是你查明实际情况的途径。它能为你提供确凿的证据。.
原始数据与DataVault
这正是Tenjin开发DataVault和Raw Data Exporter的原因。前者是一项数据仓库服务,可让您直接访问原始事件级数据;Raw Data Exporter的功能与此相同,但可直接通过Tenjin仪表盘进行访问。.
DataVault 不仅局限于天神(Tenjin)仪表盘所展示的内容,还允许您查询自有数据、创建自定义报告、跨数据源进行数据集关联,并执行标准报告功能无法支持的精细化分析。您的数据将以存储完好、可访问且随时可用、能满足团队需求的方式保存,供团队随时调用。.
对于有特定分析需求的团队、希望直接处理原始记录的数据科学家,或是任何已无法满足预置仪表盘所能提供功能的用户而言,DataVault 消除了对汇总视图的依赖,让完整的数据集触手可及。.
移动营销中的细粒度数据示例
为了更具体地说明这一点,以下列举了几个场景,在这些场景中,只有通过细粒度数据才能获得所需的答案:
税收调查
您可以在仪表盘上查看每日总收入。但若要准确了解特定用户在特定日期针对特定产品花费了多少金额——包括货币、数量以及扣除费用后的净收入——您需要查看原始购买事件记录。.
归因分析
要了解是哪一个广告网络促成了某次安装,而该安装后续又转化为付费用户,您需要使用共享的用户标识符,将原始归因记录与原始购买事件进行关联。如果缺少其中任何一项,另一项记录都将失去意义。.
留存队列分析
要为特定的获客用户群构建自定义留存模型,需要该用户群中每位用户的事件级会话数据,而不是预先聚合的留存率。.
欺诈调查
要发现点击或安装数据中的异常模式(例如可能表明存在无效流量的模式),需要查看单条记录,而不是总数。如果您发现了此类情况,可以使用仪表盘中的另一款工具“网站 ID 优化”,在网站 ID 层面上屏蔽这些流量。.