如何识别数据造假

真假数据分为两种,一种是人为造假或修饰的数据,一种是作弊流量或者机器刷量。真正的数据是真正的用户的真正的行为记录。

这话有点绕,我来解释一下:带着真实的目的和动机,做出的真实的网络行为!他们的浏览、注册、访问、离开……这一些列的行为,都是真实的。
我们通过观察数据,去推断这种数据背后的行为是否是真实人的真实的、自然的行为,就可以知道流量数据是否是作弊的!

到底如何识别呢?
关于第一种情况:造假或修饰数据 
推荐使用本福德定律(Benford’s Law)。本福德定律是一种用途广泛的数据检验方法,在安然公司破产和伊朗大选选票甄别中都曾被使用到。本福德定律通过自然生成的数字中1到9的使用频率对数据进行检验。如果你的数据具备一定规模,没有人工设定的最大值和最小值,并且数据本身受人为因素影响较小。那么就可以使用本福德定律对数据进行检验,甄别数据是否经过人为修饰。
本福德定律中自然生成的数字首位为1的概率为30.10%,2的概率为17.61%,依次递减,首位为9的概率仅为4.58%。依据这一期望概率值我们可以对数据进行检验。以下是本福德定律的计算公式。通过这一公式可以计算出1-9中每个数字出现数据首位的概率。

我们使用本福德定律公式逐一计算了数字1-9出现在首位的概率。左表是每个数字出现的概率值。

数据检验的过程如下:
a)计算首位数字出现的概率
b)计算1-9本福德定律生成概率值。
c)求max|实际值-期望值|,为K-S值。
d)求1.36/n的开平方根,为截止值。
e)对比K-S值与截止值,如果KS值低于截止值,那么可以判定数据为自然生成,没有经过人工修饰。否则就可能有造假的风险。此处举例略。


关于第二种情况:机器刷量
1)通过访问时间点识别
通过24小时中访问者的变化趋势来判别虚假流量,比如证券行业按照访问者的作息时间在24小时中会出现2个访问高峰时间段,而午夜时段则会出现访问的低谷,如图1。因此如果流量在24小时中不符合这个趋势则十分可疑。例如午夜出现大量访问的情况。那么来看图2这个24小时变化趋势图,你能发现什么问题吗?答案是明显是异常流量,大家自己去思考。

图1

图2 2)通过访客的终端属性识别
方法一:关注低价设备的排名
你可以重点分析渠道的新增用户或者启动用户的设备排名。如果你发现某款低价设备排名异常靠前,这种情况值得我们重点关注。这些数据可以在统计平台的终端属性分布中找到。
尤其是 iOS 平台没有模拟器,所有的用户数据需要通过真机触发。很多刷量的工作室会选择购买二手的 iPhone 5c 来做刷量真机。有个做渠道推广的朋友踩过这样的坑,发现某个渠道有 75% 的设备是 iPhone 5c ,比 top5 的 iOS 设备占比还多。继而又发现这个渠道的留存率等指标都差强人意,最终查出这个渠道使用了大量的 iPhone 5c 来刷量。
方法二:关注新版本操作系统的占比
很多渠道刷量工作室在操作系统版本的适配上会有延时。所以建议渠道人员在查看渠道用户的操作系统时,可以和全体手机网民的操作系统的分布做比较。如果你发现某个渠道下面,不存在新版本的操作系统(比如iOS 8.x),有一种可能性就是这个渠道合作的工作室的技术还没有适配最新的操作系统。
方法三:关注 wifi 网络的使用情况
从用户行为上来说,大家在下载 App 的时候倾向于使用 wifi(流量贵啊),相比之下,启动 App 时,会对当前网络的敏感性差一些。也就是说,新增用户的 wifi 使用比例一般会大于启动用户(活跃用户)的 wifi 使用比例。
3)通过访客的地理位置识别。 
一般虚假流量通常很难使用多个地区的不同ip来产生流量,通过区域地图如果看到流量来源都集中到某一区域,这部分流量就很可疑。但是这是最基本的刷量技术,现在部分刷量技术也很高级,流量也有可能分布在不同区域,这个其实就要结合业务来判断的,也就说只有特定地域的访问者才会对某业务感兴趣,区域之间数据肯定存在差异性,相信大部分产品都存在这样的情况。所以当我们将不同地域的数据放在一起进行比较时,就可以从每次访问页面浏览量、平均停留时间、跳出率等指标发现了异常,比如目标地域与非目标地域的访问者在不同的指标上都表现出了相同的访问特征。再进一步说就是全国用户都表现出了极度相似的访问特征。这里面明显存在问题。如下图3。

图3
4)通过访客的路径和点击分布识别
按照常理产品的页面点击不可能99%都集中在某几个页面,除非其他页面真的做的非常糟糕,但现实也是不可能的。比如下图,某产品有十几个产品页面但是99%的点击量集中在这4个页面,是不是觉得很奇怪呢,所以这部分流量就很值得可疑。当然建议最好结合用户行为中的路径分析和其他行为指标综合分析,如果基本这4个页面就是主要行为路径且访问时刻或访问频率等指标远远超乎一般人,那基本断定是刷量。

图4
5)通过访客忠诚度识别
访客忠诚度是对一段时间内访客回访频率进行的分析。通常来讲,当一定数量的访问者访问你的产品后,总会有一部分访问者会再次访问的。即使这部分访问者非常少。哪怕只有一两个。这就好像在一个页面中,即使有些链接放在非常隐蔽的位置,也总还是会有人点击的,即使比例非常的少。因此,在分析一个渠道的流量时,适当的拉大时间维度来分析访客回访也是辨别虚假流量的一种方法。真实的访客中会有再次回访的行为产生,而虚假流量在合作结束后是不会进行这些收尾工作的。所以那些在合作期结束后齐刷刷没有回访的流量多半是异常的,当然这个也要结合业务动态来分析,比如产品转型或处于生命周期后段的话也是会有这样的情况出现的。

6)通过访客行为分析多指标识别

可以通过访客的多行为指标联合判断,下图为使用tableau所做的一套完整的识别刷量的操作。数据采集为某产品某一天的所有行为数据。以下散点图为一次访问深度峰值、一次页面访问峰值、访问页面数、会话数两两散点图,散点大小代表访问量,不同颜色代表不同用户。图5图6为正常参照数据,图7图8为待检数据。

图5(正常对照)

图6(正常对照)
图5和图6正常数据来看,单个用户单次访问峰值、单次页面访问峰值、单日会话数均较收敛,阀值基本在100以内,且访问量分布较分散,不存在极端峰值或严重帕累托数据。

图7 (待检数据)

图8(待检数据)
图7图8为待检产品数据,可见数据严重趋于极端化,单个用户单次访问深度、单次页面访问深度、单日会话数远远大于100存在大量用户,且这部分流量访问量明显较突出,是整体产品的主要贡献流量。图8可见在Q1-1.5IQR、 Q3+1.5IQR内限外的异常数据居多。
为了防止过分排异,假设单次页面浏览峰值100以上且单次访问深度峰200以上且日会话100次以上,三者同时成立为排异条件,数据分析结果如图9所示,“异常数据”和“正常数据”严重偏离,且异常占比71.96%。

图9
为了进一步验证本次假设,再次对排除的异常数据和正常数据用箱图分析,见下图10和图11。图10中可见异常数据基本收敛在内限以内,图11数据基本符合正常用户行为特征,符合初始设计思路,故假设成立。

图10(异常数据)

图11(正常数据)

最后根据设定好数据规则对刷量的流量进行排除。本次操作成功为业务方排除了主要异常流量。当然数据排异规则一方面结合数据特征,一方面还需结合具体业务,本次规则采用的是三条件同时成立较严格的处理规则,囊括了主要异常数据,有兴趣的童鞋还可以尝试两条件成立或单条件成立的情况。

当然真假数据的甄别还有很多其他的方法,这里就不一一再介绍了。最后说一句,数据中真假数据的识别也是一门学问,但个人认为是做好数据分析的基本功,只有数据源正确,数据分析才有价值可言。

By 王香文