数据分析并不那么简单 以文章的推荐分析为例
在很多人眼中,数据分析是一种门槛低、技术含量低、价值低的工作,网上的教程也处处凸显出数据分析是一件很简单的事,无外乎就是收集处理、处理数据,掌握好几款基本的工具就可以了。
其实不然,入门数据分析虽然很简单,但要做好数据分析的难度远非常人所理解的程度,它的难处不在于技术,也不在于业务的复杂,而是在于人厘清广度数据的逻辑思维能力。
下面,我们将用头条的文章推荐影响因素为例,来说明为什么数据分析并不简单,以及这种不简单所带来的影响。
01数据分析的不简单之处
如果我们是就职于自媒体公司的员工,那自然会面临着要分析文章推荐量影响因素的需求。
难题1:如何具体化目标。
接到一个分析需求后,是可以有无限种方式来理解需求的,每种理解都会对应着不同的工作结果,如果不提前将需求具体化,很有可能做出来的结果并不是别人所需要的。
就拿上述需求来说,我们可以这么理解:
找出影响文章推荐量的所有因素;找出影响文章推荐量的几个关键因素;找出并量化影响因素的系数;找出影响因素并进行验证;……
每种需求还要提前想清楚是否能做,以及需要花多少时间。如果是需要验证文章的发文时间是否影响推荐,而每天又才发文一篇,那这样的需求由于样本量少要提前想到解决方法,并告知相关情况。否则,如果要求是一周之内就出结果的话,就会出现样本量少导致结论不严谨的情况。
难题2:如何选择指标
假设我们现在面临的需求是找出影响文章推荐量的三个关键因素,并计算出影响系数。
首先,根据经验我们会归纳出两个大的影响因素:账号和文章。
然后,我们需要思考用哪些指标来衡量这些影响因素。譬如账号,我们知道账号的质量会影响文章的推荐,那我们选择账号是否新手期、粉丝数、所属垂直领域、信用分等指标来衡量。
现在问题来了,好像每个指标还可以继续拆解下去。譬如粉丝数可以根据是否活跃、粉丝性别、粉丝自身关注量、粉丝地域等维度继续拆解下去。
这里我们就面临着如何发散寻找影响因素,再如何从发散中聚焦回来的难题!
难题3:如何量化指标
有些指标非常好量化,有现成的数据,譬如粉丝数和信用分。
但针对如账号是否是新手期该如何衡量呢,按照注册时间是否满一个月吗?那首次发文是注册一月之后的事,这样的又如何衡量?虽然我们可以直接忽视这些特殊情况,但这是否意味着我们没有找到一个合适的指标呢?
难题4:如何选择数据
这一点可能有点难以理解,我们拿展现量来说。
按照头条的逻辑,文章最上层的是展现量,展现量再分为推荐、相关文章、个人主页、阅读历史、搜索、其它等6种分类。这时我们首先就面临着到底是采用展现量还是推荐量的问题。
另外,一篇文章从发表之后就一直会有展现量,但一般24小时后的展现量点击率非常低。那我们是该选择所有时间的展现量还是发文后24小时的展现量,亦或是发文后12小时、36小时、48小时……
同时,我们只能获得每一天的展现数据,针对发文时间不一致的文章,要如何比较他们的发文后24小时展现量。
难题5:如何分析多指标
假如前面的问题我们全部都解决了,得到了一个如下的明细数据。
常用的方式就是对维度组合进行对比分析,譬如对比不同发文时间的点击率、不同阅读时长的点击率……先不说这种对比是否能得到有效结果,仅仅只是维度的组合就会出现无数多种,要在这么多组合之中找出有效组合就不是一件容易的事。
有人会说,可以直接用多元统计分析或者机器学习模型。确实,这些都是有效方法,譬如决策树模型可以告诉我们每个特征的重要性程度,找到前三个重要指标和它们的系数就算是完成需求了。
正是因为数学模型在分析多变量复杂需求时的有效性就催生出了数据分析师追求技术的局面。
02数据分析不简单的影响
数据分析是一项兼具广度和深度的工作,在万物皆数的大数据时代,即使只是一个小小的业务,它的广度也可以无限扩大,要想将广度内的数据都进行分析,就要求一个人具备抽丝剥茧、化繁为简的强大逻辑思维能力,以及对抽象出的大量广度数据进行深度分析的技术能力。
在上文的分析中已经逐一罗列出了在进行广度分析时我们会面临的问题,这些问题的解决不是说靠技术就能解决的,更主要的是考验我们的逻辑思维能力。当然了,清逻辑得到明细数据后,借助于模型可以让我们的任务变得非常简单和具体。
相比于广度数据的逻辑思维能力,进行数据深度分析的技术能力要更好去学(主要是因为有大量封装好的机器学习库),所以不少人开始放弃对于广度的分析,而去追求对于深度的钻研。
这就是为什么现在数据分析师开始热衷于学习机器学习的原因。
结语
数据分析和语言学习非常相似,它们都是一项通用型技能,是不可或缺的,入门也都简单。但要成为语言学家的难度也是非常大的,而且这方面的需求也小,难以实现价值。而钻研某一领域的语言,如历史、文学、哲学的难度相对来说就要小,最主要的是需求大、门槛高、容易产生价值。
总之,这都是一个广度和深度的问题。具有广度简单,但掌握广度难!
最后,数据分析并不简单,简单的只是它的入门!