每周研究一个问题「22:宏观角度看数据分析」

2020-11-29 13:35:01

相关推荐

本周研究的一个问题是数据分析，这可能是研究这么多个问题花时间最长的一次了，可能得有十几个小时，看了之前整理在收藏夹的几十篇文章，可能得有几十万字，然后整理成这一篇，准确的说算不上原创，只能算东抄一点西抄一点。

获取那几十篇文章，关注后回复：数据分析

文章会按照下面结构来写

一、数据分析包括哪些方面

1.1 数据规划

1.1.1 制定产品目标

1.1.2 定义产品数据指标

1.1.3 构建产品数据指标体系

1.1.4 提出产品数据需求

1.2 数据采集

1.2.1 数据上报

1.2.2 数据采集与接入

1.2.3 数据存储

1.2.4 数据调度与运算

1.2.5 获取数据

1.3 数据分析

1.3.1 观测和分析数据

1.3.2 数据可视化

1.3.3 产品评估与数据应用

1.4 总结，如下图

二、几个方面着重介绍

2.1 数据指标体系搭建

2.1.1 数据指标体系是什么

在业务环境中，通常单个数据指标无法完成对整体业务的描述。这个时候就需要同时使用多个相关指标了，而这多个相关的又相互独立的指标所构成的统一整体，即为指标体系。”对比单个数据指标，数据指标体系具有结构化、流程化、体系化等特点。数据指标体系将多个数据指标有基结合，从多方面全面衡量业务单元，在构成数据指标体系的各数据指标之间又相互独立，完全穷尽。如果说数据指标是砖。那么，数据指标体系则是由砖搭建而成房屋模型。

打个简单的比方：如互联网行业的运营活动，每个运营活动的上线都会有业务背景和目的，为什么要做活动（WHY），要做什么样的活动（WHAT），活动要做怎么做（HOW），什么时候做（WHEN），活动的目标用户是谁（WHO），要投入多少资源（HOW MUCH），预期要达到什么效果……这些内容最后会构成运营活动的评估体系，反应在数据上就是运营团队的指标体系。

2.1.2 什么是好的数据指标（北极星指标，OMTM）

数据指标与目标相关性比较密切，能用来衡量目标的期望值准确性与稳定性，以长期稳定的准确的反应目标结果可持续性的，持续性表现在，口径的统一以及长期可用上。比较性的，适合横向与纵向的对比，如果能比较某数据指标在不同的时间段、用户群体、竞争产品之间的表现，你可以更好地洞察产品的实际走向。简单易懂的会改变行为最重要的评判标准：随着指标的变化，你是否会采取相应的举措？学会根据数据确定一条做与不做的准绳，对规范你的创业行为大有裨益；数据指标间的耦合现象也值得注意转化率通常就是和购买所需时间相绑定和商业目标紧密结合反映客户的价值需求指标简单易懂能够计算汇总如果这个指标变好了，是不是能说明你的整个公司是在向好的方向发展这个指标是不是很容易被你的整个团队理解和交流呢这个指标是一个先导指标还是滞后指标这个指标是不是一个可操作的指标指标的选择来源于具体的业务需求，从需求中归纳事件，从事件对应指标

举例，从内容落地页的业务需求开始，分析选择指标的过程如下明确需求：对页面进行数据分析，提高电子书下载量；归纳事件：用户下载电子书是系列事件的最终结果，包括点击推广链接、访问下载页、开始填写信息、填写信息完成下载；对应指标：下载量 = 访问流量 CTA 点击率注册转化率。通过上述分析，得出下载量是 OMTM（第一重要指标，One Metric That Metter）的结论。同时，整个指标体系包括访问流量、CTA 点击率、注册转化率三个可操作的指标，基于可操作的指标，才可以更好地优化核心指标。

2.1.3 如何规划数据指标

方法一

业界搭建数据指标体系的套路通常包括两种，一种是以精益数据分析为代表的第一指标法，通过寻找关键指标，然后利用杜邦分析法通过拆解第一关键指标的方式，围绕第一关键指标搭建运营数据指标体系；另一种是根据业务衍变过程（逻辑）构成的海盗数据指标框架：AARRR，与AARRR相近的还有类似于PRAPA,AMAT等数据指标框架。上述两种套路，最终都殊路同归，最终指向业务核心诉求：收益。而最终将收益拆分，对不同影响因素冠以不同的套路的过程，就是数据指标体系搭建的过程。以B2C电商为例，将目标收益拆分为由客流量、转化率、客单价、购买频率和毛利润率以及成本等指标，随后又将这些核心指标根据影响因素拆分为比如SEM、EDM等单位影响模块，最终由核心指标和影响模块指标构成了完整的数据运营体系。

方法二：立体化的数据指标体系

核心指标，影响因素和发展阶段将数据指标变的立体化。由核心指标与影响模块构成的数据模块，伴随着业务发展阶段的变化而变化，最终形成立体化的数据指标体系。数据指标体系的立体化可以从四维空间的角度去理解，首先的立体化是核心数据指标以及对应因素影响因素所构成的二维数据指标系，随着业务的发展以及人员分工的细分，并在此基础上引入了岗位层级关注度，至此二维数据指标系由二维转变为三维，最终形成一个一个的数据指标模块。其次，随着时间的推移的，业务发展阶段不同关注的核心指标不同，最终形成数据指标模块的动态衍变，最终将数据指标模块衍变为立体化的数据指标体系。

2.1.4 标签体系分类

从属性来看，标签可分为人口标签，会员标签，行为标签，交易标签，消费标签以及营销标签等一级类目。每个一级类目下可根据观察维度进一步拆分子类目标签

会员指标：会员等级、忠诚度、会员活动参与度、入会路径、当前生命周期、自传播能力

站外推广类指标

流量类指标

目标转化类指标

销售类指标

妥投类指标

商品运营指标

产品会员类指标

产品控制类指标

收益控制类指标

2.1.5 如何让指标体系可持续迭代

既然指标体系已经存在了，还有“售后”的问题，就是持续性。很多团队在刚开始做的时候，花了很大资源在这个事情上，并且在一个周期内发挥了比较好的效果，但是经不起时间的摧残。业务的调整、产品线的扩充、公司战略的变化、人员流动等等事件，会让整个体系持续迭代，加上前期可能是通过人工维护文档（特别是本地excel），指标体系的生命周期最多不超过半年，半年之后需要重头再来一次。面对这种情况，需要数据产品经理很好的规划指标体系的系统化方式，就像“数据采集”和“数据仓库”的介绍一样，有能力，有资源就自己设计、自己开发。短期资源不够，可以采购第三方产品。

2.1.6 定性指标与定量指标

定性数据回答的是“为什么”，定量数据回答的是“什么”和“多少”这样的问题；定量数据排斥主观因素；定性数据吸纳主观因素；

常见定性指标

平均访问时长、人均启动次数、平均访问深度、平均一次会话浏览页数、跳出率、转化率留存率、活跃度等常见定量指标

PV、UV、DAU、下载量、访问量、启动次数等

2.1.7 虚荣指标与可付诸实践指标

如果你有一个数据，却不知如何根据它采取行动，该数据就仅仅是一个虚荣指标

2.1.8 先见性指标与后见性指标

见性指标可用于预测未来；后见性指标能提示问题的存在，比如用户流失

2.1.9 分享指标产品的几个关键词

原子指标：不能再细化的指标，比如支付金额派生指标：由多个原子指标组合的指标，如点击率=点击量/曝光数作用域：私有或公有，私有是指该指标只能某个人使用，或者某个团队使用，超过该作用域下使用该指标，定义无效。公有是指该指标产生的数据对所有人有效。通知机制：指标在新增、变更或删除时，能有通知机制通知到使用该指标的所有人其余的内容大家各自根据团队所在的时间周期、资源情况等等方面做内部的评估，这里不做赘述了。

2.2 数据口径统一

我知道很多朋友都推过指标体系或者分析体系，其中最大的难题不是技术问题，而是如果标准化，每个业务都有各自的业务理解和对指标的定义，数据团队作为业务的服务方，会接触到各个团队的需求，这时候就会发现统一指标定义是个“脏活累活”，感觉花了80%的精力在各种沟通，各种撕X，最终结果往往不尽如人意。

那到底怎么样能高效的搞定这个问题，“无论是数据驱动还是业务驱动，依靠这一套已成形或未成形的指标体系，能更加具象的描述业务板块的目标和过程”，大家有啥感想？

提供一个思路：至上而下。（不是说指标体系由高层来决策）我的意思是，既然每个业务都能出业务评估的指标，那上升到公司层面、集团层面，肯定有短期或长期的目标，如今年用户量要达到多少？今年营收要做多少？App下载量要到多少？这些公司层面的指标就是下面各个业务部门最终的业绩体现，而且每个公司短期或长期的核心指标一般不会超过5个（北极星指标），所以按照这个结构，从最上层的3-5个指标，向下拆分，拆分到各个业务板块，整个指标体系就可以准确的描绘公司各个层级、各个团队的目标。

如上，可能会出现一些情况，比如按照上面的步骤做了，并且最后整个结构也梳理出来了，但是梳理出来的指标定义跟现在某部门的指标还是有差异怎么办？无所谓，我们把定位拉高，数据的价值不只是给某个细分团队服务，更重要的是为公司服务，所以如果有这种情况，有两种处理方案：①将现在业务团队的指标名称做差异化，该指标继续存在，但是作用域只是该部门使用。 ②将“至上而下”出来的指标的生成逻辑跟团队负责人同步，得到团队负责人的认可，并将新的指标定义替换原有的定义。

2.3 数据采集

采集业务数据，提供数据报表流量数据行为数据event（事件）：交互、内容、人物、地点、事件如何采集数据代码埋点：通过SDK嵌入App，基于发版而上限灵活可控，交易、行为属性全面可视化埋点：在可视化页面对埋点区域和事件进行设定，通过部署在产品上的基础代码对产品的所有交互元素进行解析全埋点：采集页面上所有的点击行为埋点常见问题最开始进行需求梳理时，没有从整体进行考虑，给出的需求偏浅层或者给不出具体需求，等到开发埋好指标结果出来时却不是自己想要的，需要重新埋点。另外，后续产品版本更新迭代了，原有埋点不可用，也需要重新埋点。数据统计口径没确定清楚，且没有保持和开发的一个良好沟通，没有将埋点的具体采集时机正确传达给开发，导致最终埋点实现的不是自己想要定义的指标。数据采集方案没有想清楚，哪些应该在前端埋点，哪些应该在后端埋点，埋点采集SDK如何正确使用在还没了解清楚时就急于上手埋点事件分类点击事件：用户点击btn即算点击时间，不管点击后有无结果浏览事件：一个页面记一次（打开、刷新、跳转、加载等），页面停留时间基础埋点表字段功能字段事件类型字段中文名称字段时间id字段key字段与value字段记录规则字段备注字段

2.4 数据分析

2.4.1 数据分析流程

梳理业务：了解业务需求，业务是数据分析的前提

明确目标：或者叫明确问题是什么

数据分析：根据目标去分析目前的情况以及存在的问题

提出假设：提出可能解决目前问题或者实现目标的想法（基于对业务的理解的经验假设）

原因优先级排序：将假设的原因排好优先级进行测试

开展实验：

想好取什么数据，将需求拆分成可执行的数据指标（几乎任何需求的可拆分成具体指标，如果不可拆分，大概率只是你没想到合适的指标）取数据处理数据拿到数据之后，先用直观经验和逻辑判断一下，数据是否正确以及合理。这一步非常重要，否则这一步错了，对于后面的数据分析结论是十分致命的，最后功亏一篑，重新再来。我在工作中就碰到一次这种情况，当时拿到这份数据就开始清洗分析工作，后来汇报的时候被质疑数据的准确性，最后又加班加点重新做了一遍。数据清理对数据的噪音、缺少某个链条的数据以及补充调整数据的格式等，这一步在日常工作中大家都不自觉的这样做，不再累述。数据处理把数据按照一定维度排列好，去除表中无关的数据。个人用的比较多的是excel的透视表和vlookup功能。还有excel常用的一些函数功能，都是用到哪些函数就上网百度，函数功能一般都很简单。分析优化：常用的数据分析手段基本就3种：细分、对比和趋势。在复杂点会用到聚类、回归分析和相关性分析方法。在我们发现某个指标降低时，我们拉去整体的一个数据链条，先对比哪一个指标的变动，不断的去细分对比，寻找到影响数据波动的哪些点。

我们在考虑影响这些点数据变化的因素有哪些，可能时竞争对手的原因，可能是上线后一个功能导致用户体验下降从而被影响等等，这里分析的原因考验你对数据各种维度思考和总结，还有对业务，对产品的理解的深度。这个地方是考验一个数据分析人员能力的一个重要的点。

最后，不断循环，直到找到问题所在

2.4.2 数据分析基本方法

任何数据分析都是「细分，对比，溯源」这三种行为的不断交叉。最常见的细分对比维度是时间，我们通过时间进行周月同比，发现数据异常后，再进行维度或流程上的细分，一步步拆解找到问题所在。如果找到了某个维度的问题，则需要溯源到业务端或现实端，确认问题产生的源头。如果多次细分对比下来仍然没有确认问题，则需要溯源到业务日志或用户访谈来更进一步摸清楚情况。

细分分析法

这一步相当于给指标增加了一个或者若干个维度，细分主要有以下三种方式

横切：根据某个维度对指标进行切分及交叉分析纵切：以时间变化为轴，切分指标上下游内切：根据某个模型从目标内部进行划

横切上，以转转举例，我们对维度和指标做做了分类和交叉，当某一类的指标出现问题时，我们便知道该从什么维度进行分析。在进行横切分析时，经常需要多个维度交叉着使用。这在数据分析术语上叫：交叉多维分析。这也是刚才讲的「维度总线矩阵」看到的各维度交叉情况了。

纵切上，有目的有路径，则用漏斗分析。无目的有路径，则用轨迹分析。无目的无路径，则用日志分析。

漏斗分析分为长漏斗和短漏斗。长漏斗的特征是涉及环节较多，时间周期较长。常用的长漏斗有渠道归因模型，AARRR，用户生命周期漏斗等等。短漏斗是有明确的目的，时间短，如订单转化漏斗和注册漏斗。在轨迹分析里，桑基图是一种常用的方式。常见于各页面的流转关系，电商中各品类的转移关系等等。日志分析，则通过直接浏览用户前后端日志，来分析用户的每一个动作。

各种手段的细分往往交叉着使用，如订单漏斗纵切完可以接着横切，看看是哪个维度的转化率导致的问题。

内切上，主要是根据现有市面上常见的分析模型，RFM，Cohort 和 Segment等方式进行分析。RFM 即最近购买时间，频率及金额三个指标综合来判定用户忠诚度及粘性。Cohort，即同期群分析，是通过对不同时期进入平台的新用户分群分析，来区分不同新用户的质量，如留存率或目标转化率等。Segment 通过若干个条件对用户分层，然后针对不同用户进行分层分析和运营，如用户活跃度分层等等。

在前面讲解细分的时候，侧重的主要是一些客观维度，如时间、已经客观存在的拉新方式和Banner等。而随着分析经验的积累和算法能力的提升，我们逐渐会在分析和应用中，加入一些偏主观的细分维度。比如根据用户偏好制作的用户标签。这些维度提供了新的视角，但同时也有自己的“玩法”。

对比分析法

对比主要分为以下几种：

横切对比：根据细分中的横切维度进行对比，如城市和品类纵切对比：与细分中的纵切维护进行对比，如漏斗不同阶段的转化率目标对比：常见于目标管理，如完成率等时间对比：日环比，周月同比；7天滑动平均值对比，7天内极值对比时间对比严格来说属于横切对比。但因为时间这个维度在数据分析和产品中极为重要，所以单拎出来说。横切对比中，有个比较著名的数据应用方式即是「排行榜」。通过这种简单粗暴的方式，来驱动人们完成目标，或者占领人们的认知。前者有销售完成排行榜。后者有品类售卖畅销榜。

溯源分析法

经过反复的细分对比后，基本可以确认问题所在了。这时候就需要和业务方确认是否因为某些业务动作导致的数据异常，包括新版本上线，或者活动策略优化等等。

如果仍然没有头绪，那么只能从最细颗粒度查起了，如

用户日志分析用户访谈外在环境了解，如外部活动，政策经济条件变化等等

汇总

这一步我们关注的是指标，也就是大家常见的那些DNU、DAU、GMV、ROI等等。只要是说到数据分析的内容，一定会提示数据分析“要明确目标”。因此，这个重要性我们倒是不需要赘述。

目标当然是所有指标中最重要的。但只有目标还不够，我们还需要其它的辅助指标。就比如ROI，是投入和产出两项算出了ROI；而GMV，也可以用用户数乘以平均每用户的GMV计算出来。这样，我们就把一个目标的计算，拆分成了更多相关指标的组合。并且，这些指标更基础，我们可以通过一些运营手段影响这些指标的变化趋势。

这部分没有什么理解的难度。只不过，我们要找出指标之间的计算关系，由此逐渐找到所有我们需要关心的指标。在现在的互联网产品运营当中，从来不会缺少需要看的指标，已经多到了眼花缭乱的地步。但只有那些跟目标相关的指标，我们才需要关心。

汇总部分的优化，在于发现更新、更合适的辅助指标，来计算出最终的目标指标。就比如在财务领域，相比于按照收入和支出汇总的计算方式，杜邦分析法（DuPont Analysis）给出了基于销售利率、资金运作和负债程度三个方面的拆解方式，更容易理解并采取行动。

评价

在【评价】的步骤中，我们要用到【汇总】步骤中的那个作为目标的指标，以它作为评价的唯一标准。如果我们的目标就是简单的GMV，甚至更简单的PV和UV，那么到了【细分】的步骤之后，我们基本就可以开始下结论了。

但是在实战中并非如此。我们的目标可能是一个复合目标——在拉高GMV的同时，还要控制成本；在拉高PV的同时，还需要提高GMV；或者直接是一个ROI这样的复合指标。

在这个时候，我们就不能只关注目标这一个指标了，而要关注复合指标。例如，我们的目标是在拉高GMV的同时控制成本。为了进一步简化问题，我们把成本具体地定义为：促进老用户产生GMV的成本和获得新用户产生GMV的成本。因为通常在运营中，拉新与促活的手段是不同的，这与【细分】部分的原则对应，即：是否存在操作空间以及操作空间的大小。

之后，我们就可以分别按照拉新和促活的不同纬度，对产生的GMV和投入的成本这两个指标分别进行细分了。例如，在拉新方面，我们有外投百度关键字、有外有广告联盟、还有与其他APP的合作换量；而在促活方面，我们在APP上的ABCD四个Banner上设置的A/B Test。

那么对于新用户的部分，我们就可以分别针对百度关键词、广告联盟和合作APP这三种方式，评价每投入一块钱的成本分别可以得到多少新增的GMV。通过这种评价，我们就能简单地在不同的拉新方式中，选择更优的方式，并在已有的方式中调整更优的成本投入。而对于老用户的部分，我们同样可以针对ABCD四个Banner各自的A/B Test，评价不同的展示版本中每投入一块钱可以产生多少GMV。

简而言之，在【评价】这个步骤中，我们需要把【汇总】部分的指标分成两类——最终的目标，与实现目标的手段。比如在前面的例子中，投入的成本就是实现GMV提高的手段。因此，每一块钱的成本投入，我们都需要以产生的GMV来评价它。这时，要实现GMV提高的目标，可选择的手段就比较多了。比如，针对老用户促活，我们可以：

保持成本投入不变，更换更容易带来GMV的图片和文案，来提高投入的每一块钱带来的GMV（优化效率）；

保持每一块钱带来的GMV不变，（在限制范围内）追加成本投入；

这两种方式，都有意识地忽略了GMV可能带来的价值。如果我们将这部分价值考虑进来，它就能抵消掉一部分投入的成本，那么备选方案还会更多。

总之，在前面这个例子中，由于我们的拆分维度本身比较简单，只考虑了APP中的Banner和外部拉新的方式，因此比较容易通过数据中的一些标记进行细分。但是在实战中，还有些情况是我们无法进行明确地拆分的。比如在用户交互中，产生一个GMV的路径需要经过几个环节的跳转，或者就像前面那个例子中的ABCD四个Banner，如果用户点击了其中的两个甚至三个Banner，那么我们如何拆解呢？这个问题就是下一个步骤【归因】了。

归因

【归因】这个步骤就是“最后一公里”了，也就是我们常说的剖析“为什么”的过程。之后便可以得出结论并进行决策。

在前面的步骤中，通过案例能清楚地看到，我们已经得到了一些可以直接对比的量化指标了。在这种情况下，其实我们不需要在【归因】的步骤中做什么特殊的操作，可以通过数值的比较直接下结论。但是如果我们遇到了细分的问题，也就是多个环节或者方法之间无法进行明确地拆分时，应当怎么办呢？在日常的数据分析中有几种常用的归因思路。

比如，我们继续使用前面提到的案例——用户依次点击了ABCD四个位置才产生了GMV：

首次互动归因模型：也就是用户第一次做某件事，在数据中通常表现为时间最早、顺序号最小等等。那么我们给A记100%，B、C和D记0%。最终互动归因模型：也就是用户最后一次做某件事，对应的在数据中就表现为时间最近、顺序号最大等等。那么我们给D记100%，A、B和C记0%线性归因模型：也就是平均分。那么我们给ABCD分别记25%。加权归因模型：也就是给多个促成因素分配一定的权重，例如A和B各记30%，C和D各记20%。正因为多出来一个权重的维度，需要一定的设计；并且计算权重也可以作为一种分析的过程。关于权重也有几种常见的设置办法，比如首末两项最重要而其它向中间递减，或者按时递减等等。当然，在选择归因方式的时候，也会结合具体业务的特征，来考虑行为的先后顺序、停留时间长短等情况，对于分析目标的贡献或影响。

归因部分是对于那些不能客观确定的拆分逻辑，给出了人为定义的拆分逻辑。因为有了人为操作的加入，并且客观情况在不断的变化中，这其中就逐渐产生了优化空间，需要对拆分的方式不断调优，以便适应业务的发展和环境的变化。

决策

最后就可以决策了。但经过了前面的几个步骤逐渐消除了不确定性，决策反而是最简单的一步了——就是找出那个表现最好的版本、表现最好的位置、表现最好的拉新方法而已。

而当我们有一些新的idea时，同样可以作为A/B Test中的一个版本，加入到这套评价体系中，进行综合评价。

这套方法论不仅针对日常工作中的专项分析，在一些已经固化成型的方法论中，也可以找到这套基础方法论的影子。我们来看几个已经成型方法论案例。

分组分析法

根据数据分析对象的特征，按照一定的指标，把数据分析的对象划分为不同的部分和类型进行比较研究。

平均分析法

运用计算平均数的方法来反映总体在一定时间、地点、条件下某一数量特征的一般水平。

结构分析法

将被分析研究的总体内各部分和总体之间进行对比，即总体内各部分所占比例，属于相对指标。

交叉分析法

即二维交叉表分析法。

综合评价分析法

即增维，将多个指标转化为一个能够综合反映情况的指标进行分析评价，用于解决复杂的分析问题。

杜邦分析法

漏斗分析法

适合于业务流程比较规范、周期比较长、各环节流程涉及复杂业务比较多的分析。

矩阵关联分析法

将产品的两个重要指标作为分析的依据，进行关联分析，找出解决问题的办法。

立体式分析法

A/B Test实验

首先我们要看的案例就是A/B Test。在A/B Test的过程中，首先我们要确定实验的目的，也就是我们要通过实验提高和优化的是哪个指标。之后，我们以实验中的不同版本作为细分维度，以指标是否实现作为评价标准，对实验结果进行评价。如果在实验的过程中确实遇到了需要归因的问题，则还需要考虑如何进行归因。

当然，随着业务的复杂度不断发展，A/B Test的难点已经不在于比较和得出结论的过程，而在于如何设计实验才能在更短的时间内、耗费更少的用户流量、进行更多的实验并得到有效的结论。这也是所有这方面的平台和工具的起点——Google的著名论文《Overlapping Experiment Infrastructure: More, Better, Faster Experimentation》论述的核心内容。

用户分群

用户分群是一个常见的运营手段，但如何确定分群的准确度，以及如何在后续的使用中持续地维持准确度，确是一个数据分析问题。在基于特征的用户分群过程中，首先要确认的是，我们希望获得具备怎样特征的用户群体。

之后，当我们想找到符合这个特征的用户时，就可以使用TGI（Target Group Index，目标群体指数）来衡量找到的用户群体是否对这个特征有倾向性。例如，如果我们想找到喜欢搞笑短视频的用户，并且以点赞行为作为“喜欢”的定义，就可以使用TGI的大小来评价我们找到的用户群体是否确实对搞笑短视频有所偏好。

具备了这种分析机制之后，我们就可以通过各种手段来对用户进行分群了，之后针对不同的分群方式就可以计算出多组TGI值，我们需要的就是那个TGI值最大的子群，并选择那个得到这个子群的分群方式。

反过来说，关于用户分群还有另外一种场景：我们已经得到了一个用户群体，并想要研究这个群体具备怎样的特征。这时，同样可以使用TGI作为目标，以TGI的大小来衡量分群对各种特征的倾向性。

转化分析方法

优先级排序LIFT框架ICE框架：impact（影响力）、confidence（自信心）、ease（难易度）PIE框架：popential（潜力）、importance（重要性）、easiness（容易程度）

内外因素分解法

把问题拆成四部分，内部因素、外部因素、可控和不可控，在是个象限中

内部可控因素：立即执行内部不可控因素：协调沟通外部可控因素：相关渠道外部不可控因素：确定假设

经典管理模型：BCG矩阵

在经典的BCG矩阵中，隐含的一个关注目标是整体利益，而手段是资源的优化配置——也就是要将企业中有限的资源，投给更具潜力的业务，以便获得企业层面的整体利益最大化。

为了对这个目标进行深入研究，在BCG矩阵中，按照两个维度对这个指标进行了拆分，形成了一个二维矩阵。在通常的画法中，横向代表相对市场占有率的高低（通常是指相对于行业Top 3），而纵向代表了市场增长率的高低。相对市场占有率和市场增长率，就是创造利益的手段了，占有率高且增长迅速，自然能更多获利；而利益自然是最终目标。

因此，由于手段带来的利益是不同的，在拆分出的四个象限中，不同的业务就有了自己的“宿命”——有的维持，有的追加资源，有的减少资源，有的直接放弃。

衍生模型

在「细分对比」的基础上，可以衍生出来很多模型。这些模型的意义是能够帮你快速判断一个事情的关键要素，并做到不重不漏。这里列举几个以供参考：

Why-How-What5W1H5Why4P 模型（产品，价格，渠道，宣传）SWOT 模型（优势，劣势，机会，威胁）PEST 模型（政治，经济，社会，科技）波士顿矩阵举个例子，最近京东和美团外卖可能会发现送货时长延长，针对物流相关的客诉增加，从 PEST 模型就可以分析出来是否在政治上出了问题。而当你在竞品做比对分析时，SWOT 或者 4P 模型能够给你提供不同的角度。

其他分析方法相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列、链接标记、同期群分析、用户细查（行为轨迹）、热图分析、趋势分析、魔法数字（Facebook的7个好友）、DOSS分析法（具体问题→整体方案→单一回答→规模化方案）

2.4.3 数据分析常见谬误

控制变量谬误：在做 A/B 测试时没有控制好变量，导致测试结果不能反映实验结果。或者在进行数据对比时，两个指标没有可比性。

样本谬误：在做抽样分析时，选取的样本不够随机或不够有代表性。举例来讲，互联网圈的人会发现身边的人几乎不用「今日头条」，为什么这 APP 还能有这么大浏览量？有个类似的概念，叫幸存者偏差。

定义谬误：在看某些报告或者公开数据时，经常会有人鱼目混珠。「网站访问量过亿」，是指的访问用户数还是访问页面数？

比率谬误：比率型或比例型的指标出现的谬误以至于可以单独拎出来将。一个是每次谈论此类型指标时，都需要明确分子和分母是什么。另一方面，在讨论变化的百分比时，需要注意到基数是多少。有些人即使工资只涨 10% ，那也可能是 150万…

因果相关谬误：会误把相关当因果，忽略中介变量。比如，有人发现雪糕的销量和河溪溺死的儿童数量呈明显相关，就下令削减雪糕销量。其实可能只是因为这两者都是发生在天气炎热的夏天。天气炎热，购买雪糕的人就越多，而去河里游泳的人也显著增多。

辛普森悖论：简单来说，就是在两个相差较多的分组数据相加时，在分组比较中都占优势的一方，会在总评中反而是失势的一方。

2.4.4 数据分析模型

第一类：运营思维模型

运营思维模型是那些“非常正确”但并不能让你立即采取行动的模型。不少人对这些模型存在“意见”，正是因为他们很正确却又“无法落地”。另有聪明的朋友可能会觉得，这些模型都是“马后炮”，这不就是我日常策略的总结嘛。话虽如此，这些模型仍然是对成功策略的简单精辟的总结。

AARRRAIPLAMOT第二类：客户认知模型

与第一类模型不同，第二类模型是可以让我们实际操作的模型，并且基于这些操作，我们可以更深入的了解客户的情况，从而为我们的运营策略提供依据。

RFM自定义聚类用户活跃度模型用户偏好识别模型第三类：运营增长模型

运营增长模型对于运营工作具有直接的指导意义，也是我个人认为每一个运营人都应该熟练掌握的模型。

留存曲线Cohort模型增长因子K因子流失预警模型诱饵、触点与规则模型

2.5 数据可视化

2.5.1 数据可视化设计原则

准确性：数据产品的精髓在数据，因此数据的准确性决定了产品是否可用、可信任

取舍性：可视化本来是解决数据杂乱、量大问题，需要将最有用的信息传达给用户，因此要懂得取舍，将多余的展示去掉，力求经典

易读性：图表的学习成本、理解成本、操作成本、清洗与否等都影响了图表的易读性，如果花费很长的时间去研究这个图想表达的含义，那将得不偿失

情感性：好的图表一定是能够读懂用户的感情，知道用户的诉求

2.5.2 数据可视化展示逻辑

先总后分，先全局描述数据的整体情况，再带着指标细化下去看明细

时间逻辑，比如实时数据、历史数据等，需要根据时间维度进行数据展示

空间逻辑，主要是基于地理位置的展示逻辑，例如要查看不同地区的产品销售情况就需要基于空间进行数据展示。

用户角色逻辑，不同的用户角色，所呈现的数据是不一样的，例如某个数据产品的用户有总经理、部门经理和业务人员三类角色，总经理想看到的是各个部门全局的汇总数据，部门经理想看到是所管辖部门的数据和情况，业务人员想看到的是所负责业务的数据指标，在数据展示时，需要考虑到不同的用户展示不同的内容。

业务流程逻辑，从业务流程上监测不同节点的数据指标也是其中的展示逻辑之一，可以横向层层递进对业务进行剖析

对比分析，与业务紧密相关的数据展示本身没有意义，只有通过数据产品把数据对比凸显出来才有意义，例如同比、环比、时间趋势对比、定基比等。

2.6 数据产品能力模型

2.6.1 能力模型

产品基础能力：包括市场调研、竞品分析、需求分析、产品设计、项目管理和推进等产品基本能力

数据技术理解能力：首先需要清楚数据流：从产生、采集、加工处理、储存、建模和展示流程，这样才能对数据理解透彻；其次是数据技术理解能力：包括数据采集、数据同步、数据服务、数据挖掘等相关技术，推荐《阿里巴巴的大数据之路》一书，看了之后对数据技术的相关链条有一个基础理解

数据分析能力:产品是用来服务用户的，解决用户问题的，数据产品更是要通过数据来分析痛点，提供解决方案，因此数据分析天生就有数据产品解决能力的基因。

商业理解能力：数据的最大价值就是让企业的决策和行为更精准，只有在充分理解企业的商业模式、战略以及不同阶段的诉求基础上，数据指标的设计、数据分析和数据可视化才更聚焦、更有指导性。

数据可视化能力：这是数据产品需要具备的能力。

人文能力:这里所包含的人文能力较广，比如人性、文学、国学、哲学、同理心、用户研究等都算是人文能力的范畴，如果把科技比作骨架，那人文就是情感，骨架能支撑身体的运转，情感能让身体活跃起来，更具有情感化，数据产品就是要让数据本身活跃起来。

2.6.2 需要掌握的基础数据知识

数据预处理、检验、清洗各种常用统计检验方法描述统计分析对比分析简单的多元统计分析方法数据库知识

2.7 数据分析几道面试题

用户流失分析，新用户流失和老用户流失有什么不同？在一个国家中某些机型留存率降低，如何分析并定位原因元旦过后，整体DAU连续多天下降，如何分析是否参与过表盘设计及指标选择什么是回归分析，如何识别归因与相关系数为什么说均方误差不是一个衡量模型的好指标？你建议用哪个指标代替输入法用户画像如何设计？可以用哪些指标以及如何可视化呈现如何了解一块业务，并建立监控体系

封面：基于 CC0 协议

阅读剩余内容

宏观研究一个问题数据分析

每周研究一个问题「22:宏观角度看数据分析」

列提纲宏观调控让灵魂飞

数据分析的准备工作：从问题分析到数据清洗

医学研究结果分析及综合讨论的写作

如何成为未来世界储备货币？——新宏观经济学出现

「人工智能」怎样应用在文本数据研究中？