HI,下午好,欢迎来到微信公众号转让!
24小时服务热线: 4000-163-301

新闻动态

NEWS CENTER

明确锚点/维度/指标,用数据分析解决问题

2020-03-10

数据分析是产品、市场、运营等岗位的基本技能,越来越多的招聘要求中,将数据分析视作基本要求。当然,大部分情况下,业务需要的数据分析是非常基础的,只需用Excel做基本的统计计算,无须像专业的数据分析师,手握SQL和R,运用回归、分类树等算法,输出高精尖的报告。

从业务场景出发,数据分析是问题驱动的。也就是说,每一次启动数据分析,本质是发现问题、翻译问题、归因问题和解决问题。

基于数据,发现问题是数据分析的第一步。问题之所以被称为问题,是因为数据表现不符合“常理”或逻辑,正所谓“事出反常必有妖”。

01 发现问题:异常与锚点

大学时上普通心理学课程,讲到精神障碍一章定义“正常行为”时,老师课上讨论过“正常”的定义——是取平均值,还是取众数,还是取中位数?

数据分析中也是如此,“常”是什么?

常”可以是时序中的历史数据。比如App的日活用户数(DAU),我们要判断它是否正常,通常需要参考T-1、T-7、T-30的DAU,计算环比增幅(降幅)。

常”也可以是竞品或者行业均值的指标表现。例如,微信公众号头条文章的粉丝打开率为5%(一个虚拟的数字不具备实际参考意义,即100个公众号粉丝,平均5个会打开公众号推送的头条文章)。如果你的公众号的粉丝打开率低于这个数值,那么就要反思,是否是头条文章的内容不够吸引人。

或许你也发现了,“正常”也好,“异常”也罢,都是基于比较产生的。增速“快”、渗透率“高”、客户数“少”,都是相对而言的。因此,基于数据定位问题的第一步,在于找到正确的锚点。

再看一个简单的例子,你就会明白选择正确的“锚点”对于定义问题是多么的至关重要,因为只有选对锚点才能发现真问题。

互联网广告有一个显著的特点,广告主特别是中小广告主倾向在周末减投或者停止投放,因此周末大盘的广告主数量都会比较少因此。如果是将周六在投的广告主数量与T-1(昨天,也就是周五)的投放广告主数量相比,在部分行业会出现“断崖式”的下跌。但是如果你去对比T-7(也就是上一个周六)在投广告主数量,你会发现数据并没有发生显著变化。

假设我们已经定义清楚了问题,那么接下来就是找到引起问题的因素,而这则需要数据指标按维度的拆解。

02 翻译问题:维度与指标

工作当中,无论是刚入职场的新手,还是已经在职场打磨十几年的老兵,面对数据分析时,最常犯的错误是混淆维度与指标。

维度是针对对象的描述性特征或者属性,比如城市的分级、性别、行业等;指标是用户衡量对象的单位或者方法。维度与指标一般成对出现,共同构成一组数据。

例如,我们要分析北京、上海、广州和深圳4个城市2019年的GDP,那么城市就是维度,GDP就是指标。

再举一个例子:最近疫情发展牵动着很多人的心,我每天早上醒来除了睁眼,第一件事情就是查看昨天全球新增患病人数,特别是每个国家的新增患病人数。在这里,维度就是国家/地区,指标就是昨日新增患病人数。

数据提取时,我们还需要定义的是“筛选条件”。严格意义上,它只是维度或者指标的二次使用,与维度、指标并不在同一个逻辑层面。

现实业务中,我们的数据表中存储着多个主体的多个指标数据,但是不是所有的维度和指标是需要我们关注的。因此,我们通常会通过维度或者指标,对将要提取的数据进行限制,避免数据量级过大,同时也避免我们的注意力分散。

还是以本次疫情中每个国家新患病人数为例。假设我只关心那些已经出现新冠肺炎病例的国家,因此筛选条件为截至到昨日,累计感染新冠肺炎病例数(指标)>0的国家和地区;那些还未出现感染患者的国家和地区暂时就不用考虑。

当然,如果只希望关注亚洲国家的疫情进展情况,那么在国家这个维度中,只需将国家限定为中国、日本、韩国、伊朗等亚洲国家。

在我们正式进入后面的内容之前,请记住:维度、指标与筛选条件,是我们进行数据分析的基石。

尽管我们每天都会遇到各种各样的数据分析需求,然而,数据本身是不会说话的,不会直接告诉你答案,你需要做的是把问题转译成维度和指标,然后提取数据,之后才是分析。

所以,收到数据分析的需求,不要急着写SQL或者打开Excel,先明确下问题是什么,以及希望达到什么样的目标。

怎么样才能准确翻译成维度和指标呢?不要着急,我们一步步来。

假设,某一天我们被问到这样一个问题:为什么2019年我们公司拳头产品——洗面奶的GMV下降了?

步骤1:明确分析的主体-限定筛选条件

公司的产品线非常丰富,从洗面奶、面膜、面霜、BB霜等,护肤类和彩妆类产品线基本都覆盖。

好了,现在很明确,我们需要分析的数据是洗面奶,其他的产品如面霜、口红等产品,暂时不需要我们操心。

聪明的你,肯定会记得,我们需要在筛选条件中,将产品种类这个维度限定为洗面奶。同时!!!时间维度限定为2019年,但是为了对比(参见上一篇),我们也需要提取2018年洗面奶的GMV数据。

步骤2:观察数值——明确指标

我们拿到的问题是:为什么2019年洗面奶的GMV下降了。

假设GMV在我们的业务范畴为复合型指标,也即是由2个基础指标计算而来的,比如我们规定GMV=销量*售价。