HI,下午好,欢迎来到微信公众号转让!
公众号转让,微信公众号交易平台,公众号出售购买卖价格 24小时服务热线: 4000-163-301

新闻动态

NEWS CENTER

数据治理:面临的挑战与应对策略

2019-11-07

本文将为你重点介绍:

  • 数据治理的概念与重要性
  • 数据治理面临的挑战
  • 数据治理与组织架构
  • 数据治理中的应对

许多大数据公司在过去一段时间都得到了较好的发展,究其原因是因为恰逢专注于业务流的信息化建设正在向数据化转型。

但在很多时候,数据其实还只是 IT 化的“副产品”,早期的工作思路仍然围绕如何将业务 IT 化,而数据只是这个过程中自然而然产生的结果,即所谓的“副产品”。

由于在数据生产的过程中并未做到足够重视,数据质量与可靠性则很难得到保证,这也是数据治理在现在得以被重视的重要原因。

在业务 IT 化的过程中,企业通过第三方厂商、自研等方式构建多种数据系统,采用多种系统中的数据化治理,是实现数据效能、数据驱动业务的关键步骤。

早期,企业用信息技术去构建业务流,而现在,我们试图用信息技术,特别是互联网行业中的一些大数据处理以及分布式处理技术构建数据流,但在构建过程中,过多强调技术本身而忽视了对数据的治理。

数据治理是整体性问题,并非仅是技术问题,市面上数不胜数的商业组件可以解决如何对数据进行存储、查询等问题,但是在实际的业务情况下对于数据治理这样一个系统性工程,目前却并无现成的产品或技术可以直接解决。


我们可以尝试用数据治理的角度来解读上图。

构建数据流的过程,很大意义上是为了解决分布在 IT 系统里各个不同子系统之间的数据孤岛问题,用一条完整的数据流将不同子系统之间的数据孤岛打通,同时应用于不同的应用场景,这个打通的过程,就是某种意义上的数据治理。这也反映了我之前尤为推崇的一个观点——构建数据仓库本身就是一个数据治理的过程。

另外,对于数据的本质,我一直推崇如下两个定义:第一“信息是用来消除不确定性的”,第二“大数据的本质,就是用信息来消除不确定性”。

同样,对于数据驱动在业务决策和产品智能两大方面的应用,也都将建立在数据治理的基础上才有意义。


一、什么是数据治理?

数据治理的本质是组织对数据的可用性、完整性和安全性的整体管理。

1. 数据治理的本质

可用性指数据可用、可信且有质量保证,不会因为分析结果的准确性造成偏差,从业者可以放心地根据数据结果做业务决策;完整性分为两个方面,一方面指数据需覆盖各类数据应用的需要,另一方面指不会因为数据治理没有到位而造成数据资产的流失,也即影响数据资产的积累,这也是神策数据在创业伊始便开展私有化部署的原因;安全性指治理和分享过程需安全可控,不侵犯用户隐私,且不会给组织留下安全隐患。

2. 数据治理的重要性

数据治理是所有数据应用的根基,数据治理的好坏直接影响所有数据应用的价值。

无论是基于数据看报表,还是做交互式的多维分析,还是做更复杂的个性化推荐,所有的数据应用都需要有一个良好的数据治理结果。

神策本身就拥有一款推荐产品——神策智能推荐,通过这款产品的实践,我们发现,它的实施周期相比其它几个产品普遍偏长,这也是因为个性化推荐对于数据的质量和准确性要求相对更高。

简而言之,数据应用做得越深入,所需数据就会更多,对数据质量也会有更高的要求。

数据治理是组织数据资产沉淀的基础,数据治理的好坏直接决定了组织的数据资产能否得到沉淀,能否充分地发挥价值。

经常会有客户主动来询问:

“领导说我们要做一个数据中台沉淀数据,但不知具体原因,亦不清楚搭建中台的具体目的,可能要等搭建之后寻找数据价值时,再去探索具体应用。”

个人认为,在经费条件允许的情况下,当然可以将企业的所有数据整合在一起,通过良好的权限管控,充分的共享,聚合所有的业务部门一起去探索数据的应用,因为数据中台本身就承载着组织内部所有数据的整合分享角色。

二、数据治理面临的挑战

本部分的内容将数据治理面临的挑战分为两类,一类因“技术”而起,一类因“人”而起。

由客观的技术问题对数据治理带来的挑战普遍较好解决,比如如何采集数据、如何存储数据等,都可通过更先进的工具、更新的技术等方式解决。

而由人或组织架构带来的问题相对复杂,它的背后包含的是企业在文化、流程上的问题,可以通过以下实例说明。

1. 多业务系统多数据源的整合挑战

企业想要做的数据应用越多,所需的数据就会越多,所要去获取的数据源也会增多,而相应的数据处理也会越多,这是一个极为显而易见的问题。

对于神策数据而言,我们在数据应用方面相对“单纯”,主要针对用户行为领域,采集用户行为数据,从客户端、服务端、数据库等做对接。

但即使是这样一个限定特殊领域的应用,我们在整合多方面数据源上也会碰到非常多的挑战,可想而知在面对多业务系统多数据源的情况下将更加困难。


2. 数据采集技术上的挑战

近年来,许多公司都在尝试将自己的业务线上化,都需要通过数据对用户进行分析与运营,如何精准采集可用的用户数据以及其他相关数据,都将是数据采集在技术层面上面临的挑战。

3. 用户隐私与安全挑战

用户隐私与安全不仅是对技术挑战,更多的是一种意识上的挑战。企业需要准确把控数据采集的红线,比如针对欧盟范围内的国际业务,就需要参考 GDPR 的相关规范。

在国内,很多银行券商等企业也同样拥有一套完善的数据合规要求,甚至已经细化到“某个特定字段对于某一个特定人可看但不可下载”的程度,这些都是需要在进行数据治理时考虑的因素。另外,如果需要在公网传输交换数据,也同样需要思考数据如何防止窃取和伪造的问题


4. 组织架构与部门隔阂带来的配合

部分组织在数据治理的过程中速度过慢,成效不好,其中一个很重要的原因是权责、部门配合等方面存在问题。很多情况下,生产数据、使用数据、分析数据的工作人员分布在不同的职能线与部门,角色不同,立场也不同,这些客观存在的影响因素都会影响整个数据治理的最终结果。


5.业务持续迭代中带来的挑战

在互联网行业中,尤其是业务迭代较为迅速的团队里,通常存在“1.0 版本的数据质量最优,1.1 版本不行,2.0 版本完全不可用”的说法,说明第一次做数据治理时,极重视数据质量,会有完善的流程来保证埋点的准确性,本身也没有太多的包袱;而在后续的产品迭代中,如果流程和标准的迭代相对滞后,整个数据治理的结果也会随着受影响,最终导致整个数据质量低劣,直至所谓的“完全不可用”。


下面举两个具体实例说明。

实例 1.

某公司的业务部门向第三方数据分析平台提出数据需求,该公司内部有多个 频道,每个频道隶属于一个单独的部门,而第三方数据分析平台在埋点采集阶段需要不同部门的团队相互配合。由于缺乏统一各部门需求与任务的统筹角色,实施过程中很难清楚划分相关责任,再加上管理、测试等工具的缺失,最终导致每次发版都会发生埋点丢失和报错。

实例 2.

某企业的所有用户相关数据分散在不同的系统里面,试图通过第三方数据分析平台整合统一的用户标签数据系统。然而在收集数据的过程中,每跨一次部门就需要提一次全套的审批流程,好不容易收集齐各部门各系统中的数据之后,却发现数据统计口径不一致,无法得到一个公司统一的用户标签数据。