大数据平台选型 数据平台构建二三事

2024-01-28 02:17:00 来源 : haohaofanwen.com 投稿人 : admin

下面是好好范文网小编收集整理的大数据平台选型 数据平台构建二三事,仅供参考,欢迎大家阅读!

大数据平台选型

0.序言

在半砚墨:数据平台构建二三事|数据平台技术选型思考笔记(1)一文中,了解了数据平台的建设原因,以及大数据平台的发展历程。熟悉了数据平台技术选型所必要的背景知识储备。

本篇我们就来聊聊,有了基础的背景知识储备后,在一猛子扎入某个技术栈,去研究技术栈本身的发展历程之前,我们需要做的热身动作。

1.梳理企业IT生态,明确数据平台建设的目标

一般来说,当数据平台建设的任务开启时,并非是一个业务从0到1的的阶段,大多时候是业务发展到一定的阶段,此时对于企业来说,IT系统已经有了一定的建设,如后台系统,中间件,前端应用,数据库系统,负载均衡系统,第三方sdk等等这些或自研的,或采购的。需要梳理出来大概统的调用链路,以熟悉企业的IT生态。

由于历史原因,前期企业的信息化建设,大多都是以业务部门驱动的单体架构系统或套装软件,数据分散在这些架构不统一、开发语言不一致、数据库多样化的系统中,导致在企业内部形成了一个个的“信息孤岛”。

随着微服务的发展与应用,在将传统集中式单体按业务职责和能力细分为微服务的过程中,也会产生越来越多的独立部署的微服务。微服务虽然提升了应用弹性和高可用能力,但由于微服务的物理隔离,原来一些系统内的调用会变成跨微服务调用,再加上前后端分离,微服务拆分会导致数据进一步分离。

无论是前期基于业务驱动的烟冲式信息化系统建设,还是微服务兴起之后,基于微服务的拆分,如果没有合适的设计和指导思想(业务中台的主要技术体系是微服务,数据中台的主要技术体系是大数据,与技术配套的是设计思想和方法论。微服务的主流指导思想是领域驱动设计,大数据的主要设计思想是数据仓库设理论),都会进一步加剧数据的孤岛化、碎片化。这些“孤岛”之间缺乏有效的连接通道,数据不能互联互通,不能按照数据消费者的指令进行有意义的交流,使得数据的价值不能充分发挥。

所以数据平台的主要目标是打通数据孤岛,实现业务融合和创新,包括三大主要职能:

一是完成企业全域数据的采集与存储,实现各不同业务类别中台数据的汇总和集中管理。

二是按照标准的数据规范或数据模型,将数据按照不同主题域或场景进行加工和处理,形成面向不同主题和场景的数据应用。

三是建立业务需求驱动的数据体系,基于各个维度的数据,深度萃取数据价值,支持业务和商业模式的创新。

可见,数据平台主要完成数据的融合和加工,萃取数据业务价值,支持业务创新,对外提供数据共享服务。我们需要知道的是,这个目标是基于数据中台方法论的理想化目标,理想化的目标类似于大海中的灯塔,告诉舵手,方向和目的地就在那里,而不至于让舵手在航行时,眼前白茫茫一片,完全是凭感觉航行。

方法论可以借鉴,但是不能完全照搬,每个企业的数据应用水平和当前遇到的问题都不相同,可以针对这些问题,分阶段制定数据平台的建设计划,选择性的应用一些技术,例如当前最主要的问题是数据质量问题,那就应该优先落地数据质量中心,提升质量。

站在数据从业者的视角看,一般来说,企业数据体系的建设发展阶段可以划分为以下几个阶段。

阶段企业战略定位数据纬度数据组织形式数据质量数据应用场景数据应用工具企业组织架构
统计分析阶段无数据战略维度单一数据无组织,对业务数据分散存储管理无数据质量管控简单的业务统计报表为主以系统报表模块和excel为主无数据相关部门,以业务和it相关职位为主
决策支持阶段开始通过数据支持经营决策数据纬度逐渐丰富以面向业务主题的指标体系,为形式进行数据组织开始实施数据 质量控制,对相关数据进行清洗加工为企业管理,提供决策支以数据仓库,数据开发和专业的BI报表工具为主开始出现数据分析师,可能设立专门的数据部门,和数据价值挖掘等相关职位
数据驱动阶段开始将数据作为重要资产,通过跨界数据应用,为企业提供数据服务全域数据融合,数据纬度更加丰富开始汇聚,打通业务先关的数据,进行全域数据的组织开始进行数据标准化建设,对数据质量的管控更加严格实现业务与数据的深度融合,通过数区驱动业务发展通过hadoop生态体系,为代表的批计算,流计算,即席分析,在线查询等大数据处理技术以及机器学习,深度学习算法,进行数据汇聚开发开始建设独立的大户数据部门和大数据工程师,算法工程师,数据可视化工程师,数据科学家等相关职位
运营优化阶段企业开始建设数据中台,数据中台战略持续运营优化数据纬度更加完善建立数据应用闭环形成一套完善的数据质量管理规范以及管理流程建立一套统一的数据服务体系,为企业业务优化,和企业创新提供数据服务支撑建立一套体系化的数据汇聚,加工,管理,服务,以及应用体系,逐渐实现大数据能力工具化,工具平台化,平台智能化在管理层,设置数据管理委员会会,成立专门的数据资产运营部门

在现状中,企业数据发展的每个阶段的区分并不总是泾渭分明,常常呈现年出,多阶段并行的特点,尤其是集团型企业,因为业务多元化,比如有的业务版块,信息化建设程度比较好,该业务线数据发展阶段处于比较高阶的阶段,而有的业务线可能还处在信息化建设初步,数据发展阶段就处于初步的阶段。

明确数据体系建设的发展阶段后,接下来就要去调研和梳理业务方对数据应用期望。这里包含两个重点:业务方和业务方的期望。

业务方:即涉众

从公司角度看,涉众分为:公司客户,公司组织架构,公司合作伙伴,监管部门等

从系统角度看,谁人使用系统,谁人查看业绩,谁人维护系统等

从业务流程角度看,主要业务流程谁人参与

业务期望

比如什么时候能够投入使用,什么时候达到怎样的发展阶段。在梳理业务方期望的时候,需要注意以下不同涉众的期望差异。

高层决策

中层管理

基层执行

业务场景

业务是以离线应用场景为主,还是实时应用场景为主。是在数据可视化场景中应用的多,还是策略推荐等等场景应用的多。

当我们解了现状,了解了业务方期望以及应用场景,远景目标,中期目标,短期目标都有了,接下来就是评估可行性和风险。

3.评估可行性和风险

可行性和风险,可以分为两个层面

基于实施团队和组织的保障机制来考虑

基于技术栈本身的考虑

本篇我们先说下第一点:基于实施团队和组织的保障机制来考虑

3.1熟悉团队架构与技术栈

事情是需要人来做的,我们需要了解企业中数据团队的人员构成与规模。

在中小型企业中,一个比较完备的大数据团队,基本包括以下几类:

我们除了要熟悉团队的成员构成,还要熟悉团队成员所掌握的技术栈,以及团队成员对新技术的学习成本和招聘成本。

例如,在引入大数据技术后,基本也就引入大数据领域中主要的主流开发语言,这些新技术栈的引入,团队成员需要学习成本,以及招聘相关人员的招聘成本。

3.2了解数据中台的组织架构

在业务规模比较大和业务多元化的企业中,数据平台的组织架构往往是多数据中心团队+数据中台团队。

中台和平台的概念并不相同。中台来源于平台,但中台和平台相比,它更多体现的是一种理念的转变,它主要体现在这三个关键能力上:对前台业务的快速响应能力;企业级复用能力;从前台、中台到后台的设计、研发、页面操作、流程服务和数据的无缝联通、融合能力。其中最关键的是快速响应能力和企业级的无缝联通和融合能力,尤其是对于跨业经营的超大型企业来说至关重要。数据中台需要依赖大数据平台,大数据平台完成了数据研发的全流程覆盖,数据中台增加了数据治理和数据服务化的内容。

数据中台提供的是一个跨业务部门共享的公共数据能力,所以,承担数据中台建设职责的部门一定是一个独立于业务线的部门。

而独立部门的最大风险是与业务脱节,所以我们对数据中台的组织定位是:懂业务,能够深入业务,扎根业务。数据中台要管理所有的指标,而每个业务线之间的指标既有差异,也有交叉,要理解指标的口径定义,就必须要了解业务的过程。同时,当我们要制定一些新的指标时,必须要了解各个业务线新的业务目标,指标的本质还是为业务目标服务的。

什么样的组织架构是适合数据中台建设?

数据产品部门:负责数据中台、数据产品的体系规划、产品设计、规范制定、应用效果跟进,指标口径的定义和维护(有的部门是由分析师管理)。

数据平台部门:负责研发支撑数据中台构建的产品,例如指标系统、元数据中心、数据地图等。

数据开发团队:负责维护数据中台的公共数据层,满足数据产品制定的数据需求。

应用开发团队:负责开发数据应用产品,比如报表系统、电商中的供应链系统、高层看板、经营分析。

而且,中台组织的绩效目标一定是要与业务落地价值绑定的,比如在电商中,我们提供了供应链决策系统,有智能补货的功能,会根据商品的库存,各个地区的历史销售情况,生产加工周期,自动生成补货决策,由人工审核以后,直接推送给采购系统。那我们评估价值时,我们会拿由系统自动生成的采购计划占整体采购计划的比例来衡量数据的应用价值。

最后,数据中台的组织架构改革涉及原有各个部门的利益,所以这个是数据中台构建最难又不得不做的地方,必须要取得高层领导的支持和重视。

至此,数据平台的技术选型,在进入具体的技术栈研究之前,前期的知识储备与准备,我们已聊完。

后面,我们在聊聊具体的应用场景技术选型方案思考:实时处理与离线处理的技术选项方案思考。


相关文章

    暂无相关信息
专题分类