数据中台 数据仓库的区别


「中台」这一概念,是相对于前台与后台,是前台与后台的连接,沉淀企业常用的工具与技术。

与业务中台相比,数据中台 数据仓库与企业的业务具有较强的相关性,是企业业务与数据的沉淀,如果共享的数据中台位于大烟囱林立的各个财务业务系统之上,它既可以减少重复建设,减少烟囱式合作的成本,又是差异化企业竞争优势所在。

但是,在这里,当谈到数据中台,很多人都有疑问,以前没有数据中台这一概念时,企业是否也建过数据仓库,业务分析等?把这比较有什么不同?难道不是为了改变一个概念和外壳?

数据库和数据库之间的差异

先来看一看专业白皮书中台是如何描述的:数据中台是从数据整合、大数据计算、数据治理、数据工具、数据模型、数据应用程序、市场集成等一套完整的综合解决方案及产品系列。

数据中台 数据仓库,数据源,业务数据库

并逐渐从BI报告为主,到以分析为主的数据仓库平台,以预测为主,再到运营智能化。其作用是实现业务条线、跨系统数据集成,为管理分析和业务决策提供统一数据支持。

但是在某种意义上,数据中台也属于数仓的一种,都是为了将数据抽取进来,建立一个数据仓库。但这两种模式的数据来源和建立数据仓的目标、应用方向有很大的不同。

第一,从数据源来看,全域数据包括业务数据库、日志数据、埋设点数据、爬虫数据、外部数据等。资料来源可以是结构性资料或非结构性资料。但传统数仓的数据源主要是业务数据库,其数据格式也是以结构化数据为主。

其中台并不只是系统或工具,而是功能部门,它通过一系列平台、工具、流程、规范来为整个组织提供数据资产管理和服务的职能部门。在整个领域的数据采集、数据资产处理和管理方面,以及为前台业务和决策部门提供数据服务。因此,数据中台的核心应是数据资产管理和数据赋能,通俗地说,就是数据弹药库。

01 不同的数据源

在数据中台的数据源是全域数据,其中包括:业务数据库、日志数据、埋藏数据、爬行数据、外部数据等等,其源可以是结构化或非结构化数据。

但传统数仓的数据源主要来自于业务数据库,其数据格式主要为结构化数据。

02 目标设定的不同

其目的在于融合整个企业的所有数据,打破数据间的鸿沟,消除数据标准和数据口径不一致。

一般情况下,数据中台都要从多方面清理基础数据,并根据主题域概念创建多个主题域。例如,成员领域、商品领域、渠道领域、门店主题领域等。

数据中台 数据仓库,数据源,业务数据库

其中台采用了One的三个概念:OneData,OneID,OneService,其中台并不只是为了汇集企业的各种数据,并使这些数据遵循相同的标准和口径,对事物的识别可以统一或相互关联,并提供统一的数据服务接口。在制作食物时,首先要根据标准菜名,将所有可能使用的材料准备好。

但传统的数仓主要用于做BI的报表,目的性非常单一,仅提取与清洗相关的基础数据,进行建仓,然后用来做领域分析,有些时候可能因为新增一张报表,从底层到上层再做一次加工处理。

03 资料应用方面不同

基于这些数据的应用不仅是针对BI报告,更多的是针对市场建议、用户画像、AI决策分析、风险评估等。这两种应用程序的特性较轻,易于快速开发,由于在数据中台已完成并进行了重要数据分析和沉淀,使得以前的工作成果可以被多个应用共享。

但是传统的数据仓库主要是面向报表的,或者高级的可视化,数据应用的构建一般都是针对相对确定的主题内容,如数据建模、进行数据跟踪和探索等,深度挖掘方面有很大的局限性。

04 依赖性平台不同

其中台一般构建于分布式计算平台和存储平台,理论上可无限扩展平台的计算和存储能力。

然而,大多数传统的数仓工具都是基于传统的关系型数据库和单台服务器部署,一旦数据量变大,就很容易出现存储、效率、计算等问题,随后进行续扩需要大量的成本和时间。

资料台经历的阶段。

实际上,阿里巴巴很早就开始利用中台模式来满足业务需要,2015年正式提出中台战略。“中台战略”的原则是:整合各种业务上常用的工具和技术,组建专门的中台部门,以便不需要再进行重新设计,避免由于重复构建和维护功能而造成资源浪费。

建设灵活、多变的组织机制和经营机制是建立数据中台的战略核心。各个行业的领头羊企业也开始积极探索数据中台、数字化转型,力图通过数据智能的方式,实现生产经营的智能化、精细化管理。

各行业互联网企业也纷纷对组织结构进行改革,积极打通数据平台,构建数据中台 数据仓库。在此,数据中台从概念逐步变成现实,数据智能赋能业务,以更低的成本、更高的效率为用户服务的模式逐渐被认可,掀起了一股数据中台数字化转型的浪潮。

从某数据中台的发展历程来看,大概经历了以下4个阶段:

  • 资料库阶段,主要是OLTP(在线交易处理);
  • 在数据仓库阶段,OLAP(在线分析处理)成为主流;
  • 数据库级,主要解决业务智能与报表需求方面的技术问题;
  • 在数据中台阶段,通过系统对接OLTP(交易处理)和OLAP(报表分析),突出对数据业务的能力。

数据中台在此阶段的特点是什么?

它的突出特点是数据量呈指数增长,由PB向EB级迈进。

这一数量级的变化主要源于IOT(物联网)的发展,推动了需要视觉计算技术的视图声(视频、图像、声音)数据的增长,图象解析引擎+视频解析引擎+音频解析引擎,将转换为结构性数据;从线到线,从线到线,通过数据来改进业务要做到行为要和在线一样,要做到行为可以监控,数据可以采集。

离线时间最长的是视图声音数据,依赖IOT技术和算法的进步,最终将通过智能终端自动获得数据;要使用这些数据,光靠视觉算法和智能终端也不行,还需要云来存储和处理,并能与其它区域连接。

结合这一阶段特点,我们发现依赖于传统的数据仓库方法已完全不能满足企业对非结构化、分布式存储的需求。同时也需要基于IOT设备收集数据,基于云存储的数据,基于AI算法和云计算的应用。

将来数据中台,肯定是由AI驱动的中台。

这中间台包含了计算平台+算法模型+智能硬件,帮助企业去打通业务数据,最终建立触达和服务消费者的在线和线下能力。中台不仅是制度,也是一套方法,而中台最大的价值在于从“管理联机”到“网上商务”。实现“所有的业务数据化,所有的数据都可为客户服务。