数据仓库略谈


数据仓库发展历史

萌芽阶段:20世纪70年代MIT提出将业务处理系统和分析系统分开,针对各自不同特点设计不同的架构

探索阶段:20世纪80年代中后期DEC结合MIT理论,建立TA2规范定义分析系统的数据仓库系统的组成部分包括:数据获取、数据访问、目录和用户服务

雏形阶段:1988年IBM第一次提出信息仓库的概念并称之为VITAL规范。VITAL定义了85种信息仓库组件,包括PC、图形化界面、 面向对象的组件以及局域网等

确立阶段:1991年Bill Inmon出版《Build the Data Warehouse》标志着数据仓库概念的确立

不得不说的两位大神

Bill Inmon和 Ralph Kimball

Build the Data Warehouse:数据仓库一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反应历史变化(Time Variant)的 数据集合,用于支持管理决策(Decision Making Support)

The Data Warehouse Toolkit:数据仓库是一个将源系统数据抽取、清晰、规格化、提交到维度数据存储的系统,为决策的制定提供查询和分析功能的支撑与实现。

为什么要建立数据仓库?

数据仓库拆解:

数据:结构化、非结构、海量、业务、离线、实时、机密、日志、隐私、订单、支付、用户、画像。。。

仓库:入库、出库、库存、盘点、空间、清理、安全、货架、分类、分拣、存储、容量、转运。。。

数据和仓库结合在一起的时候:数据分门别类存储,更精细化管理,更小的成本发挥更大的价值

与其问为什么,不如问什么情况应该建

当你需要集中化管理你的数据时

当你希望以更高效的方式使用数据时

当你的数据量和复杂度到了需要一个团队来维护时

当你希望想要数据驱动业务时

当你想要借助大数据的力量来提升产品竞争力时

当你想要时刻知道业务发展情况时

数据仓库做不了哪些?

我们在做的:挖煤

老板想要的:黄金

数据仓库的是属于底层环节,需要由上层的数据分析团队,算法团队等其他环节紧扣才能让数据变现

数据仓库vs数据中台

数据中台是基于数据仓库做成产品或服务,数据仓库是服务于数据中台的核心模块

OLTP/OLAP

OLTP主要用于业务系统,数据库。

联机事务处理:OLTP,全称On-line Transaction Processing

联机分析处理:OLAP,全称On-line Analytical Processing

事务:原子性(Atomicity)、一致性(Consistency)、孤立性(Isolation)、持续性(Durability)

分析:维度(Dimension)、度量(Measure)、下钻(Drill-down)与上卷(Roll-up)、切片(Slice)与切块(Dice)、旋转(Pivot)(行列转换)

个人总结

OLTP多用在业务系统,因为业务系统要进行频繁的增删改操作而且要保证事务性,比如在MySQL中更新一条数据,会先写redo log再写内存,这两个步骤算是一个事务,完成后算是写入成功了,稍后会写入binlog,如果需要回滚,客户端可以执行rollback回滚。即便断电,MySQL也可以使用redo log恢复到断电前的状态。

OLAP没有事务的要求,主要是提供丰富的查询功能,可以按指定维度进行各种度量值的汇总,包括下钻上卷、行列转换、分组内排序等操作方便用户可以多角度快速精准分析。

大数据为何招聘要求越来越高:刚开始懂大数据的人少,概念刚火初创公司融资相对容易。现在大数据产品化成熟,越来越多的公司融资困难,必须寻找到数据变现的出口,所以得提高招聘要求,有技术、懂产品、会分析、能建模、又能玩算法,最好全栈数据科学家,这样的人才更有可能让数据更有价值。


评论区(0)

评论