数据仓库 数据湖的区别


目前,您已经知道为什么我们需要一个数据湖:

  • 作为符合法规和审计目的的原始数据存储库(如录音和视频、文档扫描、文本和日志文件)
  • 它是一种可供数据科学家和分析家访问结构化和非结构化数据进行验证的平台,并在沙盒中运行新的分析模型。
  • 它将实时数据从操作或交易系统中集成,并不断地从IoT设备中集成传感器数据。

对于大多数BI用户,数据仓库所提供的聚合和汇总数据已经足够。DataGuide的用户可能是审计、专业分析家和数据科学家(很少)。还有哪些更具说服力的理由让企业创建数据湖?所以,有必要了解数据湖和数据仓库之间的区别。

什么是数据仓库 数据湖的不同之处?

DataWarning是一种成熟的、安全的技术,它有正式的结构。他们存储经过充分处理的结构化数据,以完成数据治理过程。DataWatch将数据组合成在企业级使用的一种聚集的、摘要形式,并且当执行数据写入操作时写入元数据和模式定义。数据仓库通常具有固定的配置;它们高度结构化,因此不够灵活和敏捷。在存储之前,数据仓库的开销与所有数据都是相关的,而大容量存储则相对昂贵。

与之相比,数据湖是一种具有演化体系结构的新兴技术。数据库存储任何形式(包括结构性和非结构性)以及任何格式(包括文本、音频、视频和图像)的原始数据。从定义上看,数据湖并不接受数据治理,但是专家们都认为好的数据管理对于防止数据湖向数据池的转变必不可少。DataCreatePresentation在读取数据时创建一个模式。相对于数据仓库,数据湖不是结构化的,而是更加灵活;它们还提供了更高的灵活性。不需要对数据进行任何处理,而数据湖故意使用廉价的存储空间。

虽然数据湖具有这些优点,但其安全性、治理、管理等方面有待改进。不过,它还有一个很大的优势,也是一个很有吸引力的驱动力。

人工智能和深度学习是其中的推动力。

采纳数据湖的原因,其中讨论最少,也最吸引人的是越来越多的数据挖掘和分析开始采用机器学习和深度学习技术。对传统检索和分析的软件审计是一个比较成熟的领域,但是对机器学习和深度学习技术进行数据挖掘和分析的软件审计刚刚起步。

声音转录,光学字符识别,图象识别等,目前常用的是机器学习或深度学习技术。为了进行系统验证和确保审计跟踪,数据科学家需要访问原始的非结构化数据来训练这些系统。同样,深度学习执行一些任务,如数据挖掘,以找到维度和时间序列数据之间的模式和关系。

另外一种深度学习应用程序提取以前不能访问、不能通过查询获取的数据。这就是暗数据,这是本系列下一期的主题。就数据挖掘和分析应用而言,机器学习和深度学习的出现是迁移到数据湖体系结构的重要原因。