Greenplum教程


Greenplum简介  

GreenPlum是一个关系型数据库集群.,它实际上是由多个独立的数据库服务组合成的逻辑数据库。GreenPlum是基于PostgreSQL(开源数据库)的分布式数据库,它采用的是shared nothing架构(MPP  Massively Parallel Processing,即大规模并行处理),主机、操作系统、内存、存储都是节点自己控制,不存在着共享。它主要由master host,segment host,interconnect三大部分构成。 

  • Master节点:客户端访问连接的认证,处理传入的SQL语句,在segment之间分配工作负荷,协调每个segment返回的结果,并把最终结果返回给客户端。
  • Segment节点主要做数据存储和数据处理,用户创建的索引和表被分发到各个子节点当中,每一个子节点都包含了用户数据的分片,而这些分片不存在重复的情况。
  • Interconnect是GreenPlum数据库的网络层.在每个segment中起到一个ipc的作用(inter-process communication)。

Greenplum特性

  • 支持海量数据存储和处理:Greenplum使用MPP架构,同时使用多台机器并行计算,极大地提高了对海量数据的处理能力。
  • 高性价比:Greenplum数据库可以自由地搭建在业界各种开放式硬件平台上,相比其他封闭式数据仓库专用系统及Hadoop分析平台,Greenplum在每TB数据量上的投资是前者的1/5甚至更低,且Greenplum易于维护,可以节省大量维护成本。
  • 支持Just In Time BI:Greenplum通过准实时、实时的数据加载方式,实现数据仓库的实时更新,业务用户能对当前业务数据进行BI实时分析(Just In Time BI),能够让企业敏锐感知市场的变化,加快决策支持反应速度。
  • 系统易用性:基于PostgreSQL开发的,语法与PostgreSQL几乎一样,PostgreSQL的工具基本上都能够在Greenplum中使用,比如pgadmin等。
  • 支持线性扩展:Greenplum采用MPP并行处理架构。在MPP架构中增加节点就可以线性提高系统的存储容量和处理能力。Greenplum在扩展节点时操作简单,在很短时间内就能完成数据的重新分布。
  • 高可用性支持:除了硬件级的Raid技术外,Greenplum还提供数据库层Mirror机制保护,也就是将每个节点的数据在另外的节点中同步镜像,单节点的错误不影响整个系统的使用。对于主节点,Greenplum提供Master/Stand by机制进行主节点容错,当主节点发生错误时,可以切换到Stand by节点继续服务。
  • 支持MapReduce:MapReduce已经被谷歌和雅虎等互联网领先企业证明是一种大规模数据分析技术,Greenplum支持MapReduce。
  • 数据库内部压缩:在对大数据的分析时,压缩也可能减少对磁盘的访问,也可以节省很大的空间。Greenplum支持对数据库表进行压缩处理,从而提升数据库的性能。

评论区(0)

评论