数据特征对医院同样是一个难题。
(1)数据异构。
不同的平台,不同的接口,没有统一的数据类型,只能是点对点对接大量数据,内容冗杂,流程繁琐,速度慢。
(2)主题分散性。
门诊信息分布在不同的平台上,无法形成以病人为中心的全部电子诊室整合,无法提供完整、全面、准确、及时的病人临床信息。
(3)数据多。
大数据环境中,工业部门所使用的数据量一般为亿级,存储量一般在TB/PB级以上。
问题 剖析医院数据使用困境
(1)实现以病人为中心的医疗信息收集、清理、储存、装载和决策协助。建立医学信息咨询、查询、展示、医疗决策支持平台。
(2)以数据中心为基础,建立数据应用主题库,为医院临床辅助、经营管理、科研管理等提供有力的数据支持。
(3)实现上亿级的数据查询、统计、分析的短时间处理显示。
产品介绍
产品概述
ETL(Extraction-Transformation-Loading)是从业务系统中提取数据,清理转换完成后,装入数据仓库的过程,旨在将企业内零散、零散、标准不统一的数据整合起来,以供企业决策时参考。ETL是BI(BI)项目的一个重要环节。
产品框架
数据集中:全量数据、数据清洗、数据适配、数据储存。
数据标准化:主数据,词汇词典,数据映射。
实施服务:在线多量数据,多种接口形式,快速查询,减少业务负荷。
安全审计:数据审计,数据盘点,权限验证,隐私处理。
运维监控:集群监控、故障排除、扩容扩展、应急处理。
(1)全量历史结构化数据收集。
利用图形化的数据采集与检查工具,完成历史数据的采集、整理和存储。与此同时,支持监测采集与原始系统数据对比,保证数据输入的一致性、及时性。
(2)结构化流动数据清理处理。
数据质量治理、数据清理、数据关系对接、数据重组。
待图
(3)有组织的数据实时存取。
利用Flume技术,完成医院转换接入。
(4)数据标准系统。
对主数据进行集中管理,数据元标准化定义,基本数据自动同步。
(5)数据保障系统。
资料安全审核、资料盘点核对、资料脱敏处理、集群化作业监控。
(6)大数据生态系统。
在Hadoop生态系统中集成了许多工具和组件,以满足不同的计算和存储需求,例如HDFS分布式文件系统、HBase列数据库、HiveDataBoost、Kafka服务编排、MapReduce服务调度、SQL数据仓库、impala类SQL数据仓库等等,都能方便的存储和分析计算。
(7)数据的开放。
它通过丰富的外部服务手段,提供实时信息查询,减少业务系统压力,保证数据生命周期的完整性和相关性,支持第三方智能应用等嫁接服务。
(8)产品优势
(1)多个数据来源。
多个数据源支持,一键访问,不需配置繁琐。
(2)零编码。
用户体验简单易行,零码建立传送任务,降低了企业用户的使用门槛。
(3)大规模发展。
对大规模数据集成的支持(修改后)。
(4)实时融入。
数据的实时融合和集成,不让时滞成为瓶颈,保证数据的实时性。
(5)开箱即用。
简易快捷的安装流程,高效的部署生产环境,即装即用。
(6)错误队列预警。
健全纠错机制,对系统状态进行监测,快速报警。
(7)多个目的地。
提供多个数据目标,容易同步,有效地使用数据。
(8)全程质量控制。
优质的数据传输系统保证了数据的安全和准确传输,真正实现了数据无忧无虑。
(9)极速处理。
它是对数据仓库中大规模数据查询、处理数据的优化,能够快速地处理存储在HDFS中的数据。
技术优势
(1)特定的实时计算分析能力。
(2)通过并行任务调度来提高计算速度。
(3)成本低廉的存储空间和服务器建造。
(4)高吞吐量,支持高吞吐量接入,消除接入瓶颈。
(5)高度扩展性,不需要停机动态扩展,同时支持横向扩展。
(6)高可靠性,支持自动检测和保存多个拷贝,支持任务重分配。
(7)高效率,各个数据节点支持动态平衡,确保高速处理。