Kettle 运行界面与基本概念


运行界面

kettle,kettle转换,kettle transformation,kettle数据行,kettle hop,可视化编程

基本概念

1)可视化编程

Kettle可以被归类为可视化编程语言(Visual Programming Languages,VPL),因为Kettle可以使用图形化的方式定义复杂的ETL程序和工作流

Kettle里的图就是转换作业

可视化编程一直是Kettle里的核心概念,它可以让你快速构建复杂的ETL作业减低维护工作量,它通过隐藏很多技术细节,使IT领域更贴近与商务领域。

2)转换(Transformation)

  • 转换是ETL解决方案中最主要的部分,它处理抽取、转换、加载各种对数据行的操作。
  • 转换包含一个或多个步骤(step),如读取文件、过滤数据行、数据清洗或将数据加载到数据库。
  • 转换里的步骤通过跳(hop)来连接,跳定义一个单向通道,允许数据从一个步骤向另一个步骤流动。
  • 在Kettle里,数据的单位是,数据流就是数据行从一个步骤到另一个步骤的移动。
  • 数据流有的时候也被称之为记录流

kettle,kettle转换,kettle transformation,kettle数据行,kettle hop,可视化编程

3)步骤(Step)

Kettle里面的,Step步骤(控件)是转换里的基本的组成部分。一个步骤有如下几个关键特性:

  • 步骤需要有一个名字,这个名字在转换范围唯一
  • 每个步骤都会读、写数据行(唯一例外是“生成记录”步骤,该步骤只写数据)。
  • 步骤将数据写到与之相连的一个或多个输出,再传送到跳的另一端的步骤
  • 大多数的步骤都可以有多个输出跳。一个步骤的数据发送可以被被设置为分发复制,分发是目标步骤轮流接收记录,复制是所有的记录被同时发送到所有的目标步骤。

4)跳(Hop)

Kettle里面的跳即步骤之间带箭头的连线,跳定义了步骤之间的数据通路

kettle,kettle转换,kettle transformation,kettle数据行,kettle hop,可视化编程

  • 跳实际上是两个步骤之间的被称之为行集的数据行缓存(行集的大小可以在转换的设置里定义)。
  • 当行集满了,向行集写数据的步骤将停止写入,直到行集里又有了空间。
  • 当行集空了,从行集读取数据的步骤停止读取,直到行集里又有可读的数据行。

5)数据行——数据类型

数据以数据行的形式沿着步骤移动。一个数据行是零到多个字段的集合,字段包含下面几种数据类型。

  • String:字符类型数据
  • Number:双精度浮点数。
  • Integer:带符号长整型(64位)。
  • BigNumber:任意精度数据。
  • Date:带毫秒精度的日期时间值。
  • Boolean:取值为true和false的布尔值。
  • Binary:二进制字段可以包含图像、声音、视频及其他类型的二进制数据。

6)数据行——元数据

每个步骤在输出数据行时都有对字段的描述,这种描述就是数据行的元数据。通常包含下面一些信息。

  • 名称:行里的字段名应用是唯一的。
  • 数据类型:字段的数据类型。
  • 格式:数据显示的方式,如Integer的#、0.00。
  • 长度:字符串的长度或者BigNumber类型的长度。
  • 精度:BigNumber数据类型的十进制精度。
  • 货币符号:¥。
  • 小数点符号:十进制数据的小数点格式。不同文化背景下小数点符号是不同的,一般是点(.)或逗号(,)。
  • 分组符号:数值类型数据的分组符号,不同文化背景下数字里的分组符号也是不同的,一般是点(.)或逗号(,)或单引号(’)。