Kettle 字符串操作


任务描述

在数据输入过程中,有时候不小心输入的多余的空格、错误的字符等,字符串操作是指将数据中不需要的字符处理掉,Kettle字符串操作可以解决这一需求。

由于在“学籍信息.xls”文件中,学生学籍信息的籍贯字段数据前后有多余的空格,需要使用【字符串操作】,去除这些空格,规范学籍信息。

实现思路

  • 建立【字符串操作】转换工程。
  • 设置【字符串操作】组件参数。
  • 预览结果数据。

操作过程

1)建立字符串操作转换工程

使用Ctrl+N快捷键,创建【字符串操作】转换工程。接着创建【Excel输入】组件,设置参数,导入“学籍信息.xls”文件。

在【字符串操作】转换工程中,单击【核心对象】选项卡,展开【转换】对象,选中【字符操作】组件,并拖拽至右边工作区中。由【Excel输入】组件指向【字符串操作】组件,建立节点连接,如图所示。

kettle,kettle字符串操作,字符串处理,kettle删除数据

2)设置参数

双击【字符串操作】组件,弹出【String operations】对话框,如图所示。

kettle,kettle字符串操作,字符串处理,kettle删除数据

【字符串操作】组件的参数包含组件的基础参数和【The fields to process】表字段参数,有关参数的说明如表所示。

kettle,kettle字符串操作,字符串处理,kettle删除数据

在【String operations】对话框中,设置参数,删除“籍贯”字段数据中的空格,步骤如下:

1)确定组件名称。【Step name】参数保留默认值“字符串操作”。

2)设置字符串操作的字段参数。在【The fields to process】表中设置字段参数,在表第1行,单击【In steam field】输入框,在输入流字段中选中“籍贯”字段,单击【Trim type】输入框,在选项中选中“both”,其他参数使用默认值。此时完成【字符串操作】组件参数的设置,如图所示。

kettle,kettle字符串操作,字符串处理,kettle删除数据

3)预览结果数据

在【字符串操作】转换工程中,单击【字符串操作】组件,预览进行字符串操作后的数据,如图所示。

kettle,kettle字符串操作,字符串处理,kettle删除数据