Talend 排序


在本教程中,使用处理组件并了解如何对文件中的数据进行排序

本教程中使用的软件版本为Talend Open Studio for Data Integration v6。

1 创建新作业

1)确保选择了集成(Integration)透视图。

2)创建一个新作业并重命名为SortCSVFile。

2 添加一个 tFileInputDelimited 组件

1)将 tFileInputDelimited 组件添加到作业中。

2)在组件视图中,单击FileName字段旁边的 […] ,从本地磁盘中选择文件,然后单击打开,完成tFileInputDelimited_1的配置。

3)打开 tFileInputDelimited_1 的模式向导(Schema Wizard)并单击编辑模式(Edit schema)字段旁边的 […],完成所需的文件描述信息设置。

4)单击 [+] 图标添加第一列并输入该列的详细信息。

5)对 CSV 文件中的每一列重复步骤4)并关闭模式向导。

3 对Job中的数据进行排序

1)将 tSortRow 组件添加到 Job 并链接两个组件。

注意: tFileInputDelimited_1组件的模式由它所链接的tSortRow组件继承,因此无需对其进行配置。

2)在 tSortRow 组件的 Component 视图中,单击 Edit schema 旁边的 […],查看已继承的模式。

3)单击 [+],然后在 Schema 列中单击releaseYear并通过单击desc指定排序顺序,根据电影发行年份创建新的排序规则。

4)在作业设计器中添加 tLogRow 组件并链接 tSortRow_1 和 tLogRow_1 组件,查看排序规则的结果。

5)在作业 sortCSVFile 的运行视图中,单击运行。

4 添加第二个排序规则

1)在 tSortRow_1 组件的视图中,单击 (+),然后在 Schema 列中选择 title。然后在排序列中,选择 alpha,完成第二个排序规则的添加。

2)在运行视图中单击运行。

现在,电影将按发行年份排序,并且在每个年份中,电影将按名称的字母顺序进行排序。

5 将作业的结果存储在文件中

1)将 tfileOutputExcel 组件添加到作业设计器,并将 tLogRow_1 链接到它。

2)配置输出组件:在组件视图中指定输出文件的路径和名称。

3)选择Include Header,在输出文件中包含标题行。

4)在运行视图中,单击运行作业。

5)到创建该文件的所在位置,查看 moviesSorted.xls 文件,可以看到文件显示经过排序之后的数据。

6)运行视图中不显示排序后数据:右键单击tLogRow_1并单击停用 tLogRow。

7)在运行视图中单击运行,再次查看作业。

作业再次运行,但是,“运行”视图中不显示任何数据。


评论区(0)

评论