无论是来自数据库还是文件,数据源都是数据集成中最基本和最必要的元素之一。
Talend Open Studio for Data Integration支持大量数据库连接以及标准和复杂文件格式的组件,让您可以轻松访问数据。
在本教程中,您将读取以逗号格式分隔的文件。
本教程中使用的软件版本为Talend Open Studio for Data Integration v6。
1 创建新作业
1)确保选择了集成(Integration)透视图。
2)在Project Repository中,右键单击作业设计器(Job Designs),然后单击菜单中的Create Standard Job(创建标准作业)。
3)在New Job向导的Name字段中,将Job的名称重命名为readCSVFile。
4)建议您在作业中完善目标字段和描述字段,便于您后续的文件维护。
5)单击完成以创建您的作业。
2 添加一个 tFileInputDelimited 组件
具体步骤请参考Talend Studio实例入门。
3 配置 tFileInputDelimited_1 组件
1)在作业设计器中,单击tFileInputDelimited_1。
2)单击组件视图中的组件,定义组件的基本设置。
- 属性类型(Property Type)定义了您将如何读取数据源。
- 文件名/流(File Name/Stream)显示文件完整的输入或输出路径。您可以手动输入路径。
- 行分隔符(Row Separators)和字段分隔符(Field Separators)定义行分隔符的类型。
- 限制字段(Limit)显示文件读取的最大行数。
- 框架(Schema)定义了文件的数据结构。
3)单击文件名(File Name)字段旁边的 […],从本地磁盘中选择文件,选择要读取的文件路径及名称,并打开。
4 定义 tFileInputDelimited_1 组件的架构
1)单击编辑模式(Edit Schema)字段旁边的 […],为 tFileInputDelimited_1 组件定义模式。
- [+] 按钮表示在模式中添加一列。
- [x] 按钮表示从模式中删除所选项目。
- [↑] 和 [↓] 按钮表示在模式中向上或向下移动所选中的项目。
2)在模式向导(Schema Wizard)中,单击[+] 按钮并添加列。
3)在Column列中,字段名称输入为movieID。
4)选择Key,将此字段指定为键。
5)在Type列中,单击整数(Integer)。
6)不要选中Nullable列,避免列中出现空值。
7)在Length列中,输入4。
8)对 CSV 文件中的每个字段重复步骤2)到7)。
9)单击确定,关闭模式向导。
5 添加日志组件并传送数据
1)将 tLogRow 组件添加到作业。tLogRow 组件将在控制台中显示它接收到的所有数据行。
2)将数据从 tFileInputDelimited_1 组件传送到 tLogRow_1 组件
在作业设计器中,右键点击tFileInputDelimited_1并拖动到tLogRow_1即可。
替代方法:
要链接组件,您还可以右键单击源组件,然后单击Row>Main。
6 运行作业
单击运行 readCSVFile 的视图。
该文件由 tFileInputDelimited 组件读取,其内容通过 tLogRow 组件显示在控制台上。
评论区(0)