在本教程中,您学会如何创建并使用元数据。
本教程中使用的软件版本为Talend Open Studio for Data Integration v6。
Talend Open Studio 允许您使用预定义的组件创建和运行 Java ETL 程序或作业。
每个组件都可以配置为“内置”或“存储库”组件。
对于“内置”组件,它包含以下特性:
- 在组件内定义。
- 仅适用于该组件。
- 不能与其他组件重复使用。
对于“存储库”组件,它包含以下特性:
- 将另存为元数据。
- 具备高效性与高复用性。
- 易于维护,因为对元数据的更改可以链接到所有使用它的作业。
1 为分割文件创建元数据定义
1)在 Project Repository 中,单击 Metadata,右键单击 File delimited,然后单击 Create file delimited。
2)名称字段中,命名为Movie并单击下一步。
3)点击“文件”字段旁边的“浏览”,从本地磁盘中读取movies文件,然后单击“打开”。该文件显示在向导的文件查看器部分。
4)单击下一步进行属性类型的定义设置。在出现的向导窗口中,您可以定义诸如读取文件的方式、读取文件时应跳过的行数(如果有需要的话)以及要处理的最大行数。
5)当文件的第一行是列名且需要进行忽略处理时,请在“预览”选项卡中选择“将标题行设置为列名”。注意,此时标题复选框会自动选中值为 1。
6)单击“刷新预览”按钮,查看刚刚进行的一些更改操作,然后点击“下一步”。
7)在名称字段中,输入moviesSchema。如果文件第一行包含列名,那么它将会被显示出来。如果不包含,则该列将显示为列0、列1等,如有需要可以进行重命名。
8)更新显示的模式并查看示例文件的结构。在有需要时,您可以将 title 和 url 字段的长度分别更改为 100 和 250,并将directorID 的字段类型更改为整数。单击完成。
在项目存储库的元数据中,movie0.1的文件属性会与该文件入口一并显示。
如果您需要修改属性类型或相应模式,请右键单击 Project Repository 中的组件,然后选择 Edit File Delimited 或 Edit Schema。
2 使用元数据配置组件
1)创建一个新作业并重命名为useMetadata,并向其添加一个 tFileInputDelimited 组件。
注意:默认情况下,组件配置有“内置”参数。
2)在组件视图的属性类型字段中,选择Repository。
3)选择元数据:单击字段旁边的 […],选择movie0.1,然后点击确定。
注意:这一步会显示元数据的参数集。并且,所有元数据的字段都是灰色的,目的是为了区别元数据与组件。
如要更改模式,请单击文本编辑模式旁边的 […] 并选择选项:
- 更改为内置属性编辑此组件的架构。
- 更新存储库连接,编辑存储库中的元数据模式。
4)查看模式:单击文本编辑模式旁的 […] 并选择查看模式。
3 创建数据库连接并定义为元数据
1)在 Project Repository 中,单击Metadata,右键单击Db Connections,然后单击Create connection。
2)在数据库连接向导的名称字段中,输入MySql并单击下一步。
3)在数据库类型字段中,选择MySQL。
4)填写连接参数。
5)点击“检查”查看与数据库的连接。
6)单击完成,关闭向导并创建元数据。
7)要自动检索所有表模式,请右键单击Project Repository 中的MySql 0.1元数据,然后单击Retrieve Schema。
8)单击下一步,显示所连接的数据库。
9)查看所有的表和以及视图:选中数据库名称左侧的复选框,然后单击下一步。
此时,所有表模式都已作为元数据进行导入并能够使用。
表和视图显示在项目存储库中的 mysql 0.1 连接下。要查看表格中的字段,请单击表格。
4 使用元数据读取数据库表
1)在列表中读取表格:选择对应表格并将其放置在作业设计器中。
2)在组件窗口中,单击 tMySqlInput 并单击确定。
- tMysqlInput 组件是使用存储库信息创建的。它使用 MySql 0.1 连接,对于模式而言,它使用的是元数据表 tdq_values 中的存储库信息。
- 此外,Talend 生成的 SQL 查询会发送到表 tdq_values 中。
3)显示表数据:请添加 tLogRow 组件并将 tdq_values 组件链接到 tLogRow_1 组件。
4)显示表 tdq_values 中的数据:在运行视图中单击运行。
评论区(0)