在本教程中,您将学习如何通过从Hadoop配置文件导入配置来创建Hadoop集群元数据。
本教程使用Talend Data Fabric Studio v6和Hadoop集群:Cloudera CDH v5.4。
1 新建一个Hadoop集群元数据定义
1)选择集成透视图。
2)在ProjectRepository中,展开Metadata,右键单击HadoopCluster,然后单击CreateHadoopCluster,打开向导。
3)在HadoopClusterConnection向导的Name字段中,输入MyHadoopCluster。在“用途”字段中,键入Clusterconnectionmetadata,在“描述”字段中,键入Metadata并连接到ClouderaCDH5.4集群,然后单击“下一步”。
这一步的目的是打开Hadoop配置导入的向导窗口。
2 从Hadoop配置文件中导入配置
1)在Hadoop配置导入向导的分发列表中,选择Cloudera,然后在版本列表中,选择4(YARNmode)。
有多种方法可以创建Hadoop集群元数据:
- 通过从ClouderaManager或Ambari检索配置进行
- 通过从Hadoop配置文件导入配置进行自动配置
- 手动配置
2)从文件中选择配置方法:在选项面板中,选择从本地文件导入配置,然后单击下一步。
3 找到配置文件夹并检索配置
1)单击Browse,导航到对应的路径(本教程中为C:/StudentFiles/HadoopConf),然后单击OK。
Hadoop配置文件必须可用且可在本地访问。
Hadoop配置导入向导检测配置文件并列出相应的服务。
在本教程中,我们将保留默认配置,并为YARN和HDFS创建元数据定义。
2)单击Finish,将配置导入到创建好的Hadoop集群元数据中。
4 创建YARN和HDFS对应的定义
1)在HadoopClusterConnection向导的身份验证面板中,输入用户名student,然后单击CheckServices。检查Hadoop服务窗口打开。请注意,Namenode和资源管理器状态为100%。
2)关闭查看Hadoop服务(CheckingHadoopServices)窗口。单击Finish,关闭HadoopClusterConnection窗口并创建元数据。
5 查看在Repository中创建的元数据
1)在存储库中,展开HadoopCluster。现在您可以使用元数据定义了。
2)打开名为MyHadoopCluster_files的主定义,它对应的是YARN服务。
打开HDFS,它保存在主MyHadoopCluster_files元数据的子文件夹中。
现在可以在Talend中使用Hadoop集群元数据定义了。
评论区(0)