[大数据测试]ETL测试工具和ETL面试常见的问题及答案


概述

对任何企业来说,商务信息和数据都是至关重要的。如今许多企业都投入了大量的人力、资金和时间来分析、整理这些资料。

由于分析、整理数据已获得了巨大的潜在市场,为了使这一过程变得更加简单,越来越多的软件厂商推出了ETL测试工具。

现在,ETL工具需要开放源码,供应商可以让用户直接从其官方网站下载,但是如果要升级到新版本或者是企业版,则需要付费。

因此,需要根据企业不同的业务结构和模式,在选择ETL工具之前,对其进行分析。有了这些开放源码ETL工具的帮助,我们就可以不用花费大笔投资就可以试着分析和整理我们的数据。

目前,各大软件厂商几乎都有自己的BI或ETL工具。

几个常用ETL工具:

  • Talend Open Stduio
  • Clover ETL
  • Elixir
  • Pentaho
  • Informatica
  • IBM – Cognos Data Manager
  • Oracle – Data Integrator
  • SAS – Data Integration Studio
  • AB Inito, SAP – BUsiness Objects Data Integrator

选定ETL工具之后,下一步就是对这个工具进行测试调查,进一步理解这个工具的功能。

这些工具可以帮助处理大量数据和历史数据,同时还必须能够进行ETL测试,以保证数据的准确性,所以ETL测试非常重要。

ETL有两种测试方式有效:

  • 应用测试
  • 数据测试

ETL测试程序:

尽管目前ETL工具很多,但是ETL测试在实际业务中也同样重要。

一种好的ETL测试策略定义可以使测试过程更加简单,所以在选择ETL工具之前,应遵循这一基本测试流程。

ETL测试程序:

分析需求:了解极特殊的商业结构需求。

确认与试验评估:评估执行过程所需的时间和专长。

测试规划和设计测试环境:根据输入进行评估,规划和开发ETL环境。

编制和执行试验数据:根据实际需求准备并执行试验数据。

报表:发布实际报告。

更多信息见“ETL测试或数据仓库测试入门”

常见etl面试题

今后,随着大数据和人工智能的进一步发展,国内对ETL测试的需求必将由0变为有些突破,下面我们将对今后国内求职ETL职位可能遇到的面试题进行说明。

问题:ETL是什么?

答:ETL是Extracting-Transfroming-Loading的缩写,指从任何外部系统获取、转换和加载数据到目的地。它是数据集成流程的三个主要步骤。Extracting:从源数据提取目标数据集Transfroming:用业务逻辑转换目标数据集:将业务逻辑转换为适当格式的数据集加载至目标地。

问题:ETL测试为何是必须的?

答:

  • 为在从来源到目的的转换期间检查数据。
  • 追踪ETL过程的效率和速度。
  • 了解ETL流程,可以更好地为我们的企业实践服务。

问题:ETL测试工程师的主要职责是什么?

答:

  • 了解ETL的工具和流程。
  • 设计ETL测试各个阶段的测试场景。
  • 为每个阶段的测试场景执行不同的类型测试。
  • 进行资料质量审核。

问题:维度在ETL过程中指的是什么?

回答:维度指汇总数据时对其进行排序的组或类别。

问题:在ETL流程中,什么是StagingArea?

答案:StagingArea是ETL流程中的一个临时存储点,在ETL过程中,我们通常进行数据清理和重复检查等处理。

问题:请解释ETLMappingSheets(ETL映射表)

答案:ETL映射表包含了从数据源提取的行和列的所有信息。这个表格可以帮助我们更好地完成ETL流程和ETL测试。

问题:请列出ETL测试中的一些常用用例,并解释它们。

答案:

  • ETL映射表验证:确认映射表中的所有信息都是正确的。
  • 资料检查:验证资料正确性、数值值、空检等。
  • 正确性问题:确认数据拼写错误,数据是否有错误,以及是否有空数据。

问题:请列出您了解的ETL bug的类型。

答案:计算错误、用户接口错误、源数据错误、边界错误等等。

ETL面试小结

对于这些工具,当然并不深入地讲解,而列出的几个面试题也仅仅是一些基本的概念,后面将进一步介绍这些知识,以增强个体的能力,从0到有的扩大知识面。