回到 1980 年,在我的第二份专业编程工作中,我正在从事一个项目,该项目分析了美国多个州的驾照数据。当时,这种类型的数据通常存储在固定长度的记录中,并在每个字段中仔细(或不小心)编码值。尽管我们得到了数据的模式,但我们总是会发现开发人员不得不诉诸技巧来表示事先没有预料到的值。例如,为患有异色症(不同颜色的眼睛)的人编码。我们最终在实际耗时且昂贵的分析运行之前对数据进行了全面扫描,以确保我们处理的是已知数据。这是我对数据质量或缺乏数据质量的介绍。
AWS 让您可以更轻松地构建任何规模的数据湖和数据仓库。我们希望让您比以往任何时候都更容易衡量和维护您摄取、处理和共享的数据的所需质量水平。
今天介绍 AWS Glue 数据质量
我想向您介绍AWS Glue 数据质量,这是我们以预览形式推出的AWS Glue的一组新功能它可以分析您的表格并根据发现的内容自动推荐一组规则。如有必要,您可以微调这些规则,也可以编写自己的规则。在这篇博文中,我将向您展示一些亮点,并将在这些功能从预览到普遍可用时保存详细信息以作为完整的博文。
每个数据质量规则都引用一个 Glue 表或 Glue 表中的选定列,并检查特定类型的属性:及时性、准确性、完整性等。例如,规则可以指示表必须具有预期的列数,列名匹配所需的模式,以及特定列可用作主键。
入门
我可以在我的一个 Glue 表上打开新的数据质量选项卡来开始。从那里我可以手动创建一个规则集,或者我可以单击推荐规则集开始:
然后我为我的规则集 ( RS1 ) 输入一个名称,选择一个有权访问它的 IAM 角色,然后单击推荐规则集:
我的点击会启动 Glue Recommendation 任务(一种特殊类型的 Glue 作业),该任务会扫描数据并提出建议。任务运行完成后,我可以检查建议:
我单击评估规则集来检查我的数据质量。
数据质量任务运行,我可以检查结果:
除了创建附加到表的规则集外,我还可以将它们用作 Glue 作业的一部分。我像往常一样创建我的工作,然后添加一个评估数据质量节点:
然后我使用数据质量定义语言 (DDQL) 构建器来创建我的规则。我可以在 20 种不同的规则类型之间进行选择:
对于这篇博文,我制定了比必要更严格的规则,以便我可以向您展示当数据质量评估失败时会发生什么。
我可以设置作业选项,并选择原始数据或数据质量结果作为转换的输出。我还可以将数据质量结果写入 S3 存储桶:
创建我的规则集后,我为作业设置任何其他所需的选项,保存它,然后运行它。作业完成后,我可以在“数据质量”选项卡中找到结果。因为我制定了一些过于严格的规则,评估正确地将我的数据标记为 0%:
还有很多,但我会把它留到下一篇博文中!须知预览区域– 这是一个开放预览,您今天可以在美国东部(俄亥俄、弗吉尼亚北部)、美国西部(俄勒冈)、亚太地区(东京)和欧洲(爱尔兰)AWS 区域访问它。定价——评估数据质量会以与任何其他 Glue 作业相同的方式和相同的每 DPU 定价消耗 Glue 数据处理单元 (DPU)。撰写,杰夫巴尔,Jeff Barr 是 AWS 的首席宣传官。他于 2004 年开设了这个博客,从那以后就一直在不停地写文章。