突然火了的大数据，保证数据质量的4个方法论，看了之后瞬间清醒

当前位置：首页 > 数据可视化专题 >

突然火了的大数据，保证数据质量的4个方法论，看了之后瞬间清醒

作者：Jenny.Zhang

发布时间：2022.11.1

浏览次数：6,033 次浏览

说起数据质量，其实是一个很宽泛的问题，类似于写数据建模一样，是一个抽象概念为主的事情，对于程序员群体来说，总是难以解答和回答的。

这里针对数据质量等类似的、在数据仓库平台中必须提及的概念，提供一种解答的思路，就是架构推导理论。

先说一下基本的架构推导理论：架构 = 组件模块+关联关系+约束&指导原则。

我们用一张图来解释架构在系统中的作用：

数据质量问题,数据质量报告,数据质量评估,保证数据质量

从上图可以看出，架构是介于产品和业务之间的桥梁，从任意维度出发，通过架构，能够推导出另一维度的相关信息。因而，架构的推导也有两种思路：自顶向下和自底向上。

数据质量问题,数据质量报告,数据质量评估,保证数据质量

通过这两种方式，我们可以先采用自底向上的方式，来分拆产品描述的细节，总结出初步的观点，再按照程序员的思路进行自顶向下的拆分，最后再进行一轮自底向上的总结，基本上就可以确定一套系统应该有的架构和细节。

说了这么多，其实核心思想很简单，针对任何一类问题，都有两种思考它的方法：自顶向下和自底向上。在此基础上，可以多次组合这两种方法，来得到一个问题完整的多方面回答。

从程序员视角看数据质量

那么数据质量应该怎么思考，首先从程序员的角度出发，进行自底向上总结。

第一步，从程序员的日常工作出发。数据仓库工作中，开发占了绝大部分的比重，因此代码规范肯定是非常有必要的，其次应该是具体技术的应用细节，例如注意数据倾斜等问题，再次要对业务的概念非常熟悉，避免与产品思路上的差异，最后就是要熟练应用各种开发工具。把这些事情的各种细节做总结，升华一下概念，就是开发质量。

第二步，从配合人员的工作出发。如果团队稍微大一些的话，肯定有相应的测试或者运维人员，对于我们开发的代码和运行进行配合。例如业务逻辑的二次check、数据的运行结果之间一致性是否有保障，同时如果已开发的过程存在了问题，如何回溯历史数据、优化老代码也属于这个范畴。总结一下，就是需要测试的配合。

第三步，从流程角度出发避免人为失误。基本上正规一些的公司都会强调上线规范，做好数据校验、回滚方案、上下游监控等工作。

第四步，从维护角度出发及时发现问题。数据仓库其实最主要的一个问题，就是针对每一个问题，都要有相应的开发人员来检查问题，因此要有详细的值周规约，能够在第一时间出问题时有人介入。此外还需要配合各种完善的报警与监控平台，针对数据仓库日常的整体状况进行一个全面的监控。

总结这四个细节问题的汇总，可以得到四个角度的回答：易读易扩展易维护；上线无失误；报警及时处理；业务逻辑清晰。这四条其实就可以看作是数据质量的一个大的概念，用一张图来总结更为清晰一些：

数据质量问题,数据质量报告,数据质量评估,保证数据质量

从理论层面看数据质量

虽然说从程序员的角度出发，数据质量的问题描述的已经比较清晰了，但是对于非数据开发的程序员，以及产品和运营人员来说，这些还是有些难以读懂。因此很多时候要求我们用更抽象的角度出发，来进行问题的拆解。

这里常见的描述问题方式，参照CAP与BASE原则，我们可以仿照别人的概念，来组织和细化一个属于我们自己的概念，这里也算是自顶向下思路的一种实现。

从笔者自身的角度出发，我总结了大概八条原则，详情如下：

数据的完整性：数据的完整性比较易于理解，主要作用在数据仓库架构中的数据采集环节中，对应到数据分层理论是DWD层，例如要剔除掉数据的缺失信息，注意采集过程中的数据偏移现象并纠正，等等；
数据的准确性：数据的准确性不太常见，但比较关键，例如记录消费金额的信息不能为负值，要加入校验逻辑以防止业务部门的数据修正操作，对应到数据分层理论是DWD层，另外需要引入反作弊系统的支持，过滤掉那些无效的作弊数据，防止统计结果出现偏差，对应到数据分层理论是ODS层，；
数据的一致性：数据的一致性主要作用在离线开发环节中，对应的数据分层理论是DWS层，针对同一主题下的数据统计，确保统计的数据源是一致的
数据的及时性：比较完整一些的数据平台都包括了实时数据统计、小时级数据统计及天级数据统计，其实数据准时产出也算是数据质量原则的一部分，应该每天早上8点统计好前一天的数据，如果你延迟到了10点，肯定会有很多客户投诉你，尽管数据是准确的，但这种引起客户投诉的情况，也需要归到数据质量原则中来；
数据的安全性：假设团队规模较大，涉及了多个业务线的数据，那么权限与安全问题也需要值得注意，因为消费金额这一类的数据，在任何一家公司都属于敏感信息，在对外暴露时需要做脱敏的处理，提供点击展现等信息也应该有权限申请的步骤，这个环节既可以作用在数据分层理论的ADS层，也可以作用在DWS层；
数据的自查性：数据仓库并不是说我开发好了，就放在那里不管了，也不能说我需要指定一个人，天天去盯着有没有问题，数据仓库的架构中应该有对自身运行情况自动检查的特性，作用在数据分层理论的ADS层，例如在重点步骤之后添加校验环节，统计同比/环比信息，波动过大时主动报警等；
数据的周期性：数据质量不仅与开发过程密切相关，也与存储数据的硬件息息相关，在很多场景下，由于服务器资源的有限增长与数据资产的无限增加，必然到了一定的时间就会产生成本压力，因此定期删除无用数据，针对一些冷门数据做极限压缩，都是有效保障数据长期稳定运行的基石；
数据的可追踪性：数据的可追踪性，与元数据平台的搭建息息相关，可以说因为有了元数据平台，能够看到每一个过程的上下游血缘信息，因此在排查问题时，能够快速及时定位出问题的步骤，这非常关键。

从架构的环节看数据质量

但其实总结出理论还是很抽象，一些Boss或者Leader会要求你结合具体的场景来解释这些概念，这个时候从一次普通的业务开发出发，完整的阐述从数据采集、同步、开发，到最后的数据展现，我们都做了哪些事情，就十分有必要了，这也是从架构角度看数据质量如何保障的具体实现。

首当其冲的是业务信息的变更，例如增加某种统计字段，或者是重新改变某种指标的计算方式。业务信息的变化不仅是需要开发人员的主动介入，也需要平台工具的相关支持。例如Mysql数据库表发生信息变更时，通过Canal等组件可以感知数据表的DDL变化情况，离线根据DDL信息变更对应Hive表的信息。

其次是代码提交的校验环节，因为数据质量是一个很冰冷的词汇，代码出了问题就是质量不好，因此如何最大程度上避免人为错误，就成了数据质量保障的重要工作。

还是两个方面的思路，一个是交叉检验，既然一个人容易出问题，那么两人及以上来校验，出错的概率就会大幅降低，因此需要搭建一个可行的测试环境，如果没有，可以在线上平台搭建一个相同的测试表，导入少量的数据，这时安排测试人员介入逻辑的检查，并且做相应的回归测试。

另一个是进行静态的SQL代码检查，针对大表扫描、空值校验等检查，提示开发人员对应的错误风险。在数据采集环节，还可以加入一些与具体业务紧密相连的监控规则，例如订单拍下时间不大于当天时间，等等。

再次是搭建一些机制完善的辅助平台，例如可以调整任务优先级的调度平台，例如可以准时发现问题并提醒的报警平台，例如可以检测任务依赖死锁的开发平台，等等，针对数据的延迟监控、作业调度的合理性等情况做辅助的技术保障。

最后是要有完善的开发组织工作，针对每一次出现的数据故障，都得安排对应的事件回顾，每周安排例行会议进行典型开发代码的Code Review，有详细的数据问题应对手册以供新入职的开发人员熟悉，等等。

数据资产评估

既然提到了数据质量，那么质量便有好坏的区分，像数据平台百万级的数据表，总有高质量与低质量的区分，这时候需要进行相应的数据资产评估，高质量的表需要更高的优先级来进行处理。

如何评估数据质量

这里提供一些常见场景：

通过数据资产评估体系，制定高、中、低三种数据标准，以季度为周期，统计三种标准问题次数；
规定详细的数据产出时间，假设数据产出延时，计算延迟时间及问题，并进行记录；
通过产品、客户、数据使用人员及配合部门反馈意见，发现数据不一致等问题，及时反馈，确认后计入问题清单；
通过监控及报警平台，统计每日异常信息，分类产出报告；
针对每位开发人员，测试人员检查发现问题后，如果确认问题存在，计入开发问题，最后汇总常见问题场景；
定期扫描开发代码，发现问题及时发出报警。

很显然在目前的信息时代，借助类似于FineBI的这些工具，可以让企业加速融入企业数据分析的趋势。备受市场认可的软件其实有很多，选择时必须要结合实际的情况。一般的情况下，都建议选择市面上较主流的产品，比较容易达到好的效果，目前企业数据分析BI软件市场占有率前列的，就是帆软BI软件——FineBI。

商业智能BI产品更多介绍：www.finebi.com

免费下载FineBI 立即体验Demo

数据质量问题数据质量报告数据质量评估保证数据质量

可视化大屏资料包

制造业数据建设白皮书

BI建设地图（行业独家）

商业智能（BI）白皮书4.0

大数据决策分析平台建设方案

银行BI建设思路分享

医药数字化应用场景手册

大消费行业场景手册

金融数字化经营解决方案

猜你想看
post2020-11-11 09:50:22

工作3年，可视化毫无进步？小白都能看懂的干货，我真不想告诉你

2020.11

当年要是早知道这4步框架，我就不会为数据管理发愁了

2020.11

分析两分钟，跑数两小时？这份SQL优化大全建议收藏

2020.11

年薪50w的数据能力是什么样？把握好这3点，普通人也能做到

2020.10

数据分析做出这个效果，业务再也不敢说你没用

2020.10