需求探索:数据质量校验
客户原始需求
"我们每个月采集的能源数据有上千条,但质量很差。有的数据缺失,有的数据明显不对,比如某个月的用电量是0,或者突然比上个月多了10倍。我要一条条检查,工作量特别大。有时候检查不仔细,错误数据就直接用来核算了,结果核查的时候被发现,要重新算。"
—— 某水泥企业 碳核算专员
"去年核查的时候,核查机构指出我们有23处数据问题:8处缺失值、12处异常值、3处重复数据。他们要求我们逐一说明原因,提供修正依据。我们花了两周时间才把这些问题解决,核查进度严重延误。如果能在采集数据的时候就发现这些问题,就不会这么被动了。"
—— 某电力企业 碳管理负责人
"我们有一次把同一批煤的数据录入了两次,导致碳排放量多算了500吨。幸好是内部审计发现的,如果被核查机构发现,可能会被认为是数据造假,影响很严重。我们现在特别需要一个自动检查的工具,能在数据录入的时候就发现重复、异常这些问题。"
—— 某钢铁企业 数据管理员
场景背景
业务规模
- 数据量:每月500-5000条能源消耗记录
- 数据源:3-20个系统和人工录入
- 数据类型:电力、燃气、煤炭、柴油、汽油等5-10种能源
- 检查频率:每月核算前需要全面检查一次
- 问题发现率:人工检查发现率约60-70%,仍有30-40%问题遗漏
参与角色
- 碳核算专员 - 负责数据质量检查和修正
- 数据管理员 - 负责数据录入和初步校验
- 部门数据员 - 提供数据并配合修正
- 核查机构 - 第三方核查时发现数据问题
时间特点
- 检查时机:数据采集后、核算前
- 检查周期:每月1次全面检查
- 修正时限:发现问题后3-5天内完成修正
- 核查时间:每年3-6月,核查机构会重点检查数据质量
核心痛点分析
1. 数据缺失、异常值多,人工检查工作量大
问题描述:
- 数据缺失率10-15%(系统故障、人工漏录等原因)
- 异常值5-10%(录入错误、单位错误、设备故障等)
- 每月需要检查500-5000条数据,人工检查耗时2-3天
- 人工检查容易疲劳,遗漏率30-40%
业务影响:
- 碳核算专员工作量大,效率低
- 遗漏的问题在核查时被发现,需要重新核算
- 数据质量差影响核算准确性
- 核查通过率低,延误核查进度
客户原话:
"我每个月要检查上千条数据,看有没有缺失、有没有异常。我会先排个序,看看有没有特别大或特别小的值。但是数据太多了,看着看着就眼花了,很容易漏掉问题。有一次,一个车间的用电量录成了0,我没发现,结果核算的时候碳排放量少了50吨,核查的时候被发现了。"
2. 缺少自动校验规则,问题发现晚
问题描述:
- 目前主要靠人工经验判断,缺少系统化的校验规则
- 问题往往在核算时或核查时才被发现,为时已晚
- 无法在数据录入时实时校验,事后修正成本高
- 不同人的校验标准不一致,质量参差不齐
业务影响:
- 问题发现晚,修正成本高
- 核查时被动,影响核查进度
- 数据质量无法保证,核算结果不可靠
- 无法建立数据质量管理体系
客户原话:
"我们现在是等数据都采集完了,才开始检查。如果能在录入的时候就检查,发现问题马上就能改,不用等到月底再来翻旧账。去年核查的时候,核查机构发现我们有23处数据问题,都是一些很基础的错误,比如缺失值、异常值。如果有自动检查的功能,这些问题根本不应该出现。"
3. 数据修正记录不完整,无法追溯
问题描述:
- 数据修正后,原始数据被覆盖,无法追溯
- 修正原因、修正依据没有记录
- 核查时无法说明数据修正的合理性
- 无法统计数据质量问题的类型和频率
业务影响:
- 核查时无法提供修正依据,被质疑数据真实性
- 无法分析数据质量问题的根源,无法改进
- 数据修正过程不透明,存在合规风险
- 无法评估数据质量改善效果
客户原话:
"核查机构问我们,为什么某个月的用电量从10000度改成了12000度?我们只能说是录错了,但具体是谁改的、什么时候改的、为什么改,都说不清楚。核查机构就会怀疑我们是不是在调数据。如果能有完整的修正记录,包括修正前后的值、修正原因、修正人、修正时间,就能证明我们的数据是真实可靠的。"
需求提炼
通过深度沟通,我们提炼出以下核心需求:
功能需求
自动数据质量检查
- 缺失值检查:识别空值、null值
- 异常值检查:识别超出合理范围的值(如负值、超大值)
- 重复值检查:识别重复录入的数据
- 逻辑校验:识别不符合业务逻辑的数据(如用电量为0但有电费)
- 解决的痛点:人工检查工作量大、遗漏率高
实时校验与预警
- 数据录入时实时校验,发现问题立即提示
- 数据导入时批量校验,生成问题清单
- 问题数据标记,便于快速定位
- 解决的痛点:问题发现晚、修正成本高
智能校验规则
- 支持配置校验规则(如合理范围、同比环比阈值)
- 支持基于历史数据的智能校验(如同比增长超过30%预警)
- 支持自定义校验规则
- 解决的痛点:缺少系统化校验规则
数据修正与追溯
- 支持在线修正数据
- 记录修正前后的值、修正原因、修正人、修正时间
- 支持批量修正
- 支持修正历史查询和导出
- 解决的痛点:修正记录不完整、无法追溯
数据质量报告
- 生成数据质量报告(缺失率、异常率、修正率等)
- 按数据源、能源类型、时间等维度统计
- 识别数据质量问题的高发区域
- 解决的痛点:无法评估数据质量、无法持续改进
非功能需求
准确性
- 校验规则准确,误报率低于5%
- 异常值识别准确率高于90%
实时性
- 实时校验响应时间小于1秒
- 批量校验1000条数据在10秒内完成
易用性
- 问题数据一目了然,支持一键修正
- 校验规则配置简单,非技术人员也能操作
可追溯性
- 所有修正操作完整记录,支持审计
- 修正历史永久保存,不可篡改
业务价值
对碳核算专员
- ✓ 数据检查时间从2-3天缩短到1小时以内,节省90%+时间
- ✓ 问题发现率从60-70%提升到95%以上
- ✓ 核算数据质量提升,核查通过率提高
对数据管理员
- ✓ 数据录入时实时发现问题,及时修正
- ✓ 减少事后修正工作量
- ✓ 提升数据录入质量
对企业管理层
- ✓ 降低核查风险,避免因数据问题被退回
- ✓ 提升数据质量管理水平
- ✓ 建立数据质量管理体系
对核查机构
- ✓ 数据质量高,核查效率提升
- ✓ 修正记录完整,便于核查
- ✓ 降低核查风险
下一步:方案设计
在方案设计阶段,我们将:
- 设计数据质量检查流程(实时校验 + 批量校验)
- 设计校验规则体系(基础规则 + 智能规则)
- 设计数据修正流程和追溯机制
- 设计数据质量报告和分析
- 设计数据模型和接口
创建时间:2026-05-01