400-608-2558只要经过“数据治理”,数据就自动变成高质量数据集了吗?答案并不那么简单。今天,我们将聚焦高质量数据集与数据治理之间的关系,厘清二者边界,并从多个维度辨析:数据治理是否等于高质量数据集建设?它能带来什么?又有哪些局限?
“数据治理”这个词近年来频繁出现在政策文件、企业战略和技术方案中,但它到底是什么?
根据国家标准《GB/T 36073-2018数据管理能力成熟度评估模型》(DCMM)中的定义:“数据治理是对数据进行处置、格式化和规范化的过程。”
在国家标准《GB/T 34960.5-2018 信息技术大数据数据治理框架》也有定义:“数据治理是数据资源及其应用过程中相关管控活动、绩效和风险管理的集合。”
国际上,DAMA(国际数据管理协会)在其《DAMA-DMBOK2数据管理知识体系指南》中也指出:“数据治理是在管理数据资产过程中行使权力和管控,包括计划、监控和实施。数据治理的目的是确保根据数据管理制度和最佳实践正确地管理数据。”
简而言之,数据治理是一套制度、流程、角色与技术工具的组合,目标是让组织能够管好数据、用好数据、控好风险。
我们回顾第一期的内容,高质量数据集是指:经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能和准确率的数据的集合。
简而言之,高质量数据集是一种以大模型应用场景为导向、经系统化规划-采集-预处理-标注等处理后的、具备高可用性的结构化知识资产。

看到这里,可能有的小伙伴要说了,数据治理是指导我们如何管好数据,而管好数据,自然就包括提升数据质量——那是不是意味着,只要做好数据治理,就能直接得到高质量的数据集了呢?
乍一听,好像挺有道理,不过先别急着下结论,咱们不妨一起深入分析一下:事情真的这么简单吗?
数据治理不是单一动作,而是一个系统工程。通常包括以下核心任务:
* 制定数据战略:明确组织数据管理定位、治理目标与责任分工,成立数据治理组织,制定数据管理制度规范,推动并保障企业数据资产有序管控;
* 设计数据架构:盘点企业数据资源,梳理企业数据资产目录以及数据流向关系;
* 建立数据标准:统一命名规范、编码规则、数据格式、取值规范等;
* 实施元数据管理:记录数据来源、含义、血缘关系等;
* 保障数据质量:通过预设规则、监控、清洗、校验、清洗等手段提升数据可信度;
* 落实数据安全与合规:如隐私保护、权限控制、审计追踪;
* 推动数据共享与服务化:打破数据孤岛,促进跨部门协作;
* 数据全生命周期管理:从数据需求到数据开发部署运维的全过程管控。
可以看到,数据治理覆盖了数据“从生到死”的全生命周期,但它的重点在于“管理”和“控制”,而非直接产出“可用的数据产品”。当然,经过治理后的数据“质量”也是高的!
高质量数据集的构建是以大模型应用为导向,具备极强的场景应用性。包括以下核心环节:
* 明确数据需求:紧扣大模型应用场景,定义所需数据的类型、范围、规模、时效性及质量标准;
* 开展数据规划:基于需求制定整体数据建设路径,包括数据来源策略、采集频率、存储方案、标注规范、版本管理机制及合规风险评估;
* 实施数据采集:从内部系统或外部渠道获取数据,确保覆盖全面、来源合法、记录完整;
* 执行数据预处理:对原始数据进行清洗、转换、归一化、数据合成、数据增强等操作;
* 进行数据标注:依据大模型训练任务场景需求对数据进行标注;
* 支撑模型验证:基于高质量数据集训练大模型,如未达到预期效果,反馈上游优化数据。
可以看到,高质量数据集的打造贯穿了从“业务意图”到“模型落地”的全过程,始终以应用场景为导向。
这是本期最关键的观点:即使完成了全面的数据治理,也不一定得到一个高质量数据集。
因为数据治理是“过程”,高质量数据集是“结果”。过程做得好,有助于结果达成,但不等于结果本身。
我们可以从以下两个维度来看:
1、目标维度
数据治理的目标是提升组织整体的数据管理能力,帮助企业管理数据,使数据服务于业务需求。管理的主体是业务产生的交易数据或记录数据。
高质量数据集的目标是支撑特定业务场景的大模型训练,强调数据本身的可用性、均衡性与价值密度。与追求事实真实不同,更注重“理论真实”或“功能真实”,允许通过数据合成、数据增强技术生成现实中不存在但逻辑合理的样本,以优化数据分布、缓解样本不平衡、减少模型偏见。
举个通俗易懂的例子:动物园开展数据治理工作,要做的事情包括:每只动物建立电子档案,记录动物照片、出生日期、毛发颜色、饮食情况、饲养员等。比如有一只黑豹,若系统中出现“皮毛是白的”的记录,会被视为数据错误,需立即修正;与此同时,动物园联合AI团队开发一个动物图像识别,用于自动识别游客上传的照片中的动物。团队对园区动物进行拍摄,生成图像数据进行大模型训练,但是现实中园区没有白豹,导致模型对白豹识别不准确,为提升模型泛化能力,团队使用数据增强技术,将黑豹的照片通过图像处理生成逻辑合理的“合成白豹”图像;这些合成数据虽非当前动物园中“真实存在”的个体,但符合动物形态学规律,具备逻辑真实性;合成数据若混入动物园的正式动物档案系统,会被数据治理流程视为“污染”;但在模型训练中却是高价值样本。
2. 质量维度
数据治理中的“数据质量”指的是数据满足业务的程度,满足,即为“好的质量”;不满足为“不好的质量”。数据质量需要根据业务需求设计度量方案,也需要从源头业务系统进行质量改进;对质量的指标要求通常为准确性、完整性、一致性等基础质量维度。
高质量数据集指的是满足大模型场景训练的质量要求,例如:
1、标签是否准确?
2、样本是否均衡?
3、是否具备足够的多样性?
高质量数据集对质量的要求按照文档完整性、质量合规性、场景适用性等不同维度分别设置评价指标。如下图所示:

注:本文仅简要提及高质量数据集的质量维度。关于如何系统化评估高质量数据集我们将在后续专题中深入展开。
总结来说:
1、没有良好的数据治理,很难规模化、可持续地建设高质量数据集。
2、但仅有数据治理,不足以自动产出高质量数据集。真正高质量的数据集,需要在健全的数据治理体系之上,结合业务理解、大模型场景需求等,进行有针对性的设计、采集、标注、验证与迭代。
换句话说:数据治理搭好了舞台,但唱好戏还需要导演、演员和剧本。

在数字化转型和大模型时代,数据已成为核心生产要素。我们既要重视“治数”(数据治理),也要聚焦“用数”(高质量数据集建设)。二者相辅相成,缺一不可。
你所在的企业是否遇到过“数据治理工作做了,但数据还是不好用”的情况?欢迎在评论区分享你的经验!

