美林数据依托丰富数字化技术与超过3000个产业数字化服务实战案例的积累,将产业实践与高校教育紧密结合,形成“以产促教、以教助产”的良性循环,全力助推高校数智化人才的培养。至今,已成功助力全国超过300所高校,为数智人才培养贡献美林力量。
为你推荐
RECOMMEND FOR YOU
tempo talents数智人才应用能力解决方案
美林数据将以产业实践为基础、数字经济时代的高质量人才供给为目标,聚焦行业用人需求,以大数据人才“应用能力”培养为核心,为大数据产业高质量发展和数字中国建设贡献了美林智慧与力量。
为你推荐
RECOMMEND FOR YOU
tempo talents数智人才应用能力解决方案
400-608-2558

关于我们

美林数据技术股份有限公司(简称:美林数据,NEEQ:831546)是国内知名的数据治理和数据分析服务提供商。
首页关于我们新闻动态

新闻动态

经过数据治理的数据,是高质量数据集吗?
发布时间:2025-11-19 浏览量:0

只要经过“数据治理”,数据就自动变成高质量数据集了吗?答案并不那么简单。今天,我们将聚焦高质量数据集与数据治理之间的关系,厘清二者边界,并从多个维度辨析:数据治理是否等于高质量数据集建设?它能带来什么?又有哪些局限?

01、什么是数据治理?

“数据治理”这个词近年来频繁出现在政策文件、企业战略和技术方案中,但它到底是什么?

根据国家标准《GB/T 36073-2018数据管理能力成熟度评估模型》(DCMM)中的定义:“数据治理是对数据进行处置、格式化和规范化的过程。”

在国家标准《GB/T 34960.5-2018 信息技术大数据数据治理框架》也有定义:“数据治理是数据资源及其应用过程中相关管控活动、绩效和风险管理的集合。”

国际上,DAMA(国际数据管理协会)在其《DAMA-DMBOK2数据管理知识体系指南》中也指出:“数据治理是在管理数据资产过程中行使权力和管控,包括计划、监控和实施。数据治理的目的是确保根据数据管理制度和最佳实践正确地管理数据。”

简而言之,数据治理是一套制度、流程、角色与技术工具的组合,目标是让组织能够管好数据、用好数据、控好风险。

02、什么是高质量数据集?

我们回顾第一期的内容,高质量数据集是指:经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能和准确率的数据的集合。
简而言之,高质量数据集是一种以大模型应用场景为导向、经系统化规划-采集-预处理-标注等处理后的、具备高可用性的结构化知识资产。

经过数据治理的数据,是高质量数据集吗?

03、一个有点“武断”的结论

看到这里,可能有的小伙伴要说了,数据治理是指导我们如何管好数据,而管好数据,自然就包括提升数据质量——那是不是意味着,只要做好数据治理,就能直接得到高质量的数据集了呢?

乍一听,好像挺有道理,不过先别急着下结论,咱们不妨一起深入分析一下:事情真的这么简单吗?

04、数据治理要做哪些事情?

数据治理不是单一动作,而是一个系统工程。通常包括以下核心任务:

* 制定数据战略:明确组织数据管理定位、治理目标与责任分工,成立数据治理组织,制定数据管理制度规范,推动并保障企业数据资产有序管控;

* 设计数据架构:盘点企业数据资源,梳理企业数据资产目录以及数据流向关系;

* 建立数据标准:统一命名规范、编码规则、数据格式、取值规范等;

* 实施元数据管理:记录数据来源、含义、血缘关系等;

* 保障数据质量:通过预设规则、监控、清洗、校验、清洗等手段提升数据可信度;

* 落实数据安全与合规:如隐私保护、权限控制、审计追踪;

* 推动数据共享与服务化:打破数据孤岛,促进跨部门协作;

* 数据全生命周期管理:从数据需求到数据开发部署运维的全过程管控。

可以看到,数据治理覆盖了数据“从生到死”的全生命周期,但它的重点在于“管理”和“控制”,而非直接产出“可用的数据产品”。当然,经过治理后的数据“质量”也是高的!

05、高质量数据集建设要做哪些事情?

高质量数据集的构建是以大模型应用为导向,具备极强的场景应用性。包括以下核心环节:

* 明确数据需求:紧扣大模型应用场景,定义所需数据的类型、范围、规模、时效性及质量标准;

* 开展数据规划:基于需求制定整体数据建设路径,包括数据来源策略、采集频率、存储方案、标注规范、版本管理机制及合规风险评估;

* 实施数据采集:从内部系统或外部渠道获取数据,确保覆盖全面、来源合法、记录完整;

* 执行数据预处理:对原始数据进行清洗、转换、归一化、数据合成、数据增强等操作;

* 进行数据标注:依据大模型训练任务场景需求对数据进行标注;

* 支撑模型验证:基于高质量数据集训练大模型,如未达到预期效果,反馈上游优化数据。

可以看到,高质量数据集的打造贯穿了从“业务意图”到“模型落地”的全过程,始终以应用场景为导向。

06、“治理”与“高质量”不可直接画等号

这是本期最关键的观点:即使完成了全面的数据治理,也不一定得到一个高质量数据集。
因为数据治理是“过程”,高质量数据集是“结果”。过程做得好,有助于结果达成,但不等于结果本身。

我们可以从以下两个维度来看:

1、目标维度

数据治理的目标是提升组织整体的数据管理能力,帮助企业管理数据,使数据服务于业务需求。管理的主体是业务产生的交易数据或记录数据。

高质量数据集的目标是支撑特定业务场景的大模型训练,强调数据本身的可用性、均衡性与价值密度。与追求事实真实不同,更注重“理论真实”或“功能真实”,允许通过数据合成、数据增强技术生成现实中不存在但逻辑合理的样本,以优化数据分布、缓解样本不平衡、减少模型偏见。

举个通俗易懂的例子:动物园开展数据治理工作,要做的事情包括:每只动物建立电子档案,记录动物照片、出生日期、毛发颜色、饮食情况、饲养员等。比如有一只黑豹,若系统中出现“皮毛是白的”的记录,会被视为数据错误,需立即修正;与此同时,动物园联合AI团队开发一个动物图像识别,用于自动识别游客上传的照片中的动物。团队对园区动物进行拍摄,生成图像数据进行大模型训练,但是现实中园区没有白豹,导致模型对白豹识别不准确,为提升模型泛化能力,团队使用数据增强技术,将黑豹的照片通过图像处理生成逻辑合理的“合成白豹”图像;这些合成数据虽非当前动物园中“真实存在”的个体,但符合动物形态学规律,具备逻辑真实性;合成数据若混入动物园的正式动物档案系统,会被数据治理流程视为“污染”;但在模型训练中却是高价值样本。

2. 质量维度

数据治理中的“数据质量”指的是数据满足业务的程度,满足,即为“好的质量”;不满足为“不好的质量”。数据质量需要根据业务需求设计度量方案,也需要从源头业务系统进行质量改进;对质量的指标要求通常为准确性、完整性、一致性等基础质量维度。

高质量数据集指的是满足大模型场景训练的质量要求,例如:
1、标签是否准确?
2、样本是否均衡?
3、是否具备足够的多样性?
高质量数据集对质量的要求按照文档完整性、质量合规性、场景适用性等不同维度分别设置评价指标。如下图所示:

经过数据治理的数据,是高质量数据集吗?

注:本文仅简要提及高质量数据集的质量维度。关于如何系统化评估高质量数据集我们将在后续专题中深入展开。

07、正确关系:数据治理是高质量数据集的“必要非充分条件”

总结来说:

1、没有良好的数据治理,很难规模化、可持续地建设高质量数据集。

2、但仅有数据治理,不足以自动产出高质量数据集。真正高质量的数据集,需要在健全的数据治理体系之上,结合业务理解、大模型场景需求等,进行有针对性的设计、采集、标注、验证与迭代。

换句话说:数据治理搭好了舞台,但唱好戏还需要导演、演员和剧本。

经过数据治理的数据,是高质量数据集吗?

08、结语

在数字化转型和大模型时代,数据已成为核心生产要素。我们既要重视“治数”(数据治理),也要聚焦“用数”(高质量数据集建设)。二者相辅相成,缺一不可。

你所在的企业是否遇到过“数据治理工作做了,但数据还是不好用”的情况?欢迎在评论区分享你的经验!

end

上一篇:没有了

下一篇:美林数据四大核心策略:破解数据困境,赋能企业 AI 全场景落地

立即免费申请产品试用
快乐分享
网站地图
解决方案
数据科学与大数据技术专业
大数据管理与应用专业
数字经济专业
人工智能专业
大数据技术专业
专业+大数据
大模型创新应用平台
工业互联网实验实训解决方案
区域级产教融合大数据应用创新解决方案
数据治理人才培养解决方案
客户故事
产业实践
合作高校
用户声音
协同育人
数据超市
电力
煤炭
油气
水务
制造
工商
电商
零售
交通
数实融合智力服务
关于我们
美林数据
应用场景
专家团队
生态合作
服务体系
新闻动态
行业资讯