老哥稳全国茶楼51龙凤茶楼论坛网_51龙凤茶楼论坛网深圳_一品楼免费论坛_唐人阁论坛官网入口

欢迎光临北京软件和信息服务业协会官方网站
保障AI“灵魂燃料”供给,数慧时空高质量数据集建设取得显著成果
发布日期:2025-04-14    来源:数慧云脑    分享到:

2024年年底,《关于促进数据产业高质量发展的指导意见》《关于促进企业数据资源开发利用的意见》《关于促进数据标注产业高质量发展的实施意见》《国家数据基础设施建设指引》等一系列指导性政策文件密集发布,支持企业面向人工智能应用创新,开发农业、工业、交通、金融、自然资源、卫生健康、教育、科技、民航、气象等行业领域高质量数据集。

2025年2月,国家数据局在北京召开高质量数据集建设工作启动会,提出积极推进落实“人工智能+”行动,推动高质量数据集建设,高效赋能行业发展。

2025年3月23日至24日,国家数据局党组书记、局长刘烈宏在中国发展高层论坛2025年年会上表示,想人工智能+行动到哪里,高质量数据集的建设和推广就要到哪里。


01 什么是高质量数据集?

高质量数据集是指具有一定主题,涵盖结构化、半结构化和非结构化各类型数据,可以标识并用于人工智能训练、验证及测试等处理过程的数据形式,并且在规范性、准确性、完整性、一致性、时效性、全面性、维度均衡性、内容安全性等多个方面都达到了较高标准,进而在流程、质量、安全、内容上均体现出“高质量”的数据集合。


高质量数据集承载着人类智慧的结晶,滋养着AI的认知与理解能力,使其得以在知识的海洋中畅游,不断拓展认知的边界,实现从懵懂到睿智的蜕变。正如刘烈宏所说,“人工智能的星辰大海需要数据的江河奔腾,让数据活起来、动起来、用起来,就能催生新的产业、新的模式、新的动能?!笨杉?,深入挖掘和整理高质量数据集,对于推动人工智能技术的发展具有至关重要的意义。


然而,随着以DeepSeek为代表的高效推理大模型快速发展和广泛部署,高质量数据集建设面临“数据汇聚产量低、数据供给质量低、数据利用效率低”等难题,加快高质量数据集建设迫在眉睫。


02 数慧时空发力高质量数据集建设

数慧时空作为业务驱动的AI数据基础设施服务商,以时空智能和20多年的业务沉淀为核心,自主研发数据智能操作系统DIOS,打造行业高质量数据集,构建AI时代的自然资源和时空信息新基建,为数字政府、数字经济、数字社会实现全面智能化转型提供技术支撑。


目前,DIOS已内置OCR识别、摘要提取、意图识别等文本类样本集,遥感解译等图像类样本集,气象预测等时间序列类样本集,完整覆盖训练、验证、评测各个用途,并对这些样本集的评价指标和建设过程及成果样式进行了标准化沉淀。同时,系统可进行各类数据处理(采集/预处理/标注/深加工),为模型训练和知识图谱构建提供全面的数据支持。

1744593856622.png

以自然资源行业为例,为了建设行业高质量数据集,数慧时空目前已形成自然资源业务200余项分类标准;并且通过《业务领域的知识图谱绘制指南》规范业务知识图谱的绘制;通过《自然资源行业高质量数据集质量控制规范》约束不同类别数据集的质量要求,确保大模型学习内容的准确性。

1744593979876.jpg

标准沉淀


03 如何建设高质量数据集?

构建高质量数据集主要包含数据采集、数据清洗、数据标注、质量评估等核心环节。各环节需要根据不同类型数据集的规模、种类、行业属性等特点进行针对性的技术研发和适配。传统的数据处理工具和技术无法满足大模型需求,需要引入先进的数据处理框架提高数据处理效率和准确性。


近日,数慧时空发布的DIOS数据智能操作系统,其核心能力之一就是融合DeepSeek等通用大模型能力,结合各应用场景实际业务需求,构建“接入-解析-质检-标注-迭代”“五步走”方法体系,实现高质量数据集规?;月愀髯ㄒ党【暗闹悄芑枨螅?/span>


1、多模态数据接入与整合

首先通过DIOS系统的Fabric???,接入行业领域的多源数据,包括非结构化数据(如pdf文档)和结构化数据(如db库表)。按照“只连不搬、即连即得”的方式,并统一转化为列式向量内存格式,实现数据的高效接入和并行计算。

2、主元理解与知识提取

系统利用主动元数据理解技术,对数据资源进行OCR识别、切片处理、结构理解、内容理解、摘要生成、打标和业务关联等操作,提取数据中的知识点,推理出数据实体的业务分类和标签信息,实现对数据的深度解析和挖掘。

3、质量检查与自动修复

系统通过主动理解能力可以自动识别数据的质量,对数据内容有效性、完整性、准确性等规则自动进行检查,对于可借助相关资料修复的内容,系统可自动进行处理。

4、数据标注与修正

为了进一步确保数据理解的准确性,在数据收集和解析过程中,对数据进行准确的标注,包括业务分类、标签等信息的标注,以及对段落、表格和图片等内容的识别,确保数据的语义清晰,为后续的数据分析和模型训练提供基础。

5、数据管理与更新


将生成的数据集归集到系统中进行管理和维护,以卡片风格的可视化方式进行展示,方便对数据进行查询、更新和维护;随着业务的发展和数据的积累,持续对数据集进行迭代更新,补充新的数据和知识点,保持数据集的时效性和准确性。

1744594025208.jpg

DIOS实施愿景


结语


国家数据局将2025年明确为数据工作的改革攻坚年,也是高质量数据集建设的关键节点。数慧时空将以“数联世界 慧享未来”愿景为指引,积极推动高质量数据集的建设,持续提升数据集的质量与价值,为“人工智能+”赋能千行百业贡献数慧力量。

你知道你的Internet Explorer是过时了吗?

为了得到我们网站最好的体验效果,我们建议您升级到最新版本的Internet Explorer或选择另一个web浏览器.一个列表最流行的web浏览器在下面可以找到.