首页 > 媒体生活 > 媒体生活 > 浙江大学教授王春晖:高质量数据集是AI大模型训练、推理和验证的关键基础

浙江大学教授王春晖:高质量数据集是AI大模型训练、推理和验证的关键基础

发布时间:2025-09-21 22:30:01

如果一只坏钟每天只有两次指向正确的时间,人们会不会逐渐忽视它的故障,甚至依赖它所提供的假象,大语言模型正如这只坏钟,它们依赖互联网海量数据训练,却常常一本正经地‘胡说八道’。”9月21日,首届青海数据要素生态大会上,浙江大学教授、博导,中国科协决策咨询首席专家,全球数字经济大会中国数据要素50人论坛主席王春晖如是表示。

当前,我国数据产业整体进入发展“快车道”,数据作为关键生产要素的价值日益凸显。依托于数据产业支持的人工智能和AI模型的更高阶进化和迭代,对高质量数据的需求尤其迫切。

高质量数据集是基石

基于当前数据产业生态以及AI大模型的训练模式,借助哲学家维特根斯坦的“坏钟寓言”为引子,王春晖指出,当前大语言模型(LLMs)存在的“幻觉”输出问题,若数据质量低下,模型输出的“幻觉”将误导认知、污染思想,而高质量数据集则是AI可信发展的基石。

据其介绍,现在,LLMs的训练数据多源自互联网,质量参差不齐,生成内容依赖“概率性匹配”,而非“事实性判断”,这导致其常出现“幻觉现象”。

为佐证这一风险,王春晖抛出一组关键数据:“研究显示,当训练数据集中仅含0.01%的虚假文本时,模型输出的有害内容会增加11.2%。”这一数据直指当前AI发展的核心痛点——高质量数据供给不足,尤其是专业领域数据的缺失,导致LLMs产生“幻觉”。

面对数据质量带来的挑战,王春晖强调了高质量数据集对AI大模型训练、推理和验证的关键作用,并详细分类了高质量数据集的类型,包括通识数据集、行业通识数据集和行业专识数据集,并指出这些数据集是支撑通用大模型和行业模型落地应用的基础。

其中,“行业通识数据集”,包含面向行业从业人员、需要一定专业背景才能理解的行业领域通用知识,主要用于支撑行业模型落地应用。如医疗健康数据:个人属性数据、健康状况数据、医疗应用数据、医疗支付数据、卫生资源数据以及公共卫生数据等。

而“行业专识数据集”,包含面向特定业务场景相关人员、需要较深的专业背景才能理解的行业领域专业知识,主要用于支撑业务场景模型落地应用。医疗AI离不开高质量的专家标注数据。比如医疗病理数据标注复杂耗时,必须由临床专家执行以确保准确。

作为最新发展趋势,AI与数据的融合发展,将逐步从以模型为中心到以数据为中心。不过,王春晖指出,以数据为中心的人工智能并未削弱以模型为中心的人工智能的价值,而是两种范式在构建AI系统时相互补充交织。

AI时代的“提问艺术”

“人类最高级的智慧,是向自己或别人提问——苏格拉底的这句话,在AI时代有了新注解。”在演讲中,王春晖通过古希腊大哲学家苏格拉底的提问法,强调了“提出问题”与“鉴别答案”的能力对于使用AI大模型的关键作用,而且提出了提示词工程(Prompt Engineering)的概念。

据介绍,提示词工程的核心是“通过精准设计提示语,引导LLMs生成有用内容”,而优秀的提示词工程师需具备“专业知识+行业洞察+创意设计”能力,这一职业已成为AI服务业的“高端赛道”。

王春晖表示:“在工业、医疗、法律等领域,专业提示词工程师能让AI模型的效率提升30%以上——比如医疗提示词工程师,可通过设计‘病例描述+诊断需求’的精准提示,让AI辅助诊断的准确率大幅提高。”

王春晖进一步指出,提示词工程的本质是“人与AI的协同对话”,而这一过程又会产生新的“高质量交互数据”,反哺数据集迭代——形成“数据→提示词→新数据→更优模型”的闭环。

媒体生活更多>>

三星Galaxy S26系列正式发布:影像全面升级,搭载防窥屏幕 Aliro 1.0智能门禁标准亮相:让iPhone 17等手机变“万能钥匙” 魅族官宣战略转型:暂停国内手机新产品自研硬件项目,专注Flyme软件生态赋能 Now is Your Run:华为Mate 80 Pro重返海外中国科技领全球赛场 移动办公旦用难回 OPPO Find N6支持AI手写笔 英伟达黄仁勋评太空数据中心:没有空气流动,需要相当大的散热器 美团、淘宝、京东齐发声!响应外卖新规,联合骑手整治虚假店铺 万人大厂宣布裁员 40%:利润在涨,人却多余了 谷歌版的“豆包手机”来了 瑞士工程科技公司Lightium研发量产级薄膜铌酸锂光子芯片代工服务,实现光子芯片规模化量产 英特尔发布24.20.0无线驱动:新增支持BE211/BE213网卡 3nm AI网络芯片来了!102.4Tbps带宽,专为Agent时代设计 最强天玑旗舰蓄势待发!联发科天玑9600 9月亮相 Intel新CEO重磅警告:内存比算力更紧缺!芯片战争真正瓶颈首次曝光 韩国砸1兆韩元入局!目标五年内做出10款国产AI芯片 联想YOGA Air 14 Aura AI元启版笔记本新增U5-228V,7999元 HKC推出“G27M5Pro”27英寸显示器,1699元 树莓派因内存涨价再度上调产品价格 最高加价60美元 OPPO Find N6手机通过阿联酋TDRA认证,海外有望近期上市 加了风扇和肩键就叫Ultra?红魔姜超称游戏手机天花板必须足够高 REDMI Turbo 5标准版销量大增 卢伟冰:很多用户非常认可中尺寸、精致设计 阿里千问放大招!30亿请全国人民“吃喝玩乐” “隐身”的腾讯云,不想当第一 机器人1小时可检测200米排水管道 消息称大疆“换壳”突围,Osmo Nano变身Xtra ATTO布局北美 REDMI Turbo 5 Max官宣兼容PPS协议: 支持百瓦快充与反向充电 华硕无畏Pro 16 2026上架:酷睿Ultra 300与锐龙AI9 H465对决 NVIDIA N1X Arm笔记本芯片方案曝光:20核CPU配RTX级独显 最快今年一季度登场 小米18标准版大提升!玄戒O2曝光 消息称苹果iPhone 18 Pro手机“左上角打孔”系误传