AI发展面临数据挑战:挖掘人类数据与机器智能生成数据成应对关键方向
现代主流AI基于机器学习和深度学习模型,从数据中“学习”模式和规律,数据如同AI的燃料或血液。进入大模型时代,基于自监督学习的预训练范式降低了数据利用中的人工标注依赖,促进了数据、模型参数与算力的协同发展。人们总结出规模定律,即大语言模型的性能与模型参数量、训练数据量、计算量呈平滑的幂律关系,模型越大、数据越多、算力越强,性能越好。
然而,AI下一步发展面临巨大的数据挑战,“数据枯竭”问题备受关注。AI训练利用的多是人类积累的“库存”数据,如互联网数据、维基百科、图书和经典文献等。虽然人类社会每年新增大量数据,但高质量数据的线性增长难以匹配AI的超线性发展预期。EpochAI测算,语言模型的训练将在2026年到2032年间耗尽人类公开的文本数据。
AI发展面临数据数量与覆盖度、数据质量两个维度的挑战,且在AI开发与应用的各个环节、场景均有体现。应对这些挑战大体有三个方向,这里主要讨论前两个。
数据扩增方法一:收集和整理散落数据
对于人类社会积累的数据,“数据枯竭”意味着公开的、未被产权保护的文本化数据被快速消耗,但人类社会和人脑中仍有大量未开发的数据与知识。
- **各行各业的海量不公开数据**:很多高价值数据掌握在平台、企业、专业机构、设备端和工作流系统中,如电商平台、医疗领域、制造业、科研领域的数据。这些数据以“数据孤岛”形式存在,虽可通过RAG等发挥局部价值,但难汇聚成大规模训练语料。科学界的“发表偏差”导致大量未共享的失败实验成为未开采的知识矿山。AI专家探索通过联邦学习、差分隐私等技术释放数据潜力,同时还需制度与机制设计,可探索自下而上的市场化路径和自上而下的政府或行业监管者统一安排路径。
- **人类大脑中未数据化的认知资产**:复杂决策背后的思维轨迹和专家的隐性知识对AI能力上限影响关键。目前高价值任务缺乏详细的思维轨迹数据,AI难以学到可迁移的推理能力;隐性知识难以标注形成训练样本,AI难以利用。思维轨迹和隐性知识的数据化虽成本高、难度大,但可能是未来AI能力提升的关键来源。
- **对人类已积累知识的治理**:数据质量决定模型能力,互联网信息质量参差不齐,还存在知识污染问题。因此,需进行数据清洗、去重、纠错和噪声过滤,建立溯源和版本控制机制,构建高置信度数据集,让模型训练与推理站在更坚实的知识地基上。
数据扩增方法二:利用机器智能
在挖掘人类社会积累的数据和人脑中的认知之外,可利用AI自身体系挖掘和生成数据。
- **合成数据**:合成数据有多种生成方式,重点讨论基于机器学习模型和仿真环境生成的。用教师模型的高质量输出训练学生模型,或用模型自身的“高质量子集”放大有效样本,还可通过合成数据补齐真实数据的薄弱环节。但AI不能凭空创造新知识,只是对原始数据进行提纯、配比和加工。
- **强化学习拓展数据**:强化学习让模型在与环境的交互中主动产出新的轨迹数据,探索新策略空间。如Alpha Zero在棋类上超越人类,DeepSeek - R1的“思维链强化学习”推理模型搭建了新数据工厂,具身智能领域也可通过仿真环境和真实世界训练产生高价值新生数据。
- **主动学习**:主动学习的核心是“模型自己决定学什么、向谁问什么”,在数据标注昂贵的场景下,模型可挑选最有价值的样本请求标注,提高信息密度。从长远看,主动学习、强化学习和具身智能结合,有望让AI转变为主动学习者。
AI时代,数据领域有巨大机会
AI下一阶段的发展很大程度取决于数据。一方面,数据在规模和质量上遇到新瓶颈,缓解瓶颈、提升数据有效供给的方案有巨大经济价值,AI竞争焦点可能转向数据。另一方面,算力和基础模型产业门槛高,而数据分散在各行业,企业可通过建设高质量数据资产等形成护城河。
政府也需发挥关键作用,在适合自上而下的领域搭建共享平台和制度框架,在适合市场机制的领域给创新留空间。中国大语言模型训练依赖互联网数据,但在其他类型数据上有潜在优势,完善数据法规等措施可让数据成为本土AI发展和竞争的重要支点。