AI发展遇数据挑战：挖掘人类数据与机器智能生成成应对关键-平芜编程栈

AI发展面临数据挑战：挖掘人类数据与机器智能生成数据成应对关键方向

现代主流AI基于机器学习和深度学习模型，从数据中“学习”模式和规律，数据如同AI的燃料或血液。进入大模型时代，基于自监督学习的预训练范式降低了数据利用中的人工标注依赖，促进了数据、模型参数与算力的协同发展。人们总结出规模定律，即大语言模型的性能与模型参数量、训练数据量、计算量呈平滑的幂律关系，模型越大、数据越多、算力越强，性能越好。

然而，AI下一步发展面临巨大的数据挑战，“数据枯竭”问题备受关注。AI训练利用的多是人类积累的“库存”数据，如互联网数据、维基百科、图书和经典文献等。虽然人类社会每年新增大量数据，但高质量数据的线性增长难以匹配AI的超线性发展预期。EpochAI测算，语言模型的训练将在2026年到2032年间耗尽人类公开的文本数据。

AI发展面临数据数量与覆盖度、数据质量两个维度的挑战，且在AI开发与应用的各个环节、场景均有体现。应对这些挑战大体有三个方向，这里主要讨论前两个。

数据扩增方法一：收集和整理散落数据

对于人类社会积累的数据，“数据枯竭”意味着公开的、未被产权保护的文本化数据被快速消耗，但人类社会和人脑中仍有大量未开发的数据与知识。

- **各行各业的海量不公开数据**：很多高价值数据掌握在平台、企业、专业机构、设备端和工作流系统中，如电商平台、医疗领域、制造业、科研领域的数据。这些数据以“数据孤岛”形式存在，虽可通过RAG等发挥局部价值，但难汇聚成大规模训练语料。科学界的“发表偏差”导致大量未共享的失败实验成为未开采的知识矿山。AI专家探索通过联邦学习、差分隐私等技术释放数据潜力，同时还需制度与机制设计，可探索自下而上的市场化路径和自上而下的政府或行业监管者统一安排路径。

- **人类大脑中未数据化的认知资产**：复杂决策背后的思维轨迹和专家的隐性知识对AI能力上限影响关键。目前高价值任务缺乏详细的思维轨迹数据，AI难以学到可迁移的推理能力；隐性知识难以标注形成训练样本，AI难以利用。思维轨迹和隐性知识的数据化虽成本高、难度大，但可能是未来AI能力提升的关键来源。

- **对人类已积累知识的治理**：数据质量决定模型能力，互联网信息质量参差不齐，还存在知识污染问题。因此，需进行数据清洗、去重、纠错和噪声过滤，建立溯源和版本控制机制，构建高置信度数据集，让模型训练与推理站在更坚实的知识地基上。

数据扩增方法二：利用机器智能

在挖掘人类社会积累的数据和人脑中的认知之外，可利用AI自身体系挖掘和生成数据。

- **合成数据**：合成数据有多种生成方式，重点讨论基于机器学习模型和仿真环境生成的。用教师模型的高质量输出训练学生模型，或用模型自身的“高质量子集”放大有效样本，还可通过合成数据补齐真实数据的薄弱环节。但AI不能凭空创造新知识，只是对原始数据进行提纯、配比和加工。

- **强化学习拓展数据**：强化学习让模型在与环境的交互中主动产出新的轨迹数据，探索新策略空间。如Alpha Zero在棋类上超越人类，DeepSeek - R1的“思维链强化学习”推理模型搭建了新数据工厂，具身智能领域也可通过仿真环境和真实世界训练产生高价值新生数据。

- **主动学习**：主动学习的核心是“模型自己决定学什么、向谁问什么”，在数据标注昂贵的场景下，模型可挑选最有价值的样本请求标注，提高信息密度。从长远看，主动学习、强化学习和具身智能结合，有望让AI转变为主动学习者。

AI时代，数据领域有巨大机会

AI下一阶段的发展很大程度取决于数据。一方面，数据在规模和质量上遇到新瓶颈，缓解瓶颈、提升数据有效供给的方案有巨大经济价值，AI竞争焦点可能转向数据。另一方面，算力和基础模型产业门槛高，而数据分散在各行业，企业可通过建设高质量数据资产等形成护城河。

政府也需发挥关键作用，在适合自上而下的领域搭建共享平台和制度框架，在适合市场机制的领域给创新留空间。中国大语言模型训练依赖互联网数据，但在其他类型数据上有潜在优势，完善数据法规等措施可让数据成为本土AI发展和竞争的重要支点。

解析“UPS电源与EPS电源”的工作原理及两者之间的区别

UPS（ UNINTERRUPTIBLE POWER SYSTEM）电源是不间断电源的简称 ，其主要作用是通过蓄电池与主机相连的方式来为计算机或一些电子设备提供稳定的，并且不间断的电源供应。主要是用来给重要的负载提供电力保护，包括消除电网中…

李华

如何在3分钟内将Word文档转换为专业LaTeX排版：docx2tex完整指南

如何在3分钟内将Word文档转换为专业LaTeX排版：docx2tex完整指南【免费下载链接】docx2tex Converts Microsoft Word docx to LaTeX 项目地址: https://gitcode.com/gh_mirrors/do/docx2tex 你是否曾为学术论文的格式转换而烦恼？是否厌倦了在Word…

$作者头像$ 李华

别再只懂.mp4后缀了！手把手带你用Python解析MP4文件里的‘盒子’（Box）结构

用Python解剖MP4：从二进制流到媒体盒子的探索之旅当你双击一个MP4文件时，播放器瞬间呈现出流畅的画面和声音，这背后隐藏着一套精密的二进制编排系统。作为开发者，我们不应该只满足于使用现成的播放器，而是应该深入理…

李华

VisionMaster定位模块深度体验：对比Halcon，国产视觉软件在工业场景下到底好不好用？

VisionMaster定位模块工业实测：与Halcon的差距究竟在哪里？ 当工业视觉检测的精度要求进入亚像素级，定位算法的选择往往直接决定生产线的良品率。作为国产视觉软件的新锐代表，VisionMaster的定位模块在PCB板元件定位、精密零件装配…

李华

立创EDA新手避坑指南：从原理图到PCB，手把手教你搞定STM32最小系统板

立创EDA新手避坑指南：从原理图到PCB，手把手教你搞定STM32最小系统板第一次用立创EDA画STM32最小系统板时，那种既兴奋又忐忑的心情我至今记得——就像拿到新乐高却担心拼错零件的孩子。但别担心，每个资深工程师都经历过这个阶段。…

李华

从PID到ADRC：一个电机控制工程师的Simulink仿真升级笔记

从PID到ADRC：一个电机控制工程师的Simulink仿真升级笔记作为一名在电机控制领域深耕多年的工程师，我习惯了PID控制器的简洁与可靠。直到某次工业现场调试中，面对频繁的负载突变和电机参数漂移，传统的PID调节显得力不从心——超调…

李华