news 2026/4/7 19:13:56

特征工程十年演进(2015–2025)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
特征工程十年演进(2015–2025)

特征工程十年演进(2015–2025)

一句话总论:
2015年特征工程还是“手工统计+领域专家经验+低维特征拼接”的工程时代,2025年已进化成“万亿级多模态VLA大模型原生特征+实时意图级自适应表示+量子鲁棒自进化+全域具身零样本特征”的普惠智能时代,中国从跟随手工特征跃升全球领跑者(华为盘古、阿里通义千问、百度文心、DeepSeek、小鹏/银河VLA等主导),特征工程渗透率从>90%降至<10%(新项目),手工特征从必备到几乎消失,特征质量从~80%泛化率飙升至>99%全场景零样本,推动AI从“专家手工调参”到“大模型原生意图级表示”的文明跃迁。

十年演进时间线总结
年份核心范式跃迁代表技术/工具特征质量(泛化提升)/自动化程度主要应用/渗透率中国贡献/里程碑
2015手工统计+领域专家手工统计特征 + One-hot~70–80% / 手工为主表格/图像特征阿里/腾讯手工特征工程,中国Kaggle中国队起步
2017自动化初步+嵌入表示Featuretools / Entity Embedding~80–85% / 半自动类别/序列特征华为/百度初代嵌入特征,中国产业化起步
2019深度特征+学习表示爆发CNN/RNN自动特征 + TabNet~85–90% / 初步自动图像/文本深度特征Momenta/地平线车载深度特征量产
2021大模型预训练特征元年BERT/GPT嵌入 + LoRA微调~90–93% / 大模型辅助少样本迁移华为盘古 + 小鹏智驾大模型特征
2023多模态VLA原生特征元年CLIP/VLA Embed + UniFeature~95–97% / 大模型原生跨模态意图特征阿里通义千问 + 百度文心一格 + DeepSeek多模态特征
2025VLA自进化+量子鲁棒终极形态Grok-4 Embed / DeepSeek-Feature>99% / 全域自进化(量子鲁棒)全域社交意图零样本特征华为盘古特征 + DeepSeek万亿 + 小鹏/银河量子级特征
1.2015–2018:手工统计+领域专家时代
  • 核心特征:特征工程以手工统计(均值/方差/分桶)+One-hot编码+领域专家经验为主,低维拼接,泛化率70–85%,完全依赖专家。
  • 关键进展
    • 2015年:Kaggle竞赛手工特征霸榜。
    • 2016–2017年:Entity Embedding类别嵌入初步。
    • 2018年:Featuretools自动化规则初步。
  • 挑战与转折:手工重、泛化弱;深度学习+自动化特征兴起。
  • 代表案例:阿里淘宝/京东手工特征工程,中国电商推荐领先。
2.2019–2022:深度特征+自动化时代
  • 核心特征:CNN/RNN/TabNet自动特征提取+Featuretools/Deep Feature Synthesis自动化,泛化率85–93%,实时化初探。
  • 关键进展
    • 2019年:TabNet注意力表格特征。
    • 2020–2021年:DeepFM/FiGNN深度特征融合。
    • 2022年:Momenta/地平线车载深度特征量产。
  • 挑战与转折:手工仍重;大模型预训练特征需求爆发。
  • 代表案例:小鹏NGP + 华为ADS 2.0深度特征感知。
3.2023–2025:多模态VLA原生自进化时代
  • 核心特征:万亿级多模态大模型+VLA端到端原生特征+意图级动态表示+量子辅助鲁棒,自进化(越用越准),泛化率>99%。
  • 关键进展
    • 2023年:CLIP Embed多模态+VLA原生特征,阿里通义千问/百度文心一格首发。
    • 2024年:DeepSeek/Grok-4专用特征,量子混合精度。
    • 2025年:华为盘古特征 + DeepSeek万亿 + 通义千问量子级,全域社交意图零样本特征+行动直出,普惠7万级智驾/机器人。
  • 挑战与转折:黑箱/长尾;量子+大模型自进化标配。
  • 代表案例:比亚迪天神之眼(7万级多模态意图级特征),银河通用2025人形(VLA动态意图特征)。
一句话总结

从2015年手工统计拼接的“专家特征工程”到2025年VLA量子自进化的“全域意图级原生表示”,十年间特征工程由手工规则转向多模态语义闭环,中国主导深度特征→预训练嵌入→VLA原生特征创新+万亿实践+普惠下沉,推动AI从“特征调参地狱”到“大模型零样本意图级理解”的文明跃迁,预计2030年手工特征工程渗透率<1%+全域永不失真自愈。

数据来源于arXiv综述、IROS 2025及中国厂商技术白皮书。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/7 18:43:59

零样本分类效果优化:调整置信度阈值

零样本分类效果优化&#xff1a;调整置信度阈值 1. 引言&#xff1a;AI 万能分类器的潜力与挑战 在自然语言处理&#xff08;NLP&#xff09;的实际应用中&#xff0c;文本分类是构建智能客服、舆情监控、工单系统等场景的核心能力。传统方法依赖大量标注数据进行模型训练&am…

作者头像 李华
网站建设 2026/4/7 1:28:27

通用物体识别ResNet18实战|高精度1000类分类落地指南

通用物体识别ResNet18实战&#xff5c;高精度1000类分类落地指南 “一个可以识别一切物体的模型” —— 这不是夸张&#xff0c;而是 ResNet-18 在 ImageNet 上预训练后的真实能力。本文将带你从零开始&#xff0c;完整部署并优化一个基于 TorchVision 官方实现的 高稳定性、低…

作者头像 李华
网站建设 2026/4/6 23:46:16

零基础学运放:用快马平台5分钟完成第一个电路

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 创建一个交互式运算放大器学习项目&#xff0c;包含&#xff1a;1) 可视化电压跟随器实验 2) 带实时波形显示的虚拟示波器 3) 错误操作模拟演示。要求所有电路参数可通过滑块调整&…

作者头像 李华
网站建设 2026/4/5 23:57:31

AI万能分类器实战教程:构建智能客服意图识别系统

AI万能分类器实战教程&#xff1a;构建智能客服意图识别系统 1. 引言 在智能客服、工单处理、舆情监控等实际业务场景中&#xff0c;准确识别用户输入的意图是实现自动化响应和高效服务分发的关键。传统文本分类方法依赖大量标注数据进行模型训练&#xff0c;开发周期长、成本…

作者头像 李华
网站建设 2026/4/7 17:25:45

ResNet18一键部署教程:不用买显卡,按分钟计费

ResNet18一键部署教程&#xff1a;不用买显卡&#xff0c;按分钟计费 引言 作为一名个人开发者&#xff0c;当你想要测试ResNet18模型在新数据集上的效果时&#xff0c;最头疼的问题是什么&#xff1f;是动辄上万的显卡购置成本&#xff1f;还是云服务商动辄包月计费的资源浪…

作者头像 李华
网站建设 2026/4/7 17:29:39

AI如何助力音乐源解析?落雪音乐开发实战

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 开发一个音乐源解析应用&#xff0c;使用AI技术实现以下功能&#xff1a;1.音频指纹识别&#xff0c;通过分析音频特征匹配音乐库&#xff1b;2.智能推荐系统&#xff0c;基于用户…

作者头像 李华