news 2026/3/11 22:58:21

数据科学和ML领域的趋势是什么?为2026年做准备

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
数据科学和ML领域的趋势是什么?为2026年做准备

3个(对我来说)最突出的关键趋势

按回车键或点击以查看全尺寸图像

描绘AutoGen背后动机的漫画。图片由AutoGen提供。

这些就是在活动期间让我印象深刻的趋势,并且在某种程度上,它们已经积累了足够的动力,值得密切关注。

1. 从传统分析到智能体分析

我们正在进入分析的新阶段。在这个阶段,仪表盘和静态报告已经不够用了。

我预计到2026年初,这个话题将变得更加热门

重点将放在创建更具活力的系统上,这些系统可以加速从数据到洞察的过程,使分析更具适应性,减少对人工探索的依赖,许多人开始将其称为自主分析。

💡有一点很明确,在这场智能分析转型中引领潮流的公司,将是那些有远见卓识,能够构建强大的数据工程基础并投资于语义建模的公司。这最终将使AI智能体能够以有意义的方式与数据进行交互。本文稍后将对此进行更多阐述。

2. 小语言模型是下一个大趋势

小型语言模型(sLMs)正变得惊人地强大。

Phi-3MistralLlama 3 8B这样的模型表明,你不需要庞大的基础设施就能获得强大的性能。通过一些微调,它们甚至可以在特定任务上超越更大的模型。

💡对于开发者和小型团队来说,这也意味着我们现在可以在普通笔记本电脑甚至手机上运行快速、私密且低成本的模型。

3. 专业化多智能体系统的兴起

一个反复出现的重要主题是向分层多智能体系统的转变。与依赖单个智能体处理整个工作流程不同,现在的新架构使用协调智能体将任务分解成更小的部分,并将其委派给专门的子智能体。

每个子智能体专注于一项微小、定义明确的任务,如清理数据、总结发现或生成代码,并在这单一任务上变得极为擅长。它们共同构成一个协调的系统,比单独工作的通用智能体更快、更便宜且更可靠。

💡这种“分而治之”的方法也为小型语言模型(sLMs)发挥更大作用打开了大门。由于每个子智能体只需要处理一项狭窄的任务,即使是轻量级模型,在精心编排的系统中组合使用时也能表现出色。

随着自主系统的成熟并投入生产使用,我们很可能会更多地看到这种设计模式。

数据科学家应该注意什么?

我的建议,尤其是给那些希望在职业发展中实现下一次飞跃的中高级数据科学家:在你所在公司引领自主分析转型。

据我所见,大多数组织才刚刚开始意识到这一变化。

这意味着你有真正的机会发挥引领作用,无论是通过倡导能够实现自主分析的现代企业工具,还是通过构建自己的智能体,使分析更快、更具交互性,且更贴近决策过程。

那些能尽早弥合AI智能体与分析之间差距的人,将塑造未来十年数据科学的实践方式。

数据科学领域的5个现实世界代理AI用例

按回车键或点击以查看全尺寸图像

TimeGPT如何将目标值的历史值和额外的外生变量作为输入来生成预测的示意图。图片由TimeGPT提供。

以下是GenAI和智能体AI已经开始产生影响的一些用例:

  1. 用于快速洞察的对话式仪表盘想象一下,你可以与之对话、用通俗易懂的英语提问,并能立即获得摘要或可视化结果的仪表盘。Power BI Copilot和Tableau Pulse是早期的例子,但这一概念适用于任何非技术用户需要从数据中快速获取答案的工作流程。

  2. EDA和数据清理代理AI代理正开始自动执行在EDA期间检测离群值、规范化数据和生成初始可视化的耗时工作。像Tableau的数据专家这样的工具暗示了如何构建代理来加速数据准备过程。

  3. 用于分析的基础模型与为每个指标或产品训练新模型不同,像 TimeGPT 这样的基础模型开始直接从原始数据处理预测、异常检测和其他分析任务。这使得高级分析更易于获取,即使对于在时间序列或模型构建方面没有深厚专业知识的团队也是如此。

  4. 自主监测与主动分析自主系统无需等待人工查看仪表盘,就能监控关键绩效指标(KPI)、发现变化,并触发警报或建议。Tableau Inspector和Adverity正在推动这一趋势,但只要设置得当,任何分析师都可以探索这一模式。

  5. ML工作流的多智能体编排像causaLens这样的平台就是AI智能体协作的一个例子,有的负责清理数据,有的负责构建模型,还有的负责解释结果。这不仅仅是自动化,更是协调,它让我们得以窥见未来ML工作流可能的运行方式。

🔑不要忽视这一点:语义层

我想再次提及这个概念,因为我觉得阅读这篇文章的很多人可能会忽略它,而这将是一个重大错误。

按回车键或点击以查看全尺寸图像

语义层架构。图片由Tallius提供。

在过去大约6个月的时间里,我花了更多时间构建自己的AI工作流程,以优化和自动化我的大部分数据科学工作。最近,我部署了一个名为“与数据对话”的Slack机器人,它正在慢慢重新定义我公司自助式分析的含义。

这些工具成功的关键之一是定义语义层。

📌这也是我正在向目前参加我的AI工作流训练营的22位数据科学家传授它的原因。

其理念很简单:语义层为指标和业务逻辑创建一个共享定义,以便数据科学家、利益相关者,最重要的是,AI智能体,都能基于同一事实来源开展工作。

按回车键或点击以查看全尺寸图像

语义层 YAML 文件示例。图片由 dbt 提供。

相信我,你不需要成为数据工程师就能开始构建语义层来增强你的AI智能体。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/6 20:17:01

Anaconda配置PyTorch环境全攻略:支持CUDA加速的实战指南

Anaconda配置PyTorch环境全攻略:支持CUDA加速的实战指南 在深度学习项目启动前,最让人头疼的往往不是模型设计,而是环境搭建——明明代码写好了,却因为torch.cuda.is_available()返回False而卡住;或者好不容易装上了Py…

作者头像 李华
网站建设 2026/3/7 2:53:40

网页编辑器导入Word文档图片并自动上传组件

咱安徽程序员实锤了!最近接了个CMS外包活,客户是做企业官网的,非要给后台新闻编辑器加“文档导入Word一键粘贴”功能——好家伙,需求单写着“要保留Word里的花里胡哨样式,图片、公式、甚至MathType的鬼画符都得给我原模…

作者头像 李华
网站建设 2026/3/11 20:56:22

html5大文件上传插件的开源代码与示例分析

咱福州网工仔实锤了!最近为了毕设焦头烂额——要搞个能打的大文件管理系统,还要兼容IE8这种“上古浏览器”(学校机房那台Win7IE9的老古董,点个按钮都像在玩心跳)。找了一圈后端教程,不是“自己悟”就是“付…

作者头像 李华
网站建设 2026/3/4 1:15:23

基于SpringBoot架构的学生档案管理系统

系统介绍: 基于SpringBoot架构的学生档案管理系统是在当今科学技术进步和教育信息化的背景下应运而生的解决方案。传统的学生档案管理方式存在着效率低下、信息不透明等问题,这不仅增加了学校管理的成本,也影响了教务工作的开展和学生档案的准…

作者头像 李华
网站建设 2026/3/7 0:10:04

Git cherry-pick提取关键PyTorch修复提交

Git cherry-pick 提取关键 PyTorch 修复提交 在大型 AI 团队的日常开发中,一个看似微小的框架 bug 就可能让整个训练任务卡在数据加载阶段。比如最近某项目组反馈:使用 PyTorch v2.7 的多进程 DataLoader 在特定条件下会随机死锁——查了一圈才发现社区早…

作者头像 李华
网站建设 2026/3/4 7:24:54

DiskInfo显示SMART信息解读:判断硬盘寿命

DiskInfo显示SMART信息解读:判断硬盘寿命 在数据中心机房的深夜巡检中,一位运维工程师突然收到一条告警通知——某台关键业务服务器的磁盘“重映射扇区数”异常上升。他迅速登录系统运行 DiskInfo,确认该盘 SMART 属性 ID5 已触发预警。尽管…

作者头像 李华