摘要
全球AI领域进入技术迭代与产业落地密集期。国内外企业集中发布通用、多模态及垂直类模型,开源生态持续扩张,多模态融合、效率优化成为技术突破核心;智能体与工具链不断丰富,覆盖数据处理、内容创作等多场景;物理AI与机器人技术稳步推进,硬件与算力基础设施协同升级;投融资市场活跃,头部企业估值飙升,行业并购与合作频繁;监管与伦理规范逐步完善,AI在各行业的规模化应用催生价值创造,同时也引发对泡沫、能耗及就业的讨论,整体呈现“技术深耕、生态协同、产业赋能”的发展态势。
一、模型与技术突破
1.1 通用大模型
1.1.1 大语言模型
a. 国内
- 字节跳动:发布豆包大模型1.8,强化Agent能力与多模态理解,支持256K上下文管理,视频理解帧数从640帧提升至1280帧(可处理20分钟视频),复杂场景图文声处理一致性较前代提升40%以上,日均Tokens使用量突破50万亿,较去年增长10倍以上;发布通用Agent模型Seed1.8,集搜索、代码与GUI Agent能力,支持三种思考模式自动调整,BrowseComp-en基准测试得分67.6,ZeroBench获11.0最高分,VideoMME长视频理解得87.8分,新增“VideoCut”视频工具调用能力;发布音视频生成模型Seedance 1.5 Pro,采用双分支Diffusion Transformer架构,支持原生音视频联合生成,毫秒级音画同步,覆盖多语言及方言,具备电影级运镜与强化语义理解能力。
- 小米:发布MoE大模型MiMo-V2-Flash,总参数量309B,活跃参数15B,采用Hybrid SWA架构优化长上下文推理,通过多标记预测技术实现2.5倍推理速度提升,适配Claude Code,支持256K上下文长度,推理速度达150 tokens/秒,在代码和智能体评测中位列全球开源模型Top2,API定价为每百万输入0.7元、输出2.1元。
- 腾讯:发布混元世界模型1.5(Tencent HY WorldPlay),国内首个开放体验的实时世界模型,开源实时世界模型框架(含数据、训练及流式推理部署),引入重构记忆力和3D自回归扩散模型强化学习算法,支持文字/图片创建个性化互动世界,可实时生成720P、24 FPS高清视频,能记住区域三维结构确保场景一致性。
- 阿布扎比G42:发布87亿参数开源印英大语言模型NANDA87B,基于Llama-3.170B构建,在超650亿印地语标记上训练,可处理正式印地语、口语及混合语,依托Condor Galaxy超算系统完成训练。
- 阶跃星辰:发布Step-GUI云端模型,支持200+任务场景,适配手机、PC、汽车多端,最短10分钟部署“AI手机”,具备长推理步骤、强语义理解和泛化能力,指令模糊时可自主提问,开放GUI-MCP协议实现端云协同,API限时免费开放,技术报告全公开。
b. 国外
- OpenAI:发布GPT-5.2-Codex,基于GPT-5.2架构,专为复杂软件工程设计,新增“上下文压缩”技术,优化长程编码任务与Windows 11编码环境,支持设计图自动生成全流程代码,强化网络安全能力(达CTF实战水平),视觉性能提升可解析屏幕截图、技术图表等,已向ChatGPT付费用户开放,未来几周内将向API用户提供访问。
- 谷歌:发布T5Gemma 2,基于Gemma 3架构的编码器-解码器模型,参数量270M-4B,支持多语言(140+种)、多模态(文本+图像输入)及128K tokens上下文窗口,采用绑定嵌入减少总参数,解码器合并注意力机制降低架构复杂性,适用于端侧部署(笔记本电脑、台式机等);发布FunctionGemma,基于Gemma 3-270M模型构建,专为函数调用任务设计,适配单轮/多轮任务数据微调,可在资源有限环境高效运行,应用于语音控制互动游戏、移动设备操作Agent;发布Gemini 3 Flash,旗舰模型Gemini 3 Pro的高效低成本版本,运行速度达Gemini 2.5 Pro的三倍,成本仅为Gemini 3 Pro的四分之一,Humanity’s Last Exam得分33.7%,输入定价每百万token 0.50美元、输出3美元,成为Gemini应用和搜索AI模式默认模型,响应速度基本在1秒以内。
- Mistral AI:推出Mistral OCR 3,在复杂表格和手写识别方面较OCR 2准确率高出74%,支持解析文档文本与嵌入图像,输出带HTML的Markdown格式,可重建复杂表格,开发者通过API调用“mistral-ocr-2512”模型,普通用户可在Mistral Document AI Studio使用。
- xAI:发布Grok Voice Agent API,首次开放Grok实时语音能力,内置Sal、Rex、Eve、Leo等多种声音,支持Mika、Valentin等陪伴型人格,采用流式音频设计实现实时语音识别与合成,可开启搜索能力查询公开网页或X平台数据,定价每分钟0.05美元,广泛应用于Tesla车辆。
- Meta:发布SAM Audio,全球首个支持通过文本提示、视觉点击或时间片段提示分离声音的多模态模型,结合自研视听引擎,赋能字幕生成、视频理解和智能剪辑。
- 英伟达:发布Nemotron 3系列AI模型,融合Mamba和Transformer架构,专为复杂任务代理系统设计,支持高达百万令牌的上下文窗口,Nano型号已上市,旨在提升长上下文处理效率并降低资源消耗。
- 艾伦人工智能研究所:发布Molmo2开源视频语言模型系列,包含基于Qwen3和自研Olmo模型的多个版本,支持多图像/视频输入及复杂推理任务,强调参数较小的透明模型对企业的经济性,坚守开源与数据负责性承诺。
1.1.2 多模态模型
a. 国内
- 腾讯:混元世界模型1.5支持文本、图像输入创建互动世界,用户可自由移动,模型保持场景三维结构一致性,支持多交互体验与高清视频生成。
- 商汤科技:发布原生多模态模型SenseNova-SI,聚焦空间智能领域,通过NEO架构实现视觉与语言深度融合,以更少训练数据达成领先的空间推理和三维建模能力,多项指标超越同类模型。
- 香港大学:开源视频生成框架ViMax,整合导演、编剧、制片人和视频生成器功能,支持Idea2Video、Novel2Video等多种模式,采用“事件-场景-镜头”三层递归分解策略与RAG检索增强技术,构建视觉元素图网络与过渡生成技术,解决长视频叙事规划与跨镜头视觉连贯性难题,可自动生成分钟级长视频并保持人物与场景一致性。
- 快手:推出可灵O1视频生成模型,具备八大核心功能,支持视频角色自定义、背景修改、元素添加与删除,能准确遵循指令并模拟场景与角色互动,逻辑一致性和视觉效果突出。
- 阿里巴巴:提出Qwen-Image-Layered图像层分解模型,采用自有RGBA-VAE和VLD-MMDiT技术,将单张RGB图像解耦为多个语义分离的RGBA图层,支持独立编辑且不影响其他内容,实现端到端工作流程,无需外部分割模型辅助。
- 港科大(广州)与地平线:联合提出VGGT4D创新框架,无需额外训练即可让预训练3D基础模型处理动态4D场景,通过挖掘模型内部隐藏运动线索,在动态物体分割、相机位姿估计等任务上显著优于现有方法。
b. 国外
- 谷歌:Gemini系列模型支持多模态处理,Gemini 3 Flash具备多模态理解能力,Gemini应用新增AI视频检测功能,可通过SynthID水印识别Google AI生成的视频片段;T5Gemma 2支持文本和图像输入并生成文本输出,适用于问答、摘要和推理任务。
- 苹果:发布多模态AI模型UniGen 1.5,集成图像理解、生成与编辑功能,引入“编辑指令对齐”技术提升图像编辑准确性,在多项行业标准测试中表现优异;发布SHARP模型,基于3D高斯泼溅技术,可在不到一秒内将单张2D照片转换为具有准确物理比例的3D场景,模型大小2.8GB,能生成高斯点云并提供多角度渲染。
- Luma Labs:发布Ray3 Modify视频编辑工具,作为Dream Machine的视频-to-视频功能,支持基于关键帧画面修改(控制长镜头人物动作并保持连贯)、角色参考替换(自定义角色映射并保持外观服装一致),用户可通过提示词实现视频润饰、元素替换和场景重设计。
- NVIDIA:发布I-Scene模型,通过重新编程预训练3D实例生成器,以模型内部空间监督替代数据集监督,解锁可迁移空间知识,能生成训练集之外的合理3D场景布局,理解物体靠近、支撑和平衡等空间关系。
- 西北工业大学等机构:提出首个针对文本到3D生成的强化学习(RL)范式,解决几何和物理合理性难题,构建MME-3DR基准测试评估模型性能,展示层次化RL在提升模型隐式推理能力方面的优势,成果发表于arXiv并开源相关代码。
- 3DGen-R1:用于文本到3D生成的项目,探索强化学习在该领域的应用潜力,提供官方实现、研究论文、一步生成模型检查点和推理代码,用户可通过安装相关环境和依赖进行推理。
1.2 垂直大模型
- 百度:推出GenFlow技术打造超级个人智能体,内置于文库与网盘,月活用户达千万级,支持多场景应用并实现深度个性化服务,解决AI产品认知偏差、落地断层和体验割裂三大痛点。
- OpenEvidence:专注医学任务的垂直模型,避免幻觉,日均响应临床查询超6万次,完成2.5亿美元融资,估值达120亿美元。
- 商汤科技:面向电商行业发布“如影营销智能体”解决方案,由店铺运营、直播场控、数字人等五大AI智能体协同工作,将店铺任务处理效率最高提升20倍,直播复盘耗时从2小时缩短至20分钟,可生成高拟真数字人主播。
- 农信数智:发布爱思AI大脑,构建农牧产学研融合模式,赋能农牧行业智能化转型。
- 南方航空与阿里云:联合发布天盾安全大模型,用于飞行训练与故障检修,提升航空安全保障能力。
1.3 专项技术突破
- 普林斯顿大学:提出SonicMoE系统性解决方案,通过优化算法、重叠IO与计算及Token舍入策略,解决MoE模型训练中的内存和计算效率问题,实现训练速度近2倍提升,额外吞吐量提升16%,大幅减少内存占用;开发SoFlow解决方案流模型,结合变分自编码器(VAE)和扩散模型优势,基于PyTorch实现高效图像生成,支持ImageNet和CIFAR-10数据集。
- 中国人民大学和腾讯团队:提出基于信息论的Adaptive Think机制,优化大模型推理效率,通过动态监控模型不确定性,在适当时候自动停止推理,避免过度推理导致的准确性下降,提高准确率并减少计算资源消耗,已在多个基准测试中验证有效。
- 浙江大学ReLER团队:发布ContextGen框架,通过双重上下文注意力机制和IMIG-100K数据集辅助,解决多实例图像生成中布局控制与身份保真度之间的矛盾,在多项基准测试中表现出色。
- 北邮百家AI团队:提出LightSearcher框架,通过经验记忆优化技术,减少搜索工具调用次数39.6%,推理时间缩短48.6%,Token消耗降低21.2%,在保持与SOTA基线ReSearch相当准确率的同时提升推理效率,具备强大泛化能力。
- Prompt Caching技术:通过缓存模型推理中的K/V矩阵,使Token费用降低约90%,长文本首字延迟缩减85%;OpenAI采用全自动黑盒方法,缓存命中率约50%,Anthropic通过手动设置“缓存断点”实现100%命中率,适用于RAG、长文档分析及多轮对话场景。
- 生成引擎优化(GEO):普林斯顿大学和印度理工学院研究表明,GEO能将内容在生成引擎中的可见性提升最高40%,提出引用内容词数、引用位置等新可见性指标,区别于传统SEO,适用于多语言内容推广与小型网站曝光。
- 华为:推出A2A智能体协作技术,助力nova 15系列实现复杂指令全流程自动化;昇腾基础软件CANN全面开源开放,支持多种主流AI框架,提供Python、C/C++及模板库等算子开发方案,降低AI工具使用门槛。
- 北大:发布ManualVLA模型,实现从最终状态自主生成说明书并完成操作,任务成功率比基线提升32%,泛化能力突出,经三阶段训练在乐高组装任务成功率平均达70%;提出一体化模型,探索大模型自主操作与说明书生成的协同机制。
- 中科院大连化物所:研发“储能AI智眸系统”,将电池剩余寿命预测误差控制在5.40%以内,已应用于多地储能电站。
1.4 AI框架
- 华为:昇腾CANN框架全面开源,连接AI训练框架和底层芯片,支持多主流AI框架,提供多元算子开发路径,推动AI算力生态发展。
- 阿里巴巴:MNN是高效轻量级深度学习框架,支持模型推理和训练,具有行业领先的设备端性能,已集成到阿里巴巴30多个应用,覆盖70多种使用场景,还用于物联网嵌入式设备;MNN-LLM基于MNN引擎开发,支持移动设备、PC和物联网平台本地部署大语言模型;MNN-Diffusion基于MNN引擎开发,旨在本地部署稳定扩散模型。
- 蚂蚁集团:开源AEnvironment平台,面向Agentic RL支持万亿级模型训练与大规模采样,为智能体强化学习提供基础设施支持。
- LoFA框架:实现大模型秒级个性化适配,采用响应图谱引导机制,将适配时间从小时降至秒级,效果优于传统方法,项目代码已开源。
- SciToolAgent框架:整合超过500个科学工具(含API、机器学习模型、Python函数),构建科学工具知识图谱(SciToolKG),采用“规划-执行-总结”架构,自动拆解复杂科研任务并执行,内置安全检查机制监控实验风险,基于Python开发,支持Conda快速配置环境及自定义添加私有工具。
二、智能体与AI应用
2.1 智能体与工具链发展
- Datus-agent:开源数据工程智能体,包含Datus-CLI(AI驱动命令行界面)、Datus-Chat(网络聊天机器人,支持多轮对话和反馈)、Datus-API(数据服务接口)三大组件,核心功能包括上下文数据工程(自动构建实时语义地图)、智能体聊天、领域子代理、持续学习循环,支持SQL查询、数据统计分析(如黄金与比特币相关性分析),环境要求Python 3.12。
- 扣子编程:AI驱动的应用开发平台,原扣子开发平台升级而来,开启限时免费公开测试,核心功能包括Vibe Agent(具备自主规划、工具调用和执行能力)、Vibe Workflow(自然语言驱动的自动化工作流,无需手动拖拽节点)、Vibe App(可部署的全栈AI应用),同时上线Vibe Infra基础设施服务。
- Open Gamma:开源AI工具,通过AI Agent实现PPT自动生成,利用Composio集成能力简化AI与Google Slides交互,用户通过自然语言即可生成真实PPT,基于Vercel AI SDK、Next.js 16、TypeScript和PostgreSQL构建,提供完整实战代码示例。
- Office-Word-MCP-Server:开源项目,提供功能强大的MCP服务器,允许AI直接操作Word文档,支持通过对话创建文档、插入格式化标题和段落、自动生成复杂统计表格,可读取现有文档内容、提取批注、全局查找替换与格式调整。
- Yearning:轻量级MySQL审核与查询审计平台,获8.9k星关注,支持自动化审核流程、精细权限管理和多种通知机制,自动检查SQL语法并生成回滚语句,支持自定义审核工作流和角色权限控制,集成AI助手提供实时SQL优化建议和自然语言转SQL功能,部署方式灵活(手动安装、Docker部署)。
- deface:命令行人脸匿名化处理工具,支持对视频或照片中的人脸进行模糊、黑框等匿名化处理,保护个人隐私,支持多种操作系统,推荐通过pip安装(要求Python 3.6+),支持实时视频捕获及参数自定义。
- GCopy:开源跨设备剪贴板同步工具,支持Windows、Mac、Linux、Android和iOS系统,用户通过网页版同一邮箱登录,可同步文本、截图和文件,数据保存在内存中24小时后自动过期,支持端到端加密传输,无需安装客户端。
- Hindsight记忆系统:开源记忆架构,将记忆视为推理基础结构,模仿人类记忆机制设计世界事实、智能体经验、综合实体摘要和演变信念四大逻辑网络,核心操作机制包括保留新信息、精准检索相关记忆和主动反思,旨在创造持续学习和进化的智能体。
- Android Use开源库:使AI Agent能够直接控制Android设备,利用Android无障碍服务实现点击、滑动和输入等操作,避免传统视觉Agent的高延迟和成本,适合低配硬件运行,应用于物流、外勤、销售等自动化工作流,已获950+ stars。
- Promptomatix:Salesforce AI研究院开源的自动化提示词优化框架,可根据任务需求自动生成训练数据,通过反馈持续修正和优化提示词,实现自动化迭代,支持OpenAI、Anthropic等多种模型提供商,用户可通过命令行或API操作,提供详细Jupyter教程。
- Claude Code插件库:提供多种实用插件,包括agent-sdk-dev(创建和验证Agent SDK应用)、code-review(多代理自动审查代码并提供反馈)、commit-commands(简化Git工作流)、frontend-design(生成优质前端界面)、plugin-dev工具包和pr-review-toolkit(支持插件开发和代码审查)。
- lsv:终端文件浏览工具,提供三栏式界面(上级目录、当前目录、文件预览),支持键盘操作,可通过Lua配置主题、快捷键和预览规则,兼容bat、glow等外部工具进行彩色渲染,支持文件操作、多选复制粘贴和目录书签跳转,兼容多个操作系统,可通过Cargo安装。
2.2 AI应用
电商与营销
- 商汤科技:“如影营销智能体”解决方案,五大AI智能体协同工作,实现电商运营自动化,测试数据显示店铺任务处理效率最高提升20倍,直播复盘耗时从2小时缩短至20分钟,可生成高拟真数字人主播。
- Vidu Agent:AI视频创作工具,用户输入产品图片和简单需求,即可快速生成高质量电商营销短视频,包含分镜脚本和配音,能根据产品特性调整视频风格,简化创作流程。
- 土巴兔:利用AI技术赋能家装产业,在AI设计、客服、质检和营销等方面推出多项应用,帮助合作装企客户转化率同比增长超20%,推出“装修保3.0”保障体系,推动行业透明可信转型。
- 华帝:探索短剧营销,总播放量超亿次,前三季度营收达41.58亿元,高端产品占比62%,借助AI提升营销传播效率。
交通与出行
- 高德地图:接入千问APP,整合2亿多POI数据,支持文字指令直达打车导航,生成餐厅酒店可视决策卡片,一键唤起导航打车功能;推出智能穿戴解决方案,结合出行数据与AI导航,优化手表、眼镜等设备的交互体验,已落地小米、Rokid等品牌产品。
- 白犀牛:L4级自动驾驶领军企业,2025年完成三轮融资,累计融资额突破1亿美元,斩获快递物流三大直营KA客户订单(行业首位),业务增速超去年同期20倍以上,启动大规模交付部署并率先实现无人物流车量产准备。
- 贵州高速与华为:合作利用OTN全光网络技术构建覆盖全省的智慧交通传输网络,实现全光覆盖和分钟级故障自愈,通过华为iMaster NCE平台将运维效率提升60%以上。
- 理想汽车:辅助驾驶系统累计行驶里程达57.5亿公里,智能泊车使用次数超2亿次,主动安全系统预防事故超1169万次,完成全系车型OTA升级,优化VLA司机大模型,提升复杂路况应对能力。
医疗与健康
- 中科信息:自主研发智能麻醉机器人,已完成十余例临床试验,正推进第三类医疗器械认证(目标2028年底前取证),能精准监测生命体征并自动调节麻醉剂量,解决传统麻醉剂量控制难题。
- 蚂蚁集团:“蚂蚁阿福”升级为全场景陪伴式健康平台,月活用户超1500万,对接多地卫健委及医院资源,从AI工具布局转向健康服务生态深耕。
- 行啊AI PC:通过摄像头实现血压、皮肤检测,依赖rPPG算法与英特尔酷睿Ultra NPU,非接触式获取心率、血氧、血压等生理指标,生成详细健康报告并提供护肤建议。
教育与办公
- 教育部:发布通知试点人工智能在中小学考试命题、组卷、阅卷和分析等关键环节的应用,通过国家中小学智慧教育平台提升教师命题水平,实现教育评价客观化与智能化。
- 沧州运河科技馆:配备50台元萝卜AI下棋机器人,推动AI教育系统化发展。
- 华为MatePad 11.5:集成小艺智能助手解题功能,通过AI技术优化学习体验。
- 谷歌NotebookLM:新增Data Tables数据表功能,可将来源资料整合为结构化表格,方便导出到Google Sheets,当天向Pro和Ultra付费用户开放,未来几周向所有用户推出。
- Gmail CC:邮件助手,能自动生成每日邮件摘要,帮助用户快速掌握重要信息,提供邮件撰写辅助功能。
- ChatGPT应用商店:正式上线,按精选、生活方式、工作效率等分类列出Adobe Photoshop、Canva、Figma、Apple Music等应用,用户通过“@应用名”触发使用,开发者可在OpenAI开发者平台提交应用审核发布,OpenAI提供最佳实践指南、开源示例应用、UI库和测试阶段的Apps SDK。
- 谷歌CC助手:基于Gemini技术的实验性AI生产力助手,深度整合Gmail、日历等谷歌生态,自动为用户梳理日程、汇总任务并发送简报,仅向美国和加拿大年满18岁的谷歌付费订阅用户开放早期访问。
内容创作与娱乐
- QQ音乐:推出本地化AI作曲功能,由酷睿Ultra处理器加持,内置NPU提升AI计算效率并延长电池续航,用户无需联网即可创作原创歌曲,数据不上传服务器,保障创作隐私。
- YouTube:启动Playables Builder测试,基于Gemini 3技术让用户通过文字、视频、图片创建游戏,扩展平台创造力。
- Manus:支持二次编辑Nano Banana Pro生成的PPT,用户可点击文本修改内容、选中图片调整局部,还能同时选择多个区域进行批量修改更新。
- 腾讯新闻:打造可信生态,上线信息溯源工具,清理95%低质内容,提升信息传播质量。
社交与生活服务
- Friend App:AI陪伴型应用,2025年初开始小范围流行,支持语音或文字聊天,长期记住用户情绪、烦恼和生活细节,不追求效率而注重“陪伴感”,会主动低频关心用户,适合独居、情绪记录、社交疲劳人群。
- Rewind AI Mobile:生活记忆型App,2025年推出移动端生活版,自动记录用户一天的通话、阅读、对话摘要,支持用户查询过往情绪相关问题,基于大模型进行理解与总结,存在隐私争议。
- Timeleft:AI社交晚餐App,2025年AI版开始流行,用户填写性格、价值观、状态后,AI组局5-6人线下晚餐,通过分析用户聊天、兴趣、社交风格进行匹配,适合新城市定居、社交圈固化、想认识非网红型陌生人的人群。
- 字节跳动:与vivo、联想、传音等手机厂商合作,预装AIGC插件获取AI流量入口,采用免收定制开发费与Token销售分成的策略,打破手机厂商对第三方AI的戒备。
- 网易有道:战略升级为“学习与广告AI应用服务提供商”,加速推动教育AI从“学习辅导”向“虚拟老师”阶段迈进,提供更个性化的学习体验与更高效的广告服务。
三、物理AI/机器人
- 傅利叶智能:人形机器人发展路径以康复和养老为起点,强调力控、柔顺性和实时交互是安全可控服务的基础,认为从物理交互到情感交互的多层次理解是将机器人智能转化为有效动作的关键。
- 日立:宣布2027年前部署自研人形机器人,执行电子产品布线等复杂任务,推进机器人在工业场景的应用。
- 宁德时代:中州基地启用全球首条应用人形具身智能机器人的动力电池PACK生产线,机器人负责高压测试插头的精准插接与质检,作业成功率达99%以上,单日处理量较人工提升300%。
- 简智机器人:成立4个月获3轮超2亿融资,服务30余家头部企业,七成收入来自海外,提出数据基建方法论,突破具身智能数据采集瓶颈。
- 白犀牛:L4级自动驾驶无人物流车实现技术验证向规模化商业落地转型,2025年订单量位居行业首位,启动大规模交付部署。
- 中国:发放首批两款L3级自动驾驶车型的准入许可,标志着自动驾驶技术从测试迈向量产应用新阶段,试点车辆暂由指定单位运营。
四、硬件与基础设施
- 台积电:将于2026年第二季度实现2纳米GAA(全环绕栅极)工艺稳定量产,苹果A20系列处理器将采用该技术,相较于3纳米工艺,同等功耗下可提升10%-15%性能。
- 美光科技:2026财年Q1营收达136.43亿美元,同比增长56.65%,增长主要归因于AI数据中心对HBM(高带宽内存)等高端存储芯片的旺盛需求,计划逐步退出消费级业务以优先保障企业级和AI芯片市场需求。
- 国产GPU厂商:寒武纪、摩尔线程、沐曦股份等本土AI芯片企业备受资本关注,三家公司市值合计已突破1.2万亿元,沐曦股份于12月17日上市,开盘股价暴涨568.83%,市值突破2800亿元。
- 英伟达:推出Blackwell Ultra计算架构,Nebius AI云平台3.1版本整合该架构和800 Gbps InfiniBand互联技术,支持万亿参数模型训练,成为欧洲首家同时运行这两大先进平台的云服务商。
- 山海云算:国企控股的数字基础设施企业,布局“中心云+城市节点+家庭节点”的三层架构算力网络,“算力到家”项目将算力托管能力延伸至家庭,为AI推理、大模型应用等场景提供低时延、可扩展的算力与网络支撑。
- 华为:OTN全光网络技术助力贵州高速构建智慧交通传输网络,iMaster NCE平台提升运维效率;AI WAN(人工智能广域网)解决方案能显著降低智算业务的算力损失率,某合作案例中将模型训推协同的算力损失控制在3%以内。
- 中科曙光:展出scaleX万卡超集群真机,总算力超5EFlops,兼容多品牌芯片,为大规模AI训练提供算力支持。
- 微星EdgeXpert:通过散热优化提升AI推理性能10%,超越英伟达公版DGX Spark。
- 豪威集团:推出首款专为智能眼镜设计的超低功耗单芯片LCOS微型显示面板,具备1632×1536分辨率和90Hz刷新率,提升画面锐度并降低功耗,预计2026年上半年量产。
- 终端设备:字节跳动AI眼镜进入量产前阶段,定价在2000元以内,预计明年初上市,为国内首款亲民级深度融合大模型的AI眼镜;Meta对Ray-Ban Meta和Oakley Meta HSTN智能眼镜进行软件更新(v21),推出“对话聚焦”(嘈杂环境中增强对话者声音)和“视觉配乐”(根据视野内容自动播放匹配音乐)功能;苹果全面暂停AR/VR头显项目,转而专注AI智能眼镜开发,预计2026年底或2027年推出;荣耀WIN系列新机配备侧边AI按键,提升游戏体验。
五、企业动态、产品更新、投资
企业动态
- 谷歌:与Meta合作推进“TorchTPU”战略行动,让PyTorch在TPU芯片上流畅运行,消除开发者迁移门槛,考虑将部分软件开源,扩大TPU外部销售,挑战英伟达CUDA生态;将“氛围编程”工具Opal深度集成至Gemini网页端,用户无需编程基础即可通过自然语言生成个性化迷你应用“Gems”,进阶用户可跳转高级编辑器;发布Gemini 3 Flash、T5Gemma 2、FunctionGemma等多款模型,Gemini应用新增AI视频检测功能。
- OpenAI:发布GPT-5.2-Codex、ChatGPT Images模型,上线ChatGPT应用商店,开放应用提交通道;计划以7500亿美元估值融资数百亿美元(最高可达1000亿美元),亚马逊洽谈投资100亿美元,融资所得用于增强现金储备以支持模型训练与运营;任命英国前财政大臣乔治·奥斯本负责全球AI基础设施计划的海外扩张,推动与各国政府合作;在印度推出ChatGPT Go计划,向用户免费提供一年使用权限(有时间限制),争夺多语言训练数据与用户市场。
- 亚马逊:重组AI团队,将AGI、Nova品牌模型、Alexa“数字大脑”部门与芯片研发部门(AnnapurnaLabs)、量子计算团队整合为全新业务单元,由AWS老将彼得·德桑蒂斯领导;与OpenAI洽谈投资与合作,计划投资至少100亿美元,支持OpenAI通过AWS租用服务器,探讨采购自研Trainium AI芯片及ChatGPT商业合作机会;AWS高级副总裁Peter DeSantis直接向CEO Andy Jassy汇报,领导新成立的AI研发部门,顶尖学者Pieter Abbeel接任前沿AI模型研究团队负责人。
- 字节跳动:发布豆包大模型1.8、Seed1.8、Seedance 1.5 Pro等模型,推出TRAE CN企业版AI编程工具,支持IDE、插件等多形态接入,提供两种部署模式,适配10万文件、1.5亿行代码索引需求,具备全链路加密、效能追踪等功能,内部92%工程师使用,代码贡献率达43%;与多家头部手机厂商合作AI手机项目,预装AIGC插件。
- 腾讯:调整大模型研发架构,成立AI Infra部、AI Data部及数据计算平台部,任命1998年出生的姚顺雨为首席AI科学家,构建从底层算力到高质量数据的全链路能力;发布混元世界模型1.5,开源相关框架与代码;腾讯新闻上线信息溯源工具,清理低质内容。
- 美团:加速AI战略布局,前字节视觉大模型负责人潘欣加入担任多模态AI创新业务负责人,每年在AI领域投入超百亿;发布LongCat-Video-Avatar虚拟人视频生成模型,采用Cross-Chunk Latent Stitching训练策略,提升动作拟真度,支持5分钟连续虚拟人视频生成,在多个数据集上达到SOTA水平;开源该模型相关代码。
- 小米:发布MiMo-V2-Flash大模型,新任Xiaomi MiMO大模型负责人罗福莉公开亮相,阐述模型关键技术;开源相关模型适配方案。
- 中科曙光与海光信息:终止此前筹划的吸收合并计划,原因是交易规模庞大、涉及主体复杂及市场环境变化,双方将继续在高端计算、智能算力、大模型平台等方向深化协作。
- 梅赛德斯-奔驰:调整高层人事,首席设计官和北京奔驰CEO变动,加强设计研发与生产制造领域战略布局,应对汽车行业电动化与智能化转型。
- HPE Networking:完成对Juniper Networks收购后,发布以构建“安全赋能的AI原生网络”为核心的新战略,提出网络智能化五级演进路线,实现网络自动部署、优化与修复。
- 爱诗科技与阿里云:签署全面合作协议,阿里云为爱诗科技自研的PixVerse视频生成大模型提供全栈AI支持(含基础设施和大模型服务),加速其AI视频服务全球化进程。
产品更新
- 谷歌Gemini应用:新增AI视频检测功能,用户可上传视频(最大100MB、最长90秒),通过扫描SynthID水印查询是否由Google AI生成,功能覆盖全球,无需额外订阅。
- Claude AI:上线“任务模式”,采用双面板设计、结构化行动计划及自动化技能集成,支持生成结构化行动计划和澄清性提问,集成多种技能和模型上下文协议,提升复杂任务处理能力。
- Luma Ray3 Modify:发布新版视频编辑能力,支持基于关键帧画面修改(控制长镜头人物动作)、角色参考替换(保持角色外观服装一致),用户通过提示词实现视频润饰、元素替换和场景重设计。
- 微信元宝AI助手:新增一句话设置提醒功能,支持语音交互,可解析公众号文章、图片及文档内容,降低使用门槛。
- 谷歌NotebookLM:新增Data Tables数据表功能,支持结构化表格生成与导出。
- 千问APP:接入高德地图,实现生活服务与出行导航一体化,支持文字指令直达打车功能。
- 火山引擎:发布豆包大模型1.8,推出AI节省计划,豆包大模型最高降价47%,支持阶梯折扣;升级数据智能体服务,新增五大Agent功能。
- 360公司:推出“All In Agent”战略,构建多智能体协同工作体系,展示AI技术在教育、政府、能源等十个关键行业的成功应用案例。
投资与融资
- OpenAI:计划以7500亿美元估值进行新一轮融资,较上轮提升50%,融资规模最高可达1000亿美元,亚马逊洽谈投资100亿美元,已从Thrive Capital、软银等投资方筹集超600亿美元。
- 白犀牛:2025年内完成三轮融资,全年累计融资额突破1亿美元,投资方包括九坤创投、启赋资本等机构,订单量位居行业首位。
- OpenEvidence:完成2.5亿美元融资,估值达120亿美元,日均响应临床查询超6万次。
- 简智机器人:成立4个月获3轮超2亿融资,服务30余家头部企业,七成收入来自海外。
- MiniMax(稀宇科技):通过港交所上市聆讯,股东包括阿里、腾讯、米哈游,专注通用人工智能,冲刺“大模型第一股”,预计2026年初挂牌。
- 智谱AI:与MiniMax同日通过港交所上市聆讯,聚焦基座模型B端服务,冲刺“大模型第一股”。
- Mythic:AI芯片初创公司,成功融资1.25亿美元,挑战英伟达在AI算力市场的主导地位。
- Peripheral Labs:完成360万美元融资,利用自动驾驶传感器技术提升体育观赛体验。
- 高通:提前完成对Alphawave Semi收购,增强Oryon CPU和Hexagon NPU处理器能力。
- 金智维:向港交所递交招股书,中国最大的AI数字员工解决方案提供商,金融领域市场份额连续三年排名第一,2025年推出Ki-Agent企业级智能体平台。
- 智谷天厨:烹饪机器人企业,获得数千万元A轮融资,产品线涵盖烹饪机器人、智慧厨房系统等。
行业合作
- 美国“创世纪任务”:美国政府启动的国家级AI战略计划,微软、谷歌、OpenAI等24家科技巨头参与,将顶尖AI技术与国家实验室科研能力结合,加速科学发现,提升美国科技领域领导地位,目标2030年前使美国科学生产力翻倍。
- 谷歌与Meta:合作推进“TorchTPU”计划,降低TPU使用门槛,挑战英伟达CUDA生态。
- 字节跳动与手机厂商:vivo、联想、传音等预装AIGC插件,共建AI手机生态。
- 英伟达与OpenAI:达成1000亿美元数据中心合作意向,黄仁勋确认未支付款项。
- 南方航空与阿里云:联合发布天盾安全大模型,用于飞行训练与故障检修。
- 贵州高速与华为:合作构建智慧交通传输网络,提升运维效率。
- 爱诗科技与阿里云:AI视频生成模型全栈支持合作,加速全球化。
六、行业观点与社会影响
行业观点
- a16z合伙人:认为当前AI未处于泡沫阶段(泡沫未破),企业若停止开发更大模型仅靠现有模型运营,按当前利润率可快速盈利;纯软件奇点难以实现,需更多实验推进研发,实验算力投入规模与最终模型训练运行投入相当;预测2030年GDP将增长几个百分点,AGI实现后30%的GDP增长是合理下限,结果要么疯狂增长要么彻底崩溃。
- 何小鹏(理想汽车):认为目前不存在AI泡沫,科技发展中局部泡沫不影响市场进步;中国AI估值较合理,注重市场应用,美国偏重前沿研究;预测未来三年物理AI领域(人形机器人、自动驾驶)将有突破,对生活改变更显著;当前AI缺乏真正创造力,完全实现AGI还需数年。
- Hassabis(DeepMind):指出AI投资环境存在泡沫,部分早期初创公司未运营即获数百亿美元高估值,这种状况不可持续;短期内AI关注可能过度,但长期仍未受到足够重视。
- 马斯克(xAI):xAI正处于关键期,未来2-3年内存活并壮大至关重要,目标2026年实现AGI;计划建设世界最强超级计算平台Colossus,目标扩展到100万颗GPU,探索太空数据中心构想;反驳Sanders关于AI导致就业流失与能耗激增的观点,称AI将创造全民高收入,数据中心已耗美国5%电力。
- 王广润博士(GAIR 2025):物理空间模型应成为“物理世界操作系统”核心,端到端物理建模能更好理解和预测物理环境变化;全局迭代生成框架在生成速度和多模态统一性上有优势;空间建模中只需微调部分参数即可提升效率,新一代AI架构将推动物理世界精准建模和智能交互。
- 张祥雨:Transformer架构难以支撑Agent时代,需探索Mamba、TTT等新架构。
- 百度王雁鹏:评估AI芯片能力的标准已从算力转向能否支持从百亿到万亿参数的多模态模型训练,尤其是万卡集群中的高效扩展;当前面临集群稳定性、线性扩展能力及模型生态适应性三大挑战,MoE模型为国产芯片带来发展机会,需在通信优化与计算协同方面突破。
- 行业专家:AI落地的最大障碍在于知识提炼和组织文化变革;技术普及不等于创作能力普及,AI短剧等内容产业中,内容质量仍是核心竞争力;Vibe Coding使普通人无需编程知识即可开发应用,成为新商业机会,百度秒哒平台上线8个月生成50万个商业应用,创造超50亿元经济与效率价值。
社会影响
- 就业市场:2025年第二季度AI相关职位激增,增幅最高达1100%,成为就业市场复苏主要动力,AI产品经理、大模型算法工程师等岗位需求居前;超过九成职场人士已在日常工作中使用AI工具,企业开始将AI应用能力纳入招聘考核;美国参议员Bernie Sanders担忧AI数据中心建设导致就业岗位流失,提议暂停相关建设。
- 用户规模:中国生成式AI用户规模已超5.15亿,应用深入各行各业,从“概念验证”加速迈向“价值创造”。
- 内容生态:“Slop”成为韦氏词典年度词汇,指AI批量生产的低质量、令人不适的内容,反映互联网内容生态困境;“Slop经济学”兴起,内容生产成本趋近于零,导致数字垃圾场泛滥;GEO(生成式引擎优化)被用作营销手段,向AI聊天软件灌输低质量或虚假信息以影响推荐结果,污染内容生态。
- 技术普及:AI工具降低多个领域创作与开发门槛,如AI作曲、AI视频生成、低代码开发等,使个人或小团队能高效生成内容、开发应用,推动创新民主化。
- 教育变革:普渡大学要求2026届毕业生须达到AI工作能力标准,掌握工具使用与评估能力,纳入长期战略;教育部试点AI在中小学考试关键环节的应用,减轻教师负担,提升教学质量分析精准度。
七、安全、伦理与监管
监管政策
- 中国:发布首个虚拟数字人国家标准,要求口型驱动准确率不低于90%,响应时间不超过2秒,3D模型面数不少于20万;工业和信息化部公布首批两款L3级自动驾驶车型的准入许可,试点车辆暂由指定单位运营。
- 美国:启动“创世纪任务”国家级AI战略计划,统筹AI技术发展与应用;美国参议员Elizabeth Warren等七人致信亚马逊、谷歌等七家科技巨头,要求解释数据中心项目如何避免推高居民电费,披露相关信息以推动建立独立的“数据中心费率等级”;参议员Bernie Sanders提议暂停AI数据中心建设,担忧就业流失与能耗激增。
安全与伦理
- OpenAI:更新ChatGPT优先保护未成年人安全的原则,新增四条原则引导青少年稳妥使用;GPT-5.2-Codex采取多层次部署策略,确保技术普惠与安全合规并重。
- Mozilla:新任CEO强调在AI时代保护用户权益,明确反对通过收集用户对话数据训练AI模型,主张AI功能应具备透明性、可控性和可解释性,计划将Firefox打造为值得信赖的智能浏览器,采用本地化处理方案保障隐私安全。
- 360数字安全集团:提出“以模治模”理念,通过专业安全智能体监控和防护业务大模型,应对AI驱动的网络攻击挑战。
- 特斯拉:加州机动车辆管理局行政法官裁定其在营销自动驾驶系统时存在欺骗性行为,建议暂停其在加州的销售许可30天,DMV局长宣布将暂停执行裁定90天,为特斯拉提供纠正误导性声明的空间。
- 隐私争议:Rewind AI Mobile自动记录用户日常行为引发隐私担忧;AI数据采集与使用过程中,用户隐私保护成为行业关注焦点,本地化部署、端到端加密等技术方案受青睐。
- 责任认定:L3级自动驾驶车型获准上路后,相关法律体系需建立新型责任认定规则,明确人机责任区分,尤其在“接管”环节需澄清驾驶员接管是权利还是义务。
- 能耗争议:AI数据中心需求激增导致美国面临大型变压器严重短缺,订单量超出供应约1.4万台;马斯克回应AI能耗争议,称将用SpaceX建设轨道数据中心,推进Tesla芯片迭代。
八、学习与研究资源
开源项目与代码库
- ViMax:https://github.com/HKUDS/ViMax(港大视频生成框架)
- Tencent HY WorldPlay:https://github.com/Tencent-Hunyuan/HY-WorldPlay、https://huggingface.co/tencent/HY-WorldPlay(腾讯混元世界模型)
- Open Gamma:https://github.com/ComposioHQ/open-gamma(AI PPT生成工具)
- Office-Word-MCP-Server:https://github.com/GongRzhe/Office-Word-MCP-Server(AI操作Word文档工具)
- Yearning:https://github.com/cookieY/Yearning(MySQL审核与查询审计平台)
- deface:https://github.com/ORB-HD/deface(人脸匿名化处理工具)
- SciToolAgent:https://github.com/HICAI-ZJU/SciToolAgent(AI辅助科研工具)
- GCopy:https://github.com/llaoj/gcopy(跨设备剪贴板同步工具)
- Hindsight:https://github.com/vectorize-io/hindsight(智能体记忆系统)
- Android Use开源库:https://github.com/actionstatelabs/android-action-kernel(AI Agent控制安卓设备)
- Promptomatix:https://github.com/SalesforceAIResearch/promptomatix(自动化提示词优化框架)
- Claude Code系统提示词:https://github.com/Piebald-AI/claude-code-system-prompts(Claude Code提示词资源)
- Step-GUI:https://github.com/stepfun-ai/gelab-zero(端侧GUI Agent模型)
- Datus-agent:https://docs.datus.ai/zh/getting_started/Quickstart/(数据工程智能体官方指南)
项目与文档链接
- T5Gemma 2:https://sota.jiqizhixin.com/project/t5gemma-2
- FunctionGemma:https://sota.jiqizhixin.com/project/functiongemma
- 3DGen-R1:https://sota.jiqizhixin.com/project/3dgen-r1
- SoFlow:https://sota.jiqizhixin.com/project/soflow
- MNN:https://sota.jiqizhixin.com/project/mnn-alibaba
- ContextGen:https://sota.jiqizhixin.com/project/contextgen
- Google Gemini视频检测功能:https://blog.google/technology/ai/verify-google-ai-videos-gemini-app/
- UniGen 1.5:https://arxiv.org/abs/2511.14760
- ElevenLabs WhatsApp集成:https://elevenlabs.io/docs/agents-platform/whatsapp
- Luma Ray3 Modify:https://lumalabs.ai/blog/news/ray3-modify
- Qwen-Image-Layered:https://arxiv.org/abs/2512.15603
- GPT-5.2-Codex:https://openai.com/ja-JP/index/introducing-gpt-5-2-codex/
- T5Gemma 2:https://blog.google/technology/developers/t5gemma-2/
- I-Scene:https://luling06.github.io/I-Scene-project/
- 腾讯混元3D官网:https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay、https://3d-models.hunyuan.tencent.com/world/
- Seed1.8:https://seed.bytedance.com/seed1_8
- Seedance 1.5 Pro:https://arxiv.org/abs/2512.13507v2、https://console.volcengine.com
- Grok Voice Agent API:https://x.ai/news/grok-voice-agent-api、https://docs.x.ai/docs/guides/voice
- Vidu Agent:https://platform.vidu.cn/
- 通义万相:https://modelscope.cn/models/muse/Wan2.2-I2V-A14B-FP8、https://www.aliyun.com/solution/tech-solution/tongyi-wanxiang
学术论文
- 文本到3D生成强化学习范式:arXiv相关论文
- ContextGen框架:相关研究论文
- GEO生成引擎优化:https://arxiv.org/pdf/2311.09735、https://generative-engines.com/GEO/
- LightSearcher框架:https://arxiv.org/abs/2512.06653
其他资源
- AI开源项目知识库:https://qyxznlkmwx.feishu.cn/wiki/BwWIwsCOuiMWGmkUzNHcKLvPnPh(AIGitHub共享)
- ChatGPT应用商店:https://chatgpt.com/apps
- Greptile 2025年AI编程现状报告:https://www.greptile.com/state-of-ai-coding-2025
- 清华大学人工智能国际治理研究院年度报告(AI治理相关)
九、总结与洞察
核心认知洞察
- 模型发展从“规模竞赛”转向“效率与场景适配”:前期大模型追求参数规模突破,当前行业聚焦效率优化(如SonicMoE、Prompt Caching技术)与场景深度适配(如垂直行业模型、端侧轻量化模型),开源与闭源生态并行,满足不同层级用户需求,模型迭代进入“质效并重”阶段。
- 智能体成为AI落地核心载体:从单一工具到多智能体协同,智能体通过整合工具链、具备自主规划与执行能力,正在重构内容创作、数据处理、企业运营等流程,“Agent+行业场景”成为价值创造的主要模式,推动AI从“辅助工具”向“业务伙伴”转变。
- 物理AI与数字AI协同发展:数字AI在内容生成、数据分析等领域持续深耕,物理AI(机器人、自动驾驶)逐步突破技术瓶颈,从特定场景试点走向规模化应用,二者的协同将重塑制造业、交通、医疗等实体行业,成为下一轮AI增长的关键引擎。
- 生态竞争取代单点技术竞争:AI竞争已从单一模型、芯片的比拼,升级为“模型-工具-硬件-场景”的全生态竞争,谷歌与Meta合作、字节跳动绑定手机厂商等案例表明,生态协同能力决定企业长期竞争力,开源生态成为吸引开发者、扩大市场份额的重要抓手。
- 监管与技术发展同步推进:AI规模化应用催生了隐私保护、责任认定、能耗控制等监管需求,各国纷纷出台政策规范行业发展,“技术创新+合规发展”成为企业必备能力,监管框架的完善将为AI行业持续健康发展提供保障。
- AI泡沫争议背后是产业成熟度的提升:当前AI领域投融资活跃,部分企业估值较高引发泡沫担忧,但本质是资本对AI长期价值的看好,随着技术落地产生实际经济效益,行业将逐步回归理性,具备核心技术与场景落地能力的企业将脱颖而出。
- 行业落地的核心是“价值创造”而非技术堆砌:AI应用已从“概念验证”进入“价值创造”阶段,无论是电商运营效率提升、医疗诊断辅助还是自动驾驶规模化,只有真正解决行业痛点、降低成本、提升效率的应用才能持续发展,技术堆砌无法形成核心竞争力。
未来趋势预判
- 技术层面:多模态融合将更深入,跨模态理解与生成能力持续提升;模型效率进一步优化,端侧与云端协同成为主流;Agent技术将实现更复杂的任务规划与执行,具备更强的自主学习与适应能力。
- 产业层面:AI与实体行业的融合将更紧密,制造业、交通、医疗、教育等领域的智能化转型加速;开源生态将持续扩张,形成“开源+商业”的混合生态模式;AI硬件与软件协同创新,算力基础设施将向更高效、低碳方向发展。
- 社会层面:AI将重塑就业结构,部分重复性工作被替代,同时催生新的就业岗位;AI伦理与监管体系将不断完善,平衡技术创新与社会利益;公众对AI的接受度与使用率持续提升,AI成为日常生活与工作的重要组成部分。
更多内容关注公众号"快乐王子AI说"