Google Research 推出 TabFM：零样本表格数据基础模型，消除传统瓶颈，将集成至 BigQuery-平芜编程栈

研究领域探索

探索我们众多研究重点领域，可探索所有研究领域。

应用人工智能与科学

地球人工智能 (Earth AI)

健康人工智能 (Health AI)

科学人工智能 (Science AI)

可持续性与危机应对 (Sustainability & crisis resilience)

基础机器学习与算法

算法与理论 (Algorithms & theory)

信息检索 (Information retrieval)

机器智能 (Machine intelligence)

机器感知 (Machine perception)

自然语言处理 (Natural language processing)

人员、系统与量子人工智能

人机交互与可视化 (Human-computer interaction and visualization)

网络 (Networking)

量子人工智能 (Quantum AI)

负责任的人工智能 (Responsible AI)

反滥用 (Anti abuse)

软件工程 (Software engineering)

软件系统 (Software systems)

了解更多

出版物

项目

资源利用

构建协作生态系统

数据集访问高质量数据集，加速你的研究。

工具与服务探索我们最新的人工智能模型和产品。

开源发现开源代码，与社区协作。

会议与活动

职业发展途径

携手塑造未来

查看所有项目

教师项目通过与大学教师的有意义互动，参与学术研究社区。

学生项目通过广泛的项目支持下一代研究人员。

办公地点在我们的全球办公室和研究实验室中找到你的位置。

博客

研究成果转化

将发现转化为实际影响

人员我们的研究人员通过基础研究和应用研究推动计算机科学的进步。

团队协作小组攻克世界上最具挑战性的人工智能问题。

Google Research

Google AI 了解我们所有的人工智能

Google DeepMind 探索人工智能的前沿

Google Labs 尝试我们的人工智能实验

其他相关内容

研究

资源

会议与活动

职业发展

博客

关于

主页

博客

TabFM 介绍

2026 年 6 月 30 日，Google Research 研究科学家 Weihao Kong 和 Abhimanyu Das 推出了 TabFM。自推出 TimesFM 以来，人们处理时间序列预测的方式发生了巨大转变，如今将 "零样本" 逻辑引入表格数据领域。

TabFM 是全新的表格数据基础模型，旨在简化分类和回归工作流程。

快速链接

Hugging Face

GitHub

在 Twitter 上分享

在 Facebook 上分享

在 LinkedIn 上分享

通过电子邮件发送

复制链接

表格数据是企业数据基础设施核心，为大量关键预测性机器学习应用提供支持，表格回归和分类任务广泛存在。多年来，有监督的基于树的算法如 AdaBoost、XGBoost 和随机森林在该领域占主导。

然而，部署传统模型存在显著瓶颈，应用 XGBoost 模型到新数据集需大量手动工作，数据科学家要进行超参数优化和特征工程。

机器学习领域的进展，尤其是大语言模型（LLM）的发展，改变了处理新任务的方式，LLM 通过上下文学习（ICL）展示了零样本预测能力。

如今推出的 TabFM 专门为表格数据分类和回归设计，将表格预测视为 ICL 问题，消除了手动模型训练、超参数调整和复杂特征工程需求，能让用户在一次前向传播中对未见过的表格生成高质量预测。TabFM 已在 Hugging Face 和 GitHub 仓库提供。

工作原理

传统机器学习范式依赖更新特定数据集分布的模型参数，而 ICL 范式绕过此过程。TabFM 不进行传统训练阶段，而是将整个数据集作为统一提示，在推理时从上下文中学习解释列和行关系。

将 ICL 应用于表格数据并非易事，标准语言模型处理一维序列，表格是二维且无序的。为处理表格结构并实现零样本预测，TabFM 整合 TabPFN 和 TabICL 等架构优势，采用三个关键机制：

交替行和列注意力：原始表格通过多层注意力模块处理，在列和行上交替应用注意力，学习丰富表示，捕捉复杂特征交互和依赖关系，完成手动特征构建工作。

行压缩：上下文处理后，每行的交叉注意力信息压缩成密集向量表示。

上下文学习（ICL）：专用 Transformer 对压缩嵌入序列操作，对压缩行向量进行注意力计算，降低计算成本，确保预测高效。

TabFM 模型架构。

大规模合成数据训练

构建基础模型通常用大容量神经网络在大量多样化数据上训练，但表格机器学习缺乏高质量、多样化的开源表格数据集，工业表格含专有模式和敏感信息，无法用于预训练。

合成表格可生成大规模数据，是预训练基础模型的可行选择。TabFM 完全在数亿个合成数据集上训练，这些数据集用结构因果模型（SCM）动态生成，包含随机函数，能捕捉现实世界表格数据的分布和特征关系，使模型能泛化到未见过的现实世界表格。

性能与基准测试

为测试 TabFM 性能，在 TabArena 上评估，TabArena 根据一对一胜率计算 Elo 分数，评估涵盖 38 个分类数据集和 13 个回归数据集，样本数量 700 到 150,000 不等。

对模型两种配置进行基准测试：

TabFM：代表模型开箱即用能力，一次前向传播生成预测，无需调整或交叉验证。

TabFM - Ensemble：结合交叉特征和 SVD 特征提升性能，用非负最小二乘法求解器计算 32 路集成最优权重，分类任务还将 Platt 缩放作为校准步骤。

有关 TabArena 全面基准测试结果，可访问 GitHub 页面。

TabArena 分类（上）和回归（下）中前 10 名模型的 ELO 评分（↑）。(D)= 默认；(T + E)= 调优 + 集成。分数越高表示性能越好。

结论

TabFM 将表格预测定义为上下文学习问题，利用混合注意力架构和大规模合成训练数据，捕捉复杂特征交互，消除传统瓶颈，优于有监督算法，将现代基础模型便利性引入表格机器学习工作流程，让从业者一次前向传播生成准确预测。

为方便使用，TabFM 正集成到 Google BigQuery 中，未来几周用户可在 BigQuery 中用简单 AI.PREDICT SQL 命令进行高级回归和分类，无需机器学习专业知识。

致谢

本项目由 Erez Louidor Ilan、Taman Narayan、Shuxin Nie、Rajat Sen、Yichen Zhou、Joe Toth、Deqing Fu 和 Samet Oymak 共同完成，感谢 Kimberly Schwede 设计图形。

标签：

数据管理

机器智能

产品

快速链接

Hugging Face

GitHub

在 Twitter 上分享

在 Facebook 上分享

在 LinkedIn 上分享

通过电子邮件发送

复制链接

其他感兴趣的文章

2026 年 6 月 26 日使用冻结多令牌预测加速 Pixel 上的 Gemini Nano 模型机器智能移动系统自然语言处理

2026 年 6 月 25 日使用线性弹性缓存优化云经济算法与理论数据管理

2026 年 6 月 24 日思考以回忆：推理如何解锁大语言模型中的参数知识生成式人工智能机器智能自然语言处理

关注我们

在 X 上关注我们

在 LinkedIn 上关注我们

在 YouTube 上关注我们

在 GitHub 上关注我们

探索我们的其他计划

Google AI

探索 Google AI 如何致力于丰富知识和解决复杂挑战

产品

构建

研究

责任

社会影响

关于

Google Cloud

为云计算、数据分析和机器学习提供高性能基础设施

概述

解决方案

产品

定价

资源

Google DeepMind

我们的使命是负责任地构建人工智能，造福人类

模型

研究

科学

关于

Google Labs

与 Google Labs 一起负责任地探索人工智能的未来

关于

实验

保持联系

Google

关于 Google

Google 产品

隐私政策

使用条款

Cookie 管理控制

Google Research 推出 TabFM：零样本表格数据基础模型，消除传统瓶颈，将集成至 BigQuery

研究领域探索

应用人工智能与科学

基础机器学习与算法

人员、系统与量子人工智能

了解更多

资源利用

构建协作生态系统

职业发展途径

携手塑造未来

研究成果转化

将发现转化为实际影响

其他相关内容

研究

资源

职业发展

关于

TabFM 介绍

快速链接

工作原理

大规模合成数据训练

性能与基准测试

结论

致谢

快速链接

其他感兴趣的文章

关注我们

探索我们的其他计划

Google AI

Google Cloud

Google DeepMind

Google Labs

log日志简介以及使用

novelWriter(开源小说创作工具

2026医院时钟安装全流程及主流靠谱品牌选型对比指南

Rufus中文绿色版

100G交换机吞吐下降20%——一次DPDK Hash Cache Locality优化实战（上）

2026年赣州刑事辩护律师从业现状与实务侧重观察