news 2026/7/2 20:28:45

Google Research 推出 TabFM:零样本表格数据基础模型,消除传统瓶颈,将集成至 BigQuery

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Google Research 推出 TabFM:零样本表格数据基础模型,消除传统瓶颈,将集成至 BigQuery

研究领域探索

探索我们众多研究重点领域,可探索所有研究领域。

应用人工智能与科学

地球人工智能 (Earth AI)

健康人工智能 (Health AI)

科学人工智能 (Science AI)

可持续性与危机应对 (Sustainability & crisis resilience)

基础机器学习与算法

算法与理论 (Algorithms & theory)

信息检索 (Information retrieval)

机器智能 (Machine intelligence)

机器感知 (Machine perception)

自然语言处理 (Natural language processing)

人员、系统与量子人工智能

人机交互与可视化 (Human-computer interaction and visualization)

网络 (Networking)

量子人工智能 (Quantum AI)

负责任的人工智能 (Responsible AI)

反滥用 (Anti abuse)

软件工程 (Software engineering)

软件系统 (Software systems)

了解更多

出版物

项目

资源利用

构建协作生态系统

数据集 访问高质量数据集,加速你的研究。

工具与服务 探索我们最新的人工智能模型和产品。

开源 发现开源代码,与社区协作。

会议与活动

职业发展途径

携手塑造未来

查看所有项目

教师项目 通过与大学教师的有意义互动,参与学术研究社区。

学生项目 通过广泛的项目支持下一代研究人员。

办公地点 在我们的全球办公室和研究实验室中找到你的位置。

博客

研究成果转化

将发现转化为实际影响

人员 我们的研究人员通过基础研究和应用研究推动计算机科学的进步。

团队 协作小组攻克世界上最具挑战性的人工智能问题。

Google Research

Google AI 了解我们所有的人工智能

Google DeepMind 探索人工智能的前沿

Google Labs 尝试我们的人工智能实验

其他相关内容

研究

资源

会议与活动

职业发展

博客

关于

主页

博客

TabFM 介绍

2026 年 6 月 30 日,Google Research 研究科学家 Weihao Kong 和 Abhimanyu Das 推出了 TabFM。自推出 TimesFM 以来,人们处理时间序列预测的方式发生了巨大转变,如今将 "零样本" 逻辑引入表格数据领域。

TabFM 是全新的表格数据基础模型,旨在简化分类和回归工作流程。

快速链接

Hugging Face

GitHub

分享

在 Twitter 上分享

在 Facebook 上分享

在 LinkedIn 上分享

通过电子邮件发送

复制链接

表格数据是企业数据基础设施核心,为大量关键预测性机器学习应用提供支持,表格回归和分类任务广泛存在。多年来,有监督的基于树的算法如 AdaBoost、XGBoost 和 随机森林 在该领域占主导。

然而,部署传统模型存在显著瓶颈,应用 XGBoost 模型到新数据集需大量手动工作,数据科学家要进行超参数优化和特征工程。

机器学习领域的进展,尤其是大语言模型(LLM)的发展,改变了处理新任务的方式,LLM 通过 上下文学习(ICL)展示了零样本预测能力。

如今推出的 TabFM 专门为表格数据分类和回归设计,将表格预测视为 ICL 问题,消除了手动模型训练、超参数调整 和复杂特征工程需求,能让用户在一次前向传播中对未见过的表格生成高质量预测。TabFM 已在 Hugging Face 和 GitHub 仓库提供。

工作原理

传统机器学习范式依赖更新特定数据集分布的模型参数,而 ICL 范式绕过此过程。TabFM 不进行传统训练阶段,而是将整个数据集作为统一提示,在推理时从上下文中学习解释列和行关系。

将 ICL 应用于表格数据并非易事,标准语言模型处理一维序列,表格是二维且无序的。为处理表格结构并实现零样本预测,TabFM 整合 TabPFN 和 TabICL 等架构优势,采用三个关键机制:

交替行和列注意力:原始表格通过多层注意力模块处理,在列和行上交替应用注意力,学习丰富表示,捕捉复杂特征交互和依赖关系,完成手动特征构建工作。

行压缩:上下文处理后,每行的交叉注意力信息压缩成密集向量表示。

上下文学习(ICL):专用 Transformer 对压缩嵌入序列操作,对压缩行向量进行注意力计算,降低计算成本,确保预测高效。

TabFM 模型架构。

大规模合成数据训练

构建基础模型通常用大容量神经网络在大量多样化数据上训练,但表格机器学习缺乏高质量、多样化的开源表格数据集,工业表格含专有模式和敏感信息,无法用于预训练。

合成表格可生成大规模数据,是预训练基础模型的可行选择。TabFM 完全在数亿个合成数据集上训练,这些数据集用结构因果模型(SCM)动态生成,包含随机函数,能捕捉现实世界表格数据的分布和特征关系,使模型能泛化到未见过的现实世界表格。

性能与基准测试

为测试 TabFM 性能,在 TabArena 上评估,TabArena 根据一对一胜率计算 Elo 分数,评估涵盖 38 个分类数据集和 13 个回归数据集,样本数量 700 到 150,000 不等。

对模型两种配置进行基准测试:

TabFM:代表模型开箱即用能力,一次前向传播生成预测,无需调整或交叉验证。

TabFM - Ensemble:结合交叉特征和 SVD 特征提升性能,用非负最小二乘法求解器计算 32 路集成最优权重,分类任务还将 Platt 缩放 作为校准步骤。

有关 TabArena 全面基准测试结果,可访问 GitHub 页面。

TabArena 分类(上)和回归(下)中前 10 名模型的 ELO 评分(↑)。(D)= 默认;(T + E)= 调优 + 集成。分数越高表示性能越好。

结论

TabFM 将表格预测定义为上下文学习问题,利用混合注意力架构和大规模合成训练数据,捕捉复杂特征交互,消除传统瓶颈,优于有监督算法,将现代基础模型便利性引入表格机器学习工作流程,让从业者一次前向传播生成准确预测。

为方便使用,TabFM 正集成到 Google BigQuery 中,未来几周用户可在 BigQuery 中用简单 AI.PREDICT SQL 命令进行高级回归和分类,无需机器学习专业知识。

致谢

本项目由 Erez Louidor Ilan、Taman Narayan、Shuxin Nie、Rajat Sen、Yichen Zhou、Joe Toth、Deqing Fu 和 Samet Oymak 共同完成,感谢 Kimberly Schwede 设计图形。

标签:

数据管理

机器智能

产品

快速链接

Hugging Face

GitHub

分享

在 Twitter 上分享

在 Facebook 上分享

在 LinkedIn 上分享

通过电子邮件发送

复制链接

其他感兴趣的文章

2026 年 6 月 26 日 使用冻结多令牌预测加速 Pixel 上的 Gemini Nano 模型 机器智能 移动系统 自然语言处理

2026 年 6 月 25 日 使用线性弹性缓存优化云经济 算法与理论 数据管理

2026 年 6 月 24 日 思考以回忆:推理如何解锁大语言模型中的参数知识 生成式人工智能 机器智能 自然语言处理

关注我们

在 X 上关注我们

在 LinkedIn 上关注我们

在 YouTube 上关注我们

在 GitHub 上关注我们

探索我们的其他计划

Google AI

探索 Google AI 如何致力于丰富知识和解决复杂挑战

产品

构建

研究

责任

社会影响

关于

Google Cloud

为云计算、数据分析和机器学习提供高性能基础设施

概述

解决方案

产品

定价

资源

Google DeepMind

我们的使命是负责任地构建人工智能,造福人类

模型

研究

科学

关于

Google Labs

与 Google Labs 一起负责任地探索人工智能的未来

关于

实验

保持联系

Google

关于 Google

Google 产品

隐私政策

使用条款

Cookie 管理控制

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/2 20:28:10

log日志简介以及使用

日志介绍 日志概念:用于记录系统运行时的信息,是对一个事件的记录;日志作用 调试程序可以用来判断程序是否运行正常可以用来分析和定位问题可以用来做用户行为分析和数据统计 日志级别 调试级别DEBUG:记录一些代码的调试信息&…

作者头像 李华
网站建设 2026/7/2 20:24:31

novelWriter(开源小说创作工具

链接:https://pan.quark.cn/s/ffd28d66f4aenovelWriter是一款功能强大、易于使用的开源小说创作工具,它结合了Web应用程序和命令行工具,让写作过程变得更加高效、有序且富有乐趣。通过其强大的功能特点和跨平台支持,成为小说创作者…

作者头像 李华
网站建设 2026/7/2 20:23:48

2026医院时钟安装全流程及主流靠谱品牌选型对比指南

医院时钟安装前置准备与核心选型标准医院时钟系统是保障医疗行为时间统一、防范医患纠纷的核心基础设施,安装前的需求调研与选型标准直接关系到后续系统的稳定性与合规性。对于承接三甲医院旧院改造项目的弱电工程商来说,既要避免破墙布线影响医院正常营…

作者头像 李华
网站建设 2026/7/2 20:22:46

Rufus中文绿色版

链接:https://pan.quark.cn/s/5b852a9d098fRufus 是一个可以帮助格式化和创建可引导USB闪存盘的工具,比如 USB 随身碟,记忆棒等等。你需要把一些可引导的ISO格式的镜像(Windows,Linux,UEFI等)创…

作者头像 李华
网站建设 2026/7/2 20:22:41

100G交换机吞吐下降20%——一次DPDK Hash Cache Locality优化实战(上)

一、一次看起来"毫无异常"的性能下降某数据中心核心交换机采用DPDK构建高速转发平面。每个数据包进入Worker以后,需要完成:VLAN解析L2/L3查找Session查找ACL匹配Forward Action其中:Session采用DPDK rte_hash管理。系统上线半年一直…

作者头像 李华
网站建设 2026/7/2 20:21:20

2026年赣州刑事辩护律师从业现状与实务侧重观察

2026年赣州刑事法律事务现状与核心痛点近年来,随着法治建设的深入推进,赣州地区的刑事法律事务呈现出专业化与复杂化并存的趋势。面对刑事指控或复杂的民商事纠纷,当事人往往面临如何匹配专业资源、厘清法律关系以及应对诉讼程序等多重挑战。…

作者头像 李华