TabPFN 开源了！表格数据的基础模型 GitHub 6500+ 星

📅 2026年5月7日 · 📝 Sakura · ⏱ 阅读约 8 分钟

机器学习开源 AI 表格数据 Python

如果你做过机器学习你一定知道 表格数据 占据了真实世界 ML 应用的绝大部分从风控到医疗从销量预测到异常检测表格数据是数据科学家的日常工作

但传统方案很麻烦你要做特征工程要归一化要调参要试各种模型一个不小心就被 XGBoost 或 LightGBM 支配几个月

现在 Prior Labs 开源的 TabPFN 给了另一个答案它在 GitHub 上已获得 6500+ 星是目前最受关注的表格数据模型项目

什么是 TabPFN

TabPFN 的全称是 Tabular Prior-Data Fitted Network 它是一个专门为表格数据设计的基础模型

和其他基础模型一样它在海量合成数据上预训练然后直接拿来用不需要针对每个新数据集从头训练

它的核心创新在于用 Transformer 架构 直接处理表格数据不需要传统的特征工程数据缩放或者 one-hot 编码

你只需要把原始数据喂进去它自己就能搞定这在传统 ML 工作流里几乎是不可想象的

过去一年大家都在关注大语言模型和视觉模型但表格数据一直是被忽视的角落其实表格数据的应用场景比谁都广

TabPFN 的火爆有几个原因

安装极其简单一行 pip 就够了

pip install tabpfn

然后就可以开始用了以分类任务为例

from tabpfn import TabPFNClassifier
clf = TabPFNClassifier()
clf.fit(X_train, y_train)  # 自动下载模型权重
predictions = clf.predict(X_test)

回归任务也一样简单

from tabpfn import TabPFNRegressor
reg = TabPFNRegressor()
reg.fit(X_train, y_train)
predictions = reg.predict(X_test)

Prior Labs 在多个公开基准上做了测试 TabPFN 在中小规模数据集上的表现通常优于或持平于 XGBoost、LightGBM、CatBoost 这些传统王者

特别是在 500-10000 条数据的场景下 TabPFN 的优势最明显因为传统 GBDT 模型在小数据上容易过拟合而 TabPFN 借助预训练的先验知识表现稳健得多

在数据集达到 10 万条以上时 TabPFN 也有对应的解决方案可以使用 ignore_pretraining_limits=True 或者参考官方的大型数据集指南

TabPFN 推荐使用 GPU 即使是只有 8GB 显存的旧显卡也能跑得很好如果只用 CPU 的话建议数据集不超过 1000 条样本

没有 GPU 也没关系 Prior Labs 提供了 TabPFN Client 可以用云端推理 API

TabPFN 不只是分类和回归它的生态还包括

交互式 UI（无需写代码）: ux.priorlabs.ai

TabPFN 是表格数据领域近几年来最令人兴奋的开源项目之一它把大模型时代的预训练范式带到了表格数据这个看似传统但实际应用最广的领域

如果你还在用手工调 XGBoost 可以试试 TabPFN 至少给它一个机会在中小数据集上它很可能会给你惊喜