TabPFN 开源了!表格数据的基础模型 GitHub 6500+ 星

📅 2026年5月7日 · 📝 Sakura · ⏱ 阅读约 8 分钟

机器学习 开源 AI 表格数据 Python

如果你做过机器学习你一定知道 表格数据 占据了真实世界 ML 应用的绝大部分 从风控到医疗 从销量预测到异常检测 表格数据是数据科学家的日常工作

但传统方案很麻烦 你要做特征工程 要归一化 要调参 要试各种模型 一个不小心就被 XGBoost 或 LightGBM 支配几个月

现在 Prior Labs 开源的 TabPFN 给了另一个答案 它在 GitHub 上已获得 6500+ 星 是目前最受关注的表格数据模型项目

什么是 TabPFN

TabPFN 的全称是 Tabular Prior-Data Fitted Network 它是一个专门为表格数据设计的基础模型

和其他基础模型一样 它在海量合成数据上预训练 然后直接拿来用 不需要针对每个新数据集从头训练

它的核心创新在于 用 Transformer 架构 直接处理表格数据 不需要传统的特征工程 数据缩放 或者 one-hot 编码

你只需要把原始数据喂进去 它自己就能搞定 这在传统 ML 工作流里几乎是不可想象的

为什么它突然火了

过去一年大家都在关注大语言模型和视觉模型 但表格数据一直是被忽视的角落 其实表格数据的应用场景比谁都广

TabPFN 的火爆有几个原因

怎么用 TabPFN

安装极其简单 一行 pip 就够了

pip install tabpfn

然后就可以开始用了 以分类任务为例

from tabpfn import TabPFNClassifier
clf = TabPFNClassifier()
clf.fit(X_train, y_train)  # 自动下载模型权重
predictions = clf.predict(X_test)

回归任务也一样简单

from tabpfn import TabPFNRegressor
reg = TabPFNRegressor()
reg.fit(X_train, y_train)
predictions = reg.predict(X_test)

性能怎么样

Prior Labs 在多个公开基准上做了测试 TabPFN 在中小规模数据集上的表现通常优于或持平于 XGBoost、LightGBM、CatBoost 这些传统王者

特别是在 500-10000 条数据的场景下 TabPFN 的优势最明显 因为传统 GBDT 模型在小数据上容易过拟合 而 TabPFN 借助预训练的先验知识表现稳健得多

在数据集达到 10 万条以上时 TabPFN 也有对应的解决方案 可以使用 ignore_pretraining_limits=True 或者参考官方的大型数据集指南

硬件要求

TabPFN 推荐使用 GPU 即使是只有 8GB 显存的旧显卡也能跑得很好 如果只用 CPU 的话 建议数据集不超过 1000 条样本

没有 GPU 也没关系 Prior Labs 提供了 TabPFN Client 可以用云端推理 API

进阶功能

TabPFN 不只是分类和回归 它的生态还包括

🚀 试试 TabPFN 吧

GitHub: github.com/PriorLabs/TabPFN

官方文档: priorlabs.ai/docs

Colab 上手: 一键运行笔记本

交互式 UI(无需写代码): ux.priorlabs.ai

总结

TabPFN 是表格数据领域近几年来最令人兴奋的开源项目之一 它把大模型时代的预训练范式带到了表格数据这个看似传统但实际应用最广的领域

如果你还在用手工调 XGBoost 可以试试 TabPFN 至少给它一个机会 在中小数据集上它很可能会给你惊喜

相关链接

本文发布于 EasyTool.me · 如需转载请联系作者