Open Generative AI:开源免费的AI视频图片生成平台 200+模型无限制
GitHub Trending 上最近杀出一个重量级选手——Open Generative AI,一天涨了 317 星,总星标已经到 14.4k。这个项目做的事情很简单:把 Runway、Pika、Kling 这些商业 AI 视频/图片平台的功能,全部用开源方式实现了,而且没有内容过滤、没有 prompt 拒绝、没有 guardrails。
说实话,第一次看到这个项目的时候我是有点震惊的。它不光能做文生图、图生图,还能做文生视频、图生视频,甚至还有 9 个专门的口型同步(Lip Sync)模型。关键是这一切都是免费的、自托管的、MIT 协议的。
目录
Open Generative AI 是什么
简单来说,Open Generative AI 是一个一站式的 AI 创作平台,把市面上主流的 AI 生成能力都整合到了一起。你可以把它理解成一个开源版的 Runway + Pika + Midjourney + Kling,而且是自托管的。
项目用 MIT 协议开源,代码在 GitHub 上。支持桌面端(macOS、Windows、Linux)和 Web 端,甚至还有个托管版本 muapi.ai/open-generative-ai 可以直接体验。
为什么这个项目值得关注
市面上的 AI 视频生成工具不少,但大多数都是商业产品,有几个共同的痛点:
- 贵:Runway 一个月 $15 起,生成几个视频就用完了;Kling 也要付费
- 限制多:内容过滤严格,有时候正常的 prompt 也会被拒绝
- 数据不安全:你的创意、你的素材都上传到了别人的服务器
- 功能分散:图片生成用一个平台,视频生成用另一个,lip sync 又得换一个
Open Generative AI 一次性解决了所有这些问题。它是免费的、自托管的、没有内容审查的,而且把所有功能整合到了一个平台里。对于内容创作者、独立开发者、甚至小团队来说,这简直是梦寐以求的工具。
核心功能一览
Open Generative AI 的功能覆盖面相当广:
- 文生图(Text-to-Image):输入文字描述,生成高质量图片
- 图生图(Image-to-Image):基于参考图片进行风格转换或修改
- 多图输入:最多支持 14 张参考图片同时输入,做风格融合或一致性生成
- 文生视频(Text-to-Video):从文字描述直接生成视频片段
- 图生视频(Image-to-Video):让静态图片"动起来"
- 口型同步(Lip Sync):9 个专门的模型,让视频人物的嘴型和音频匹配
- Cinema 模式:专业级的视频制作工作流
这些功能覆盖了从创意到成品的完整链路。你可以先用文生图出概念图,再用图生视频做成动态效果,最后用 lip sync 加上配音——整个过程都在一个平台里完成。
支持的 200+ 模型
这是 Open Generative AI 最让人印象深刻的地方。它不是只支持一两个模型,而是集成了 200 多个 不同的 AI 模型,包括但不限于:
- Flux 系列:当前最强的开源图片生成模型之一
- Midjourney 风格模型:社区微调的各种风格化模型
- Kling:快手的视频生成模型
- Sora / Veo:OpenAI 和 Google 的视频生成模型
- Seedream:字节跳动的图片生成模型
- Wan 2.2:阿里的视频生成模型
- Z-Image Turbo(2.5GB):轻量级高速图片生成
- Dreamshaper 8(2.1GB):经典的人像和艺术风格模型
- SDXL Base(6.9GB):Stability AI 的高分辨率模型
不同的模型适合不同的场景。想要写实风格?用 Flux 或 SDXL。想要动漫风格?有专门的微调模型。需要快速出图?Z-Image Turbo 只要 2.5GB 显存就能跑。
和商业平台对比
直接上表:
| 特性 | Open Generative AI | Runway | Pika | Kling |
|---|---|---|---|---|
| 价格 | 免费 | $15-76/月 | $10-58/月 | 按量付费 |
| 开源 | 是(MIT) | 否 | 否 | 否 |
| 自托管 | 是 | 否 | 否 | 否 |
| 内容过滤 | 无 | 严格 | 严格 | 严格 |
| 模型数量 | 200+ | 有限 | 有限 | 有限 |
| 图片生成 | 是 | 有限 | 否 | 否 |
| 视频生成 | 是 | 是 | 是 | 是 |
| Lip Sync | 9 个模型 | 有限 | 有限 | 否 |
| 数据隐私 | 本地处理 | 云端 | 云端 | 云端 |
差距一目了然。商业平台的优势主要在于"开箱即用"和"不需要硬件",但如果你有一张像样的显卡(8GB+ 显存),Open Generative AI 的体验完全不输它们,甚至在某些方面更强。
安装和部署
Open Generative AI 提供了两种安装方式,都很简单。
方式一:桌面应用(推荐)
直接下载对应平台的安装包,一键安装:
- macOS:支持 Apple Silicon(M1/M2/M3/M4)和 Intel
- Windows:标准 exe 安装包
- Linux:AppImage 或 deb 包
去 GitHub Releases 页面下载对应版本就行。
方式二:从源码构建
如果你想自己编译,或者需要定制化:
# 克隆仓库
git clone https://github.com/Anil-matcha/Open-Generative-AI.git
cd Open-Generative-AI
# 安装依赖
npm install
# 构建并运行
npm run build
npm start
方式三:使用托管版本
不想折腾本地部署?直接访问 muapi.ai/open-generative-ai 就能用。不过这样就失去了自托管的数据隐私优势。
本地引擎详解
Open Generative AI 内置了两个本地推理引擎,这是它能做到"完全本地化"的关键:
sd.cpp(内置,C++)
这是一个用 C++ 写的 Stable Diffusion 推理引擎,类似 llama.cpp 的思路——直接编译成原生二进制,不需要 Python 环境。它的特点是:
- 开箱即用:桌面应用已经内置了,不需要额外安装
- 依赖少:不需要 Python、不需要 PyTorch、不需要 CUDA toolkit
- 启动快:原生二进制,启动速度比 Python 方案快得多
- 显存友好:针对低显存做了优化
适合快速体验和轻度使用。支持的模型包括 Z-Image Turbo(2.5GB)、Dreamshaper 8(2.1GB)、SDXL Base(6.9GB)等。
Wan2GP(自带服务器,Python + PyTorch)
这是一个基于 Python 和 PyTorch 的推理引擎,功能更强大,支持更多的模型和更高级的特性:
- 模型支持更广:支持 Wan 2.2、Kling、Sora 等视频生成模型
- 性能更强:充分利用 CUDA 加速
- 灵活度高:可以自定义推理参数
你需要自己运行 Wan2GP 服务器,然后在 Open Generative AI 里配置连接地址。
# 克隆 Wan2GP
git clone https://github.com/Anil-matcha/Wan2GP.git
cd Wan2GP
# 安装依赖
pip install -r requirements.txt
# 启动服务器
python server.py --port 8080
然后在 Open Generative AI 的设置里,把本地引擎地址指向 http://localhost:8080 就行了。
Lip Sync 口型同步工作室
这是 Open Generative AI 的一个亮点功能。它内置了一个完整的 Lip Sync Studio,集成了 9 个专门的口型同步模型。
Lip Sync 的用途很广:
- 虚拟主播:让虚拟角色的嘴型和语音匹配
- 视频翻译:把视频翻译成其他语言,同时调整嘴型
- 配音对口型:给已有的视频配上新的音频
- 短视频制作:让 AI 生成的人物"说话"
传统的 lip sync 工具(比如 Wav2Lip)往往需要单独安装、单独配置,而且效果参差不齐。Open Generative AI 把 9 个模型整合到了一起,你可以在同一个界面里对比不同模型的效果,选最好的那个。
实际使用示例
文生图示例
在 Open Generative AI 的界面里,选择"Text-to-Image"模式,输入 prompt:
A cyberpunk city at night, neon lights reflecting on wet streets,
a lone figure walking with an umbrella, cinematic lighting,
8k, ultra detailed
选择模型(比如 Flux),点击生成,几秒钟就能得到一张高质量的图片。
图生视频示例
先生成一张图片,然后切换到"Image-to-Video"模式,上传刚才的图片,输入运动描述:
Camera slowly panning right, rain falling, neon signs flickering,
the figure walking forward
选择视频生成模型(比如 Kling 或 Wan 2.2),就能得到一个 3-5 秒的视频片段。
Lip Sync 示例
准备好一个视频(有人脸的)和一段音频,进入 Lip Sync Studio,上传两者,选择模型,生成。视频里的人就会"说出"音频里的内容,嘴型完美匹配。
多图输入示例
Open Generative AI 支持最多 14 张参考图片 同时输入。这个功能可以用来:
- 角色一致性:提供多张同一角色的参考图,生成保持一致的新图片
- 风格融合:混合多种风格的参考图,创造独特的视觉效果
- 产品展示:同一产品不同角度的图片,生成新的展示视频
生态和相关项目
Open Generative AI 不是一个孤立的项目,它有一个小型的生态系统:
- Generative-Media-Skills:为 Claude Code 和 Codex 设计的 AI 生成媒体技能包,可以在编程助手的上下文里直接调用生成能力
- Vibe-Workflow:节点式的工作流编辑器,让你像搭积木一样组合不同的生成步骤
- AI-Youtube-Shorts-Generator:专门用于生成 YouTube Shorts 的 AI 工具
这些项目互相配合,形成了一个从"创意"到"成品"的完整工具链。特别是 Vibe-Workflow 的节点式工作流,让你可以把多个生成步骤串起来,实现自动化的批量生产。
总结
Open Generative AI 是 2026 年开源 AI 领域最值得关注的项目之一。它做到了几件以前没人做到的事情:
- 真正的一站式:图片、视频、lip sync 全部整合在一个平台里,不用在多个工具之间来回切换
- 真正免费:MIT 协议,没有订阅费、没有按量计费、没有隐藏收费
- 真正开放:200+ 模型,没有内容过滤,没有 prompt 审查,创作者的创意完全自由
- 真正可自托管:数据不出本地,隐私完全可控
当然它也不是完美的。本地部署需要一定的硬件门槛(至少 8GB 显存的 GPU 才能流畅体验),模型下载也需要不少磁盘空间。但和商业平台动辄每月几十美元的订阅费比起来,这点硬件投入是值得的。
如果你是内容创作者、独立开发者、或者只是对 AI 生成感兴趣的人,强烈建议去看看这个项目。14.4k stars 不是白来的,社区的热度说明了一切。
项目地址:github.com/Anil-matcha/Open-Generative-AI
相关阅读:更多 AI 工具评测 | AI 工具大全