Interfaze:专为高精度大规模推理设计的新型 AI 模型架构
Published: 2026-05-11 Reading: 5 min AI 架构
English Version | Interfaze 官方博客
AI 行业一直卡在一个尴尬的妥协上:通用 Transformer 模型很强,但在确定性任务上精度不够;专用 DNN/CNN 模型很准,但不灵活。来自 JigsawStack 团队的 Interfaze 声称解决了这个问题 — 它把两者融合成一个混合系统,而且基准测试结果确实能打:在 OCR、视觉、语音转文字和结构化输出的 9 项对比测试中全面领先 Gemini-3-Flash、Claude-Sonnet-4.6、GPT-5.4-Mini 和 Grok-4.3。
问题出在哪:我们一直在用错模型
想象一下让一个人去读 50 页 PDF,把每个字映射到另一份文档的 XY 坐标,再翻译成中文。你会得到大量错误、付出高额成本、等很久才能拿到结果。Transformer 模型其实也差不多 — 它们擅长理解和推理,但也会犯"人类式"的错误。
而 CNN 和 DNN 从 90 年代初就存在了 — 从 LeNet-5 到 ResNet 再到 CRNN-CTC。这些深度神经网络架构专门针对 OCR、翻译或 GUI 检测等任务优化,因为它们处理数据的方式就是为特定任务训练的,所以在各自领域精度比通用模型高 100 倍。它们还能输出边界框、置信分数等元数据,让开发者构建可预测、可依赖的工作流。
那为什么大家还是习惯性地用 Transformer/LLM 做确定性任务?因为 DNN 不够灵活,只能处理训练数据覆盖的场景,无法处理需要人类理解力的任务,而且为新任务维护和重新训练成本很高。CNN 能从护照上提取出生日期并给出边界框和置信分数,但它算不出这个人多少岁。
Interfaze 怎么做的:混合架构
Interfaze 的核心思路是把 DNN/CNN 的专用能力与全能 Transformer 融合到一个共享向量空间里。关键洞察:精度和灵活性不必二选一,可以同时拥有。
架构包含三个核心部分:
- 任务专用 CNN/DNN 编码器 — 处理 OCR、目标检测、GUI 检测等视觉任务,输出边界框、置信分数和结构化元数据
- Transformer 层 — 负责推理、翻译和结构化输出生成,利用共享向量空间直接访问 CNN 编码器的感知数据
- 部分模型激活 — 只激活任务需要的模型部分(比如纯 OCR 模式),单任务请求更快更便宜
这意味着单个请求就能同时完成 OCR 和目标检测,返回完整文本加上每个图形的像素坐标边界框 — 全部按你指定的 JSON Schema 输出。
基准测试:全面领先
Interfaze 对标的是开发者最常用的 flash/mini 级模型:
- OCRBench V2:70.7% vs Gemini-3-Flash 的 55.8% — 领先 15 个百分点
- olmOCR:85.7% vs Gemini-3-Flash 的 75.3%
- RefCOCO(目标检测):82.1% vs Gemini-3-Flash 的 75.2%
- VoxPopuli 语音转文字(词错率):2.4% vs Gemini-3-Flash 的 4.0%
- Spider 2.0-Lite(结构化输出):52.9% vs Claude-Sonnet-4.6 的 49.6%
- GPQA Diamond(推理):89.9% — 与 Claude-Sonnet-4.6 持平
- MMMLU(多语言):90.9% vs Gemini-3-Flash 的 88.7%
- MMMU-Pro:71.1% vs Gemini-3-Flash 的 67.6%
目标不是取代 Claude Opus 4.7 或 GPT-5.5 这类前沿模型做复杂推理,而是在精度和成本最关键的确定性任务上做到最好。
Interfaze vs Transformer vs Mamba:核心差异
要理解 Interfaze 的定位,需要对比 2026 年两大主流架构范式:
对比 Transformer(GPT、Claude、Gemini)
标准 Transformer 在整个上下文窗口内做自注意力计算,擅长长程推理和创意任务,但"通用"的特性意味着它用精度换灵活性。Interfaze 的混合方案保留了 Transformer 层做推理,同时加入了专用 CNN/DNN 编码器处理感知任务 — 两全其美。
对比 Mamba(状态空间模型)
Mamba 和其他 SSM 架构提供线性时间推理(O(n) vs Transformer 的 O(n²)),在长序列上效率很高,但在复杂推理任务上还没有 Transformer 那样经过验证的记录。Interfaze 走了另一条效率路径:不是替换 Transformer,而是用可独立激活的任务专用模块来增强它,在不牺牲推理质量的前提下提升确定性任务的效率。
共享向量空间的优势
Interfaze 最关键的区别在于 CNN 编码器和 Transformer 层共享向量空间。OCR 编码器的感知数据(边界框、置信分数)可以直接被 Transformer 推理层访问,不需要额外的交叉注意力或独立推理步骤。这就是为什么单个 Interfaze 请求能同时提取文本并进行推理(比如"从护照上算出这个人的年龄")。
结构化输出:被忽视的基准
现在大多数 LLM 能遵循 JSON Schema,但填入的值经常不准确。没有公开基准测量这个 — 所以 Interfaze 团队发布了 SOB(Structured Output Benchmark),它把正确答案放在上下文中,然后让模型生成结构化 JSON 输出,测量跨文本、图像和音频模态的值准确度和幻觉率。
Interfaze 在 SOB 上得分 79.5%,超过 Gemini-3-Flash(77.3%)、Claude-Sonnet-4.6(77.9%)、GPT-5.4-Mini(75.1%)和 Grok-4.3(78.4%)。
实际应用场景
- 复杂 OCR + 目标检测 — 密集多栏文档配插图,单个请求同时完成文字提取和像素坐标边界框
- 网页信息提取 — 内置 Web 索引,支持结构化数据富化(公司信息、人物查找)并按 Schema 输出
- 语音转文字 — 每秒计算处理 209 秒音频,比 Deepgram Nova-3 快 ~1.5 倍,比 Scribe v2 快 ~8 倍,比 Gemini-3-Flash 快 ~11 倍
- 翻译 — 多语言性能与前沿模型持平,同时享有混合架构的精度优势
快速上手
Interfaze 兼容 Chat Completions API 标准 — 任何支持 OpenAI 的 AI SDK 都能直接用,指向 https://api.interfaze.ai/v1 即可:
import OpenAI from "openai";
const interfaze = new OpenAI({
baseURL: "https://api.interfaze.ai/v1",
apiKey: "<your-api-key>",
});
定价与 Gemini-3-Flash 同档:输入 $1.50/百万 token,输出 $3.50/百万 token。100 万 token 上下文窗口和 3.2 万 token 最大输出覆盖大部分文档级任务。
为什么这对 2026 年很重要
AI 行业正在走过"一个模型打天下"的阶段。Interfaze 代表了一个明确趋势:用混合架构把专用编码器和通用推理能力结合起来。与其让一个 Transformer 既当感知引擎又当推理引擎,不如为每种任务构建合适的工具,通过共享表示连接起来。
对于需要从文档、图像和音频中获取可靠、准确、结构化输出的开发者 — 尤其是大规模、成本敏感的场景 — Interfaze 值得认真评估。基准测试上的差距不是边际改进,而是 OCR 上 15+ 个百分点的领先和结构化输出上的两位数精度提升。
这种架构也指向一个更大的转变:按需激活任务专用模型组件,而不是每个请求都加载完整模型。这种"部分激活"的方式可能会重塑我们在 2026 年及以后对模型服务成本和延迟的思考方式。