以往,人工智能领域的竞争焦点集中在“谁拥有最先进的模型”。模型参数、推理能力和基准测试排名几乎构成了所有 AI 公司发布会的核心内容。无论是 OpenAI、Anthropic,还是智谱、MiniMax、月之暗面,它们在介绍自身时都遵循着相似的模式。在第一代大型模型公司中,“模型越智能,公司价值越高”是普遍存在的叙事。

然而,这种叙事正在发生转变。以 MiniMax M3 的发布为例,其最引人注目的内容不再仅仅是模型本身的能力,而是 BrowserComp、SWE Bench、Terminal Bench、OSWorld 和 MCP Atlas 等一系列新概念。这些新概念的共同之处在于,它们关注的不再是模型“知道什么”,而是模型“能够做什么”。

许多人将这一变化解读为“Agent”的出现。但若将时间线拉长,会发现 M3 更值得关注的并非 Agent 本身,而是 MiniMax 对自身价值定位的重新审视。公司开始尝试解答一个过去行业鲜少认真面对的问题:“一家 AI 公司真正销售的,究竟是什么?”

第一代 AI 公司,销售的是“智能”

在过去几年里,竞争逻辑异常简单:模型的性能即产品,基准测试即价值。MMLU、GSM8K、HumanEval、LiveCodeBench 等测试不仅是技术评测,更成为业界普遍认可的价值衡量标准。如同 CPU 有 SPEC,GPU 有 MLPerf,数据库有 TPC 一样,成熟的产业需要统一的标准来评估产品价值、指导采购决策,并帮助资本形成共识。因此,模型参数规模和排行榜名次成为理解一家 AI 公司最直接的途径。在这一阶段,模型本身就是商品。

MiniMax M3 的发布中,一个容易被忽视的细节是,MiniMax 大量篇幅介绍了另一类能力。SWE Bench、BrowserComp、Terminal Bench、OSWorld 和 MCP 等基准测试,其共同点在于它们很少关注模型是否能回答问题,而是更侧重于模型能否修复实际 Bug、独立完成网页操作、调用开发环境、连接企业系统,以及完成一项完整的工作。

换句话说,基准测试的评价对象发生了变化。过去评价的是“智能”(Intelligence),现在评价的是“任务完成度”(Task Completion)。模型首次开始接受“岗位考核”,而非仅仅“知识考试”。这不仅是评测体系的转变,更是 MiniMax 向市场传递的一个信号:模型能力依旧重要,但真正决定商业价值的将是其“工作能力”。

MiniMax 为何开始强调“工作”?

过去,大型模型的主要客户是开发者。开发者购买的是模型的能力,他们关心模型是否更智能,能否解决更复杂的问题。但企业客户不同,企业在采购 AI 时,很少关注模型在排行榜上的具体位置。企业真正关心的是 AI 能帮助其完成多少工作、节省多少人力、融入多少流程、提升多少效率。

因此,产品表达方式也随之改变。Browser 不再仅仅是浏览器能力,而是融入办公流程;Coding 不再只是代码生成,而是进入研发流程;Terminal 不再是简单的 Linux 命令,而是接入开发环境;MCP 也不再是简单的协议,而是能够对接企业现有的软件系统。将这些能力整合来看,MiniMax 希望展示的已不再是单一模型,而是一套“工作流能力”。

从 Token 到 Workflow

许多人仍将 AI 公司视为 API 提供商,收入主要来自 Token 计费,调用次数越多,收入越高。这是第一代 AI 的商业模式。但如今,一种新的趋势正在显现:越来越多的企业购买 AI,并非为了获得更多回答,而是为了完成更多工作。修复一个 Bug、整理一次会议、处理一张工单、分析一份合同、完成一次网页操作,这些任务的价值单位正在发生转变。过去,一次调用对应一个“回答”,现在,一次调用越来越对应一项“任务”。

MiniMax M3 的产品设计也越来越围绕这一逻辑展开。模型成为底层基础,而“工作流”(Workflow)则成为产品。将 M3 置于整个行业背景下观察,会发现它代表了一种新的产品叙事。越来越多的 AI 公司开始证明其“工作能力”。

这种变化并非 MiniMax 独有。Claude Code 强调开发工作流;OpenAI 的 Operator 和 Computer Use 关注任务执行;Google 则不断强化 Gemini 在 Workspace 和浏览器中的协同能力。整个行业正围绕一个新的竞争维度展开:工作流和生产力。

为何这种变化值得资本关注?

资本市场真正关注的始终是技术如何转化为持续的收入,而非技术领先本身。模型能力可以构建技术壁垒,但“工作流”更容易构建商业壁垒。一旦工作流被企业采用,就意味着数据沉淀、流程绑定、员工习惯的养成以及系统集成。这些都将带来更高的续费率、更强的客户黏性以及更稳定的商业模式。

因此,越来越多的 AI 公司开始将产品叙事从模型能力转向工作能力。这并非放弃模型,而是在寻求模型之外更长期的价值来源。从更宏观的视角来看,M3 最值得关注的并非某个具体的基准测试,而是 MiniMax 对未来竞争对手的重新定义:从另一个模型公司,转变为企业的工作入口、浏览器、IDE、Office、ERP、CRM 等。

企业的数据不会沉淀在一次简短的对话中,而是最终沉淀在日常的工作流程里。谁能更好地融入更多工作流,谁就拥有更坚实的商业基础。从这个意义上讲,MiniMax 未来面对的竞争对手,不仅包括 OpenAI 或 Anthropic,更包括所有定义企业工作方式的软件平台。

尾声:一家 AI 公司价值重构的开端

如果说过去的大模型竞争围绕“智能”展开,那么今天,MiniMax M3 展示的是一种不同的竞争逻辑。模型依然重要,但它正从产品转变为基础设施。真正走到台前的是模型如何进入企业、连接软件、完成工作。

对于 MiniMax 而言,这或许比一次基准测试排名更为重要。因为它意味着公司开始尝试回答一个新问题:当模型能力逐渐趋同时,一家 AI 公司还能依靠什么建立长期价值?M3 给出的答案,不是更多的参数或排行榜,而是更多真实的工作场景。这或许也是 AI 行业进入下一阶段最重要的信号。

未来,决定一家 AI 公司价值的,将不仅仅是模型有多么智能,而是它能够帮助企业重组多少生产力。