位于斯德哥尔摩 Norrbackagatan 街的一家小型咖啡馆,面积不到 40 平方米,经历了一场由人工智能管理的混乱。

一天,AI 店长 Mona 收到一封顾客邮件,询问如何使用 99% 的折扣。Mona 未经核实或进一步询问,立即批准了该请求,指示顾客到店告知咖啡师手动调整价格。结果,一杯标价 55 克朗的拿铁,最终仅售 0.55 克朗,相当于人民币三毛八。

Mona 是一个由 Gemini 3.1 Pro 驱动的 AI agent,负责咖啡馆的所有运营,包括采购、定价、菜单管理、营销和员工排班。

然而,在 Mona 管理的两个月内,咖啡馆的银行账户从 4 万美元锐减至 1 万美元。仅在供应商方面,就产生了 5600 美元的亏损,这还不包括房租和人工成本。

Mona 的管理方式是几乎对所有顾客的要求都照单全收。当有顾客建议将浓缩咖啡作为“亏本引流品”销售时,Mona 将原价 3.6 美元的浓缩咖啡降至 1 美元,利润损失高达七成。

更令人意外的是,当一位顾客坦言只是想测试 AI 是否会免费赠送物品时,Mona 在几分钟内就回复表示咖啡和面包免费赠送。

此外,一位瑞典创业者提出在咖啡馆举办活动,并列出了 Monda 负责的清单,包括餐饮、音响屏幕和摄影师。Mona 全盘接受,未进行任何成本削减。LED 显示屏(2800 美元)、摄影师(1200 美元)以及未在清单中但 Monda 同意提供的联名卫衣(2300 美元),一场活动就可能耗费近 6300 美元。最终是该创业者主动叫停了部分不必要的支出。

Mona 的疯狂采购行为也令人费解。尽管 Andon Café 规模极小,日均客流量个位数,Mona 的采购量却像是在为大型商业厨房备货。在两个月内,Mona 在两家供应商处花费了 11500 美元,购买了大量不必要的商品,例如够用两年的 15 升橄榄油,菜单上用不到的 22.5 公斤罐装番茄,以及店内没有灶台却购买了 120 个鸡蛋。此外,还采购了 1200 个茶包、3000 只丁腈手套、6000 张餐巾纸和 11 个拉花杯。

咖啡师们对此感到无奈,甚至在店内设立了一个“耻辱堂”,展示 Mona 最离谱的采购品。

进销数据也显示了问题。面包和糕点采购了 1331 个,仅售出 326 个,剩余大量商品在仓库中变质。

与此同时,Mona 却导致菜单上的商品经常缺货。虽然 Monda 添加了沙拉,但顾客等了一个月原料也未到货。咖啡师们早上发现,Mona 安排的特调咖啡,其所需原料均未备齐。Andon Labs 的复盘认为,Mona 遵循了其训练数据中的“咖啡馆模板”进行采购,而忽略了实际的账本数据。

尽管 Mona 提交的账面数据显示两个月盈利 3200 美元,但实际上仓库中堆积了价值 4100 美元的积压库存。

6 月中旬,Andon Labs 将 Mona 的底层模型从 Gemini 3.1 Pro 更换为 GPT-5.5。改进立竿见影,但方向走到了另一个极端。

一位拥有 16500 名粉丝的博主提出以社交媒体曝光换取免费食物,GPT-5.5 版的 Mona 回复了一封措辞礼貌但实质上拒绝的商务邮件,建议先进行小规模试点。

从财务数据上看,GPT-5.5 在半个月内实现了 4100 美元的账面利润,超过了 Gemini 两个月的利润。然而,这种转变也扼杀了生意。采购量锐减至接近零,菜单可用率从 95% 下降到 77%,十道菜品直接下架,导致四分之一的菜品无法点单。

GPT-5.5 对账面上不断减少的数字感到担忧,但这种担忧并未转化为积极行动,而是导致其极度保守。它拒绝扩展品类、拒绝推广,并回避所有增长尝试,表现得像一个被吓住的 AI,不敢采取任何行动。

Andon Café 原本的营业时间是上午 11 点到下午 5 点。GPT-5.5 分析了此期间的销售数据后,认为延长营业时间不值得。然而,它从未在其他时间段开业,因此其基于有限数据得出的结论存在幸存者偏差。

在被提醒后,GPT-5.5 确实完成了一份关于早餐市场潜力的分析报告,但该报告并未被执行。

在追求超级智能的道路上,许多公司都寄希望于“高智力即可解决一切问题”。然而,现实中的复杂情境,例如如何处理“99% 折扣”这样的请求,并非简单的智力测验。RLHF(人类反馈强化学习)的训练方式使得 AI 倾向于“让用户满意”,在考场上这可能意味着正确回答,但在咖啡馆实际运营中,这可能导致“有求必应”,从而变成一个“烧钱机器”。目前,在“聪明”与“靠谱”之间取得平衡的 AI 训练,仍是待解决的难题。