今天看了一期 Every 的播客 AI & I
这期的嘉宾分量很足,是 Anthropic Labs 负责人 Mike Krieger。
很多人对这个名字更熟悉的身份可能是 Instagram 联合创始人。他在 Anthropic 当了几年 CPO,最近转去带 Labs 团队,重新回到了一线动手做东西的状态。
录制的时间点也很微妙,就在 Claude Fable 5 发布的前一天。Mike 内部用这个模型已经两个月了。所以这期聊的是一个团队天天用它干活之后,沉淀下来的真实体感。哪些事真的变了,哪些事其实没变。这种信息比跑分有用得多。
旧的使用方法在新模型面前没用了
Mike 说他第一次内部用上这个模型的时候,有一个挺奇怪的感受。他觉得自己像个彻头彻尾的 AI 使用新手,旧的使用方法在新模型面前没用了。
要知道这个人写了十几年代码,做过亿级用户的产品,在 Anthropic 天天泡在最前沿的模型里。但他发现,自己拆解任务的方式、写提示词的习惯,在新模型面前全过时了。
过去跟模型协作,节奏是小步快走。我有个功能的想法,你先帮我做第一步。现在这么用反而是浪费,正确的姿势是把完整的意图一次性交代清楚,然后放手。
他现在的日常是这样的。晚上跟 Claude 道一声晚安,把一个相当复杂的任务交代下去,第二天早上醒来,活已经干完了。通常凌晨两点就完事了,剩下四个小时模型大概在干等着。
更有意思的是中间出岔子的处理方式。有一次任务跑到一半,依赖的某个远程服务挂了。模型没有停下来等人,而是自己写了一个临时的后端脚手架顶上,记下这件事,等服务恢复了再回头修。整个过程有文档,有交代。
这背后其实是协作模式的迁移。从工具,到副驾驶,到现在更像一个可以托付完整任务的队友。变的是你敢把多大的事交给它,然后去睡觉。
一步到位的 App 制作
节目里 Mike 演示了一个他周末搭的小东西,一个个人媒体追踪器。记录自己在玩什么游戏、看什么剧、收到了什么推荐。听起来平平无奇,这种东西二十年前就能做。但有两个细节值得细看。
第一个细节是成本。Mike 回忆 Instagram 第一版,他自己当年算是相当能打的程序员了,前后端全包,Kevin 做滤镜,连干五个通宵才上线。而这个媒体追踪器,是他在一个排满了带娃行程的周末里,见缝插针做出来的。出发去爬山前把任务派下去,爬完山回来收活。
第二个细节更有意思。这个 App 能从内部修改它自己。界面上有个聊天入口,平时用来加内容,跟 Claude 说一句话,它去做联网搜索然后把条目加进来,再也不用在菜单里点来点去。但长按这个入口,它会变成另一个东西:一个改软件本身的入口。
Mike 有天在手机上觉得悬浮按钮的位置太低了,直接在 App 里说了一句,后台的 Agent 接到请求,改代码,给他一个预览,确认后生效。软件的使用者、需求方和开发团队,第一次在同一个界面里闭环了。
他管这个叫 agent-native 架构的极致形态:
- 第一阶段:产品里每个功能都能被 Agent 调用
- 第二阶段:Agent 能修改产品本身
还有一个故事我印象很深。Anthropic 内部一位做招聘的同事,完全不是技术背景,用内部工具搭了自己的工作系统之后跟 Mike 说,这是她人生中第一次感觉到,脑子里想的东西和世界上存在的东西,挨得这么近。放在四五年前,这个人想要一个内部工具,要么凑合,要么去排一个手上压着五十个需求的内部工具工程师的队。

软件工程结束了吗?
主持人 Dan 把这个问题直接抛了出来。Mike 的回答是,没结束,但已经面目全非。
如果在 Instagram 时代问他什么是软件工程,他会说:想清楚难题,设计架构,然后在编辑器里泡很长时间把代码敲出来,上线后修 Bug。这里面属于敲代码的那部分,基本已经翻篇了。
他没有回避这里面的失落感。他说很多优秀的工程师会做关于代码的梦,半夜梦见一个优雅的解法,早上醒来兴奋地去实现。这种体验正在消失。身边最好的那批工程师,一边为失去这种手艺感到难过,一边又为自己能干的活的量级翻了几番而兴奋。两种情绪同时装在脑子里,他觉得这很正常。
那 Anthropic 内部现在怎么干活?几个细节拼起来挺有画面感的:
- 每个人手下跑着好几个 Claude,但每块业务依然有明确的人来负责,他们叫 DRI。原因很简单,有些上下文只在人脑子里:这个产品真正的意图是什么,别的产品线在憋什么大招,这两件事会怎么交汇。这部分 AI 拿不走
- 几乎每个工程师都给自己搭了一个仪表盘,看自己的几个 Claude 都跑到哪了,哪个 PR 在等自己。管理 AI 的工作,本身成了一项工作
- 老观念的翻新:硅谷有句老话叫"code wins arguments"(代码赢得争论)。Mike 说他一直不太喜欢这句话,因为这等于说会写代码的人天然该赢。但现在团队里吵产品方向,经常是 PM 先动手,扔出来一句:"我试了一版,有八个地方很糙,但你们看,这个思路是跑得通的。"原型还是赢得争论,只是动手的门槛不再属于某个工种了
Fable 5 带来的两个新特点
整期听下来,如果说构建这件事的难度在坍塌,那有两样东西的权重在明显上升。
模型自己长出来的判断力
Mike 说 Fable 5 最让他惊讶的是它有了系统感。写完一段代码会主动提醒:"这个东西上了生产环境得改,你那个 feature flag 还没开,不开是跑不起来的。"隔了几天的会话里还会追着问:"你到底开了没有?"
更绝的是 code review 环节。收到评审意见,以前的模型是膝跳反应式的,"对对对我马上改"。现在它会想一会儿,然后说:"我理解你的意思,但我想了想,不同意,理由如下。"评审它的往往也是另一个 Fable。两个模型在 PR 下面有理有据地对峙,这画面想想挺科幻的。
周末线上出了内存泄漏,它的处理是:现在是周末,先把服务重启了顶住,长期修复我开个 PR 异步做。这是一个老练 SRE 的判断,不是一个执行器的判断。
人的验证责任
另一个权重上升的东西,是人的验证责任。
Mike 现在给自己立的规矩是,Claude 提交的每个 PR 必须附上截图或者录屏。模型干了两个小时活回来说做完了,光说做完了没用,要给一整套界面截图,人扫一眼就能发现:"这个报错状态的设计我不喜欢,改。"
他还在试验给模型喂视频。让 Claude 看自己做出来的界面的录屏,配上 ffmpeg,它自己逐帧检查,然后说"这个动画有点卡顿,我去修"。这种问题截图永远抓不到。
但验证的尽头是一条没法外包的线:你最终要为交付的东西负责。
Mike 描述了一个内部已经开始出现的新尴尬。开会时有人说"我这个 PR 准备好了",旁边人问了句"那你处理 X 情况了吗"。那个人愣了一下说"我还真不确定,合并前我去确认一下"。代码可能是 Claude 写的,但站在会议室里回答问题的,还是人。怎么跟这种新常态相处,所有团队都在摸索。
总结
这期播客里最有价值的是 Mike 反复说的一个点:模型使用的方法变了。
从怎么做出来,挪到了交代清楚意图、设计好验证、并为结果负责。模型每升级一代,就有一批人发现自己的老用法过时了。连 Anthropic Labs 的负责人都会在新模型面前觉得自己是新手,那我们普通用户感到不适应,太正常了。
苏米注:不适应不是问题,拿旧姿势用新模型才是。这是 AI 时代最核心的能力差异——不是谁会用工具,而是谁能快速适应工具的进化。