和AI一起搞事情#3:Claude Teammate 游戏开发翻车实录
2026/6/23 11:34:09
网站开发
AI时代每个人都是一个团队”吗经过这一期做游戏的尝试我的观点是“分情况别激动”, 在以下两个场景AI能给你带来无得价值吃过猪肉技能增强我是搞算法的所以围绕算法站的的场景从产品到设计到算法到前后端甚至运营和测试有AI加持我能全链路操作如鱼得水。看过猪跑目标极度具象比如你没做过动画但你对“我想要什么效果”已经能在脑海里很清楚地构建出来。目标可描述、效果可感知差距可衡量。那跨界只会带来不被传统局限的无穷创意。哈哈但做游戏我纯属是脑袋一热小时候没咋玩过游戏那咱直接跳过玩游戏来做个游戏呗所以我属于及没吃过猪肉也没见过猪跑于是这里就埋下了灾难的种子。step1. 澄清需求说实话一开始我也不知道我要做个啥游戏。我给模型的需求大概是“我想做一个 AI-oriented 的中医学习游戏。”我开启了/plan模式大致提了需求然后——完全放手让AI去做了。事实证明这是一切灾难的开始。这里必须敲黑板对于有一定复杂度的项目写代码并不是最核心的部分澄清需求才是。需求要澄清到什么程度至少要做到开发提不出异议设计提不出异议测试知道怎么验收最关键的是你自己知道你到底想要什么否则后面所有“高效开发”本质上都是高效地朝错误方向狂奔。事实证明楼歪得太狠的时候是无法扶正的。step2. 开始组队终于轮到“一个人拥有一个AI团队”的梦幻环节了为了提高项目进度我开启了 Claude 的teammate 模式设置了三个角色前端开发负责写代码设计师负责页面设计和药材/饮片内容绘制数据工程师负责游戏药物相关的数据 schema在我当时的想象里这三位同事应该是边界清晰、分工明确、各司其职、高效协同而从结果回溯当需求文档本身充满漏洞时早在他们写下各自技术细分文档时楼就已经歪了。Teammate 适合什么场景我目前觉得它的前提是多Agent之间必须基本独立工作边界非常清晰。适合的情况大概有两种要的就是不同:在以下场景下差异本身就是价值。从不同角度分析同一个问题基于不同假设同时做实验多方案并行探索分工真的很明确在以下场景下团队写作才有提效空间采集不同类型的数据不同工种处理完全不同模块前后依赖少冲突少整体上我现在对 teammate 的判断是它更擅长提效不太擅长提质。我目前觉得它的前提是多Agent之间必须基本独立工作边界非常清晰。适合的情况有两种差异本身就是价值从不同角度分析同一个问题基于不同假设同时做实验多方案并行探索分工明确切边界清晰采集不同类型的数据不同工种处理完全不同模块前后依赖少冲突少整体上我现在对 teammate 的判断是它更擅长提效不太擅长提质。Teammate 模式是怎么工作的Claude 的 teammate 模式目前还是 beta需要在项目配置中增加以下变量{ env: { CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS: 1 } }整个工作流大致是这样的TeamCreate创建团队其实就是同时创建多个subagent并为每个智能体设定角色职责任务命令必要上下文创建后你可以在./claude/teams/团队名称/config.json里看到所有队员的配置和指令。TaskCreate拆任务这一步就是plan的具象化升级版工具但更进一步它会把任务拆成任务列表。这里面既包含可以并行执行的任务也包含必须串行推进的任务而具体任务之间有没有依赖、谁先做谁后做主要由Team Leader来判断和分配。Task启动任务其实是subagent的启动工具用于告知某个子智能体开始执行对应任务。看Claude刚开源的代码Task其实是todo系列的一整个套件整个触发链路如下Message MailBox多个独立智能体通过信箱互相通信和 Team Leader 汇报情况。子Agent可以互相发消息子Agent可以向Leader汇报Leader也可以广播状态检查或任务通知step3. AI端到端测试真正难的不是开发而是测试AI开发最核心的部分真的不是开发而是测试。决定一个项目短期内能不能成功的关键是你能不能把这条链路跑通AI写代码 → AI测试 → AI拿反馈 → AI继续优化对于游戏这种东西如果靠人手工验收那简直是灾难所以我设计了一套 AI 端到端测试流程前后端基础回归测试Playwright 功能测试AI 多模态模型视觉测试并生成统一报告reports/AI端到端游戏测试报告.md经过一夜五花八门的报错与修复我们终于得到了近乎 100% 的测试通过报告看到这里我当时心情大概是“稳了这波成了。”结果打开实际游戏一看血压都飙到150。得就是下面看似花里胡哨实际毫无策略的游戏成果哈哈后续我尝试挽大厦于将倾我质疑AI游戏的可玩性学习的系统性经过了长达一天的反反复复AI又重构了一版加入了一堆可有可无的游戏进去结果变成了下面这种复古拼凑游戏风。我才终于意识到这不是技术问题这是产品问题是定位问题不是重构可以解决的是需要重新从0开始设计才能解决的问题还好AI时代推到重来并不需要太大的勇气但下周再说吧我需要一点时间重新先想清楚我理想中的AI-oriented的中医小游戏究竟是什么样的从先去玩个游戏开始吧~Claude Code经验获取CLAUDE.md很重要请及时更新尤其在 teammate 模式下这个问题会被放大。虽然子智能体拥有整个项目文件但它真正稳定能拿到的上文其实很有限。很多时候它主要依赖的就是主Agent分配给它的那一条任务指令项目级别的CLAUDE.md问题来了你永远无法保证一条任务指令里包含了这个子Agent所需的全部上下文。所以在有限上下文前提下CLAUDE.md基本就是项目公共宪法。中间最严重的一次雪崩是因为我更新了 v2 设计方案但没有同步更新CLAUDE.md。结果是什么teammate 收到了新任务但实际开发时引用的是旧设计文档最后整个开发出现版本认知错乱。所以敲黑板任何最新的技术细节、项目设计、交互规范只要对子Agent重要就必须进入CLAUDE.md或其引用链。需求再怎么讨论都不为过看到最终那个“惊为天人”的游戏效果后我开始复盘。结果发现开发本身其实未必有大问题测试链路也跑起来了真正从源头就呵呵的是需求文档也就是说这次项目并不是“代码写崩了”而更像是团队非常认真地实现了一个Leader自己都没想清楚的东西。所以我开始怀疑需求澄清的正确方式可能根本不是“我来告诉AI我要什么”而是让模型反复、结构化地向我提问。通过一轮轮追问把需求中的每一个模糊处抠出来逐渐明确用户是谁核心玩法是什么学习目标是什么反馈机制是什么什么叫“好玩”什么叫“有效学习”这其实比直接开始写代码重要太多。有没有现成方案有。下一篇会聊 Claude 的另一套组合拳比如brainstormingwriting-plansexecute-plans看起来会比我这次“边做边悟道”的方式靠谱很多。当然那得留给这个游戏的 v2 版本了。Claude Teammate踩坑如何使用国内模型我用的是阿里的Claude接口模型用的是kimi-k2.5哈哈当然是因为国外模型用不起才追求国内模型的性价比。但在teammate模式上出现了很多问题因为teammate新建的agent并不继承主智能体的模型配置而是会默认选择Anthropic官方的opus等模型导致teammate初始化失败。可以通过配置以下系统变量把模型都指向国内模型export ANTHROPIC_MODELglm-5 export ANTHROPIC_DEFAULT_OPUS_MODELglm-5 export ANTHROPIC_DEFAULT_SONNET_MODELglm-5 export ANTHROPIC_DEFAULT_HAIKU_MODELglm-5 export CLAUDE_CODE_SUBAGENT_MODELglm-5/resume无法恢复对话这个锅有一半得我自己背因为我没认真看官方文档。官方写得挺清楚 在当前 teammate 模式下如果队友任务没执行完你退出会话后/resume无法恢复。但实际体验中问题不只是“无法恢复”这么简单而是会出现一些非常魔幻的状态同步问题队友配置还在但 Team Leader 无法继续指派任务队友配置已经删了但 Team Leader 还在给一个不存在的人派活有时候像恢复了一半有时候像根本没恢复有时候像在闹鬼总之目前看起来子进程状态同步还是有优化空间的。队员可能忘记汇报任务已完成这个问题我中间遇到过很多次。表现形式是项目看起来卡住了没报错没新输出Leader也不继续推进仔细一看才发现子Agent做完了任务但没向 Leader 汇报而 Leader 也没主动 broadcast 去问进度。 于是两边就这么尬住了。我怀疑这和上下文过长、指令注意力稀释有关。尤其任务推进到后期时teammate 相关的协作指令更容易被冲淡。teammate贵精不贵多我不太推荐让AI自己构建团队。因为它很容易一兴奋就给你造出一堆队员仿佛下一秒就要上市敲钟。我中间就试过一次让AI自主创建团队。结果它直接给我整了12个人。你想想12个Agent一起开发1000行代码这件事本身就已经很有喜剧效果了。结果当然是任务拆得过细每个Agent上下文都不充分沟通链路又长又脆最后代码到处冲突整体效果非常稀碎问题修了一晚上越修越像行为艺术。最后我直接解散团队回滚版本假装这事没发生过。所以当前阶段我更推荐人工决定团队规模和角色分配。小团队、强边界、少沟通往往比