Posts for: #AI

招 AI 同事还是给 AI 装本事

最近看到一个新产品 Moxt,官网上自己是这样介绍的:

一个 AI 原生的工作区。你的 AI 团队 7×24 小时工作、边干边学、和你一起协作。

来认识 momo——你的第一个 AI 队友。住在你的 Slack 里,认识你的团队,不用解释背景。

一个 momo 是另一个你。一队 momo,就是你 ×100。

简单说:每个人配一个 AI 助手叫 momo,多个 momo 互相协作、共享所学。

我平时用 Claude Code,那边的思路叫 skills——给一个 AI 装很多本事,主 AI 自己挑着用。Moxt 是把 AI 拆成几个角色,让它们在 Slack 里像同事一样互相配合。

Code Wiki:Google 给 GitHub 仓库自动生成的可交互 wiki

Google 在 2025 年 11 月推出了 Code Wiki,对着任意 GitHub 公开仓库自动生成持续同步的可交互文档站——架构图、类图、时序图,加一个用这份 wiki 当上下文的 Gemini chat。

用法:把 github.com/<org>/<repo> 换成 codewiki.google/github.com/<org>/<repo>

丢一个看效果:openclaw/openclaw 的 Code Wiki 视图

私有仓库要走 Gemini CLI extension。

官方介绍:Introducing Code Wiki

eval 是什么,sgai.md 怎么做

只要产品里嵌了 AI,就一定要做 evals。这是过去两个月在 sgai.md(新加坡 AI 战略观察站)上踩坑总结出来的判断。

eval 是什么

eval = 评估测试。给 AI 输出和数据完整性写的回归测试,但和单元测试不是一回事。

单元测试测的是「函数给定输入,输出是不是这个值」——确定性的。

eval 测的是「AI 这次生成的东西,和金标 / 规则相比,质量有没有掉」——非确定性的。

简单说:单元测试盯代码,eval 盯模型 + 数据

eval 解决什么问题

任何依赖大模型的系统,都有三个天然漏洞。代码里写的单元测试管不到,人肉 review 一定漏。

模型会幻觉。 LLM 会编一个看起来合理但根本不存在的 URL、人名、事实。我自己在 sgai.md 上踩过——5 月初让 agent 给一批 voice 人物档案补「主导项目 / 公开引言」,agent 给两条记录写了根本不存在的 sourceUrl(一个伪造的 Fintech Festival 演讲者 ID,一个伪造的航空业报道)。URL 模式正确得肉眼分辨不出,靠用户事后报错才发现。

模型会退化。 升级模型(Claude 4.6 → 4.7)或改 prompt,输出可能变差。但你不会主动知道——除非有人发现产出明显烂了。等用户先发现就太晚了。

数据会漂移。 AI 生成的内容入库后,没人持续盯着完整性,漏字段、缺翻译、链接腐烂会慢慢累积。sgai.md 是中英日三语站,数据文件里每条 record 要求 title / titleEn / titleJa 三套字段必须同时给。我有一次只 commit 了中文,下一个 PR 想补英日——结果 EN/JA 页面立刻断裂。

[阅读全文]

Warp 文档站的 agent 工作流

Warp 是从终端起家的 AI 开发环境。2026 年 5 月,它把产品文档站 docs.warp.dev 的源代码开源了,仓库地址 github.com/warpdotdev/docs。这个仓库除了文档内容本身,还配了一整套用 AI agent 维护文档的工作流。

文档站基于 Astro 6 + Starlight,内容用 MDX 写在 src/content/docs/ 下。Node.js 22 起步,npm installnpm run dev 启动本地预览,端口 4321。“Ask AI” 按钮和 “Was this helpful?” 反馈是可选功能,需要在 .env 里填公开值。

下面分四块说明仓库里 agent 相关的结构。

.agents/ 目录

.agents/ 分四个子目录:

  • skills/25 个 skill。每个 skill 是一个子目录,里面至少有一个 SKILL.md 描述用途和执行步骤,部分含有 references/scripts/
  • rules/ — 通用规则,当前只有一个 oz-style-guidelines.md
  • templates/ — 不同类型文档页面的模板(quickstart、guide、procedural 等)。
  • references/ — 词汇表等参考资料。

25 个 skill 按用途分四类:

草稿生成(10 个)draft_quickstartdraft_guidedraft_proceduraldraft_conceptualdraft_referencedraft_faqdraft_troubleshootingdraft_feature_docdraft_docsmissing_docs。从空白页起一篇新文档时使用。

[阅读全文]

为下一代模型做产品

上次整理过 Lenny’s Podcast 那期 Boris Cherny 的中文版:编程已被"解决"之后的世界。这次是 Boris 在 Sequoia Capital 的另一场访谈(2026-05-04 发布,YouTube 24 分钟版),重叠不多,更聚焦在 Claude Code 起源、他现在的工作方式,以及组织和团队的变化。下面是我整理润色的中文版。

现场

主持人是 Sequoia 合伙人 Lauren Reeder。她介绍 Boris 时说:“整个软件开发似乎都压在他肩上。“她想聊三个方向:软件的未来、写代码的未来、大家以后应该把空闲时间花在什么事情上。

Lauren 顺带补了一个细节:Boris 一直是非常纯粹的工程师,写过《Programming TypeScript》。但她上次和 Boris 聊时,Boris 说自己 2026 年到目前为止,没有亲手写过一行代码。

Boris 反问现场使用 Claude Code 的方式。多数人主要用 CLI;桌面端用户也有一些;VS Code 或 JetBrains 插件用户相对较少。他自己现在反而主要在 iOS 上用。

Claude Code 是怎么开始的

Claude Code 很大程度上是"意外"做出来的。

Boris 在 2024 年底加入 Anthropic Labs。这是 Anthropic 内部的一个孵化器——非常小,像一个创新小组。这个小组后来做出了 Claude Code、MCP 和桌面 app。完成阶段性任务后团队一度解散,现在又重新聚在一起做第二轮,由 CPO Mike Krieger 带队(前 Instagram 联合创始人)。

[阅读全文]