AI :: Luca's Blog

eval 是什么，sgai.md 怎么做

2026-05-10Luca

只要产品里嵌了 AI，就一定要做 evals。这是过去两个月在 sgai.md（新加坡 AI 战略观察站）上踩坑总结出来的判断。

eval 是什么

eval = 评估测试。给 AI 输出和数据完整性写的回归测试，但和单元测试不是一回事。

单元测试测的是「函数给定输入，输出是不是这个值」——确定性的。

eval 测的是「AI 这次生成的东西，和金标 / 规则相比，质量有没有掉」——非确定性的。

简单说：单元测试盯代码，eval 盯模型 + 数据。

eval 解决什么问题

任何依赖大模型的系统，都有三个天然漏洞。代码里写的单元测试管不到，人肉 review 一定漏。

模型会幻觉。 LLM 会编一个看起来合理但根本不存在的 URL、人名、事实。我自己在 sgai.md 上踩过——5 月初让 agent 给一批 voice 人物档案补「主导项目 / 公开引言」，agent 给两条记录写了根本不存在的 sourceUrl（一个伪造的 Fintech Festival 演讲者 ID，一个伪造的航空业报道）。URL 模式正确得肉眼分辨不出，靠用户事后报错才发现。

模型会退化。 升级模型（Claude 4.6 → 4.7）或改 prompt，输出可能变差。但你不会主动知道——除非有人发现产出明显烂了。等用户先发现就太晚了。

数据会漂移。 AI 生成的内容入库后，没人持续盯着完整性，漏字段、缺翻译、链接腐烂会慢慢累积。sgai.md 是中英日三语站，数据文件里每条 record 要求 title / titleEn / titleJa 三套字段必须同时给。我有一次只 commit 了中文，下一个 PR 想补英日——结果 EN/JA 页面立刻断裂。

[阅读全文]

Warp 文档站的 agent 工作流

2026-05-10Luca

#AI #Docs #Tools

Warp 是从终端起家的 AI 开发环境。2026 年 5 月，它把产品文档站 docs.warp.dev 的源代码开源了，仓库地址 github.com/warpdotdev/docs。这个仓库除了文档内容本身，还配了一整套用 AI agent 维护文档的工作流。

文档站基于 Astro 6 + Starlight，内容用 MDX 写在 src/content/docs/ 下。Node.js 22 起步，npm install 后 npm run dev 启动本地预览，端口 4321。“Ask AI” 按钮和 “Was this helpful?” 反馈是可选功能，需要在 .env 里填公开值。

下面分四块说明仓库里 agent 相关的结构。

`.agents/` 目录

.agents/ 分四个子目录：

skills/ — 25 个 skill。每个 skill 是一个子目录，里面至少有一个 SKILL.md 描述用途和执行步骤，部分含有 references/、scripts/。
rules/ — 通用规则，当前只有一个 oz-style-guidelines.md。
templates/ — 不同类型文档页面的模板（quickstart、guide、procedural 等）。
references/ — 词汇表等参考资料。

25 个 skill 按用途分四类：

草稿生成（10 个）：draft_quickstart、draft_guide、draft_procedural、draft_conceptual、draft_reference、draft_faq、draft_troubleshooting、draft_feature_doc、draft_docs、missing_docs。从空白页起一篇新文档时使用。

[阅读全文]

为下一代模型做产品

2026-05-10Luca

#AI #创业 #翻译

上次整理过 Lenny’s Podcast 那期 Boris Cherny 的中文版：编程已被"解决"之后的世界。这次是 Boris 在 Sequoia Capital 的另一场访谈（2026-05-04 发布，YouTube 24 分钟版），重叠不多，更聚焦在 Claude Code 起源、他现在的工作方式，以及组织和团队的变化。下面是我整理润色的中文版。

现场

主持人是 Sequoia 合伙人 Lauren Reeder。她介绍 Boris 时说：“整个软件开发似乎都压在他肩上。“她想聊三个方向：软件的未来、写代码的未来、大家以后应该把空闲时间花在什么事情上。

Lauren 顺带补了一个细节：Boris 一直是非常纯粹的工程师，写过《Programming TypeScript》。但她上次和 Boris 聊时，Boris 说自己 2026 年到目前为止，没有亲手写过一行代码。

Boris 反问现场使用 Claude Code 的方式。多数人主要用 CLI；桌面端用户也有一些；VS Code 或 JetBrains 插件用户相对较少。他自己现在反而主要在 iOS 上用。

Claude Code 是怎么开始的

Claude Code 很大程度上是"意外"做出来的。

Boris 在 2024 年底加入 Anthropic Labs。这是 Anthropic 内部的一个孵化器——非常小，像一个创新小组。这个小组后来做出了 Claude Code、MCP 和桌面 app。完成阶段性任务后团队一度解散，现在又重新聚在一起做第二轮，由 CPO Mike Krieger 带队（前 Instagram 联合创始人）。

[阅读全文]

把 AI 推广做成产品

2026-05-10Luca

#AI #创业 #翻译

来源：How I AI 频道访谈，主持人 Claire Vo，嘉宾 John Kim（Delight.ai）。视频 https://www.youtube.com/watch?v=uH39OZ-KnkY 。下面是我整理润色的中文版。

开场

John Kim 要展示两样东西。一个是公司内部的 AI token 使用排行榜——每个人会从 “AI newbie” 到 “AI god” 被分层。另一个叫 AI quests，用来推动全公司采用 AI。

John 想做的事情，是把 AI 变成 workforce 的一部分：给团队足够的信息、工具和基础设施，让员工自己去用 AI 的能力。

很多公司推 AI 时，员工听到的是"用更少的人做更多事"“你应该更快”。John 展示的另一种收益：让每个人都成为 builder，做出以前不会被排进路线图、但有创造力和客户价值的东西。

案例：营销团队两天做出能收款的周边商店

John 演示了 Delight 的 swag store，主题是 Big AaaS Energy（AaaS = Agent as a Service）。

整个商店由营销团队完成，没有工程团队支持。它接了 Stripe，能真的下单付款。两天上线。

商店里有 “My AaaS is bigger than your SaaS”、“Context window I carry a lot” 这类周边。还藏了一个 Konami code 彩蛋（上上下下左右左右 BA），引导到 5 月 7 日在旧金山的 Delight Spark 大会。

[阅读全文]

browser-use 团队又出了一个东西，叫 bux

2026-05-01

#AI #Tools

browser-use 团队最近又放了一个新项目：bux，全名 Browser Use Box。

它解决的问题很具体：现在所有 AI 助手都绑在你设备上，合上电脑就死。bux 把 Claude Code 加一个真实 Chromium 浏览器，再加一个 Telegram 机器人，打包成一条安装脚本，扔到任何一台 5 美元的 VPS 上跑起来。

跑起来之后是什么效果？早上你在地铁上发一条 Telegram，“看看今天未读邮件，回那条 LinkedIn 消息说不感兴趣”，下班前活已经干完了。机器一直开着，账号一直登着，不用你守在电脑前。

三个细节我觉得做得对。

第一，用真实 Chromium，不是 headless 浏览器。Cookie、登录态都持久化在服务器上，账号一直在线。

第二，遇到验证码、2FA、登录墙的时候不硬刚。它会生成一个实时页面 URL 推给你，你点开手动过验证，AI 接着干。大多数自动化工具死在这一步——硬刚就被风控、被封号。bux 直接承认这件事 AI 做不了，让人来。

第三，整个架构就三个 systemd 服务：Telegram 机器人收消息，喂给 Claude，调浏览器。状态全在 /home/bux 一个目录里，重启不丢。打开看一眼就知道每个零件在哪。

安装是一条 curl 命令，三分钟从空白 VPS 到能用。

browser-use 主项目 GitHub 6 万多 star，bux 又是 Claude Code 加 Telegram 加云端浏览器一条龙打包好。这个团队战斗力真的强。

< [Newer posts] :: [Older posts] >

Posts for: #AI

eval 是什么，sgai.md 怎么做

eval 是什么

eval 解决什么问题

Warp 文档站的 agent 工作流

.agents/ 目录

为下一代模型做产品

现场

Claude Code 是怎么开始的

把 AI 推广做成产品

开场

案例：营销团队两天做出能收款的周边商店

browser-use 团队又出了一个东西，叫 bux

`.agents/` 目录