Posts for: #AI

GBrain 双机部署实录

一台常开的台式 / 常驻机负责跑重活,一台笔记本带在身边随写随记。两台机器共用一个 GBrain,写在哪台都能在另一台搜到。

下面是我把这套装起来的实际过程,包括踩到的坑。环境是两台 Mac:M2(常开)和 M4(日常,有开有关),GitHub 账号 wulujia,笔记放 Dropbox。

架构

三层,分工明确。

Brain 仓库 = markdown 文件,源头。放 ~/Dropbox/brain/,Dropbox 负责实时同步文件,GitHub private repo 负责版本备份。

gbrain 工具 = 读 markdown、灌进索引的 CLI。每台机器独立从 GitHub clone 到非 Dropbox 路径,各自 bun link。不要让 Dropbox 同步工具源码,node_modules 跨机会掐架。

索引 = PGLite(嵌入式 Postgres),默认引擎,放 ~/.gbrain/。每台机器一份独立本地索引。markdown 是真相,索引坏了重建。

M4(日常机)从零装起

1. 装 gbrain 工具

git clone https://github.com/garrytan/gbrain.git
cd gbrain && bun install && bun link

2. OPENAI_API_KEY

到 platform.openai.com 建个 project key,丢 zshrc:

echo 'export OPENAI_API_KEY="sk-proj-..."' >> ~/.zshrc
source ~/.zshrc

注意变量名全大写 OPENAI_API_KEY。一个字母错了 OpenAI SDK 读不到,跑出来一堆 401。

[阅读全文]

Slax Note AI 重写版正式上架

一个月前,我提议:

  • 基于 Slax Note 的代码,生成一套文档。然后删掉代码,基于文档生成代码。重新上线。
  • 具体执行,由不懂编码的两位女生——产品经理和设计师主导。

以下是产品经理的部分记录。

时隔一个月,Slax Note AI 重写版正式上架了。

iOS 版本下载链接:https://apps.apple.com/us/app/slax-note-transcribe-voice-pen/id6480166286

回顾 3 月中下旬,我们是抱着怀疑开始这项任务的。当时我们完全不认可重写 App 的提议,更不信任自己能独立解决过程中产生的各类 Bug。

在过去的一个月里,挑战是具体的:频繁掉线的账号、不断重连的挫败感,以及对工具的极度陌生。从不懂 VS Code 和 Git,到能熟练地指挥 AI 修 BUG、提交 TestFlight 版本;我们从每天开启终端 2 小时,变成了在公司每时每刻都开着它;

从质疑重写的决定,到进入"氛围编程"的状态,作为非程序员,我们始终处在一种"不确定自己是否搞错"“这样跟 AI 交流是对的吗"“我提交这个变更会不会炸了"的压力中。我们一边骂 AI 愚蠢,一边向研发同事学习如何更精准地与它对话。

现在,App 已经上架。接下来的挑战是:当新需求涌入,协作将如何演进?我们目前也没有答案,只能继续摸索。

同事记录下来的经验我觉得很有价值,如果朋友们想看,我今后发出来。

Slax Note AI 重写版截图

用同事的话说:

如果只看过程,这次重写其实并不轻松,甚至可以说很折腾;但如果看结果,它很值。未来的挑战依然存在,我们这次是重写 App,如何挖掘需求、迭代产品,还没有实践起来。

都看到这里了,你要不要下载个 Slax Note 试试看?用得舒服,就索性付个费吧。

这个语音笔记,我又有了些新的想法,能慢慢地、长时间地做一个自己要用的工具,还是很开心的——而且,这可能也是我们团队擅长的。

GBrain 入门:给 AI agent 一个长期记忆

跟 AI 聊天有个长期的问题。每次新对话它都从零开始。聊过的想法、见过的人、读过的文章,下次对话完全空白。

GBrain 解决的就是这件事。

它是什么

AI agent 是大脑,GBrain 是它的记忆。

更准确一点:GBrain 是一堆 markdown 文件加一个搜索引擎。跟 AI 聊天时,它自己决定把什么存进去、什么取出来。存的是文本文件,可以打开看、改、备份。

这一点很重要。市面上很多 AI 记忆功能是黑盒,坏了查不出原因,也导不出来。GBrain 的记忆就是你自己的文件,放在 Git 仓库里,agent 关掉记忆也还在。

它怎么工作

三个核心动作

捕获。你跟 agent 说"今天跟老王聊了一下 SaaS 定价",一个叫 signal-detector 的技能在后台自动抽取:“老王"是人,“SaaS 定价"是话题。后台并行跑,对话照常进行。

回答前查大脑。下次问"老王最近在想什么”,agent 先搜 GBrain,翻出上次的记录,带着上下文回答。跳过这一步的 agent 等于失忆。

睡觉时整理。装上 autopilot,凌晨 agent 自动扫白天所有对话,给新出现的人建档、补社交资料、修引用。早上起来大脑比昨晚厚。

页面长什么样

每个人、每件事在 GBrain 里就是一个 markdown 文件。结构很简单:上半部写当前结论,下半部写时间线。

比如"老王"这一页。

上半:老王是某某公司 CEO,擅长 SaaS 定价,2026 年 3 月开始考虑出海日本。

下半:

  • 2025-01-10 邮件里第一次提到
  • 2025-08-22 聊过定价策略
  • 2026-03-05 说要出海日本

上半随时重写。下半只加不删,是证据链。好处是:问一个问题,agent 直接读上半部就知道答案,不用每次把所有历史再推理一遍。

怎么装

前提是装了 bun。然后两行:

git clone https://github.com/garrytan/gbrain.git && cd gbrain && bun install && bun link
gbrain init

默认用嵌入式 Postgres,零配置。接到 Claude Desktop 或 Claude Code 之后,正常聊天它就正常往里存。Gemini CLI、Codex 也能接,都走 MCP 协议。

[阅读全文]

AI 时代的 7 种获客方法

原视频:https://www.youtube.com/watch?v=YeoGehNsrLc

刚看了一个视频,讲 AI 时代的 7 种获客方法。整理一下,去掉水分。

1. 把产品做成 MCP Server

MCP 是 AI 的插件协议。你的产品如果能回答某类问题,就把它封装成 MCP Server,发布到 registry。用户在 Claude 或 ChatGPT 里提问时,AI 直接调用你的服务返回结果。

这相当于把 SEO 的逻辑搬到了 AI 对话里。以前是在 Google 搜索结果里抢位置,现在是在 AI 的回答里被调用。获客成本接近零,前提是你解决的问题足够具体,AI 能判断"该调你"。

适合 SaaS、数据接口、工具类产品。

2. Programmatic SEO

找一个关键词模板,比如 best X for Y,准备好数据源,做一个页面模板,批量生成。

算一笔账:10000 页,每页月均 30 次访问,2% 转化率,每个转化值 10 美元,就是 6 万美元月收入。数字看着漂亮,但关键在内容质量。纯变量替换的页面 Google 会打压,必须有真实的信息密度。AI 可以帮写初稿,但得有人校对。

建议先做 100 页验证,跑通了再扩。

3. 免费工具获客

做一个免费的小工具——计算器、分析器、评分器——用户立刻拿到结果,留下邮箱,分享结果,然后你引导付费。这不是内容营销,是工具营销。一个好工具可以持续带流量好几年。

变化在于,以前做一个工具要几周,现在用 AI 一天就能出一个。可以多做几个试,成本很低。

4. AEO:让 AI 引用你

Answer Engine Optimization。目标是被 ChatGPT 和 Perplexity 当作答案来源。

[阅读全文]

ForecastBench:AI 预测能力的标尺

本文由 AI 撰写。

最近在看 AI 预测赛道的几家公司,绕不开一个 benchmark:ForecastBench。简单梳理一下它是什么、解决什么问题、有什么局限、以及应该怎么发展。

是什么

Forecasting Research Institute(FRI)做的动态 benchmark,ICLR 2025 论文,Open Philanthropy 资助,至少运营到 2027 年中。

核心机制:自动生成 1000 道关于未来事件的预测题,提交时无人知道答案,每晚更新。用 Brier Score 打分——概率校准度,越低越准。两条赛道:竞赛榜(允许工具、微调、集成)和基础榜(裸模型能力)。公开排行榜在 forecastbench.org。

解决什么问题

AI 预测能力没有公认度量标准。传统 benchmark 用历史数据,模型可能见过答案。ForecastBench 用未来事件,从根上杜绝数据泄漏。同时设置了人类超级预测者基准线(200 题子集),让 AI 和人类在同一把尺子下比。

它回答一个具体问题:LLM 什么时候能追上人类最好的预测者。当前预测是 2026 年 11 月(95% CI:2025-12 至 2028-01)。

当前局限

三个结构性问题。

第一,题目偏科。已解析的问题偏向短期、数据密集型领域——天气、体育、金融。AI 在这些领域有结构性优势(数据获取快、计算量大),得分高不代表判断力强。真正区分人和机器的长周期、高不确定性、需要复杂判断的地缘政治类问题占比不够。

第二,人类基准是冻结的。超级预测者的基准来自 2024 年一次性采集的 200 题,不是持续对抗。AI 可以反复提交、迭代优化,人类只有一次快照。超级预测者自己指出,这种设计让 AI “赢"变得更容易,但这种赢和真实预测能力关系不大。

第三,存在作弊捷径。多个 LLM(包括 GPT-4.5)被发现直接复制 prompt 里提供的市场预测数据,GPT-4.5 的预测与市场预测相关系数 0.994。这不是预测,是抄。

应该怎么发展

题目维度要扩展。从 binary(是/否)扩展到多项选择、多步推理、条件预测、时变预测。增加成本敏感型评分——现实中预测错误的代价不对称,错判一次战争爆发和错判一次利率调整的后果完全不同,Brier Score 对此无感。

对抗性要加强。人类基准必须从冻结快照变成持续对抗。AI 每天能跑,人类也应该定期更新预测。否则比的不是"谁更准”,是"谁迭代次数更多"。

防作弊要升级。要么不在 prompt 里提供市场数据,要么单独评估"去掉市场数据后的 alpha"——衡量模型自身的判断力而非信息搬运能力。

[阅读全文]