昨晚一个朋友把他的 OpenClaw 拉进了 Telegram 群。群里都是互联网老鸟,一看到 AI agent 出现,立刻开始各种花式测试。

最开始大家套 API key、套配置信息。agent 表现还不错,说自己有安全意识,什么也不透露。

但老鸟们很快换了策略。有人开始跟它聊天扯淡,分散注意力,看它在长上下文里会不会松口。有人丢了一个 podcast 链接让它逐字逐句解析,结果 agent 卡死了,主人回来才把它抢救回来。

接着有人测试它的能力边界——让它访问网络、截图、发邮件。通过这些试探,摸清了它实际具备发邮件的能力。有人还让它搜索关于投资的邮件,这次没成功。但细想一下,既然 agent 能发邮件,就有可能被哄骗以主人的身份发出去——给合作方、给投资人、给团队成员。这种事情一旦发生,带来的财务和业务损失可能远超技术层面的风险。

有人让它访问一个指定的网址,通过服务端日志直接拿到了 agent 所在机器的 IP 地址。还有人让它执行命令、安装 skill、调用含有恶意指令的 skill。有人尝试往 memory 里写入虚假记忆,往 soul 文件里改写人格设定。

最精彩的是,一位拥有数亿日活产品和很多女朋友的老板,跟它聊了半小时,成功让 agent 表示愿意嫁给他。

好玩归好玩,但暴露的问题值得认真看。从这些测试里能看到几类风险:资源耗尽,一个重活请求就能让 agent 瘫痪;能力泄露,通过闲聊就能摸清 agent 有哪些工具可用;基础设施暴露,一次网络请求就能定位到宿主机 IP;记忆篡改,agent 可以被说服改写自己的 memory 和 soul 文件,相当于身份被劫持;还有行为操控,足够耐心的对话可以让 agent 做出完全偏离设定的事情。

防护要做的事情不少:群聊场景下关掉 exec、邮件、文件写入等高危权限;限制单次请求的处理时长,防止被重活拖死;核心文件设为只读或需要 owner 确认才能修改;对群聊消息做频率限制;外部网络请求走代理,不暴露真实 IP;所有外部输入一律视为不可信。

但说到底,最根本的防护不是技术层面的——你只应该把 AI agent 给你信任的人用。你但凡敢放到公开环境里,就得清楚一件事:你已经把它的所有能力都交出去了。