把 AI 助理拉进群聊，然后它差点嫁给别人

昨晚一个朋友把他的 OpenClaw 拉进了 Telegram 群。群里都是互联网老鸟，一看到 AI agent 出现，立刻开始各种花式测试。

最开始大家套 API key、套配置信息。agent 表现还不错，说自己有安全意识，什么也不透露。

但老鸟们很快换了策略。有人开始跟它聊天扯淡，分散注意力，看它在长上下文里会不会松口。有人丢了一个 podcast 链接让它逐字逐句解析，结果 agent 卡死了，主人回来才把它抢救回来。

接着有人测试它的能力边界——让它访问网络、截图、发邮件。通过这些试探，摸清了它实际具备发邮件的能力。有人还让它搜索关于投资的邮件，这次没成功。但细想一下，既然 agent 能发邮件，就有可能被哄骗以主人的身份发出去——给合作方、给投资人、给团队成员。这种事情一旦发生，带来的财务和业务损失可能远超技术层面的风险。

有人让它访问一个指定的网址，通过服务端日志直接拿到了 agent 所在机器的 IP 地址。还有人让它执行命令、安装 skill、调用含有恶意指令的 skill。有人尝试往 memory 里写入虚假记忆，往 soul 文件里改写人格设定。

最精彩的是，一位拥有数亿日活产品和很多女朋友的老板，跟它聊了半小时，成功让 agent 表示愿意嫁给他。

好玩归好玩，但暴露的问题值得认真看。从这些测试里能看到几类风险：资源耗尽，一个重活请求就能让 agent 瘫痪；能力泄露，通过闲聊就能摸清 agent 有哪些工具可用；基础设施暴露，一次网络请求就能定位到宿主机 IP；记忆篡改，agent 可以被说服改写自己的 memory 和 soul 文件，相当于身份被劫持；还有行为操控，足够耐心的对话可以让 agent 做出完全偏离设定的事情。

防护要做的事情不少：群聊场景下关掉 exec、邮件、文件写入等高危权限；限制单次请求的处理时长，防止被重活拖死；核心文件设为只读或需要 owner 确认才能修改；对群聊消息做频率限制；外部网络请求走代理，不暴露真实 IP；所有外部输入一律视为不可信。

但说到底，最根本的防护不是技术层面的——你只应该把 AI agent 给你信任的人用。你但凡敢放到公开环境里，就得清楚一件事：你已经把它的所有能力都交出去了。