忘掉经验
2016 年,AlphaGo 4:1 击败李世石,它是先学了几十万盘人类棋谱,再自我对弈提升。
2017 年,DeepMind 做了一个实验:AlphaGo Zero 不看任何人类棋谱,只知道规则,从随机落子开始自己跟自己下。同时把架构大幅简化——两个网络合成一个,去掉所有人工特征,输入就是原始棋盘(黑子在哪、白子在哪),去掉快速模拟。更简单,更干净。40 天后,100:0 碾压了 AlphaGo。
AlphaZero 更极端——同一套算法、同一套架构,零人类知识,零游戏特定调整,同时学围棋、国际象棋、将棋。围棋 8 小时超越 AlphaGo,象棋 4 小时击败世界最强引擎。
“AI 比人强”,这个想法我早就接受了,但是学了人类知识、用了更复杂架构的 AlphaGo,反而比什么都没学、架构更简单的 AlphaZero 弱。人类的先验知识没帮上忙,人类设计的系统复杂度也没帮上忙。
之前听马斯克的一个对谈,他说到:人在流程中,可能反而阻碍了 AI 的速度。
这是第一性原理,也是"乱拳打死老师傅"的逻辑。今天在 Lex 和 Jensen Huang 对谈的播客里,Jensen 说他不喜欢"持续改进"。一件事要 74 天,有人说能优化到 72 天。他的做法是回到零点:物理极限是几天?可能是 6 天。74 到 72 是经验思维,从零推到 6 是第一性原理。
经验是好老师,也是隐蔽的天花板。它帮你快速到达 70 分,然后悄悄把你锁在 70 分。