忘掉经验 :: Luca's Blog

2016 年，AlphaGo 4:1 击败李世石，它是先学了几十万盘人类棋谱，再自我对弈提升。

2017 年，DeepMind 做了一个实验：AlphaGo Zero 不看任何人类棋谱，只知道规则，从随机落子开始自己跟自己下。同时把架构大幅简化——两个网络合成一个，去掉所有人工特征，输入就是原始棋盘（黑子在哪、白子在哪），去掉快速模拟。更简单，更干净。40 天后，100:0 碾压了 AlphaGo。

AlphaZero 更极端——同一套算法、同一套架构，零人类知识，零游戏特定调整，同时学围棋、国际象棋、将棋。围棋 8 小时超越 AlphaGo，象棋 4 小时击败世界最强引擎。

“AI 比人强”，这个想法我早就接受了，但是学了人类知识、用了更复杂架构的 AlphaGo，反而比什么都没学、架构更简单的 AlphaZero 弱。人类的先验知识没帮上忙，人类设计的系统复杂度也没帮上忙。

之前听马斯克的一个对谈，他说到：人在流程中，可能反而阻碍了 AI 的速度。

这是第一性原理，也是"乱拳打死老师傅"的逻辑。今天在 Lex 和 Jensen Huang 对谈的播客里，Jensen 说他不喜欢"持续改进"。一件事要 74 天，有人说能优化到 72 天。他的做法是回到零点：物理极限是几天？可能是 6 天。74 到 72 是经验思维，从零推到 6 是第一性原理。

经验是好老师，也是隐蔽的天花板。它帮你快速到达 70 分，然后悄悄把你锁在 70 分。