我本想写一篇关于 DeepSeek R1 的科普文,但发现很多人仅仅把它理解为 OpenAI 的复制品,而忽略了它在论文中揭示的“惊人一跃,所以,我决定重新写一篇,讲讲从 AlphaGo 到 ChatGPT,再到最近的 DeepSeek R1 底层原理的突破,以及为什么它对所谓的 AGI/ASI 很重要。作为一名普通的 AI 算法工程师,我可能无法做到非常深入,如有错误欢迎指出。

AlphaGo 突破人类上限

1997 年,IBM 公司开发的国际象棋 AI 深蓝,击败了世界冠军卡斯帕罗夫而引发轰动;接近二十年后的 2016 年,由 DeepMind 开发的围棋 AI AlphaGo 击败了围棋世界冠军李世石,再次引发轰动。

表面上看这两个 AI 都是在棋盘上击败了最强的人类棋手,但它们对人类的意义完全不同。国际象棋的棋盘只有 64 个格子,而围棋的棋盘有 19x19 个格子,假如我们用一盘棋能有多少种下法(状态空间)来衡量复杂度,那么二者对比如下:

  1. 理论上的状态空间
  2. 规则约束后的实际状态空间
维度 国际象棋(深蓝) 围棋(AlphaGo)
棋盘大小 8×8(64 格) 19×19(361 点)
平均每步合法走法 35 种 250 种
平均对局步数 80 步/局 150 步/局
状态空间复杂度 1047 种可能局面 10170 种可能局面

▲ 国际象棋和围棋的复杂度对比

尽管规则大幅压缩了复杂度,围棋的实际状态空间仍是国际象棋的 10123 倍,这是一个巨大的量级差异,要知道,宇宙中的所有原子数量大约是 1078 个。在1047范围内的计算,依赖 IBM 计算机可以暴力搜索计算出所有可能的走法,所以严格意义上来讲,深蓝的突破和神经网络、模型没有一点关系,它只是基于规则的暴力搜索,相当于一个比人类快得多的计算器

但10170的量级,已经远远超出了当前超级计算机的算力,这迫使 AlphaGo 放弃暴力搜索,转而依赖深度学习:DeepMind 团队首先用人类棋谱进行训练,根据当前棋盘状态预测下一步棋的最佳走法。但是,学习顶尖棋手走法,只能让模型的能力接近顶尖棋手,而无法超越他们

AlphaGo 首先用人类棋谱训练神经网络,然后通过设计一套奖励函数,让模型自我对弈进行强化学习。和李世石对弈的第二局,AlphaGo 的第 19 手棋(第 37 步[1])让李世石陷入长考,这步棋也被很多棋手认为是“人类永远不会下的一步,如果没有强化学习和自我对弈,只是学习过人类棋谱,AlphaGo 永远无法下出这步棋。

2017 年 5 月,AlphaGo 以 3:0 击败了柯洁,DeepMind 团队称,有一个比它更强的模型 AlphaZero 还没出战。[2] 他们发现,其实根本不需要给 AI 喂人类高手的对局棋谱,只要告诉它围棋的基本规则,让模型自我对弈,赢了就奖励、输了就惩罚,模型就能很快从零开始学会围棋并超越人类,研究人员把这个模型称为 AlphaZero,因为它不需要任何人类知识。

让我再重复一遍这个不可思议的事实:无需任何人类棋局作为训练数据,仅靠自我对弈,模型就能学会围棋,甚至这样训练出的模型,比喂人类棋谱的 AlphaGo 更强大。

在此之后,围棋变成了比谁更像 AI 的游戏,因为 AI 的棋力已经超越了人类的认知范围。所以,想要超越人类,必须让模型摆脱人类经验、好恶判断(哪怕是来自最强人类的经验也不行)的限制,只有这样才能让模型能够自我博弈,真正超越人类的束缚。

AlphaGo 击败李世石引发了狂热的 AI 浪潮,从 2016 到 2020 年,巨额的 AI 经费投入最终收获的成果寥寥无几。数得过来的的可能只有人脸识别、语音识别和合成、自动驾驶、对抗生成网络等——但这些都算不上超越人类的智能。

为何如此强大的超越人类的能力,却没有在其他领域大放异彩?人们发现,围棋这种规则明确、目标单一的封闭空间游戏最适合强化学习,现实世界是个开放空间,每一步都有无限种可能,没有确定的目标(比如“赢”),没有明确的成败判定依据(比如占据棋盘更多区域),试错成本也很高,自动驾驶一旦出错后果严重。

AI 领域冷寂了下来,直到 ChatGPT 的出现。

ChatGPT 改变世界

ChatGPT 被 The New Yorker 称为网络世界的模糊照片(ChatGPT Is a Blurry JPEG of the Web[3]),它所做的只是把整个互联网的文本数据送进一个模型,然后预测下一个字是什_

这个字最有可能是"么"。