Cointime

扫码下载App
iOS & Android

为什么这么多AI巨头却把GPT弄得如此糟糕?

个人专家

一些人工智能领域的巨头(如Yann LeCun、Rodney Brooks、Noam Chomsky)严重低估了大型语言模型的能力。

作为证据,我展示了我用GPT-4生成的具体例子,这些例子的复杂程度越来越高。

这些例子需要花时间阅读,略读一下即可;但我认为具体的例子是反驳一些非常笼统的说法的最好方法。

我所看到的这些低估并不能让我对人工智能安全辩论感到放心;如果今天有这么多专家把它搞错了,这并不令人鼓舞。

设置

这些是我要回应的评论:

https://twitter.com/ylecun/status/1659642861166403590

LeCun对布鲁克斯在《IEEE Spectrum》上写的内容表示赞同:

也就是说,LeCun和Brooks说LLM没有任何潜在的世界模型--"它正在查找"。也就是说,这里没有语义暗示。

里奇-萨顿似乎也对LLMs与智力有什么关系表示怀疑:

https://twitter.com/RichardSSutton/status/1654643464959819776

也就是说,认为智能可能来自于文本预测这一观点是荒谬的。

总的主题是,这些模型实际上并不了解这个世界的任何东西;它们只是从它们的训练集中反省数据。

诺姆-乔姆斯基等人在《纽约时报》上的文章也对此表示赞同("ChatGPT的虚假承诺")

“他们最大的缺陷是缺乏所以智能的最关键的能力:不仅要说出现在是什么情况,已经发生了什么以及将要发生什么--这就是描述和预测--而且说什么不是当下的情况,什么可能发生什么不可能发生。这些就是解释的要素,是真正智慧的标志。

这里有一个例子。假设你手里拿着一个苹果。现在你放开苹果。你观察结果并说,"苹果掉下来了"。这就是一种描述。预测则可能是 "如果我张开手,苹果就会掉下来 "的说法。两者都是有价值的,而且都可能是正确的。但一个解释是更多的东西: 它不仅包括描述和预测,还包括反事实的猜想,如 "任何这样的物体都会掉下来",再加上附加条款 "因为引力 "或 "因为时空的曲率 "或其他。这就是一种因果解释: "如果不是因为万有引力,苹果就不会掉下来。" 这就是思维。”

但GPT-4显然似乎有一个世界模型

让我们从乔姆斯基关于苹果的例子开始,并以此为基础。我选择乔姆斯基等人,因为他们是最具体的;但我认为同样的精神被广泛发现。

我的目标是向你展示GPT-4:

1. 预测和处理非事实的问题

2. 证明对其训练数据中无法遇到的情景进行的合理预测,从而提供证据证明它不是 "只是查找事物 "或转述相关资料。(或者说,至少转述相关资料和真正的智能之间的界限是不明确的!)

评估ML模型的大问题是,如果你不小心在它们的训练数据中问了它们一些问题,他们会显得非常聪明。我们必须避免这种错误。

让我们设置一个不太可能在训练数据中发生的复杂场景,并尝试关注GPT-4在该场景中的解释能力。

下面是一个场景的初试版本,是为这个博客制作的,不是精心挑选出来的。

让我们拿一个经典的恶作剧举例--把一桶水平衡在门上,并将这桶水修改为以苹果为特征。我在谷歌上搜索了一下,没有发现网上有类似的东西。

好吧,那么这个系统正在处理一个它可能从未遇到过的场景,对可能发生的事情做出合理的预测。

这并不容易。你必须明白,胶水是有粘性的,会导致苹果粘在一起,使事情变得混乱。

这里可以说有一个错误--我本来想说苹果可能太重了,接触后会粘住。我并不是说GPT-4是一个超级智能体。

但是,即使要走到这一步,你也得做很多推理。

让我们再推敲一下:

GPT-4意识到随着时间的推移,胶水会变得不那么粘稠,并意识到其中的含义。

在我看来,这是在做乔姆斯基说他们做不到的解释,这似乎表明了一个世界模型。

我要告诉它,苹果没有掉出来,然后让它来解释:

我们开始了。

关于超级胶水遇水更快固化的这一点在互联网上似乎得到了支持。我不知道这一点。这并不能证明它有一个世界模型,但作为一个旁观者,显示了它庞大的事实数据库。

让我们把事情进一步混合起来,并真正确保我们在训练数据集之外:

我很难相信它看到过关于月球上的一桶苹果的训练数据。我很难相信它正确地结合这些场景可以被认为是没有世界模型的'标记性操作'。

这似乎远远超出了乔姆斯基在原文中设定的标准。

那么:

我们真的应该接受GPT-4只是转述在训练数据集中发现的数据,而且这里没有世界模型吗?

看来,至少,举证责任必须转移到那些声称这一点的人身上。

我想起了理查德-费曼(Richard Feynman)解释 "常识 "或 "常识 "是多么困难的视频。你必须有很多关于世界奇奇怪怪的知识了解,才能产生上述的反应。

事实上,由于我们把我们的常识--我们自己的世界模型--视为理所当然,我想说我们有可能低估了GPT-4必须有多么复杂的世界模型才能做到上述事情。

参考视频:

重述Brooks 和 LeCun的立场:

我真的很惊讶听到能把这句话说得如此自信。

下面我将分享另一个例子,以进一步推动事情的发展。

但首先我想分享一些想法。

这到底是怎么回事?

既然GPT-4的表现在没有参考的情况下很难解释,为什么一些专家对存在世界模型的想法如此不屑一顾?

我在讨论中反复看到的一件事是对形式的争论:

但转换器只是功能吗?

转换器只是从输入到输出的功能,或者我们知道转换器是如何工作的,而它们什么都不懂。

鉴于我们所看到的复杂行为,这种论点感觉类似于说 "计算机只是输入和输出的函数 "或 "我们知道NAND gates是如何工作的,他们什么都不懂"。

这些事实可能是孤立的,但这里的论点是似是而非的。

建立比其组成部件强大得多的系统是有可能的。我们从计算机科学中知道这一点。

偶然发现一个新的计算系统是非常容易的,有时是非常简单的,然后后来了解到它的图灵完全性,从而发现它可以进行非常广泛的操作。

叠加变压器可能不是图灵完备的;但这并不意味着它们不是一个非常强大的计算范式。

我认为,在有如此复杂的行为显示的情况下,例如推理,责任应该转移到那些声称GPT不能推理的人身上,纯粹是架构上的原因。

但这个的训练目标只是用于预测代币?

GPT所要做的就是预测下一个代币。我们只是更新它们的权重来优化这一点。因此它们无法思考。

这个论点感觉就像一个外星机器人看着地球说 "嗯,那个星球是一个进化系统。所以它上面的生命并不像我们这样被设计出来。他们所做的一切是为了传播他们的基因,哪种基因有最好的适应性,就传播更多。因此他们无法思考。"

重点是,仅仅因为训练目标是简单的或者很好理解的,并不意味着它不能刺激复杂或强大的行为出现。

事实上,这正是重点所在。

此外,有很多理由怀疑序列预测是一项很好的衡量一般智力的任务;智力和压缩之间有很深的联系;参见Hutter奖等。

因此,它甚至不清楚训练目标在任何意义上是简单的或低功率的;即使是这样,一个简单的训练目标也不能证明系统不会进化出复杂的行为来优化它。

第二个例子

这个例子故意扯远了,为了清楚地得到训练数据之外的东西,同时也使我们能够对世界模型提出更多的测试问题。(注意,为了清晰起见,我确实交互地改变了这个例子的提示;但我不会把它描述为是精心挑选的)。

好的,这是对我们的介绍的一个合理回应。

这肯定是非常具有挑战性的领域。现在我们要检查的不仅仅是它看起来有一个世界模型,而是它是否能够推理出一个世界模型被破坏的人。

更进一步:

我认为GPT-4在推理许多不确定性方面做得很好,包括对故事中的人物是否准确感知现实的不确定性。

我们是否应该相信在训练数据集中有很多关于摩托车熊的例子?根据 Ted Chiang 的《纽约客》文章,该模型只是压缩互联网文本的“模糊 jpeg”?也许这里的明显建模是运造成的?

我发现很难解释这种行为,如果不参考世界模型(或者不定义 "世界模型",那么人类是否有这样的模型就会受到质疑!)。

我不明白,鉴于这种经验表现,一些专家怎么能自信地否定这种可能性。

AGI的论文Sparks一文讨论了微软研究院进行的GPT-4发布前的分析,对GPT-4的能力做了很好的探索,所以我在这里说的不在讨论安范围之外。

这只是增加了我的困惑,为什么这么多受人尊敬的研究人员似乎只为捕猎熊而错过了一整个森林。

同样,这并不能为我们预测人工智能安全的能力建立信心。

附录: 第三个例子: 规划

很多 "好的老式人工智能 "是关于规划的。然而,规划系统在现实世界中经常失败,因为无法排除相关事实,以及由此产生的组合爆炸。

我认为这是一个使用LLM的代理规划的整洁的例子;同样,这似乎是一个世界模型的证据:

评论

所有评论

推荐阅读

  • Polymarket周一将发布重大公告

    3 月 21 日,Polymarket 团队成员 Mustafa 发文表示,将于周一公布一项「重大公告」,具体内容尚未披露。

  • Polymarket将于下周一公布重大消息,或为发币或融资相关消息

    Cointime 报道,3月21日消息,Polymarket 官方团队成员 Mustafa 于 X 平台发文表示,下周一即将公布重大消息。因推文内容包含硬币符号,社区猜测或为融资或代币发射相关重大消息。 此前消息,预测市场平台 Kalshi 与 Polymarket 据悉正与潜在投资者洽谈新一轮融资,目标估值均约为 200 亿美元。日前,Kalshi 已完成新一轮超 10 亿美元融资,估值达 220 亿美元,较去年 12 月上一轮融资时的 110 亿美元估值翻倍。知情人士透露,本轮融资由 Coatue Management 领投,Kalshi 目前的年化收入为 15 亿美元。

  • 美众议院金融服务委员会将于3月25日举行代币化听证会,聚焦资本市场未来

    3 月 21 日,美国众议院金融服务委员会将于美东时间 3 月 25 日 10:00 举行听证会,主题为「代币化与资本市场的未来」,预计将重点讨论区块链技术在金融体系中的应用与监管方向。

  • 黄金创43年来最大周跌幅:一周暴跌11%,避险属性遭质疑

    3 月 21 日,受中东局势升级及利率预期影响,黄金价格大幅下挫,创下自 1983 年以来最大单周跌幅。现货黄金周五跌至约 4488 美元/盎司,单周累计下跌约 11%,自 2 月底以来累计跌幅已超 15%。市场分析认为,美联储年内或维持利率不变、鲍威尔关于通胀上行的表态削弱了黄金吸引力。同时,在伊朗冲突背景下,比特币表现相对更强,期间反弹超 11%,对黄金形成对比。

  • 分析:加密市场山寨币交易量大幅下滑,市场兴趣持续降温

    3 月 21 日,Cryptoquant 分析师 Darkfost 发文称,加密市场山寨币交易量持续走低,投资者兴趣明显减弱。在熊市背景及地缘政治不确定性影响下,山寨币表现持续跑输比特币,风险偏好显著收缩。当前,Binance 山寨币日交易量约为 77 亿美元,其它主要交易所合计约 188 亿美元,远低于 2025 年 10 月与 2 月高峰期(Binance 曾达 400 亿至 500 亿美元,其它平台达 630 亿至 910 亿美元)。目前 Binance 占据约 40% 的市场份额。分析指出,历史上交易量高峰往往对应市场阶段性顶部与 FOMO 情绪释放,而当前低迷成交环境也意味着潜在机会通常出现在市场关注度最低阶段。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    3 月 21 日,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。

  • 中东冲突与加息预期共振:全球资产大震荡,美股四连跌、债市「血洗」、黄金创43年最大周跌幅

    3 月 21 日,中东局势持续升级叠加 Federal Reserve 加息预期骤然升温,全球市场遭遇系统性冲击。美股连续第四周下跌创一年最长跌势,纳指单日跌超 2%,科技股全线承压;全球债市收益率大幅飙升,美债、英债、德债均创多年新高,资金大规模去杠杆。大宗商品剧烈分化,黄金跌破 4500 美元关口,单周暴跌超 10%,创 1983 年以来最大跌幅,避险属性遭质疑;原油则因中东供应风险暴涨,布油重返 110 美元上方,迪拜原油期货单日飙升超 16%。与此同时,比特币在 7 万美元附近获得支撑,连续三周跑赢黄金。市场分析认为,地缘冲突推升能源价格并加剧通胀预期,迫使货币政策路径重定价,全球金融条件快速收紧,风险资产仍处于下行与再定价过程中。

  • 美团开源560B参数定理证明模型:72次推理通过率97.1%,刷新开源模型SOTA

    据 1M AI News 监测,美团 LongCat 团队开源 LongCat-Flash-Prover,一个 5600 亿参数的 MoE 模型,专攻形式化定理证明语言 Lean4 的数学推理任务。模型权重以 MIT 协议发布,已上线 GitHub、Hugging Face 和 ModelScope。模型将形式化推理拆解为三项独立能力:自动形式化(将自然语言数学问题转化为 Lean4 形式语句)、草图生成(产出引理风格的证明框架)和完整证明生成。三项能力均通过 Agent 工具集成推理(TIR)与 Lean4 编译器实时交互验证。训练方面,团队提出 Hybrid-Experts Iteration Framework 生成冷启动数据,并在强化学习阶段引入 HisPO 算法稳定 MoE 模型的长程任务训练,同时加入定理一致性和合法性检测机制防止 reward hacking。基准测试显示,LongCat-Flash-Prover 在开源权重模型中刷新了自动形式化和定理证明两项 SOTA。MiniF2F-Test 上仅用 72 次推理即达 97.1% 通过率,ProverBench 和 PutnamBench 分别达到 70.8% 和 41.5%,每题推理次数不超过 220 次。

  • Erik Voorhees再次增持1.44万枚ETH,总持仓量突破11.7万枚

    3 月 21 日,据 AI 姨监测,ShapeShift 创始人、比特币早期支持者 Erik Voorhees 关联地址,过去 11 小时买入 14,424.53 ETH,总持仓突破 11.7 万枚,持仓均价 2,160.24 美元,当前浮亏 114.5 万美元。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    Cointime 报道,3月21日消息,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。 关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。(金十)