Cointime

扫码下载App
iOS & Android

人工智能到底是如何知道没人告诉它的事情的

作者:George Musser

 研究人员仍在努力理解,经过训练以模仿互联网文本的人工智能模型如何能够执行高级任务,例如运行代码、玩游戏,甚至试图破坏用户的婚姻。

没有人真正知道ChatGPT及其人工智能同类将如何改变世界,其中一个原因是没有人真正知道其中发生了什么。这些系统的一些能力远远超出了它们接受训练的范围,甚至连它们的发明者也对此感到困惑。越来越多的测试表明,这些人工智能系统会像我们的大脑一样,在内部建立对真实世界的模型,尽管它们的技术方法有所不同。

布朗大学的研究人员之一Ellie Pavlick表示:“如果我们不了解它们的工作原理,那么我们想要通过某些方式使它们变得更好、更安全或者其他任何事情,对我来说都显得荒谬。”她正致力于填补这个解释的空白。

在某种程度上,她和她的同事们对于GPT和其他大型语言模型(LLMs)有很好的理解。这些模型依赖于一种称为神经网络的机器学习系统。这些网络的结构模仿了人脑中相互连接的神经元。这些程序的代码相对简单,只占用了几个屏幕的空间。它建立了一个自动校正算法,根据对数百千兆字节互联网文本进行繁琐的统计分析,选择最有可能完成一段文字的单词。额外的训练确保系统以对话形式呈现结果。从这个意义上说,它所做的就是复述它所学到的内容,在语言学家Emily Bender的话中,它是一个“随机鹦鹉“。但是LLMs也成功通过了律师资格考试,跌跌撞撞的解释了希格斯玻色子,并试图破坏用户的婚姻。很少有人预料到一个相当简单的自动校正算法能够获得如此广泛的能力。

GPT和其他人工智能系统展现了它们具备了未经训练的任务能力,这种“新兴能力”甚至让一些一直对LLMs的炒作持怀疑态度的研究人员感到惊讶。“我不知道它们是如何做到的,也不知道它们是否能够像人类一样更普遍地做到这一点,但它们挑战了我的观点,”圣菲研究所的人工智能研究员Melanie Mitchell表示。

蒙特利尔大学的人工智能研究员Yoshua Bengio表示:“它肯定不仅仅是一个随机的鹦鹉,它肯定会建立一些对世界的表示——尽管我不认为它的方式和人类建立内部世界模型完全相同。”

在今年三月的纽约大学的一次会议上,哲学家Raphaël Millière来自哥伦比亚大学提供了LLMs的另一个令人震惊的例子。这些模型已经展示了编写计算机代码的能力,这是令人印象深刻但也不算太令人惊讶的,因为互联网上有很多可以模仿的代码。然而,Millière更进一步展示了GPT也可以执行代码。哲学家输入了一个计算斐波那契数列中第83个数字的程序。“这需要非常高程度的多步推理,”他说。而这个机器人完美地计算出了结果。然而,当Millière直接询问第83个斐波那契数时,GPT却回答错误:这表明该系统并不仅仅是在模仿互联网。相反,它正在进行自己的计算以得出正确答案。

尽管LLMs在计算机上运行,但它本身并不是一台计算机。它缺少必要的计算要素,例如工作记忆。鉴于GPT本身不应该能够运行代码,其发明者OpenAI科技公司推出了一个专门的插件,即ChatGPT在回答查询时可以使用的工具,使其能够运行代码。但是,在Millière的演示中并没有使用该插件。相反,他假设这台机器通过利用根据上下文解释单词的机制,即类似于自然界如何重新利用现有能力进行新功能的情况下,即兴创造了一个记忆。

这种即兴能力表明LLMs发展出了超越浅层统计分析的内部复杂性。研究人员发现,这些系统似乎真正理解了它们所学到的内容。在最近在国际学习表示(International Conference on Learning Representations,ICLR)上的一项研究中,哈佛大学的博士生Kenneth Li和他的人工智能研究员同事——马萨诸塞理工学院的Aspen K. Hopkins、东北大学的David Bau,以及哈佛大学的Fernanda Viégas、Hanspeter Pfister和Martin Wattenberg——创建了一个较小规模的GPT神经网络副本,以便他们可以研究其内部运作方式。他们通过以文本形式输入长序列的棋局移动来训练它,主要针对棋盘游戏奥赛罗。他们的模型成为了一个几乎完美的选手。

为了研究神经网络如何编码信息,他们采用了Bengio和同样来自蒙特利尔大学的Guillaume Alain在2016年设计的一种技术。他们创建了一个迷你的“探测器”网络,逐层分析主要的网络层。Li将这种方法与神经科学的方法进行了比较。他说:“这类似于我们将电探头放入人脑中的情况。”在人工智能的情况下,探测器显示其“神经活动”与奥赛罗游戏棋盘的表示相匹配,尽管以一种复杂的形式呈现。为了确认这一点,研究人员将探测器反向运行,将信息植入到网络中,例如将游戏中的一个黑色标记片翻转为白色。Li说:“基本上,我们入侵了这些语言模型的大脑。”网络相应地调整了它的移动。研究人员得出结论,它在大致上像人类一样下奥赛罗:通过将一个游戏棋盘保持在其“内心眼中”,并使用这个模型评估移动。Li表示,他认为系统学会这种技能,是因为这是对其训练数据最简洁的描述方式。他补充说:“如果你得到了很多的游戏脚本,试图找出背后的规则是最好的压缩方式。”

这种推断外部世界结构的能力不仅限于简单的游戏动作,它也体现在对话中。来自麻省理工学院的Belinda Li(与Kenneth Li无关)、Maxwell Nye和Jacob Andreas研究了玩基于文本的冒险游戏的网络。他们输入了诸如“钥匙在宝箱里”之后是“你拿起了钥匙”的句子。他们使用探测器发现,网络在自身中编码了对应于“宝箱”和“你”的变量,每个变量具有拥有或不拥有钥匙的属性,并逐句更新这些变量。系统没有独立的方式知道箱子或钥匙是什么,但它掌握了完成这个任务所需的概念。Belinda Li说:“在模型内部隐藏着一些状态的表示。”

研究人员对LLMs从文本中学习的能力感到惊讶。例如,Pavlick和她的博士生Roma Patel发现,这些网络从互联网文本中吸收了颜色描述,并构建了颜色的内部表示。当它们看到“红色”这个词时,它们不仅将其视为一个抽象符号,而且将其视为一个与栗色、深红、紫红、锈色等等有特定关系的概念。展示这一点有点棘手。研究人员没有将探测器插入网络中,而是研究了它对一系列文本提示的反应。为了检查它是否仅仅是从在线参考中重复颜色关系,他们试图通过告诉系统红色实际上是绿色来误导它——就像古老的哲学思想实验中,一个人的红色是另一个人的绿色一样。系统并没有简单地重复一个错误答案,而是适当地改变了颜色评估,以维持正确的关系。

从这个观点出发,为了执行自动校正功能,系统寻求其训练数据的潜在逻辑,微软研究的机器学习研究员Sébastien Bubeck提出,数据范围越广泛,系统发现的规律就越普遍。“也许之所以出现如此巨大的飞跃,是因为我们已经达到了多样化的数据,这些数据足够大,以至于它们的唯一基本原理是智能生物创造了它们,”他说。“所以解释所有这些数据的唯一方式是模型变得智能。”

除了提取语言的潜在含义外,LLMs还能够实时学习。在人工智能领域,术语“学习”通常是指开发人员让神经网络暴露于大量数据并调整其内部连接的计算密集过程。当您在ChatGPT中输入查询时,网络应该是固定的;与人类不同,它不应该继续学习。因此,令人惊讶的是,LLMs实际上可以从用户的提示中学习,这种能力被称为“上下文学习”。人工智能公司SingularityNET的创始人Ben Goertzel表示:“这是一种以前没有真正理解其存在的不同类型的学习。”

LLMs学习的一个例子来自人们与ChatGPT等聊天机器人的互动方式。您可以给系统提供您希望它回答的示例,它将遵循您的要求。它的输出是由它最近几千个单词所决定的。根据这些单词,它的行为由其固定的内部连接所规定,但单词序列仍然具有一定的适应性。一些网站致力于“越狱”提示,以突破系统的“限制”(例如,阻止系统告诉用户如何制作炸弹的限制),通常通过指示模型假装成一个没有限制的系统来实现。一些人利用越狱进行可疑目的,而其他人则用它来引出更有创意的回答。佛罗里达大西洋大学的机器感知和认知机器人实验室的共同主任William Hahn表示:“以越狱提示的方式询问它,将获得更好的科学方面的答案,它在学术方面更出色。”

另一种上下文学习的方式是通过“思路链”提示,即要求网络详细解释其推理的每一步。这种策略使网络在需要多步推理的逻辑或算术问题上表现更好。(但Millière的例子之所以令人惊讶,是因为它在没有任何指导下找到了斐波那契数。)

2022年,Google Research和瑞士联邦理工学院的一个团队(Johannes von Oswald,Eyvind Niklasson,Ettore Randazzo,João Sacramento,Alexander Mordvintsev,Andrey Zhmoginov和Max Vladymyrov)展示了上下文学习遵循与标准学习相同的基本计算过程,即梯度下降。这个过程并没有被编程;系统在没有帮助的情况下发现了它。“这需要成为一种学到的技能,”Google Research副总裁Blaise Agüera y Arcas表示。实际上,他认为LLMs可能还具有其他尚未被发现的潜在能力。“每当我们测试一个我们可以量化的新能力时,我们都能找到它,”他说。

虽然LLMs有足够的盲点,无法被归类为人工通用智能(Artificial General Intelligence,AGI)——这是指达到动物大脑的机器的机敏性的术语——但这些新兴的能力使一些研究人员认为,科技公司比乐观主义者猜测的更接近AGI。“它们是间接证据,表明我们可能离AGI并不远了,” Goertzel在佛罗里达大西洋大学的深度学习会议上在三月份说道。OpenAI的插件为ChatGPT提供了一种类似于人脑的模块化架构。“将GPT-4(ChatGPT动力的LLM的最新版本)与各种插件结合起来,可能是通向人类一样的功能专门化的途径,”麻省理工学院的研究员Anna Ivanova表示。

然而,与此同时,研究人员担心他们研究这些系统的能力可能正在逐渐减弱。OpenAI没有透露他们如何设计和训练GPT-4的细节,部分原因是因为它与Google和其他公司以及其他国家之间存在竞争。麻省理工学院的理论物理学家Dan Roberts 表示:“可能会有更少来自工业界的开放性研究,事情将更多地以产品构建为中心,被封闭在独立的领域中。“

这种缺乏透明度不仅对研究人员有害,还阻碍了理解迅速采用人工智能技术的社会影响的努力。Mitchell表示,“透明度是确保安全性的最重要的事情。“

评论

所有评论

推荐阅读

  • Polymarket周一将发布重大公告

    3 月 21 日,Polymarket 团队成员 Mustafa 发文表示,将于周一公布一项「重大公告」,具体内容尚未披露。

  • Polymarket将于下周一公布重大消息,或为发币或融资相关消息

    Cointime 报道,3月21日消息,Polymarket 官方团队成员 Mustafa 于 X 平台发文表示,下周一即将公布重大消息。因推文内容包含硬币符号,社区猜测或为融资或代币发射相关重大消息。 此前消息,预测市场平台 Kalshi 与 Polymarket 据悉正与潜在投资者洽谈新一轮融资,目标估值均约为 200 亿美元。日前,Kalshi 已完成新一轮超 10 亿美元融资,估值达 220 亿美元,较去年 12 月上一轮融资时的 110 亿美元估值翻倍。知情人士透露,本轮融资由 Coatue Management 领投,Kalshi 目前的年化收入为 15 亿美元。

  • 美众议院金融服务委员会将于3月25日举行代币化听证会,聚焦资本市场未来

    3 月 21 日,美国众议院金融服务委员会将于美东时间 3 月 25 日 10:00 举行听证会,主题为「代币化与资本市场的未来」,预计将重点讨论区块链技术在金融体系中的应用与监管方向。

  • 黄金创43年来最大周跌幅:一周暴跌11%,避险属性遭质疑

    3 月 21 日,受中东局势升级及利率预期影响,黄金价格大幅下挫,创下自 1983 年以来最大单周跌幅。现货黄金周五跌至约 4488 美元/盎司,单周累计下跌约 11%,自 2 月底以来累计跌幅已超 15%。市场分析认为,美联储年内或维持利率不变、鲍威尔关于通胀上行的表态削弱了黄金吸引力。同时,在伊朗冲突背景下,比特币表现相对更强,期间反弹超 11%,对黄金形成对比。

  • 分析:加密市场山寨币交易量大幅下滑,市场兴趣持续降温

    3 月 21 日,Cryptoquant 分析师 Darkfost 发文称,加密市场山寨币交易量持续走低,投资者兴趣明显减弱。在熊市背景及地缘政治不确定性影响下,山寨币表现持续跑输比特币,风险偏好显著收缩。当前,Binance 山寨币日交易量约为 77 亿美元,其它主要交易所合计约 188 亿美元,远低于 2025 年 10 月与 2 月高峰期(Binance 曾达 400 亿至 500 亿美元,其它平台达 630 亿至 910 亿美元)。目前 Binance 占据约 40% 的市场份额。分析指出,历史上交易量高峰往往对应市场阶段性顶部与 FOMO 情绪释放,而当前低迷成交环境也意味着潜在机会通常出现在市场关注度最低阶段。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    3 月 21 日,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。

  • 中东冲突与加息预期共振:全球资产大震荡,美股四连跌、债市「血洗」、黄金创43年最大周跌幅

    3 月 21 日,中东局势持续升级叠加 Federal Reserve 加息预期骤然升温,全球市场遭遇系统性冲击。美股连续第四周下跌创一年最长跌势,纳指单日跌超 2%,科技股全线承压;全球债市收益率大幅飙升,美债、英债、德债均创多年新高,资金大规模去杠杆。大宗商品剧烈分化,黄金跌破 4500 美元关口,单周暴跌超 10%,创 1983 年以来最大跌幅,避险属性遭质疑;原油则因中东供应风险暴涨,布油重返 110 美元上方,迪拜原油期货单日飙升超 16%。与此同时,比特币在 7 万美元附近获得支撑,连续三周跑赢黄金。市场分析认为,地缘冲突推升能源价格并加剧通胀预期,迫使货币政策路径重定价,全球金融条件快速收紧,风险资产仍处于下行与再定价过程中。

  • 美团开源560B参数定理证明模型:72次推理通过率97.1%,刷新开源模型SOTA

    据 1M AI News 监测,美团 LongCat 团队开源 LongCat-Flash-Prover,一个 5600 亿参数的 MoE 模型,专攻形式化定理证明语言 Lean4 的数学推理任务。模型权重以 MIT 协议发布,已上线 GitHub、Hugging Face 和 ModelScope。模型将形式化推理拆解为三项独立能力:自动形式化(将自然语言数学问题转化为 Lean4 形式语句)、草图生成(产出引理风格的证明框架)和完整证明生成。三项能力均通过 Agent 工具集成推理(TIR)与 Lean4 编译器实时交互验证。训练方面,团队提出 Hybrid-Experts Iteration Framework 生成冷启动数据,并在强化学习阶段引入 HisPO 算法稳定 MoE 模型的长程任务训练,同时加入定理一致性和合法性检测机制防止 reward hacking。基准测试显示,LongCat-Flash-Prover 在开源权重模型中刷新了自动形式化和定理证明两项 SOTA。MiniF2F-Test 上仅用 72 次推理即达 97.1% 通过率,ProverBench 和 PutnamBench 分别达到 70.8% 和 41.5%,每题推理次数不超过 220 次。

  • Erik Voorhees再次增持1.44万枚ETH,总持仓量突破11.7万枚

    3 月 21 日,据 AI 姨监测,ShapeShift 创始人、比特币早期支持者 Erik Voorhees 关联地址,过去 11 小时买入 14,424.53 ETH,总持仓突破 11.7 万枚,持仓均价 2,160.24 美元,当前浮亏 114.5 万美元。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    Cointime 报道,3月21日消息,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。 关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。(金十)