Cointime

扫码下载App
iOS & Android

对话机器人的崛起:数学家如何使用AI?

作者:Davide Castelvecchi

机器学习工具已经能帮助数学家提出新理论,解决难题,但这些工具对该领域的颠覆性远不止此。

随着人们对聊天机器人的热度空前高涨,数学家也开始探索人工智能(AI)可以如何协助他们的工作。研究人员表示,无论是验证人类书写的证明,还是提出不同问题的解法,自动化正在改变数学——而且不仅限于计算领域。

加拿大蒙特利尔大学数论学家Andrew Granville说道,“我们这里谈的是一个非常具体的问题:机器会改变数学吗?”加州大学洛杉矶分校最近一场座谈会探讨了这个问题,希望能在数学家和计算机科学家之间搭建桥梁。“大部分数学家完全没有看到其中的机遇。”这场活动的主办者之一、美国卡内基梅隆大学的计算机科学家Marijn Heule说。

研究人员能利用AI工具解决复杂的数学问题。来源:Fadel Senna/AFP/Getty

菲尔兹奖(Fields Medal)是数学界的至高荣誉,2018年的菲尔兹奖得主、美国普林斯顿高等研究院的Akshay Venkatesh 在10月以他名义举办的研讨会上开启了关于计算机将如何改变数学的对话。菲尔兹奖的另外两位得主——法兰西公学院的Timothy Gowers和加州大学洛杉矶分校的陶哲轩(Terence Tao)——也在这场辩论中领衔发言。

帝国理工学院的数学家Kevin Buzzard说:“我们能吸引到菲尔兹奖得主和世界级的大数学家加入,说明这个领域正以前所未有的方式热了起来。”

AI方法

辩论的一个内容是哪类自动化工具最实用。AI主要有两类。一类是“符号” AI(symbolic AI),需要程序员将逻辑法则或计算嵌入代码中。“也就是大家眼中‘既靠谱又传统的AI’。”华盛顿的微软研究院(Microsoft Research)的Leonardo de Moura说道。

另一类AI基于人工神经网络,过去十年左右取得了巨大成功。对于这类AI,计算机或多或少需要从头开始,并通过消化海量数据来学习其中的模式。这种方式称为机器学习,它既是“大型语言模型”(包括ChatGPT一类的聊天机器人)的基础,也是能在高难度博弈中打败人类选手或是能预测蛋白质折叠的系统的基础。符号AI本身很严密,而神经网络只能进行统计学上的猜测,其运作方式也很神秘,不为人知。

2018年菲尔兹奖得主Akshay Venkatesh(中)谈论了计算机会如何改变数学。来源:Xinhua/Shutterstock

De Moura通过打造名为Lean的系统,帮助符号AI在数学上取得了一些早期进展。这是一种交互式软件工具,要求研究人员为每个问题写出每个逻辑步骤,而且需要具体到最基本的细节,同时确保在数学上是正确的。两年前,一个数学家团队成功将一个很重要但难以理解的证明——其复杂程度就连作者自己也不确定——翻译成了Lean所使用的语言,最后确认了证明是正确的。

该团队表示,这个过程帮助他们理解了这个证明,甚至帮他们找到了简化证明的方法。“我认为这是比检验结果更令人激动的事,”de Moura说,“即使在最夸张的梦里,我们也不敢这么想。”

除了让个人的独立研究更轻松,这类“证明助手”还可以消除de Moura所谓的“信任瓶颈”,改变数学家之间的合作。“如果我们合作,我可能不太信任你做的那部分。但‘证明助手’能向合作者证明,他们完全可以相信你负责的工作没问题。” 

智能化自动补全

另一个极端是聊天机器人风格的、基于神经网络的大型语言模型。在加州山景城的谷歌公司,前物理学家Ethan Dyer和他的团队开发了专门解决数学问题的聊天机器人Minerva。从核心上讲,Minerva是消息App自动补全功能的超智能版本:通过利用arXiv数据库里的数学论文进行训练,它已经学会以某些App预测词汇和句子的方式,写下解题的详细步骤。Lean的沟通方式类似计算机代码,但与Lean不同的是,Minerva能以会话式英语理解问题并给出答案。de Moura说:“能以自动化方式解决这些问题的其中一些本就是一项成就。”

Minerva既展现了这种方法的能力,也暴露了它的可能局限。比如,它能准确将整数分解成素数——素数是无法被更小素数整除的数。但如果数字超过一定大小,它就会开始犯错,这说明它还没有“理解”其中的一般方法。

当然,Minerva的神经网络似乎还是能掌握一些通用技术,而不仅仅是统计学模式,谷歌团队正在尝试理解它是如何做到的。Dyer说:“归根结底,我们想要一个能和你头脑风暴的模型。”他说,这个模型对于需要从专业文献中获取信息的非数学家也很有用。通过学习课本和与专门的数学软件连接,还可以扩展Minerva的技能。

Dyer表示,开展Minerva项目的动力是为了看一看机器学习的方法到底能走多远;一种能协助数学家的强大自动化工具或许能将符号AI技术与神经网络结合起来。

数学对机器

长远上看,AI程序会一直屈居配角地位吗?还是它也能独立开展数学研究?AI生成正确数学命题和证明的能力或许会越来越强,但一些研究人员也担心,这些命题或证明的绝大部分将是无趣或无法理解的。在去年10月的座谈会上,Gowers表示,研究人员或许有办法教会计算机一些数学相关性的客观标准,比如一个小命题是否能代表许多特例,甚至是连接起数学的各个分支。他说:“为了在定理证明上再上一个台阶,计算机就必须学会辨别什么是有趣的和值得证明的。”如果计算机能做到这些,人类在该领域的未来地位就很难说了。

德国亚琛工业大学的计算科学家Erika Abraham则对人类数学家的未来更为乐观。“AI系统的聪明程度只能达到我们给它编程的水平,”她说,“智能的不是计算机,而是编程序或训练它的人。”

美国圣塔菲研究所的计算机科学家和认知科学家Melanie Mitchell表示,数学家暂时还不会丢饭碗,除非AI的一个主要缺陷能被攻克——即它们还无法从具体信息中提取抽象概念。“AI系统或许能证明定理,但你首先要提出这些定理背后有意思的抽象数学概念,这比证明定理难多了。”

来源:https://mp.weixin.qq.com/s/FXZ7bQwNQwzheZn-CgKGfA

评论

所有评论

推荐阅读

  • Polymarket周一将发布重大公告

    3 月 21 日,Polymarket 团队成员 Mustafa 发文表示,将于周一公布一项「重大公告」,具体内容尚未披露。

  • Polymarket将于下周一公布重大消息,或为发币或融资相关消息

    Cointime 报道,3月21日消息,Polymarket 官方团队成员 Mustafa 于 X 平台发文表示,下周一即将公布重大消息。因推文内容包含硬币符号,社区猜测或为融资或代币发射相关重大消息。 此前消息,预测市场平台 Kalshi 与 Polymarket 据悉正与潜在投资者洽谈新一轮融资,目标估值均约为 200 亿美元。日前,Kalshi 已完成新一轮超 10 亿美元融资,估值达 220 亿美元,较去年 12 月上一轮融资时的 110 亿美元估值翻倍。知情人士透露,本轮融资由 Coatue Management 领投,Kalshi 目前的年化收入为 15 亿美元。

  • 美众议院金融服务委员会将于3月25日举行代币化听证会,聚焦资本市场未来

    3 月 21 日,美国众议院金融服务委员会将于美东时间 3 月 25 日 10:00 举行听证会,主题为「代币化与资本市场的未来」,预计将重点讨论区块链技术在金融体系中的应用与监管方向。

  • 黄金创43年来最大周跌幅:一周暴跌11%,避险属性遭质疑

    3 月 21 日,受中东局势升级及利率预期影响,黄金价格大幅下挫,创下自 1983 年以来最大单周跌幅。现货黄金周五跌至约 4488 美元/盎司,单周累计下跌约 11%,自 2 月底以来累计跌幅已超 15%。市场分析认为,美联储年内或维持利率不变、鲍威尔关于通胀上行的表态削弱了黄金吸引力。同时,在伊朗冲突背景下,比特币表现相对更强,期间反弹超 11%,对黄金形成对比。

  • 分析:加密市场山寨币交易量大幅下滑,市场兴趣持续降温

    3 月 21 日,Cryptoquant 分析师 Darkfost 发文称,加密市场山寨币交易量持续走低,投资者兴趣明显减弱。在熊市背景及地缘政治不确定性影响下,山寨币表现持续跑输比特币,风险偏好显著收缩。当前,Binance 山寨币日交易量约为 77 亿美元,其它主要交易所合计约 188 亿美元,远低于 2025 年 10 月与 2 月高峰期(Binance 曾达 400 亿至 500 亿美元,其它平台达 630 亿至 910 亿美元)。目前 Binance 占据约 40% 的市场份额。分析指出,历史上交易量高峰往往对应市场阶段性顶部与 FOMO 情绪释放,而当前低迷成交环境也意味着潜在机会通常出现在市场关注度最低阶段。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    3 月 21 日,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。

  • 中东冲突与加息预期共振:全球资产大震荡,美股四连跌、债市「血洗」、黄金创43年最大周跌幅

    3 月 21 日,中东局势持续升级叠加 Federal Reserve 加息预期骤然升温,全球市场遭遇系统性冲击。美股连续第四周下跌创一年最长跌势,纳指单日跌超 2%,科技股全线承压;全球债市收益率大幅飙升,美债、英债、德债均创多年新高,资金大规模去杠杆。大宗商品剧烈分化,黄金跌破 4500 美元关口,单周暴跌超 10%,创 1983 年以来最大跌幅,避险属性遭质疑;原油则因中东供应风险暴涨,布油重返 110 美元上方,迪拜原油期货单日飙升超 16%。与此同时,比特币在 7 万美元附近获得支撑,连续三周跑赢黄金。市场分析认为,地缘冲突推升能源价格并加剧通胀预期,迫使货币政策路径重定价,全球金融条件快速收紧,风险资产仍处于下行与再定价过程中。

  • 美团开源560B参数定理证明模型:72次推理通过率97.1%,刷新开源模型SOTA

    据 1M AI News 监测,美团 LongCat 团队开源 LongCat-Flash-Prover,一个 5600 亿参数的 MoE 模型,专攻形式化定理证明语言 Lean4 的数学推理任务。模型权重以 MIT 协议发布,已上线 GitHub、Hugging Face 和 ModelScope。模型将形式化推理拆解为三项独立能力:自动形式化(将自然语言数学问题转化为 Lean4 形式语句)、草图生成(产出引理风格的证明框架)和完整证明生成。三项能力均通过 Agent 工具集成推理(TIR)与 Lean4 编译器实时交互验证。训练方面,团队提出 Hybrid-Experts Iteration Framework 生成冷启动数据,并在强化学习阶段引入 HisPO 算法稳定 MoE 模型的长程任务训练,同时加入定理一致性和合法性检测机制防止 reward hacking。基准测试显示,LongCat-Flash-Prover 在开源权重模型中刷新了自动形式化和定理证明两项 SOTA。MiniF2F-Test 上仅用 72 次推理即达 97.1% 通过率,ProverBench 和 PutnamBench 分别达到 70.8% 和 41.5%,每题推理次数不超过 220 次。

  • Erik Voorhees再次增持1.44万枚ETH,总持仓量突破11.7万枚

    3 月 21 日,据 AI 姨监测,ShapeShift 创始人、比特币早期支持者 Erik Voorhees 关联地址,过去 11 小时买入 14,424.53 ETH,总持仓突破 11.7 万枚,持仓均价 2,160.24 美元,当前浮亏 114.5 万美元。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    Cointime 报道,3月21日消息,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。 关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。(金十)