Cointime

扫码下载App
iOS & Android

微软将数万颗芯片串联成一台价格不菲的超级计算机用于OpenAI

Cointime Official

现在,这家软件制造商的云技术为公司和客户的人工智能产品提供支持,同时它还在组建一款后继产品。

当微软公司于2019年向OpenAI投资10亿美元时,它同意为这家人工智能研究初创公司建造一台大规模的尖端超级计算机。唯一的问题是:微软没有像OpenAI所需要的东西,也不完全确定它能在其Azure云服务中建造这么大的东西而不至于崩溃。

OpenAI试图训练一套越来越大的被称为模型的人工智能程序,这些程序正在吸收更多的数据,并学习越来越多的参数,即人工智能系统通过训练和再训练而发现的变量。这意味着OpenAI需要长期使用强大的云计算服务。

为了应对这一挑战,微软不得不想方设法将数以万计的英伟达公司(Nvidia Corp.)的A100图形芯片(训练人工智能模型的主力)串联起来,并改变其在机架上放置服务器的方式以防止断电。负责云计算和人工智能的微软执行副总裁Scott Guthrie不愿透露该项目的具体成本,但他说 “可能会大于”几亿美元。

微软Azure AI基础设施总经理Nidhi Chappell说:“我们建立了一个系统架构,可以在非常大的规模下运行和可靠。这就是ChatGPT成为可能的原因。这就是其中的一个模型。以后将会有很多很多其他的模式。”

这项技术让OpenAI发布了ChatGPT,这个病毒式的聊天机器人在去年11月上市后几天内就吸引了100多万用户,现在正被拉入其他公司的商业模式,从亿万富翁对冲基金创始人Ken Griffin经营的公司到食品配送服务Instacart Inc. 随着ChatGPT等生成型人工智能工具获得企业和消费者的兴趣,微软、亚马逊公司和Alphabet公司旗下的谷歌等云服务提供商将面临更多压力,以确保其数据中心能够提供所需的巨大计算能力。

现在,微软使用它为OpenAI建立的那套资源来训练和运行自己的大型人工智能模型,包括上个月推出的新的Bing搜索机器人。它还将该系统卖给其他客户。这家软件巨头已经开始着手开发下一代人工智能超级计算机,这是微软与OpenAI扩大交易的一部分,微软在其中增加了100亿美元的投资。

Guthrie在采访中说:“我们没有为他们建造一个定制的东西,它一开始就是一个定制的东西,但我们总是以一种方式来构建它,使任何想要训练大型语言模型的人都可以利用同样的改进。这确实帮助我们成为一个更好的人工智能广泛的云。”

训练一个大规模的人工智能模型需要像微软组装的人工智能超级计算机那样,在一个地方有一个大型的连接图形处理单元池。一旦一个模型投入使用,回答用户提出的所有查询(称为推理)需要一个稍微不同的设置。微软也部署了用于推理的图形芯片,但这些处理器(数十万个)在地理位置上分散在该公司60多个地区的数据中心。微软周一在一篇博文中说: 现在,该公司正在为人工智能工作负载添加最新的Nvidia图形芯片(H100)以及Nvidia最新版本的Infiniband网络技术,以更快地分享数据。

新的必应仍处于预览阶段,微软正在逐步从等待名单中增加更多的用户。Guthrie的团队每天与大约二十几名员工举行会议,他们被称为 “维修人员”,因为他们是在比赛中调整赛车的“机械师”。该小组的工作是弄清楚如何快速上线更多的计算能力,以及解决出现的问题。

Guthrie说:“这在很大程度上是一种集合,就像,'嘿,任何人有一个好主意,让我们今天把它放在桌子上,让我们讨论一下,让我们弄清楚,我们能在这里减少几分钟吗?我们可以减少几个小时吗?几天?”。

云服务依赖于数以千计的不同部件和物品(服务器、管道、建筑物的混凝土、不同的金属和矿物等各个部分)任何一个部件的延迟或短缺,无论多么微小,都会使一切都中断。最近,维修人员不得不处理电缆托架的短缺问题,这种篮子一样的装置用来放置机器上的电缆。所以他们设计了一种新的电缆盘,微软可以自己生产或找地方购买。Guthrie说,他们还在研究如何在全球现有的数据中心中尽可能多地压缩服务器,这样他们就不必等待新的创造。

当OpenAI或微软正在训练一个大型的人工智能模型时,工作在同一时间发生。它被分到所有的GPU上,在某些时候,这些单元需要相互交谈,以分享它们所做的工作。对于人工智能超级计算机,微软必须确保处理所有芯片之间通信的网络设备能够处理这种负载,而且它必须开发软件,使GPU和网络设备得到最佳利用。该公司现在已经提出了一个软件,可以让它训练具有几十万亿个参数的模型。

因为所有的机器都是一次性启动的,所以微软必须考虑到它们的放置位置和电源的位置。Guthrie说,否则就会出现数据中心的情况,就像你在厨房里同时打开微波炉、烤面包机和吸尘器一样。

Azure全球基础设施总监Alistair Speirs说,该公司还必须确保它能够冷却所有这些机器和芯片,并使用蒸发,在较凉爽的气候下使用外部空气,在炎热的气候下使用高科技沼泽冷却器。

Guthrie说,微软将继续研究定制的服务器和芯片设计以及优化其供应链的方法,以获得任何速度上的提高、效率和成本上的节省。

他说:“现在让世界惊叹的模型是建立在我们几年前开始建造的超级计算机上的。新的模型将建立在我们现在正在培训的新的超级计算机上,这台计算机大得多,将实现更多的复杂性”。

评论

所有评论

推荐阅读

  • Polymarket周一将发布重大公告

    3 月 21 日,Polymarket 团队成员 Mustafa 发文表示,将于周一公布一项「重大公告」,具体内容尚未披露。

  • Polymarket将于下周一公布重大消息,或为发币或融资相关消息

    Cointime 报道,3月21日消息,Polymarket 官方团队成员 Mustafa 于 X 平台发文表示,下周一即将公布重大消息。因推文内容包含硬币符号,社区猜测或为融资或代币发射相关重大消息。 此前消息,预测市场平台 Kalshi 与 Polymarket 据悉正与潜在投资者洽谈新一轮融资,目标估值均约为 200 亿美元。日前,Kalshi 已完成新一轮超 10 亿美元融资,估值达 220 亿美元,较去年 12 月上一轮融资时的 110 亿美元估值翻倍。知情人士透露,本轮融资由 Coatue Management 领投,Kalshi 目前的年化收入为 15 亿美元。

  • 美众议院金融服务委员会将于3月25日举行代币化听证会,聚焦资本市场未来

    3 月 21 日,美国众议院金融服务委员会将于美东时间 3 月 25 日 10:00 举行听证会,主题为「代币化与资本市场的未来」,预计将重点讨论区块链技术在金融体系中的应用与监管方向。

  • 黄金创43年来最大周跌幅:一周暴跌11%,避险属性遭质疑

    3 月 21 日,受中东局势升级及利率预期影响,黄金价格大幅下挫,创下自 1983 年以来最大单周跌幅。现货黄金周五跌至约 4488 美元/盎司,单周累计下跌约 11%,自 2 月底以来累计跌幅已超 15%。市场分析认为,美联储年内或维持利率不变、鲍威尔关于通胀上行的表态削弱了黄金吸引力。同时,在伊朗冲突背景下,比特币表现相对更强,期间反弹超 11%,对黄金形成对比。

  • 分析:加密市场山寨币交易量大幅下滑,市场兴趣持续降温

    3 月 21 日,Cryptoquant 分析师 Darkfost 发文称,加密市场山寨币交易量持续走低,投资者兴趣明显减弱。在熊市背景及地缘政治不确定性影响下,山寨币表现持续跑输比特币,风险偏好显著收缩。当前,Binance 山寨币日交易量约为 77 亿美元,其它主要交易所合计约 188 亿美元,远低于 2025 年 10 月与 2 月高峰期(Binance 曾达 400 亿至 500 亿美元,其它平台达 630 亿至 910 亿美元)。目前 Binance 占据约 40% 的市场份额。分析指出,历史上交易量高峰往往对应市场阶段性顶部与 FOMO 情绪释放,而当前低迷成交环境也意味着潜在机会通常出现在市场关注度最低阶段。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    3 月 21 日,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。

  • 中东冲突与加息预期共振:全球资产大震荡,美股四连跌、债市「血洗」、黄金创43年最大周跌幅

    3 月 21 日,中东局势持续升级叠加 Federal Reserve 加息预期骤然升温,全球市场遭遇系统性冲击。美股连续第四周下跌创一年最长跌势,纳指单日跌超 2%,科技股全线承压;全球债市收益率大幅飙升,美债、英债、德债均创多年新高,资金大规模去杠杆。大宗商品剧烈分化,黄金跌破 4500 美元关口,单周暴跌超 10%,创 1983 年以来最大跌幅,避险属性遭质疑;原油则因中东供应风险暴涨,布油重返 110 美元上方,迪拜原油期货单日飙升超 16%。与此同时,比特币在 7 万美元附近获得支撑,连续三周跑赢黄金。市场分析认为,地缘冲突推升能源价格并加剧通胀预期,迫使货币政策路径重定价,全球金融条件快速收紧,风险资产仍处于下行与再定价过程中。

  • 美团开源560B参数定理证明模型:72次推理通过率97.1%,刷新开源模型SOTA

    据 1M AI News 监测,美团 LongCat 团队开源 LongCat-Flash-Prover,一个 5600 亿参数的 MoE 模型,专攻形式化定理证明语言 Lean4 的数学推理任务。模型权重以 MIT 协议发布,已上线 GitHub、Hugging Face 和 ModelScope。模型将形式化推理拆解为三项独立能力:自动形式化(将自然语言数学问题转化为 Lean4 形式语句)、草图生成(产出引理风格的证明框架)和完整证明生成。三项能力均通过 Agent 工具集成推理(TIR)与 Lean4 编译器实时交互验证。训练方面,团队提出 Hybrid-Experts Iteration Framework 生成冷启动数据,并在强化学习阶段引入 HisPO 算法稳定 MoE 模型的长程任务训练,同时加入定理一致性和合法性检测机制防止 reward hacking。基准测试显示,LongCat-Flash-Prover 在开源权重模型中刷新了自动形式化和定理证明两项 SOTA。MiniF2F-Test 上仅用 72 次推理即达 97.1% 通过率,ProverBench 和 PutnamBench 分别达到 70.8% 和 41.5%,每题推理次数不超过 220 次。

  • Erik Voorhees再次增持1.44万枚ETH,总持仓量突破11.7万枚

    3 月 21 日,据 AI 姨监测,ShapeShift 创始人、比特币早期支持者 Erik Voorhees 关联地址,过去 11 小时买入 14,424.53 ETH,总持仓突破 11.7 万枚,持仓均价 2,160.24 美元,当前浮亏 114.5 万美元。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    Cointime 报道,3月21日消息,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。 关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。(金十)