Cointime

扫码下载App
iOS & Android

了解大型语言模型,这里有你想要的清单

原文链接:Understanding Large Language Models 

本文作者:Sebastian Raschka  编译:CoinTime Candice

大型语言模型引起了公众的关注。在短短五年的时间里,大型语言模型——Transformer——几乎完全改变了自然语言处理的领域。此外,它们还开始对计算机视觉和计算生物学等领域进行革命性的变革。

既然Transformer对每个人的研究议程都有如此大的影响,我想为正在起步阶段的机器学习研究者和从业者充实一份简短的阅读清单。

下面的清单主要是按时间顺序来阅读的,主要以学术研究论文为主。当然,还有许多其他有用的资源。例如:

  • Jay Alammar撰写的“The Illustrated Transformer”
  • Lilian Weng撰写的“The Transformer Family”
  • Xavier Amatriain撰写的“ransformer models: an introduction and catalog — 2023 Edition”
  • Andrej Karpathy写的nanoGPT库

了解主要体系结构和任务

如果你是Transformer/大型语言模型的新手,那么这几篇文章最适合你。

(1)Neural Machine Translation by Jointly Learning to Align and Translate(2014),作者Bahdanau、Cho和Bengio

本文为递归神经网络(RNN)引入了一种注意力机制,提高了模型远程序列建模能力。这使得RNN能够更准确地翻译更长的句子——这也是后来开发原始Transformer架构的动机。

来源:https://arxiv.org/abs/1409.0473

(2) Attention Is All You Need(2017),作者:Vaswani、Shazeer、Parmar、Uszkoreit、Jones、Gomez、Kaiser和Polosukhin

本文介绍了由编码器和解码器部分组成的原始Transformer架构,这些部分将在以后作为单独模块进行相关介绍。此外,本文还介绍了一些概念,如缩放点积注意机制、多头注意区块和位置输入编码,这些概念仍然是现代Transformer的基础。

来源:https://arxiv.org/abs/1706.03762

(3) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(2018),作者:Devlin,Chang,Lee和Toutanova

大型语言模型研究遵循最初的Transformer架构,然后开始向两个方向延伸:用于预测性建模任务的编码器式Transformer,如文本分类;用于生成性建模任务的解码器式Transformer,如翻译、总结和其他形式的文本创建。

来源:https://arxiv.org/abs/1810.04805

(4) Improving Language Understanding by Generative Pre-Training(2018),作者:Radford 和Narasimhan

最初的GPT论文介绍了流行的解码器式架构和通过下一个词的预测进行预训练。BERT由于其屏蔽的语言模型预训练目标,可以被认为是一个双向Transformer,而GPT是一个单向的、自回归模型。虽然GPT嵌入也可用于分类,但GPT方法是当今最具影响力的LLM的核心,如chatGPT。

来源:https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035

(5) BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension(2019),作者:Lewis、Liu、Goyal、Ghazvininejad、Mohamed、Levy、Stoyanov和Zettlemoyer

如前所述,BERT型编码器式的LLM通常更适合用于预测建模任务,而GPT型解码器式LLM更擅长生成文本。为了获得两方面的优点,上面的BART论文将编码器和解码器两部分结合在一起。

来源:https://arxiv.org/abs/1910.13461

扩展定律与效率提高

如果你想了解更多关于提高Transformer效率的技术,我推荐2020 Efficient Transformers: A Survey的引申论文2023 A Survey on Efficient Training of Transformer

此外,以下是我觉得特别有趣和值得一读的论文。

(6) FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness(2022),作者:Dao、Fu、Ermon、Rudra和Ré

虽然大多数Transformer论文都不关心取代原来的缩放点积机制来实现自我注意,但FlashAttention是我最近最常提到的一种机制。

来源:https://arxiv.org/abs/2205.14135

(7)Cramming: Training a Language Model on a Single GPU in One Day(2022),作者:Geiping和Goldstein

在这篇论文中,研究人员在单个GPU上训练了一个屏蔽的语言模型/编码器式的LLM(这里:BERT)24小时。相比之下,2018年BERT的原始论文在16个TPU上训练了四天。一个有趣的见解是,虽然较小的模型具有较高的吞吐量,但较小的模型学习效率也较低。因此,较大的模型不需要更多的训练时间来达到特定的预测性能阈值。

来源:https://arxiv.org/abs/2212.14034

(8) Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning(2022),作者:Lialin,Desphande和Rumshisky

在大型数据集上进行预训练的现代大型语言模型显示出新兴的能力,并在各种任务中表现良好,包括语言翻译、总结、编程和问答。然而,如果我们想提高Transformer在特定领域数据和特殊任务上的能力,那么值得微调Transformer。这项调查回顾了40多篇关于参数有效的微调方法的论文(包括流行的技术,如前缀调整、适应器和低等级适应),以使微调(非常)具有计算效率。

来源:https://arxiv.org/abs/1910.13461

(9) Training Compute-Optimal Large Language Models(2022),作者:Hoffmann, Borgeaud、Mensch、Buchatskaya、Cai、Rutherford、de Las Casas、Hendricks、Welbl、Clark、Hennigan、Noland、Millican、van den Driessche、Damoc、Guy、Osindero、Simonyan、Elsen、Rae、Vinyals和Sifre

本文介绍了700亿个参数的Chinchilla模型,该模型在生成性建模任务上优于流行的175亿个参数的GPT-3模型。然而,其主要观点是,当代大型语言模型“训练不足”。

本文定义了大型语言模型训练的线性扩展规律。例如,虽然Chinchilla的规模只有GPT-3的一半,但它的表现优于GPT-3,因为它是在1.4万亿(而不是3000亿)代币上训练的。换句话说,训练代币的数量与模型大小一样重要。

来源:https://arxiv.org/abs/2203.15556

一致性——引导大型语言模型达到预期目标和兴趣

近年来,我们看到了许多功能相对强大的大型语言模型,它们可以生成逼真的文本(例如GPT-3和Chinchilla等)。就我们使用常用的预训练范式所能实现的目标而言,我们似乎已经达到了一个上限。

为了使语言模型更有帮助,减少错误信息,研究人员设计了额外的训练范式对预先训练的基本模型进行微调。

(10) Training Language Models to Follow Instructions with Human Feedback(2022),作者:Ouyang、Wu、Jiang、Almeida、Wainwright、Mishkin、Zhang、Agarwal、Slama、Ray、Schulman、Hilton、Kelton、Miller、Simens、Askell、Welinder、Christiano、Leike和Lowe

在这篇所谓的InstructGPT论文中,研究人员使用了一个有人类参与的强化学习机制(RLHF)。他们从一个预先训练好的GPT-3基础模型开始,通过对人类产生的提示——反应对进行监督学习来进一步微调(步骤1)。接下来,他们要求人类对模型输出进行排序,以训练奖励模型(步骤2)。最后,他们使用奖励模型通过近似策略优化使用强化学习,来更新预训练和微调的GPT-3模型(步骤3)。

顺便说一句,这篇论文也被称为描述ChatGPT背后想法的论文——根据最近的传言,ChatGPT是InstructGPT的放大版,在更大的数据集上进行了微调。

来源:https://arxiv.org/abs/2203.02155

(11) Constitutional AI: Harmlessness from AI Feedback(2022),作者:Yuntao、Saurav、Sandipan、Amanda、Jackson、Jones、Chen、Anna、Mirhosini、McKinnon、Chen、Olsson、Olah、Hernandez、Drain、Ganguli、Li、Tran Johnson、Perez、Kerr、Mueller、Ladish、Landau、Ndousse、Lukosuite、Lovitt、Sellitto、Elhage、Schiefer、Mercado、DasSarma、Lasenby、Larson、Ringer、Johnston、Kravec、El Showk、Fort、Lanham,Telleen Lawton、Conerly、Henighan、Hume、Bowman、Hatfield Dods、Mann、Amodei、Joseph、McCandlish、Brown、Kaplan

在这篇论文中,研究人员将一致性思想向前推进了一步,提出了一种创建“无害”人工智能系统的训练机制。研究人员提出了一种基于规则列表(由人类提供)的自我训练机制,而不是人类直接进行监督。与上面提到的InstructGPT论文类似,这篇论文提议的方法采用了强化学习的方法。

来源:https://arxiv.org/abs/2212.08073

有人类反馈的强化学习(RLHF)介绍

虽然RLHF(有人类反馈的强化学习)可能不能完全解决目前LLM的问题,但被认为是目前最好的选择,特别是与前一代LLM相比。我们很可能会看到更多将RLHF应用于LLM的其他领域的创造性方法。

上面的两篇论文,InstructGPTConsitutinal AI,都使用了RLHF,由于它在不久的将来将成为一种有影响力的方法,如果你想了解RLHF,本节将提供额外的资源。(为了技术上的正确性,Constitutional AI论文使用人工智能而不是人类反馈,但它使用RL遵循了类似的概念。)

(12) Asynchronous Methods for Deep Reinforcement Learning(2016),作者:Mnih、Badia、Mirza、Graves、Lillicrap、Harley、Silver和Kavukcuoglu(https://arxiv.org/abs/1602.01783)引入策略梯度方法作为基于深度学习的RL中Q学习的替代方法。

(13) Proximal Policy Optimization Algorithms(2017),作者:Schulman、Wolski、Dhariwal、Radford、Klimov (https://arxiv.org/abs/1707.06347)提出了一种修改后的基于近似策略的强化学习程序,比上述虚无的策略优化算法更具有数据效率和可扩展性。

(14)Fine-Tuning Language Models from Human Preferences(2020),作者:Ziegler、Stiennon、Wu、Brown、Radford、Amodei、Christiano、Irving (https://arxiv.org/abs/1909.08593)说明了PPO的概念,并对预训练的语言模型进行奖励学习,包括KL正则化,以防止策略与自然语言偏离太远。

(15)Learning to Summarize from Human Feedback(2022),作者:Stiennon、Ouyang、Wu、Ziegler、Lowe、Voss、Radford、Amodei、Christiano,https://arxiv.org/abs/2009.01325介绍了主流的RLHF三步程序:

  1. 预训练GPT-3;
  2. 以监督的方式对其进行微调;
  3. 同样以监督的方式训练一个奖励模型。然后用这个奖励模型训练微调模型,并进行近似的策略优化。

本文还表明,采用近似策略优化的强化学习比仅仅采用常规的监督学习能产生更好的模型。

来源:https://arxiv.org/abs/2009.01325

(16) Training Language Models to Follow Instructions with Human Feedback(2022),作者:Ouyang、Wu、Jiang、Almeida、Wainwright、Mishkin、Zhang、Agarwal、Slama、Ray、Schulman、Hilton、Kelton、Miller、Simens、Askell、Welinder、Christiano、Leike和Lowe (https://arxiv.org/abs/2203.02155),也称为InstructGPT论文,对RLHF使用了与上述类似的三步程序,但它不是总结文本,而是专注于根据人类指令生成的文本。此外,它还使用了一个标签器将输出结果从最佳到最差进行排序(而不是仅仅对人类和人工智能生成的文本进行二元比较)。

结论和进一步阅读

我试图保持上面的列表简洁明了,重点关注前10篇论文(加上3篇关于RLHF的额外论文),以了解当代大型语言模型背后的设计、约束和演变。

为了进一步阅读,我建议参考上述文件中的参考文献。或者,为了给您一些额外的指针,这里有一些额外的资源:

GPT的开源替代方案

  • BLOOM: A 176B-Parameter Open-Access Multilingual Language Model (2022), https://arxiv.org/abs/2211.05100
  • OPT: Open Pre-trained Transformer Language Models (2022), https://arxiv.org/abs/2205.01068

ChatGPT替代方案

  • LaMDA: Language Models for Dialog Applications(2022),https://arxiv.org/abs/2201.08239
  • (Sparrow) Improving Alignment of Dialogue Agents via Targeted Human Judgements(2022),https://arxiv.org/abs/2209.14375
  • BlenderBot 3: A Deployed Conversational Agent that Continually Learns to Responsibly Rngage,https://arxiv.org/abs/2208.03188

计算生物学中的大型语言模型

  • ProtTrans: Towards Cracking the Language of Life’s Code Through Self-Supervised Deep Learning and High Performance Computing(2021),https://arxiv.org/abs/2007.06225
  • Highly Accurate Protein Structure Prediction with AlphaFold(2021),https://www.nature.com/articles/s41586-021-03819-2
  • Large Language Models Generate Functional Protein Sequences Across Diverse Families(2023),https://www.nature.com/articles/s41587-022-01618-2

*本文由CoinTime整理编译,转载请注明来源。

评论

所有评论

推荐阅读

  • Polymarket周一将发布重大公告

    3 月 21 日,Polymarket 团队成员 Mustafa 发文表示,将于周一公布一项「重大公告」,具体内容尚未披露。

  • Polymarket将于下周一公布重大消息,或为发币或融资相关消息

    Cointime 报道,3月21日消息,Polymarket 官方团队成员 Mustafa 于 X 平台发文表示,下周一即将公布重大消息。因推文内容包含硬币符号,社区猜测或为融资或代币发射相关重大消息。 此前消息,预测市场平台 Kalshi 与 Polymarket 据悉正与潜在投资者洽谈新一轮融资,目标估值均约为 200 亿美元。日前,Kalshi 已完成新一轮超 10 亿美元融资,估值达 220 亿美元,较去年 12 月上一轮融资时的 110 亿美元估值翻倍。知情人士透露,本轮融资由 Coatue Management 领投,Kalshi 目前的年化收入为 15 亿美元。

  • 美众议院金融服务委员会将于3月25日举行代币化听证会,聚焦资本市场未来

    3 月 21 日,美国众议院金融服务委员会将于美东时间 3 月 25 日 10:00 举行听证会,主题为「代币化与资本市场的未来」,预计将重点讨论区块链技术在金融体系中的应用与监管方向。

  • 黄金创43年来最大周跌幅:一周暴跌11%,避险属性遭质疑

    3 月 21 日,受中东局势升级及利率预期影响,黄金价格大幅下挫,创下自 1983 年以来最大单周跌幅。现货黄金周五跌至约 4488 美元/盎司,单周累计下跌约 11%,自 2 月底以来累计跌幅已超 15%。市场分析认为,美联储年内或维持利率不变、鲍威尔关于通胀上行的表态削弱了黄金吸引力。同时,在伊朗冲突背景下,比特币表现相对更强,期间反弹超 11%,对黄金形成对比。

  • 分析:加密市场山寨币交易量大幅下滑,市场兴趣持续降温

    3 月 21 日,Cryptoquant 分析师 Darkfost 发文称,加密市场山寨币交易量持续走低,投资者兴趣明显减弱。在熊市背景及地缘政治不确定性影响下,山寨币表现持续跑输比特币,风险偏好显著收缩。当前,Binance 山寨币日交易量约为 77 亿美元,其它主要交易所合计约 188 亿美元,远低于 2025 年 10 月与 2 月高峰期(Binance 曾达 400 亿至 500 亿美元,其它平台达 630 亿至 910 亿美元)。目前 Binance 占据约 40% 的市场份额。分析指出,历史上交易量高峰往往对应市场阶段性顶部与 FOMO 情绪释放,而当前低迷成交环境也意味着潜在机会通常出现在市场关注度最低阶段。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    3 月 21 日,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。

  • 中东冲突与加息预期共振:全球资产大震荡,美股四连跌、债市「血洗」、黄金创43年最大周跌幅

    3 月 21 日,中东局势持续升级叠加 Federal Reserve 加息预期骤然升温,全球市场遭遇系统性冲击。美股连续第四周下跌创一年最长跌势,纳指单日跌超 2%,科技股全线承压;全球债市收益率大幅飙升,美债、英债、德债均创多年新高,资金大规模去杠杆。大宗商品剧烈分化,黄金跌破 4500 美元关口,单周暴跌超 10%,创 1983 年以来最大跌幅,避险属性遭质疑;原油则因中东供应风险暴涨,布油重返 110 美元上方,迪拜原油期货单日飙升超 16%。与此同时,比特币在 7 万美元附近获得支撑,连续三周跑赢黄金。市场分析认为,地缘冲突推升能源价格并加剧通胀预期,迫使货币政策路径重定价,全球金融条件快速收紧,风险资产仍处于下行与再定价过程中。

  • 美团开源560B参数定理证明模型:72次推理通过率97.1%,刷新开源模型SOTA

    据 1M AI News 监测,美团 LongCat 团队开源 LongCat-Flash-Prover,一个 5600 亿参数的 MoE 模型,专攻形式化定理证明语言 Lean4 的数学推理任务。模型权重以 MIT 协议发布,已上线 GitHub、Hugging Face 和 ModelScope。模型将形式化推理拆解为三项独立能力:自动形式化(将自然语言数学问题转化为 Lean4 形式语句)、草图生成(产出引理风格的证明框架)和完整证明生成。三项能力均通过 Agent 工具集成推理(TIR)与 Lean4 编译器实时交互验证。训练方面,团队提出 Hybrid-Experts Iteration Framework 生成冷启动数据,并在强化学习阶段引入 HisPO 算法稳定 MoE 模型的长程任务训练,同时加入定理一致性和合法性检测机制防止 reward hacking。基准测试显示,LongCat-Flash-Prover 在开源权重模型中刷新了自动形式化和定理证明两项 SOTA。MiniF2F-Test 上仅用 72 次推理即达 97.1% 通过率,ProverBench 和 PutnamBench 分别达到 70.8% 和 41.5%,每题推理次数不超过 220 次。

  • Erik Voorhees再次增持1.44万枚ETH,总持仓量突破11.7万枚

    3 月 21 日,据 AI 姨监测,ShapeShift 创始人、比特币早期支持者 Erik Voorhees 关联地址,过去 11 小时买入 14,424.53 ETH,总持仓突破 11.7 万枚,持仓均价 2,160.24 美元,当前浮亏 114.5 万美元。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    Cointime 报道,3月21日消息,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。 关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。(金十)