了解大型语言模型，这里有你想要的清单

原文链接：Understanding Large Language Models

本文作者：Sebastian Raschka 编译：CoinTime Candice

大型语言模型引起了公众的关注。在短短五年的时间里，大型语言模型——Transformer——几乎完全改变了自然语言处理的领域。此外，它们还开始对计算机视觉和计算生物学等领域进行革命性的变革。

既然Transformer对每个人的研究议程都有如此大的影响，我想为正在起步阶段的机器学习研究者和从业者充实一份简短的阅读清单。

下面的清单主要是按时间顺序来阅读的，主要以学术研究论文为主。当然，还有许多其他有用的资源。例如：

Jay Alammar撰写的“The Illustrated Transformer”
Lilian Weng撰写的“The Transformer Family”
Xavier Amatriain撰写的“ransformer models: an introduction and catalog — 2023 Edition”
Andrej Karpathy写的nanoGPT库

了解主要体系结构和任务

如果你是Transformer/大型语言模型的新手，那么这几篇文章最适合你。

（1）Neural Machine Translation by Jointly Learning to Align and Translate（2014），作者Bahdanau、Cho和Bengio

本文为递归神经网络（RNN）引入了一种注意力机制，提高了模型远程序列建模能力。这使得RNN能够更准确地翻译更长的句子——这也是后来开发原始Transformer架构的动机。

（2） Attention Is All You Need（2017），作者：Vaswani、Shazeer、Parmar、Uszkoreit、Jones、Gomez、Kaiser和Polosukhin

本文介绍了由编码器和解码器部分组成的原始Transformer架构，这些部分将在以后作为单独模块进行相关介绍。此外，本文还介绍了一些概念，如缩放点积注意机制、多头注意区块和位置输入编码，这些概念仍然是现代Transformer的基础。

（3） BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding（2018），作者：Devlin，Chang，Lee和Toutanova

大型语言模型研究遵循最初的Transformer架构，然后开始向两个方向延伸：用于预测性建模任务的编码器式Transformer，如文本分类；用于生成性建模任务的解码器式Transformer，如翻译、总结和其他形式的文本创建。

（4） Improving Language Understanding by Generative Pre-Training（2018），作者：Radford 和Narasimhan

最初的GPT论文介绍了流行的解码器式架构和通过下一个词的预测进行预训练。BERT由于其屏蔽的语言模型预训练目标，可以被认为是一个双向Transformer，而GPT是一个单向的、自回归模型。虽然GPT嵌入也可用于分类，但GPT方法是当今最具影响力的LLM的核心，如chatGPT。

来源：https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035

（5） BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension（2019），作者：Lewis、Liu、Goyal、Ghazvininejad、Mohamed、Levy、Stoyanov和Zettlemoyer

如前所述，BERT型编码器式的LLM通常更适合用于预测建模任务，而GPT型解码器式LLM更擅长生成文本。为了获得两方面的优点，上面的BART论文将编码器和解码器两部分结合在一起。

扩展定律与效率提高

如果你想了解更多关于提高Transformer效率的技术，我推荐2020 Efficient Transformers: A Survey的引申论文2023 A Survey on Efficient Training of Transformer。

此外，以下是我觉得特别有趣和值得一读的论文。

（6） FlashAttention： Fast and Memory-Efficient Exact Attention with IO-Awareness（2022），作者：Dao、Fu、Ermon、Rudra和Ré

虽然大多数Transformer论文都不关心取代原来的缩放点积机制来实现自我注意，但FlashAttention是我最近最常提到的一种机制。

（7）Cramming: Training a Language Model on a Single GPU in One Day（2022），作者：Geiping和Goldstein

在这篇论文中，研究人员在单个GPU上训练了一个屏蔽的语言模型/编码器式的LLM（这里：BERT）24小时。相比之下，2018年BERT的原始论文在16个TPU上训练了四天。一个有趣的见解是，虽然较小的模型具有较高的吞吐量，但较小的模型学习效率也较低。因此，较大的模型不需要更多的训练时间来达到特定的预测性能阈值。

（8） Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning（2022），作者：Lialin，Desphande和Rumshisky

在大型数据集上进行预训练的现代大型语言模型显示出新兴的能力，并在各种任务中表现良好，包括语言翻译、总结、编程和问答。然而，如果我们想提高Transformer在特定领域数据和特殊任务上的能力，那么值得微调Transformer。这项调查回顾了40多篇关于参数有效的微调方法的论文（包括流行的技术，如前缀调整、适应器和低等级适应），以使微调（非常）具有计算效率。

（9） Training Compute-Optimal Large Language Models（2022），作者：Hoffmann, Borgeaud、Mensch、Buchatskaya、Cai、Rutherford、de Las Casas、Hendricks、Welbl、Clark、Hennigan、Noland、Millican、van den Driessche、Damoc、Guy、Osindero、Simonyan、Elsen、Rae、Vinyals和Sifre

本文介绍了700亿个参数的Chinchilla模型，该模型在生成性建模任务上优于流行的175亿个参数的GPT-3模型。然而，其主要观点是，当代大型语言模型“训练不足”。

本文定义了大型语言模型训练的线性扩展规律。例如，虽然Chinchilla的规模只有GPT-3的一半，但它的表现优于GPT-3，因为它是在1.4万亿（而不是3000亿）代币上训练的。换句话说，训练代币的数量与模型大小一样重要。

一致性——引导大型语言模型达到预期目标和兴趣

近年来，我们看到了许多功能相对强大的大型语言模型，它们可以生成逼真的文本（例如GPT-3和Chinchilla等）。就我们使用常用的预训练范式所能实现的目标而言，我们似乎已经达到了一个上限。

为了使语言模型更有帮助，减少错误信息，研究人员设计了额外的训练范式对预先训练的基本模型进行微调。

（10） Training Language Models to Follow Instructions with Human Feedback（2022），作者：Ouyang、Wu、Jiang、Almeida、Wainwright、Mishkin、Zhang、Agarwal、Slama、Ray、Schulman、Hilton、Kelton、Miller、Simens、Askell、Welinder、Christiano、Leike和Lowe

在这篇所谓的InstructGPT论文中，研究人员使用了一个有人类参与的强化学习机制（RLHF）。他们从一个预先训练好的GPT-3基础模型开始，通过对人类产生的提示——反应对进行监督学习来进一步微调（步骤1）。接下来，他们要求人类对模型输出进行排序，以训练奖励模型（步骤2）。最后，他们使用奖励模型通过近似策略优化使用强化学习，来更新预训练和微调的GPT-3模型（步骤3）。

顺便说一句，这篇论文也被称为描述ChatGPT背后想法的论文——根据最近的传言，ChatGPT是InstructGPT的放大版，在更大的数据集上进行了微调。

（11） Constitutional AI: Harmlessness from AI Feedback（2022），作者：Yuntao、Saurav、Sandipan、Amanda、Jackson、Jones、Chen、Anna、Mirhosini、McKinnon、Chen、Olsson、Olah、Hernandez、Drain、Ganguli、Li、Tran Johnson、Perez、Kerr、Mueller、Ladish、Landau、Ndousse、Lukosuite、Lovitt、Sellitto、Elhage、Schiefer、Mercado、DasSarma、Lasenby、Larson、Ringer、Johnston、Kravec、El Showk、Fort、Lanham，Telleen Lawton、Conerly、Henighan、Hume、Bowman、Hatfield Dods、Mann、Amodei、Joseph、McCandlish、Brown、Kaplan

在这篇论文中，研究人员将一致性思想向前推进了一步，提出了一种创建“无害”人工智能系统的训练机制。研究人员提出了一种基于规则列表（由人类提供）的自我训练机制，而不是人类直接进行监督。与上面提到的InstructGPT论文类似，这篇论文提议的方法采用了强化学习的方法。

有人类反馈的强化学习（RLHF）介绍

虽然RLHF（有人类反馈的强化学习）可能不能完全解决目前LLM的问题，但被认为是目前最好的选择，特别是与前一代LLM相比。我们很可能会看到更多将RLHF应用于LLM的其他领域的创造性方法。

上面的两篇论文，InstructGPT和Consitutinal AI，都使用了RLHF，由于它在不久的将来将成为一种有影响力的方法，如果你想了解RLHF，本节将提供额外的资源。（为了技术上的正确性，Constitutional AI论文使用人工智能而不是人类反馈，但它使用RL遵循了类似的概念。）

（12） Asynchronous Methods for Deep Reinforcement Learning（2016），作者：Mnih、Badia、Mirza、Graves、Lillicrap、Harley、Silver和Kavukcuoglu（https://arxiv.org/abs/1602.01783）引入策略梯度方法作为基于深度学习的RL中Q学习的替代方法。

（13） Proximal Policy Optimization Algorithms（2017），作者：Schulman、Wolski、Dhariwal、Radford、Klimov （https://arxiv.org/abs/1707.06347）提出了一种修改后的基于近似策略的强化学习程序，比上述虚无的策略优化算法更具有数据效率和可扩展性。

（14）Fine-Tuning Language Models from Human Preferences（2020），作者：Ziegler、Stiennon、Wu、Brown、Radford、Amodei、Christiano、Irving （https://arxiv.org/abs/1909.08593）说明了PPO的概念，并对预训练的语言模型进行奖励学习，包括KL正则化，以防止策略与自然语言偏离太远。

（15）Learning to Summarize from Human Feedback（2022），作者：Stiennon、Ouyang、Wu、Ziegler、Lowe、Voss、Radford、Amodei、Christiano，https://arxiv.org/abs/2009.01325介绍了主流的RLHF三步程序：

预训练GPT-3；
以监督的方式对其进行微调；
同样以监督的方式训练一个奖励模型。然后用这个奖励模型训练微调模型，并进行近似的策略优化。

本文还表明，采用近似策略优化的强化学习比仅仅采用常规的监督学习能产生更好的模型。

（16） Training Language Models to Follow Instructions with Human Feedback（2022），作者：Ouyang、Wu、Jiang、Almeida、Wainwright、Mishkin、Zhang、Agarwal、Slama、Ray、Schulman、Hilton、Kelton、Miller、Simens、Askell、Welinder、Christiano、Leike和Lowe （https://arxiv.org/abs/2203.02155），也称为InstructGPT论文，对RLHF使用了与上述类似的三步程序，但它不是总结文本，而是专注于根据人类指令生成的文本。此外，它还使用了一个标签器将输出结果从最佳到最差进行排序（而不是仅仅对人类和人工智能生成的文本进行二元比较）。

结论和进一步阅读

我试图保持上面的列表简洁明了，重点关注前10篇论文（加上3篇关于RLHF的额外论文），以了解当代大型语言模型背后的设计、约束和演变。

为了进一步阅读，我建议参考上述文件中的参考文献。或者，为了给您一些额外的指针，这里有一些额外的资源：

GPT的开源替代方案

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model （2022）， https://arxiv.org/abs/2211.05100
OPT: Open Pre-trained Transformer Language Models （2022）， https://arxiv.org/abs/2205.01068

ChatGPT替代方案

LaMDA: Language Models for Dialog Applications（2022），https://arxiv.org/abs/2201.08239
(Sparrow) Improving Alignment of Dialogue Agents via Targeted Human Judgements（2022），https://arxiv.org/abs/2209.14375
BlenderBot 3: A Deployed Conversational Agent that Continually Learns to Responsibly Rngage，https://arxiv.org/abs/2208.03188

计算生物学中的大型语言模型

ProtTrans: Towards Cracking the Language of Life’s Code Through Self-Supervised Deep Learning and High Performance Computing（2021），https://arxiv.org/abs/2007.06225
Highly Accurate Protein Structure Prediction with AlphaFold（2021），https://www.nature.com/articles/s41586-021-03819-2
Large Language Models Generate Functional Protein Sequences Across Diverse Families（2023），https://www.nature.com/articles/s41587-022-01618-2

*本文由CoinTime整理编译，转载请注明来源。

最近浏览

热门币种

每日趋势

每日必读

欢迎回来

注册账号

使用 email 登录

使用 email 注册

检查您的收件箱

了解主要体系结构和任务

扩展定律与效率提高

一致性——引导大型语言模型达到预期目标和兴趣

有人类反馈的强化学习（RLHF）介绍

结论和进一步阅读

所有评论

推荐阅读

知情人士：特朗普峰会期间未再提及终止伊朗协议

英国10年期实际收益率升创2009年以来新高

智谱通过配售发行1980万股H股，配售价格为每股1,588至1,698港元

中国人民银行：继续实施适度宽松的货币政策，加大逆周期和跨周期调节力度

中国人民银行：加强对扩大内需、科技创新、中小微企业等重点领域的金融支持

英伟达启用以色列贝尔谢巴研发中心

高盛集团预计日元贬值趋势仍未结束

伊朗议员：美国必须承认霍尔木兹海峡的伊朗制度

量化私募上半年增长超万亿元

美国芯片股盘前普跌，闪迪(SNDK.O)下跌6.3%

每日必读

BonkDAO被掏空事件，撕开DAO治理的致命伤疤

Meta 卖算力，不是 AI 需求消失，而是算力开始商品化

永续合约革新与Hyperliquid崛起：重构全球金融交易格局

OUSD 真正的杀招：不颠覆 USDC 存量，只终结 Circle 的资本增长叙事

市场恐慌，链上活跃，销毁加速：TronBank正在穿越周期

窗口期急速收窄、多重争议悬而未决 CLARITY法案年内落地前景存疑

热门标签

分享