Cointime

扫码下载App
iOS & Android

了解大型语言模型,这里有你想要的清单

原文链接:Understanding Large Language Models 

本文作者:Sebastian Raschka  编译:CoinTime Candice

大型语言模型引起了公众的关注。在短短五年的时间里,大型语言模型——Transformer——几乎完全改变了自然语言处理的领域。此外,它们还开始对计算机视觉和计算生物学等领域进行革命性的变革。

既然Transformer对每个人的研究议程都有如此大的影响,我想为正在起步阶段的机器学习研究者和从业者充实一份简短的阅读清单。

下面的清单主要是按时间顺序来阅读的,主要以学术研究论文为主。当然,还有许多其他有用的资源。例如:

  • Jay Alammar撰写的“The Illustrated Transformer”
  • Lilian Weng撰写的“The Transformer Family”
  • Xavier Amatriain撰写的“ransformer models: an introduction and catalog — 2023 Edition”
  • Andrej Karpathy写的nanoGPT库

了解主要体系结构和任务

如果你是Transformer/大型语言模型的新手,那么这几篇文章最适合你。

(1)Neural Machine Translation by Jointly Learning to Align and Translate(2014),作者Bahdanau、Cho和Bengio

本文为递归神经网络(RNN)引入了一种注意力机制,提高了模型远程序列建模能力。这使得RNN能够更准确地翻译更长的句子——这也是后来开发原始Transformer架构的动机。

来源:https://arxiv.org/abs/1409.0473

(2) Attention Is All You Need(2017),作者:Vaswani、Shazeer、Parmar、Uszkoreit、Jones、Gomez、Kaiser和Polosukhin

本文介绍了由编码器和解码器部分组成的原始Transformer架构,这些部分将在以后作为单独模块进行相关介绍。此外,本文还介绍了一些概念,如缩放点积注意机制、多头注意区块和位置输入编码,这些概念仍然是现代Transformer的基础。

来源:https://arxiv.org/abs/1706.03762

(3) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(2018),作者:Devlin,Chang,Lee和Toutanova

大型语言模型研究遵循最初的Transformer架构,然后开始向两个方向延伸:用于预测性建模任务的编码器式Transformer,如文本分类;用于生成性建模任务的解码器式Transformer,如翻译、总结和其他形式的文本创建。

来源:https://arxiv.org/abs/1810.04805

(4) Improving Language Understanding by Generative Pre-Training(2018),作者:Radford 和Narasimhan

最初的GPT论文介绍了流行的解码器式架构和通过下一个词的预测进行预训练。BERT由于其屏蔽的语言模型预训练目标,可以被认为是一个双向Transformer,而GPT是一个单向的、自回归模型。虽然GPT嵌入也可用于分类,但GPT方法是当今最具影响力的LLM的核心,如chatGPT。

来源:https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035

(5) BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension(2019),作者:Lewis、Liu、Goyal、Ghazvininejad、Mohamed、Levy、Stoyanov和Zettlemoyer

如前所述,BERT型编码器式的LLM通常更适合用于预测建模任务,而GPT型解码器式LLM更擅长生成文本。为了获得两方面的优点,上面的BART论文将编码器和解码器两部分结合在一起。

来源:https://arxiv.org/abs/1910.13461

扩展定律与效率提高

如果你想了解更多关于提高Transformer效率的技术,我推荐2020 Efficient Transformers: A Survey的引申论文2023 A Survey on Efficient Training of Transformer

此外,以下是我觉得特别有趣和值得一读的论文。

(6) FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness(2022),作者:Dao、Fu、Ermon、Rudra和Ré

虽然大多数Transformer论文都不关心取代原来的缩放点积机制来实现自我注意,但FlashAttention是我最近最常提到的一种机制。

来源:https://arxiv.org/abs/2205.14135

(7)Cramming: Training a Language Model on a Single GPU in One Day(2022),作者:Geiping和Goldstein

在这篇论文中,研究人员在单个GPU上训练了一个屏蔽的语言模型/编码器式的LLM(这里:BERT)24小时。相比之下,2018年BERT的原始论文在16个TPU上训练了四天。一个有趣的见解是,虽然较小的模型具有较高的吞吐量,但较小的模型学习效率也较低。因此,较大的模型不需要更多的训练时间来达到特定的预测性能阈值。

来源:https://arxiv.org/abs/2212.14034

(8) Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning(2022),作者:Lialin,Desphande和Rumshisky

在大型数据集上进行预训练的现代大型语言模型显示出新兴的能力,并在各种任务中表现良好,包括语言翻译、总结、编程和问答。然而,如果我们想提高Transformer在特定领域数据和特殊任务上的能力,那么值得微调Transformer。这项调查回顾了40多篇关于参数有效的微调方法的论文(包括流行的技术,如前缀调整、适应器和低等级适应),以使微调(非常)具有计算效率。

来源:https://arxiv.org/abs/1910.13461

(9) Training Compute-Optimal Large Language Models(2022),作者:Hoffmann, Borgeaud、Mensch、Buchatskaya、Cai、Rutherford、de Las Casas、Hendricks、Welbl、Clark、Hennigan、Noland、Millican、van den Driessche、Damoc、Guy、Osindero、Simonyan、Elsen、Rae、Vinyals和Sifre

本文介绍了700亿个参数的Chinchilla模型,该模型在生成性建模任务上优于流行的175亿个参数的GPT-3模型。然而,其主要观点是,当代大型语言模型“训练不足”。

本文定义了大型语言模型训练的线性扩展规律。例如,虽然Chinchilla的规模只有GPT-3的一半,但它的表现优于GPT-3,因为它是在1.4万亿(而不是3000亿)代币上训练的。换句话说,训练代币的数量与模型大小一样重要。

来源:https://arxiv.org/abs/2203.15556

一致性——引导大型语言模型达到预期目标和兴趣

近年来,我们看到了许多功能相对强大的大型语言模型,它们可以生成逼真的文本(例如GPT-3和Chinchilla等)。就我们使用常用的预训练范式所能实现的目标而言,我们似乎已经达到了一个上限。

为了使语言模型更有帮助,减少错误信息,研究人员设计了额外的训练范式对预先训练的基本模型进行微调。

(10) Training Language Models to Follow Instructions with Human Feedback(2022),作者:Ouyang、Wu、Jiang、Almeida、Wainwright、Mishkin、Zhang、Agarwal、Slama、Ray、Schulman、Hilton、Kelton、Miller、Simens、Askell、Welinder、Christiano、Leike和Lowe

在这篇所谓的InstructGPT论文中,研究人员使用了一个有人类参与的强化学习机制(RLHF)。他们从一个预先训练好的GPT-3基础模型开始,通过对人类产生的提示——反应对进行监督学习来进一步微调(步骤1)。接下来,他们要求人类对模型输出进行排序,以训练奖励模型(步骤2)。最后,他们使用奖励模型通过近似策略优化使用强化学习,来更新预训练和微调的GPT-3模型(步骤3)。

顺便说一句,这篇论文也被称为描述ChatGPT背后想法的论文——根据最近的传言,ChatGPT是InstructGPT的放大版,在更大的数据集上进行了微调。

来源:https://arxiv.org/abs/2203.02155

(11) Constitutional AI: Harmlessness from AI Feedback(2022),作者:Yuntao、Saurav、Sandipan、Amanda、Jackson、Jones、Chen、Anna、Mirhosini、McKinnon、Chen、Olsson、Olah、Hernandez、Drain、Ganguli、Li、Tran Johnson、Perez、Kerr、Mueller、Ladish、Landau、Ndousse、Lukosuite、Lovitt、Sellitto、Elhage、Schiefer、Mercado、DasSarma、Lasenby、Larson、Ringer、Johnston、Kravec、El Showk、Fort、Lanham,Telleen Lawton、Conerly、Henighan、Hume、Bowman、Hatfield Dods、Mann、Amodei、Joseph、McCandlish、Brown、Kaplan

在这篇论文中,研究人员将一致性思想向前推进了一步,提出了一种创建“无害”人工智能系统的训练机制。研究人员提出了一种基于规则列表(由人类提供)的自我训练机制,而不是人类直接进行监督。与上面提到的InstructGPT论文类似,这篇论文提议的方法采用了强化学习的方法。

来源:https://arxiv.org/abs/2212.08073

有人类反馈的强化学习(RLHF)介绍

虽然RLHF(有人类反馈的强化学习)可能不能完全解决目前LLM的问题,但被认为是目前最好的选择,特别是与前一代LLM相比。我们很可能会看到更多将RLHF应用于LLM的其他领域的创造性方法。

上面的两篇论文,InstructGPTConsitutinal AI,都使用了RLHF,由于它在不久的将来将成为一种有影响力的方法,如果你想了解RLHF,本节将提供额外的资源。(为了技术上的正确性,Constitutional AI论文使用人工智能而不是人类反馈,但它使用RL遵循了类似的概念。)

(12) Asynchronous Methods for Deep Reinforcement Learning(2016),作者:Mnih、Badia、Mirza、Graves、Lillicrap、Harley、Silver和Kavukcuoglu(https://arxiv.org/abs/1602.01783)引入策略梯度方法作为基于深度学习的RL中Q学习的替代方法。

(13) Proximal Policy Optimization Algorithms(2017),作者:Schulman、Wolski、Dhariwal、Radford、Klimov (https://arxiv.org/abs/1707.06347)提出了一种修改后的基于近似策略的强化学习程序,比上述虚无的策略优化算法更具有数据效率和可扩展性。

(14)Fine-Tuning Language Models from Human Preferences(2020),作者:Ziegler、Stiennon、Wu、Brown、Radford、Amodei、Christiano、Irving (https://arxiv.org/abs/1909.08593)说明了PPO的概念,并对预训练的语言模型进行奖励学习,包括KL正则化,以防止策略与自然语言偏离太远。

(15)Learning to Summarize from Human Feedback(2022),作者:Stiennon、Ouyang、Wu、Ziegler、Lowe、Voss、Radford、Amodei、Christiano,https://arxiv.org/abs/2009.01325介绍了主流的RLHF三步程序:

  1. 预训练GPT-3;
  2. 以监督的方式对其进行微调;
  3. 同样以监督的方式训练一个奖励模型。然后用这个奖励模型训练微调模型,并进行近似的策略优化。

本文还表明,采用近似策略优化的强化学习比仅仅采用常规的监督学习能产生更好的模型。

来源:https://arxiv.org/abs/2009.01325

(16) Training Language Models to Follow Instructions with Human Feedback(2022),作者:Ouyang、Wu、Jiang、Almeida、Wainwright、Mishkin、Zhang、Agarwal、Slama、Ray、Schulman、Hilton、Kelton、Miller、Simens、Askell、Welinder、Christiano、Leike和Lowe (https://arxiv.org/abs/2203.02155),也称为InstructGPT论文,对RLHF使用了与上述类似的三步程序,但它不是总结文本,而是专注于根据人类指令生成的文本。此外,它还使用了一个标签器将输出结果从最佳到最差进行排序(而不是仅仅对人类和人工智能生成的文本进行二元比较)。

结论和进一步阅读

我试图保持上面的列表简洁明了,重点关注前10篇论文(加上3篇关于RLHF的额外论文),以了解当代大型语言模型背后的设计、约束和演变。

为了进一步阅读,我建议参考上述文件中的参考文献。或者,为了给您一些额外的指针,这里有一些额外的资源:

GPT的开源替代方案

  • BLOOM: A 176B-Parameter Open-Access Multilingual Language Model (2022), https://arxiv.org/abs/2211.05100
  • OPT: Open Pre-trained Transformer Language Models (2022), https://arxiv.org/abs/2205.01068

ChatGPT替代方案

  • LaMDA: Language Models for Dialog Applications(2022),https://arxiv.org/abs/2201.08239
  • (Sparrow) Improving Alignment of Dialogue Agents via Targeted Human Judgements(2022),https://arxiv.org/abs/2209.14375
  • BlenderBot 3: A Deployed Conversational Agent that Continually Learns to Responsibly Rngage,https://arxiv.org/abs/2208.03188

计算生物学中的大型语言模型

  • ProtTrans: Towards Cracking the Language of Life’s Code Through Self-Supervised Deep Learning and High Performance Computing(2021),https://arxiv.org/abs/2007.06225
  • Highly Accurate Protein Structure Prediction with AlphaFold(2021),https://www.nature.com/articles/s41586-021-03819-2
  • Large Language Models Generate Functional Protein Sequences Across Diverse Families(2023),https://www.nature.com/articles/s41587-022-01618-2

*本文由CoinTime整理编译,转载请注明来源。

评论

所有评论

推荐阅读

  • 美伊有望24小时内宣布和平协议最终达成

    5月24日,据《华盛顿时报》援引接近谈判的消息人士报道,在谈判代表批准了一项结束所有战线战斗的协议草案后,美国和伊朗预计将在24小时内宣布和平协议的最终达成。该协议仍有待两国政府最终批准。(金十)

  • 伊朗:谈判重点是结束战争 正努力敲定谅解备忘录

    5月23日,伊朗外交部发言人巴加埃23日接受伊朗伊斯兰共和国广播电视台采访表示,当前谈判重点是推动结束“被强加的战争”,暂不深入讨论核问题,伊美正在努力敲定谅解备忘录。巴加埃说,现阶段谈判不涉及核问题及其相应的解除制裁的具体细节,但伊朗要求解除制裁、尤其是释放被冻结资产等诉求,已明确写入14条谅解备忘录文本。他表示,伊朗之所以暂不深入讨论核问题,是因为认为核问题曾两度成为针对伊朗发动战争的借口。当前伊朗将重点放在推动结束包括黎巴嫩在内“所有战线上的战争”,可能在30天或60天后的下一个阶段再进入核问题的谈判。(新华社)

  • BTC跌破75000美元

    行情显示,BTC跌破75000美元,现报74988美元,24小时跌幅达到3.19%,行情波动较大,请做好风险控制。

  • Michael Saylor:Strategy 或在2026 年前出售部分比特币

    据Strategy董事长Michael Saylor 表示,公司不太可能完全不卖出比特币,或将在2026年底前出售部分BTC,并动态管理美元现金储备,以实现每股比特币数量最大化目标。截至目前,Strategy持有约84.38万枚BTC,总价值约650亿美元,平均买入成本约为7.57万美元。当前比特币价格约为7.6万美元,接近其整体持仓成本线。

  • 知情人士:美筹备对伊朗发动新一轮军事打击 但仍未最终决定

    5月23日讯,据知情人士透露,尽管外交努力仍在持续,特朗普政府当日仍在筹备对伊朗发动新一轮军事打击。截至当日下午,关于是否发动打击尚未有最终决定。特朗普在社交媒体发文称,受“与政府事务相关的特殊情况��影响,他将无法出席本周末儿子小唐纳德·特朗普的婚礼。他此前原计划在“阵亡将士纪念日”周末前往其位于新泽西州的私人高尔夫球场度假,但现已决定返回白宫。据多位消息人士透露,鉴于可能发生军事打击,美国军方和情报界的部分人员已取消了原定的“阵亡将士纪念日”周末休假计划。国防和情报官员已开始更新美国海外军事基地的紧急召回名册。与此同时,驻扎在中东的部分美军部队正分批轮换撤离战区。(央视新闻)

  • 新任美联储主席沃什:将领导一个以改革为导向的美联储

    5月23日,第17任美联储主席沃什于周五在白宫宣誓就职。沃什表示: “美联储的使命是促进物价稳定和充分就业。”他说,“当以智慧和清晰的思路、独立和坚定的决心去追求这些目标时,通胀可以降低,经济增长可以更强劲,实际到手工资可以更高,美国可以更加繁荣,而且同样重要的是,美国在世界上的地位也会更加稳固。”他补充说:“为了完成这项使命,我将领导一个以改革为导向的美联储,从过去的成功和错误中吸取教训,既要摆脱静态的框架和模式,又要坚持明确的诚信和绩效���准。”

  • 美国新版战略比特币储备法案取消“100万枚BTC”购买目标,已持有BTC拟锁定20年

    5月23日,美国众议院提出新版两党法案《American Reserve Modernization Act of 2026》(ARMA),拟将美国政府持有的比特币纳入战略储备,并要求至少锁定 20 年。与此前提出的 BITCOIN Act 不同,新法案不再要求美国政府购买 100 万枚 BTC,而是主要将通过刑事和民事没收等方式已持有或未来获得的比特币纳入储备。 同时,法案还将设立独立的数字资产库存,用于管理联邦政府持有的非比特币加密资产。根据草案,进入战略储备的比特币在 20 年内不得出售、交换、拍卖、抵押或以其他方式处置。锁定期结束后,财政部长可建议在任意两年内出售最多 10% 的储备资产。法案还要求政府按季度公开储备证明,并对比特币持仓进行第三方审计。支持者认为,美国不应出售战略性数字资产,而应将其作为现代化国家储备体系的一部分长期持有。

  • 美SEC推迟开放代币化股票交易

    5月23日,据彭博社,由于面临监管担忧及外界反对,美国 SEC 已推迟允许代币化股票交易的相关计划。报道称,SEC 目前正重新评估相关风险及市场影响。

  • BTC跌破76000美元

    行情显示,BTC跌破76000美元,现报75997.97美元,24小时跌幅达到2.28%,行情波动较大,请做好风险控制。

  • 交易员已完全预期到2026年底美联储将加息25个基点

    5月22日,市场定价显示,交易员已完全预期到2026年底美联储将加息25个基点。消息面上,美联储理事沃勒表示,美联储不应再释放降息信号,短时间内应按兵不动。