Cointime

扫码下载App
iOS & Android

两大可商用开源大模型同时发布!性能不输 LLaMA,羊驼家族名字都不够用了

作者:量子位

从Meta的LLaMA发展出的羊驼家族一系列大模型,已成为开源AI重要力量。

但LLamA开源了又没全开,只能用于研究用途,还得填申请表格等,也一直被业界诟病。

好消息是,两大对标LLaMA的完全开源项目同时有了新进展。

可商用开源大模型来了,还一下来了俩:

MosaicML推出MPT系列模型,其中70亿参数版在性能测试中与LLaMA打个平手。

Together的RedPajama(红睡衣)系列模型,30亿参数版在RTX2070游戏显卡上就能跑。

对于这些进展,特斯拉前AI主管Andrej Karpathy认为,开源大模型生态有了寒武纪大爆发的早期迹象。

MPT,与LLaMA五五开

MPT系列模型,全称MosaicML Pretrained Transformer,基础版本为70亿参数。

MPT在大量数据(1T tokens)上训练,与LLaMA相当,高于StableLM,Pythia等其他开源模型。

支持84k tokens超长输入,并用FlashAttention和FasterTransformer方法针对训练和推理速度做过优化。

在各类性能评估中,与原版LLaMA不相上下。

除了MPT-7B Base基础模型外还有三个变体。

MPT-7B-Instruct,用于遵循简短指令。

MPT-7B-Chat,用于多轮聊天对话。

MPT-7B-StoryWriter-65k+,用于阅读和编写故事,支持65k tokens的超长上下文,用小说数据集微调。

MosaicML由前英特尔AI芯片项目Nervana负责人Naveen Rao创办。

该公司致力于降低训练神经网络的成本,推出的文本和图像生成推理服务成本只有OpenAI的1/15。

RedPajama,2070就能跑

RedPajama系列模型,在5TB的同名开源数据上训练而来(前面提到的MPT也是用此数据集训练)。

除70亿参数基础模型外,还有一个30亿参数版本,可以在5年前发售的RTX2070游戏显卡上运行。

目前70亿版本完成了80%的训练,效果已经超过了同规模的Pythia等开源模型,略逊于LLamA。

预计在完成1T tokens的训练后还能继续改进。

背后公司Together,由苹果前高管Vipul Ved Prakash,斯坦福大模型研究中心主任Percy Liang,苏黎世联邦理工大学助理教授张策等人联合创办。

开源模型发布后,他们的近期目标是继续扩展开源RedPajama数据集到两倍规模。

One More Thing

来自南美洲的无峰驼类动物一共4种,已被各家大模型用完了。

Meta发布LLaMA之后,斯坦福用了Alpaca,伯克利等单位用了Alpaca,Joseph Cheung等开发者团队用了Guanaco。

以至于后来者已经卷到了其他相近动物,比如IBM的单峰骆驼Dromedary,Databricks的Dolly来自克隆羊多莉。

国人研究团队也热衷于用古代传说中的神兽,如UCSD联合中山大学等推出的白泽。

港中文等推出的凤凰……

最绝的是哈工大基于中文医学知识的LLaMA微调模型,命名为华驼。

参考链接:[1] https://www.mosaicml.com/blog/mpt-7b

[2]https://www.together.xyz/blog/redpajama-models-v1[3]https://twitter.com/karpathy/status/1654892810590650376?s=20

评论

所有评论

推荐阅读

  • ETH跌破3100美元

    行情显示,ETH跌破3100美元,现报3098.76美元,24小时跌幅达到0.46%,行情波动较大,请做好风险控制。

  • 美元指数DXY日内跌超0.50%,现报98.68

    美元指数DXY日内跌超0.50%,现报98.68。

  • 现货黄金1月累涨逾300美元

    现货黄金站上4620美元/盎司,日内涨幅达2.44%,新年首月累涨逾300美元。

  • 特朗普将就美联储主席一职面试里德

    特朗普将就美联储主席一职面试里德(Rick Rieder)。面试将于本周举行。

  • 哈塞特:仍对美联储职位感兴趣

    美国白宫国家经济委员会主任哈塞特:仍对美联储职位感兴趣。不知道美国总统特朗普是否批准了对美联储的调查,美联储主席鲍威尔是个好人。

  • BTC跌破91000美元

    行情显示,BTC跌破91000美元,现报90997.44美元,24小时涨幅达到0.26%,行情波动较大,请做好风险控制。

  • 美国现货以太坊ETF上周净流出6857万美元

    根据SoSoValue数据,上周交易日(美东时间1月5日至1月9日)美国现货以太坊ETF上周净流出6857万美元。

  • BTC突破92000美元

    行情显示,BTC突破92000美元,现报92041.92美元,24小时涨幅达到1.49%,行情波动较大,请做好风险控制。

  • 长三角一体化大模型发布 AI将为区域发展提供决策支撑

    长三角一体化大模型发布与场景应用链接大会在上海召开。会上,由中国区域经济50人论坛成员、上海财经大学长三角与长江经济带发展研究院执行院长张学良教授团队牵头建设的长三角一体化大模型(YRD-P1)正式发布。张学良表示,YRD-P1模型是在多年城市与区域科学研究积累的基础上构建的专用大模型。模型依托持续积累的政策文本、统计数据、学术成果、产业链信息及地理空间数据,面向长三角区域进行深度定制开发,强调知识体系的系统性、权威性和可溯源性,致力于为区域协调发展提供更加智能、精准、可持续的决策支撑工具。

  • 天普股份:公司涉嫌信息披露违规 股票将于1月12日复牌

    天普股份公告,公司因涉嫌信息披露违规,收到中国证监会下发的《立案告知书》和上海证券交易所的监管警示。公司股票将于2026年1月12日开市起复牌。公司目前生产经营活动正常,但股票价格短期波动较大,累计涨幅较大,已严重偏离上市公司基本面,存在巨大交易风险。2025年前三季度公司实现营业收入2.3亿元,同比下降4.98%;实现归属于上市公司股东的净利润1785.08万元,同比下降2.91%。