Cointime

扫码下载App
iOS & Android

Stability AI发布可商用开源语言模型StableLM-大语言模型的Stable Diffusion时刻真的来了!

作者:TechVerse

在Text to image的发展过程中,Stability发布的Stable Diffusion开源模型,让文生图实现了飞速的发展,极大的降低了构建应用的门槛,并且在开源社区中成长出了ControlNet,Lora等层出不穷的好东西。

因此,在OpenAI统治的大语言模型市场上,大家一直期待着能够有Stable Diffusion一样的开源模型出现,也即是大语言模型的"Stable Diffusion“时刻。而今天,Stable Diffusion的创作者,Stability AI正式发布了他们自己的可商用开源语言模型!

Stability AI发布了一款名为StableLM的开源语言模型,旨在让基础AI技术更加透明、易于访问和支持。StableLM模型基于一个新的实验数据集进行训练,可生成文本和代码,支持多种下游应用。Stability AI还发布了一组经过指令微调的研究模型,仅供研究使用。Stability AI的目标是促进AI技术的透明度、可访问性和支持性,以便为广泛的用户和开发者带来经济利益。团队将继续发布更多模型并扩大其规模。

根据Stability官方宣布:

今天,Stability AI发布了一款新的开源语言模型StableLM。该模型的Alpha版本有30亿和70亿参数,接下来将推出150亿至650亿参数的模型。在CC BY-SA-4.0许可条款的约束下,开发者可以自由查看、使用并调整我们的StableLM基础模型,用于商业或研究目的。

2022年,Stability AI推动了Stable Diffusion的公开发布,这是一款革命性的图像模型,代表了透明、开放、可扩展的AI替代品。通过发布StableLM模型套件,Stability AI继续让所有人都能使用基础AI技术。我们的StableLM模型可以生成文本和代码,并将支持一系列下游应用。它们展示了如何通过适当的训练,小型且高效的模型可以实现高性能。

StableLM的发布建立在我们与EleutherAI(一个非营利性研究中心)开源早期语言模型的经验之上。这些语言模型包括GPT-J、GPT-NeoX和Pythia套件,它们是在The Pile开源数据集上训练的。许多最近的开源语言模型继续以这些工作为基础,包括Cerebras-GPT和Dolly-2。

StableLM是在一个基于The Pile的新实验数据集上进行训练的,但其规模是The Pile的三倍,包含1.5万亿个内容标记。我们将在适当的时候发布有关数据集的详细信息。这个丰富的数据集使得StableLM在会话和编码任务方面具有惊人的高性能,尽管其参数规模只有30亿至70亿(相比之下,GPT-3有1750亿参数)。

我们还将发布一组经过指令微调的研究模型。起初,这些微调模型将使用五个最近的开源数据集进行对话代理的训练:Alpaca、GPT4All、Dolly、ShareGPT和HH。这些微调模型仅供研究使用,并在非商业CC BY-NC-SA 4.0许可下发布,符合斯坦福大学的Alpaca许可。

请查看下面的一些示例,由我们的70亿参数微调模型生成:

语言模型将成为数字经济的支柱,我们希望每个人都能参与到它们的设计中。像StableLM这样的模型展示了我们对透明、易于访问和支持的AI技术的承诺:

透明。我们将模型开源,以促进透明度并建立信任。研究人员可以“看到内部”,验证性能、研究解释技术、识别潜在风险并帮助制定保护措施。公共和私营部门的各种组织可以根据自己的需求调整(“微调”)这些开源模型,而无需共享敏感数据或放弃对AI能力的控制。

易于访问。我们针对边缘设计,让普通用户可以在本地设备上运行我们的模型。使用这些模型,开发者可以构建独立的应用程序,与广泛使用的硬件兼容,而无需依赖于一两家公司的专有服务。这样,AI的经济利益将由广泛的用户和开发者共享。模型的开放、细粒度访问让广泛的研究和学术界能够开发比封闭模型更先进的可解释性和安全技术。

支持。我们构建模型是为了支持用户,而不是取代他们。我们专注于高效、专业和实用的AI性能,而不是追求神一般的智能。我们开发工具,帮助普通人和普通公司利用AI释放创造力,提高生产力,开辟新的经济机会。

模型现已在我们的GitHub仓库中提供。我们将在不久的将来发布完整的技术报告,并期待着与开发者和研究人员继续合作,推出StableLM套件。此外,我们将启动我们的群众参与型RLHF计划,并与Open Assistant等社区项目合作,创建开源AI助手数据集。

在Github和HuggingFace上上线了模型。

来源:https://mp.weixin.qq.com/s/zqDfG1qf7vZZaFDMWmB4AA

评论

所有评论

推荐阅读

  • Polymarket将于下周一公布重大消息,或为发币或融资相关消息

    Cointime 报道,3月21日消息,Polymarket 官方团队成员 Mustafa 于 X 平台发文表示,下周一即将公布重大消息。因推文内容包含硬币符号,社区猜测或为融资或代币发射相关重大消息。 此前消息,预测市场平台 Kalshi 与 Polymarket 据悉正与潜在投资者洽谈新一轮融资,目标估值均约为 200 亿美元。日前,Kalshi 已完成新一轮超 10 亿美元融资,估值达 220 亿美元,较去年 12 月上一轮融资时的 110 亿美元估值翻倍。知情人士透露,本轮融资由 Coatue Management 领投,Kalshi 目前的年化收入为 15 亿美元。

  • 美众议院金融服务委员会将于3月25日举行代币化听证会,聚焦资本市场未来

    3 月 21 日,美国众议院金融服务委员会将于美东时间 3 月 25 日 10:00 举行听证会,主题为「代币化与资本市场的未来」,预计将重点讨论区块链技术在金融体系中的应用与监管方向。

  • 黄金创43年来最大周跌幅:一周暴跌11%,避险属性遭质疑

    3 月 21 日,受中东局势升级及利率预期影响,黄金价格大幅下挫,创下自 1983 年以来最大单周跌幅。现货黄金周五跌至约 4488 美元/盎司,单周累计下跌约 11%,自 2 月底以来累计跌幅已超 15%。市场分析认为,美联储年内或维持利率不变、鲍威尔关于通胀上行的表态削弱了黄金吸引力。同时,在伊朗冲突背景下,比特币表现相对更强,期间反弹超 11%,对黄金形成对比。

  • 分析:加密市场山寨币交易量大幅下滑,市场兴趣持续降温

    3 月 21 日,Cryptoquant 分析师 Darkfost 发文称,加密市场山寨币交易量持续走低,投资者兴趣明显减弱。在熊市背景及地缘政治不确定性影响下,山寨币表现持续跑输比特币,风险偏好显著收缩。当前,Binance 山寨币日交易量约为 77 亿美元,其它主要交易所合计约 188 亿美元,远低于 2025 年 10 月与 2 月高峰期(Binance 曾达 400 亿至 500 亿美元,其它平台达 630 亿至 910 亿美元)。目前 Binance 占据约 40% 的市场份额。分析指出,历史上交易量高峰往往对应市场阶段性顶部与 FOMO 情绪释放,而当前低迷成交环境也意味着潜在机会通常出现在市场关注度最低阶段。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    3 月 21 日,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。

  • 中东冲突与加息预期共振:全球资产大震荡,美股四连跌、债市「血洗」、黄金创43年最大周跌幅

    3 月 21 日,中东局势持续升级叠加 Federal Reserve 加息预期骤然升温,全球市场遭遇系统性冲击。美股连续第四周下跌创一年最长跌势,纳指单日跌超 2%,科技股全线承压;全球债市收益率大幅飙升,美债、英债、德债均创多年新高,资金大规模去杠杆。大宗商品剧烈分化,黄金跌破 4500 美元关口,单周暴跌超 10%,创 1983 年以来最大跌幅,避险属性遭质疑;原油则因中东供应风险暴涨,布油重返 110 美元上方,迪拜原油期货单日飙升超 16%。与此同时,比特币在 7 万美元附近获得支撑,连续三周跑赢黄金。市场分析认为,地缘冲突推升能源价格并加剧通胀预期,迫使货币政策路径重定价,全球金融条件快速收紧,风险资产仍处于下行与再定价过程中。

  • 美团开源560B参数定理证明模型:72次推理通过率97.1%,刷新开源模型SOTA

    据 1M AI News 监测,美团 LongCat 团队开源 LongCat-Flash-Prover,一个 5600 亿参数的 MoE 模型,专攻形式化定理证明语言 Lean4 的数学推理任务。模型权重以 MIT 协议发布,已上线 GitHub、Hugging Face 和 ModelScope。模型将形式化推理拆解为三项独立能力:自动形式化(将自然语言数学问题转化为 Lean4 形式语句)、草图生成(产出引理风格的证明框架)和完整证明生成。三项能力均通过 Agent 工具集成推理(TIR)与 Lean4 编译器实时交互验证。训练方面,团队提出 Hybrid-Experts Iteration Framework 生成冷启动数据,并在强化学习阶段引入 HisPO 算法稳定 MoE 模型的长程任务训练,同时加入定理一致性和合法性检测机制防止 reward hacking。基准测试显示,LongCat-Flash-Prover 在开源权重模型中刷新了自动形式化和定理证明两项 SOTA。MiniF2F-Test 上仅用 72 次推理即达 97.1% 通过率,ProverBench 和 PutnamBench 分别达到 70.8% 和 41.5%,每题推理次数不超过 220 次。

  • Erik Voorhees再次增持1.44万枚ETH,总持仓量突破11.7万枚

    3 月 21 日,据 AI 姨监测,ShapeShift 创始人、比特币早期支持者 Erik Voorhees 关联地址,过去 11 小时买入 14,424.53 ETH,总持仓突破 11.7 万枚,持仓均价 2,160.24 美元,当前浮亏 114.5 万美元。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    Cointime 报道,3月21日消息,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。 关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。(金十)

  • GameFi板块市值暂报45.15亿美元,FLOKI排名第一

    3 月 21 日,据 Coingecko 数据,GameFi 板块市值暂报 45.15 亿美元,FLOKI 以 2.86 亿美元市值排名第一,排在第二第三位的分别为:The Sandbox(2.18 亿美元)、Undeads Games(2.11 亿美元)。此前 Solana 基金会主席 Lily Liu 表示,区块链游戏「不会再回归」。她认为,尽管行业曾寄望通过链上资产与开放世界推动 Web3 与元宇宙发展,但实际表现远未达预期。市场观点称链游长期依赖「Play-to-Earn」等代币激励模式,却缺乏真正吸引核心玩家的游戏性与内容构建能力,导致用户留存与生态可持续性不足。包括 Andreessen Horowitz(a16z)、Framework Ventures、Animoca Brands 在内的机构曾向该领域投入数十亿美元,但回报表现不佳。