Cointime

扫码下载App
iOS & Android

陈天奇等人新作引爆AI界:手机原生跑大模型,算力不是问题了

项目方

「我把大语言模型下到我的 iPhone 上,它神奇地跑起来了!」

五一假期还没过半,大模型领域的技术就已经发展到了这种程度。

对于陈天奇等人开源的新技术,大家一致的评论是「Amazing」。

最近人们都在研究 ChatGPT,大语言模型(LLM)彻底改变了科技领域的格局,但对于 AI 开发者来说,并不是人人都有上万块 A100 的。为了跑得起大模型,就要寻找各种优化方法。

在让大模型变小这条路上,人们做了很多尝试,先是 Meta 开源了 LLaMA,让学界和小公司可以训练自己的模型。随后斯坦福研究者启动了 Lamini,为每个开发者提供了从 GPT-3 到 ChatGPT 的快速调优方案。

最近这个叫 MLC LLM 的项目可谓一步登天,因为它能让你「在任何设备上编译运行大语言模型。

MLC LLM 为我们在各类硬件上原生部署任意大型语言模型提供了解决方案,可将大模型应用于移动端(例如 iPhone)、消费级电脑端(例如 Mac)和 Web 浏览器。

该项目是由 TVM、MXNET、XGBoost 作者,CMU 助理教授,OctoML CTO 陈天奇等多位研究者共同开发的,参与者来自 CMU、华盛顿大学、上海交通大学、OctoML 等院校机构,同时也获得了开源社区的支持。

  • 项目地址:https://github.com/mlc-ai/mlc-llm
  • Demo:https://mlc.ai/mlc-llm/

借助 MLC LLM 方案,我们可以在移动端部署和运行大型语言模型,例如在 iPhone 上运行聊天机器人:

在 Web 浏览器上运行聊天机器人:

当然,在 Windows 和 Linux 上本地运行也是肯定可以的,聊天机器人应用程序能通过 Vulkan 平台在 GPU 上运行:

MLC-LLM 推出不到两天,GitHub 的 Star 量已经接近一千。在社交网络上人们纷纷点赞,表示 MLC-LLM 让我领教了低精度跑 AI 的可怕程度:

也有人晒出了自己的使用体验,iPhone 飞行模式本地跑大语言模型:

简单来说,MLC LLM 是一种通用解决方案,它允许将任何语言模型本地部署在各种硬件后端和本地应用程序上。此外,MLC LLM 还提供了一个高效的框架,供使用者根据需求进一步优化模型性能。

MLC LLM 旨在让每个人都能在个人设备上本地开发、优化和部署 AI 模型,而无需服务器支持,并通过手机和笔记本电脑上的消费级 GPU 进行加速。具体来说,MLC LLM 支持的平台包括:

  • iPhone
  • Metal GPU 和英特尔 / ARM MacBook;
  • 在 Windows 和 Linux 上支持通过 Vulkan 使用 AMD 和 NVIDIA GPU;
  • 在 Windows 和 Linux 上 通过 CUDA 使用 NVIDIA GPU;
  • 浏览器上的 WebGPU(借助 MLC LLM 的配套项目 Web LLM)。

项目概览

为了实现在各类硬件设备上运行 AI 模型的目标,研究团队首先要解决计算设备和部署环境的多样性问题,主要挑战包括:

  • 支持不同型号的 CPU、GPU 以及其他可能的协处理器和加速器;
  • 部署在用户设备的本地环境中,这些环境可能没有 python 或其他可用的必要依赖项;
  • 通过仔细规划分配和积极压缩模型参数来解决内存限制。
  • MLC LLM 提供可重复、系统化和可定制的工作流,使开发人员和 AI 系统研究人员能够以 Python 优先的方法实现模型并进行优化。MLC LLM 可以让研究人员们快速试验新模型、新想法和新的编译器 pass,并进行本地部署。

原生部署

为了实现原生部署,研究团队以机器学习编译(MLC)技术为基础来高效部署 AI 模型。MLC LLM 借助一些开源生态系统,包括来自 HuggingFace 和 Google 的分词器,以及 LLaMA、Vicuna、Dolly 等开源 LLM。

MLC LLM 的主要工作流基于 Apache TVM Unity,通过扩展 TVM 后端使模型编译更加透明和高效。

  • Dynamic shape:该研究将语言模型烘焙(bake)为具有原生 Dynamic shape 支持的 TVM IRModule,避免了对最大输入长度进行额外填充的需要,并减少了计算量和内存使用量。
  • 可组合的 ML 编译优化:MLC LLM 可以执行许多模型部署优化,例如更好的编译代码转换、融合、内存规划和库卸载(library offloading),并且手动代码优化可以很容易地合并为 TVM 的 IRModule 转换,成为一个 Python API。
  • 量化:MLC LLM 利用低位量化来压缩模型权重,并利用 TVM 的 loop-level TensorIR 为不同的压缩编码方案快速定制代码生成。
  • 运行时(Runtime):TVM 编译生成的库能够通过 TVM runtime 在设备的原生环境中运行,TVM runtime 支持 CUDA/Vulkan/Metal 等主流 GPU 驱动以及 C、JavaScript 等语言的绑定。

此外,MLC 还为 CUDA、Vulkan 和 Metal 生成了 GPU shader,并通过 LLVM 支持多种 CPU,包括 ARM 和 x86。通过改进 TVM 编译器和运行时,使用者可以添加更多支持,例如 OpenCL、sycl、webgpu-native。

MLC-LLM 的发布让我们再次感受到了陈天奇 TVM 的力量。

陈天奇是机器学习领域知名青年学者,2019 年任卡耐基梅隆大学机器学习、计算机科学系助理教授。早在 2017 年,他和他的同时开源了著名深度学习框架 TVM,对业界产生了深远的影响。利用这一工具,机器学习算法可以自动编译成可供下层硬件执行的机器语言,从而可以利用多种类型的算力。

在人们的努力下,我们或许很快就能看到云 + 端侧分别部署大模型的下一代应用。

评论

所有评论

推荐阅读

  • 美国现货以太坊ETF昨日净流出493万美元

    6月13日,据Trader T监测,美国现货以太坊ETF昨日净流出493万美元。

  • 美国现货比特币ETF昨日净流入8582万美元

    6月13日,据Trader T监测,美国现货比特币ETF昨日净流入8582万美元。

  • 美国禁止外国主体访问Fable 5和Mythos 5,Anthropic发长文驳斥

    6月13日,Anthropic发布声明称,美国政府以国家安全权力为由,发布了一项出口管制指令,要求暂停任何外国主体对人工智能模型Fable 5 和Mythos 5的所有访问权限,无论该人员是否在美国境内,包括属于外国公民的Anthropic员工。该命令的实际效果是,我们必须立即为所有客户禁用Fable 5和Mythos 5,以确保合规。所有其他Anthropic模型的访问将不受影响。我们于今天下午5点21分(美国东部时间)收到了政府的指令。该信函未说明其国家安全关切的具体细节。我们的理解是,政府认为其已获悉一种绕过或“越狱”Fable 5的方法。迄今为止,政府仅向我们提供了口头证据,证明存在一种潜在的狭窄、非通用越狱,本质上是通过要求模型读取特定的代码库并修复任何软件缺陷。我们正在遵守政府的合法指令,并正在移除所有用户对 Fable 5 和 Mythos 5 的访问权限。但是,我们不同意“某个狭窄的潜在越狱漏洞就应成为召回已部署给数亿用户的商业模型的原因”这一结论。(金十)

  • 伊朗外长:伊美谅解备忘录可能在几天内签署

    6月13日,据伊朗媒体12日报道,伊朗外长阿拉格齐表示,一旦伊美完成最后阶段的谈判,谅解备忘录将立即签署并公布。第一阶段将以远程电子方式签署,“这可能在未来几天内发生”。(新华社)

  • 美国官员:美伊接近达成协议,将在未来几天签署

    6月13日,据路透社报道,一名美国高级官员当地时间周五表示,美国和伊朗尚未真正抵达终点线,但距离达成一项解决双方冲突的协议已经非常接近,华盛顿预计将在未来几天签署协议。“谈判团队让我们处在一个非常有利的位置,但我们还要再看看,我们还没有真正抵达终点线,但已经非常接近了,”这名美国官员表示。该官员称,已达成一致的条款实现了特朗普的核心目标。谅解备忘录的条款包括重新开放霍尔木兹海峡,以及解除美国对伊朗港口的封锁。伊朗的高丰度浓缩铀也将被就地销毁,随后运出该国。“伊朗不会因为签署谅解备忘录或谈判本身而得到任何东西,”该官员说,“他们会因为履行协议规定的义务而获得经济奖励。因此,如果他们按承诺交出核材料,就会得到一些东西。如果他们拆除核计划或核设施,就会得到另外的东西。”

  • 伊朗外交部:伊方正在审议谅解备忘录草案

    6月13日,当地时间12日,伊朗外交部发言人巴加埃表示,目前伊美双方已经在大多数问题上达成谅解,伊朗内部正在对谅解备忘录文本进行最后阶段的汇总。因此,伊朗外长阿拉格齐此前关于“双方已非常接近达成谅解”的表态是准确且值得关注的。相关决策机构的会议正在举行,这是一个持续推进的过程。为达成一个最终且具有决定性的结果,决策机构和相关部门之间必须形成共识。巴加埃还表示,目前有关协议文本内容的各种猜测均未获得证实。虽然外交进程中的具体细节暂不便公开讨论,但这并不意味着公众没有知情权。(央视新闻)

  • SpaceX上市首日开盘报150美元,其IPO发行价为135美元

    6月12日,SpaceX上市首日开盘报150美元,其IPO发行价为135美元。

  • 伊朗外长称伊美“从未如此接近达成”谅解备忘录

    6月12日,伊朗外交部长阿拉格齐12日在社交媒体发文说,伊美“从未如此接近达成”谅解备忘录。在最终敲定之前,媒体应避免对其内容进行猜测。伊方将适时公布所有细节。 (央视新闻)

  • BTC突破64000美元

    行情显示,BTC突破64000美元,现报64107.99美元,24小时涨幅达到2.18%,行情波动较大,请做好风险控制。

  • ARM拉升大涨近10%,美银预计到2030年服务器CPU市场规模料激增4倍

    6月12日,ARM拉升大涨近10%,报376.18美元。消息面上,美国银行全球研究部分析师Vivek Arya最新预测,服务器CPU的总潜在市场规模(TAM)将从2025年的350亿美元激增4倍至2030年的1700亿美元以上。这远超该行此前对2030年服务器CPU市场规模1250亿美元的预测。 Arya在报告中写道:“我们认为,代理式AI的崛起是一个强大的需求加速器,它不仅扩大了CPU的市场机遇,也为英特尔、AMD以及基于Arm架构的挑战者们带来了利好。”