Cointime

扫码下载App
iOS & Android

ChatGPT 充当大脑,指挥 AudioGPT 解决语音、音乐、音效等任务

项目方

现有的 GPT 模型具有极高的语言生成能力,是目前最为先进的自然语言处理模型之一,广泛应用于对话、翻译、代码生成等的自然语言处理领域。除了书面语言,用户在自然对话中主要使用口语 (Spoken Language),而传统大语言模型却无法胜任音频理解与生成任务:

  • GPT 模态限制。用户在自然对话中主要使用口语,对口语理解与合成有极大需求,而单模态 GPT 不能满足对音频 (语音、音乐、背景音、3D 说话人) 模态的理解、生成需求。
  • 音频数据、模型相对少。基础模型 (Foundation Model) 少或交互性差。相较于文本模态,用于重新训练语音多模态 GPT 的数据较少。
  • 用户交互性差。用户广泛的使用语音助手如 Siri, Alexa 基于自然对话高效地完成工作。然而目前 GPT 之间的交互大多根据键盘输入的文本,交互性差,口语交互更能拉进和用户之间的关系,提升模型易用性。

最近,浙江大学、北京大学、卡内基梅隆大学和中国人民大学的研究人员针对性的解决以上难题,提出了全新的音频理解与生成系统 AudioGPT。AudioGPT 以 ChatGPT 充当负责对话与控制的大脑,语音基础模型协同以完成跨模态转换、以及音频 (语音、音乐、背景音、3D 说话人) 模态的理解、生成,能够解决 20 + 种多语种、多模态的 AI 音频任务。

听觉效果超炫

现在,HuggingGPT 增加了 Gradio 演示:

话不多说,直接看一个 AudioGPT 对话的例子,涵盖文本、图像和语音三种模态的输入,AudioGPT 能够理解不同模态的输入,生成结果也能以文本、图像、音频相结合的方式展现给用户。

此外,论文中还有一个多轮对话与上下文理解的例子:

AudioGPT 语音模型在现有模型中具有不同的优势:

1. 相较于文本 GPT:ChatGPT、GPT4 等语言模型侧重于自然语言处理领域,在多模态理解与合成上福利少了一些,AudioGPT 则将重点放在了音频多模态的理解与生成。

2. 相较于 Siri 等检索模型:与简单检索并以语音回复检索模型相比,AudioGPT 强大的生成式对话,使得用户能够更加实时地获取和处理与内容相关的音频。

3. 相较于视觉任务 GPT:图像不存在像音频一样的语种分类,音频中存在不同语种:如中文、英文、法语等,AudioGPT 还需要进行语种管理。

技术原理

AudioGPT 在收到用户请求时使用 ChatGPT 进行任务分析,根据语音基础模型中可用的功能描述选择模型,用选定的语音基础模型执行用户指令,并根据执行结果汇总响应。借助 ChatGPT 强大的语言能力和众多的语音基础模型,AudioGPT 能够完成几乎所有语音领域的任务。

AudioGPT 为走向语音通用人工智能开辟了一条新的道路。AudioGPT 运行过程可以分成 4 个阶段:模态转化、任务分析、模型分配和回复生成。

截至目前,AudioGPT 涵盖了语音识别、语音合成、语音翻译、语音增强、语音分离、音频字幕、音频生成、歌声合成等任务。实验结果证明了 AudioGPT 在处理多模态信息和复杂 AI 任务方面的强大能力。

目前多模态的 LLM 层出不穷,Visual ChatGPT,HuggingGPT 等模型吸引了越来越多的关注,然而如何测评多模态 LLM 模型也成了一大难点。为了解决这一难点,研究人员为多模态 LLM 的性能评估设计了测评准则和测评过程。具体来说,AudioGPT 提出从三个方面测评多模态 LLM:

  • 一致性(Consistency):度量 AudioGPT 是否正确的理解用户意图,并为之分配所需的模型
  • 稳定性(Capabilitity):度量基础的语音模型在其特定任务上的性能表现
  • 鲁棒性(Robustness):度量 AudioGPT 是否能正确的处理一些极端的例子

针对一致性,研究人员设计了一套基于人工测评的流程。如下图所示:

针对稳定性,AudioGPT 调研了各语音基础模型在单任务领域的性能表现。

针对鲁棒性,研究人员从四个方面进行评估:

  • 多轮对话的稳定性:多模态 LLM 应该具备处理多轮对话的能力并且能处理上下文关系
  • 不支持的任务:目前多模态 LLM 并非万能的,当收到无法解决的请求时,多模态 LLM 也应该给予用户反馈
  • 错误处理:多模态基础模型可能由于不同的原因而失败,例如不支持的参数或不支持的输入格式。在这种情况下,多模态 LLM 需要向用户提供合理的反馈,以解释遇到的问题并提出潜在的解决方案
  • 上下文中断:多模态 LLM 被期望处理不在逻辑序列中的查询。例如,用户可能会在查询序列中提交随机查询,但会继续执行具有更多任务的先前查询

网友热评

最后,项目刚刚开源,可以在 Github 和 Huggingface 体验。对于这个新工具的诞生,网友们很是兴奋,有人表示:

AudioGPT 是大语言模型在音频处理领域的福利。

还有网友认为,五音不全的也可以借助 AudioGPT 唱歌了:

有网友称,期待在个人 PC 上也能用到这样的模型,将能够创造出丰富多样的音视频内容。

来源:https://www.8btc.com/article/6816176

评论

所有评论

推荐阅读

  • BTC跌破75000美元

    行情显示,BTC跌破75000美元,现报74988美元,24小时跌幅达到3.19%,行情波动较大,请做好风险控制。

  • Michael Saylor:Strategy 或在2026 年前出售部分比特币

    据Strategy董事长Michael Saylor 表示,公司不太可能完全不卖出比特币,或将在2026年底前出售部分BTC,并动态管理美元现金储备,以实现每股比特币数量最大化目标。截至目前,Strategy持有约84.38万枚BTC,总价值约650亿美元,平均买入成本约为7.57万美元。当前比特币价格约为7.6万美元,接近其整体持仓成本线。

  • 知情人士:美筹备对伊朗发动新一轮军事打击 但仍未最终决定

    5月23日讯,据知情人士透露,尽管外交努力仍在持续,特朗普政府当日仍在筹备对伊朗发动新一轮军事打击。截至当日下午,关于是否发动打击尚未有最终决定。特朗普在社交媒体发文称,受“与政府事务相关的特殊情况��影响,他将无法出席本周末儿子小唐纳德·特朗普的婚礼。他此前原计划在“阵亡将士纪念日”周末前往其位于新泽西州的私人高尔夫球场度假,但现已决定返回白宫。据多位消息人士透露,鉴于可能发生军事打击,美国军方和情报界的部分人员已取消了原定的“阵亡将士纪念日”周末休假计划。国防和情报官员已开始更新美国海外军事基地的紧急召回名册。与此同时,驻扎在中东的部分美军部队正分批轮换撤离战区。(央视新闻)

  • 新任美联储主席沃什:将领导一个以改革为导向的美联储

    5月23日,第17任美联储主席沃什于周五在白宫宣誓就职。沃什表示: “美联储的使命是促进物价稳定和充分就业。”他说,“当以智慧和清晰的思路、独立和坚定的决心去追求这些目标时,通胀可以降低,经济增长可以更强劲,实际到手工资可以更高,美国可以更加繁荣,而且同样重要的是,美国在世界上的地位也会更加稳固。”他补充说:“为了完成这项使命,我将领导一个以改革为导向的美联储,从过去的成功和错误中吸取教训,既要摆脱静态的框架和模式,又要坚持明确的诚信和绩效���准。”

  • 美国新版战略比特币储备法案取消“100万枚BTC”购买目标,已持有BTC拟锁定20年

    5月23日,美国众议院提出新版两党法案《American Reserve Modernization Act of 2026》(ARMA),拟将美国政府持有的比特币纳入战略储备,并要求至少锁定 20 年。与此前提出的 BITCOIN Act 不同,新法案不再要求美国政府购买 100 万枚 BTC,而是主要将通过刑事和民事没收等方式已持有或未来获得的比特币纳入储备。 同时,法案还将设立独立的数字资产库存,用于管理联邦政府持有的非比特币加密资产。根据草案,进入战略储备的比特币在 20 年内不得出售、交换、拍卖、抵押或以其他方式处置。锁定期结束后,财政部长可建议在任意两年内出售最多 10% 的储备资产。法案还要求政府按季度公开储备证明,并对比特币持仓进行第三方审计。支持者认为,美国不应出售战略性数字资产,而应将其作为现代化国家储备体系的一部分长期持有。

  • 美SEC推迟开放代币化股票交易

    5月23日,据彭博社,由于面临监管担忧及外界反对,美国 SEC 已推迟允许代币化股票交易的相关计划。报道称,SEC 目前正重新评估相关风险及市场影响。

  • BTC跌破76000美元

    行情显示,BTC跌破76000美元,现报75997.97美元,24小时跌幅达到2.28%,行情波动较大,请做好风险控制。

  • 交易员已完全预期到2026年底美联储将加息25个基点

    5月22日,市场定价显示,交易员已完全预期到2026年底美联储将加息25个基点。消息面上,美联储理事沃勒表示,美联储不应再释放降息信号,短时间内应按兵不动。

  • 现货黄金、纽约期金双双失守4500美元

    5月22日,现货黄金、纽约期金双双失守4500美元/盎司,日内跌0.94%。交易员完全定价美联储截至2026年底将加息25个基点。

  • BTC跌破77000美元

    行情显示,BTC跌破77000美元,现报76977.52美元,24小时跌幅达到0.18%,行情波动较大,请做好风险控制。