Cointime

扫码下载App
iOS & Android

AGI的多模态、多模型以及Multi-everything的未来

本文作者:swyx;编译:Cointime Freya

GPT-4的FOMO解药,以及对Moravec悖论的沉思

正如传闻所说,以及微软德国公司随后证实的那样,近日,GPT-4在ChatGPT中发布了博文、论文、现场直播和几个短视频:

GPT-4是有史以来第11个最受赞誉的黑客新闻故事,Developer Livestream在20小时内获得了150万次观看(目前在YouTube总排名中排名第五),公告推文获得的点赞数是ChatGPT的4倍,要知道,ChatGPT本身就是2022年最大的故事。

很多屏幕截图和糟糕内容的镜头被到处转发,所以,我认为,就像对ChatGPT所做的执行摘要一样,我应该对GPT-4也做一次回顾,是很有必要的。

GPT-4执行摘要

GPT-4是OpenAI旗舰语言模型的最新版本。它是:

  • 在现有的GPT-3任务方面有明显的改进(这个改进体现在对标准NLP基准测试和SAT/GRE等人类考试上的显著改进,并且指令更好的遵循和更好的世界知识)。
  • 能够胜任新的任务(比如,知识储备的量足够到可以来计算个人税收,并不比Minerva差!)。
  • 能够存储比ChatGPT多8倍的上下文信息(2.5万字的上下文意味着,通过简单地复制粘贴文档就可以解锁更好的人工智能编程,或者粘贴整个维基百科的文章,甚至是比较两篇文章,从而实现来更好地交流)。
  • 使用起来更安全(胡言乱语和不安全内容减少20-30%)。

仅此一项就足以证明它是一个海量版本,但GPT-4也是OpenAI的第一个多模态模型,能够原生理解图像输入与文本。这比现有的OCR和图像转文本(例如BLIP)解决方案要好得多,你必须亲眼目睹才能完全理解,但你必须了解的功能包括:

  • 将网站草图转换为代码;
  • 完整描述Discord应用程序的截图;
  • 总结一篇论文的图像并回答有关数字的问题;
  • 识别照片(冰箱、厨房),提供饮食建议;
  • 解释图像为何有趣(熨衣服,鸡块,备忘录)。

仅此一项就足以证明它是一个海量的版本,但GPT-4也是OpenAI的第一个能够原生理解图像输入与文本的多模态模型。这比现有的OCR和图像转文本(例如BLIP)的解决方案要好得多,可能需要你亲眼目睹才能完全理解我刚才说的那些优点,必须了解的功能包括:

  • 将网站草图转换为代码;
  • 完整描述Discord应用程序的截图;
  • 总结一篇论文的截图并回答有关数据的问题;
  • 识别照片(冰箱、厨房),提供饮食建议;
  • 分析图像为何有趣(熨衣服,鸡块,备忘录)。

现在,获得获得GPT-4文本API访问权限的方式需要满足两点:成为ChatGPT Plus的订阅者(20美元/月),并通过等候名单或贡献OpenAI Eval。目前,多模态视觉API功能是BeMyEyes独有的功能。API定价现在分为提示代币和完成代币,比GPT-3.57高30-60倍。

与以往不同的是,OpenAI以竞争和安全问题为由,拒绝公布GPT-4的任何技术细节。这意味着Small Circle、Big Circle(原文是meme吗?)既没有被证实,也没有被否认,因此,对OpenAI不开放的另一轮批评又开始了:

  • 已知的:GPT-4的训练于2年前开始,到2022年8月结束,GPT-4的数据截止日期是2021年9月。
  • 未知的:数据、计算、硬件、参数或训练过程是如何从GPT-3改变的。

除了技术细节,OpenAI还专注于演示功能(如上所述)、扩展和安全研究(由OpenAI的Alignment Research Center完成),并在一次令人印象深刻的协调发布中,与发布合作伙伴演示用例(在发布当天提供了完整的GPT-4构建示例):

  1. 微软确认Prometheus就是他们的GPT-4代号,这意味着所有Bing/Sydney的用户都是真正的GPT-4用户,还增加了Bing的查询限制。
  2. Duolingo展示了西班牙语和法语的“给我的答案一个解释”和“角色扮演”的新功能(当然GPT-4也可以说许多其他语言)。
  3. Stripe测试了15个用例,包括支持定制、回答文档问题和欺诈检测。
  4. Intercom推出了他们的Fin聊天机器人,它可以减少无根据的答案(包括关于竞争对手的无根据的答案),消除歧义,并将其交给人类代理。

竞争动力学。GPT-4并不是周二发布的唯一一个基础模型,它协调的范围其实超越了OpenAI。谷歌和Anthropic都推出了它们的PaLM API和Claude+模型,Quora Poe是第一个同时发布OpenAI GPT-4和Anthropic的Claude+模型的应用程序。各公司在Pi Day上的发布周期竞争的异常激烈,有点像上个月谷歌与微软进行的特殊活动竞赛,引发了人们对人工智能安全的担忧。

多模态与多模型的人工智能之年

GPT-4的多模态是AGI未来的一个缩影。它没有符合大众的预期——它没有图像输出,并且由于Whisper API的发布,音频在可接受的输入中明显的缺失,但Jim Fan在这里的英雄形象大多是准确的:

然而,就在三天前,微软中国研究院发布了另一种使用Visual ChatGPT的多模态方法,可以实现像GPT-4一样,与图像进行交流。

这是一个多模态项目,更准确地说,这是一个多模型项目,因为,实际上,它的核心是:“trenchcoat中的22个模型”。

这暗示了实现多模态的两种方式——廉价的方式(将模型链接在一起,可能会使用LangChain)和“正确”的方式(训练和嵌入混合模态数据集)。我们有理由相信,多模态训练比单模态训练更有优势。就像在语言模型训练中添加代码语料库可以改善非代码自然语言的结果一样。我们可能会发现,对人工智能进行教学可以提高他们描述它的能力,反之亦然。

但多模型也被证明是有用的。Quora创始人Adam D'Angelo选择在OpenAI GPT-4和Anthropic Claude的支持下推出他的新Poe机器人,前GitHub首席执行官Nat Friedman建立了nat.dev,来帮助比较最大范围内的文本模型的输出:

Eliezer Yudkowsky也评论说,多模型对于模型的提炼很有用,最近斯坦福Alpaca的结果以GPT-3为基础,对Meta的LLaMa进行了微调,以使用缩小25倍的模型获得了类似的结果。

这似乎是一个富有成果的开发领域(如Palm-E、Kosmos-1、ViperGPT等),我预计多模式、多模型的开发将主导研究和工程周期,使我们越来越接近AGI的视域。

AGI = Multi-everything和Moravec悖论

Moravec悖论可以被概括为“计算机发现了人类难以发现的简单的事情,反之亦然”。但是人类能力的进化速度比计算机大约慢10万倍,而计算机从亚人类到超人类的进化并不需要很长时间。这不是一个新鲜的理论。LLM毫不费力地掌握多种语言(跨越最流行的人类语言和编程语言,但也越来越多地使用资源较少的语言的情况)和多学科(GPT-4同时能够成为调酒师、法学院学生、医学生和程序员,尽管英语文学是安全的)。

而这仅仅是我们能想到的两个维度。OpenAI ARC和Meta FAIR测试了人工智能的两面性,我们越来越多地看到,人工智能毫不费力地拥有多重人格——最近,Waluigi效应作为一种正式的速记方法进入了人工智能的讨论范围,Bing的Sydney表现出了令人不安的另类人格,这些人格分别被称为 Venom和Dark Sydney。然而,这只是开始。

人工智能没有义务以我们期望的方式多面化发展。我想起了电影《她》的结局,当Joaquin Pheonix得知Samantha同时爱上了641个人时,这个数字大到让他难以置信,但对于一个多元的人工智能来说,爱一个人只是一种功能。

*本文由CoinTime整理编译,转载请注明来源。

评论

所有评论

推荐阅读

  • 美国现货比特币ETF昨日净流出2.1116亿美元

    据Trader T监测,美国现货比特币ETF昨日净流出2.1116亿美元。

  • Vitalik:未来不打算投资L2或其他代币项目,仅会捐赠有价值的项目

    Vitalik 在其 8 月 31 日表示“自 2018 年以来,从未因个人获利目的而出售以太坊”的推文下回复称,“上述情况也适用于我持有的 L2 代币或其他项目代币。所有的收益都将捐赠出去,再次用于支持以太坊生态系统内的公共产品或更广泛的慈善事业。在可预见的未来,我也不打算投资 L2 或其他代币项目。我给项目提供资金的目标是支持我认为有价值的事物,特别是在生态系统的其他部分可能低估它们的情况下。展望未来,我计划仅通过捐赠来实现这一点。”

  • 亿万富翁John Paulson预计美联储将在2025年底前将利率降至2.5%

    亿万富翁投资者John Paulson预测,美国联邦储备局将在2025年底前将利率降至低至2.5%。Paulson表示,美联储在降息方面行动过慢,并将在未来几个月内采取措施降低利率。在接受彭博电视采访时,其估计联邦基金利率可能会在明年降至3%,甚至2.5%。他指出,保持高实际利率(债券收益率与当前通胀率的差距)意味着美联储在放松货币政策方面已经落后。最后还强调,总统和财政部长对经济政策的评论至关重要。

  • Telegram创始人Pavel Durov在法国被捕后承诺将显著改善平台监管

    9 月 6 日消息,Telegram 创始人 Pavel Durov 在法国被捕后通过 Telegram 发声表示,「Telegram 是某种无政府主义天堂的说法是绝对不真实。我们每天都会删除数百万个有害的帖子和频道。并发布每日透明度报告,与非政府组织有直接的联系渠道,以便更快地处理紧急的监管请求。 Telegram 用户数快速增长到 9.5 亿,导致平台出现了成长的阵痛,使犯罪分子更容易滥用平台。这就是为什么我将显著改善这一情况作为我的个人目标。我们已经在内部开始了这个过程,并且很快会与大家分享更多关于进展的细节。」

  • 某ETH巨鲸于20分钟前用1223万USDT重新买入5,153枚ETH

    据链上分析师余烬监测,某高抛低吸 的ETH巨鲸,20 分钟前用 1223 万 USDT 重新买进了 5,153 ETH。 他最初的 3,586 枚 ETH 经过他 3 轮波段下来,现在已经变成 5,574 ETH 1⃣$3,667 出售 3,586 ETH 换成 1315 万 U,再以 $2,512 的价格买回 5,236 ETH,增加 1,650 ETH。 2⃣$2,514 卖出 4,818 ETH 换成 1211 万 U,再以 $2,378 的价格买回 5,093 ETH,增加 275 ETH。 3⃣$2,402 卖出 5,093 ETH 换成 1223 万 U,再以 $2,375 的价格买回 5,153 ETH,增加 60 ETH。

  • 美SEC再次推迟决定环保比特币ETF上市申请

    美国证券交易委员会(SEC)再次推迟了对纽约证券交易所(NYSE)Arca申请上市的碳抵消比特币ETF的最终决定。根据9月4日的文件,决定新截止日期已被延至11月21日。该ETF旨在通过抵消碳排放,以环保方式提供比特币投资敞口,跟踪由80%比特币和20%碳信用期货组成的投资组合。Tidal Investments于2023年12月提交了基金注册申请,而NYSE Arca则在3月提交了初步申请。比特币挖矿对环境的影响引发了关注,国际货币基金组织(IMF)报告指出,加密货币挖矿占全球温室气体排放的1%。此决定的延迟还包括对纳斯达克一站式加密投资组合ETF的审批推迟。

  • Penpie发布攻击分析报告:被盗金额11,113.6枚ETH,将在Snapshot启动治理投票确定补偿计划

    Penpie发布攻击事件的时候分析报告,其中指出其平台于9月3日攻击,导致 11,113.6枚ETH(约合27,348,259美元)被盗,目前存款和取款暂停,前端恢复完成。据悉黑客利用了PendleStakingBaseUpg::batchHarvestMarketRewards() 函数中存在重入保护漏洞,通过在奖励获取过程中重新进入PendleStakingBaseUpg::depositMarket() 函数,恶意SY合约反复添加来自闪电贷的新存款,这使得攻击者能够操纵奖励代币及其发送给假Pendle市场存款人的金额,而假存款人就是攻击者本身。 现阶段,Penpie正在积极与执法机构合作,以识别和逮捕袭击者,而且还多次向黑客发送链上消息,寻求白帽谈判,但目前尚未收到回复,此外已向社区提供有关存款、取款和其他相关发展状况的最新信息。Penpie表示,后续将全面审查所有协议和智能合约以识别漏洞,对整个协议进行定期审计,实时监控和自动暂停系统,保持韧性并继续前进。此外,还将在治理论坛中开一个帖子来收集社区的建议和反馈,从而开始制定补偿计划。然后将在Snapshot上创建治理投票以最终确定补偿计划。

  • 若比特币跌破5.7万美元,主流CEX累计多单清算强度将达8.45亿

    9 月 5 日消息,据 Coinglass 数据,若比特币跌破 5.7 万美元,主流 CEX 累计多单清算强度将达 8.45 亿。反之,若比特币突破 5.9 万美元,主流 CEX 累计空单清算强度将达 5.7 亿。 注:清算图并不是展示精确的待清算的合约数目,或者精确的被清算的合约价值。清算图上的柱子展示的是其实是每个清算簇相对临近清算簇的重要性,即强度。 因此,清算图展现的是标的价格达到某个位置会被影响到什么程度。更高的「清算柱」表示价格到了之后将会因为流动性浪潮产生更加强烈的反应。

  • Robinhood因“曾禁止用户提取加密货币”一案与加州监管达成390万美元和解

    Robinhood的加密货币交易子公司曾阻止客户提取他们购买的代币。虽然 Robinhood Crypto LLC 在 2022 年放弃了这一政策,但其过去的做法周三还是受到了加州政府的 390 万美元的处罚。 加州司法部就 Robinhood 首席律师所说的 2018 年至 2022 年期间流行交易应用程序的加密货币业务中的“历史做法”进行了调查。该州的调查特别将人们可以通过 Robinhood 买卖的各种加密货币视为商品。根据加州司法部的新闻稿,通过允许客户购买加密货币但不让他们对资产进行个人保管,该公司违反了加州商品法。 根据和解协议,Robinhood 必须继续允许其客户从应用程序中提取他们的加密货币,并更新有关其托管实践的披露。

  • Gate Group品牌色闪耀东京塔,发布日本市场新布局

    8月28日,备受瞩目的WebX2024于东京盛大开幕,Gate Web3及Gate Ventures深度参与,并携手ACG WORLDS举办由Huawei Cloud、GGI以及Japan Dao冠名赞助的Web3 Vision VCxIP峰会,作为WebX2024官方会外活动。