Cointime

扫码下载App
iOS & Android

自主性剖析:为什么代理是继ChatGPT之后的下一个AI杀手级应用

原文链接:The Anatomy of Autonomy: Why Agents are the next AI Killer App after ChatGPT 

本文作者:SWYX  编译:CoinTime Candice

“GPT是通用技术”,但每个GPT都需要一个杀手级的应用程序。个人计算需要VisiCalc,智能手机给我们带来了Uber、Instagram、Pokemon Go和iMessage/WhatsApp,而mRNA研究使Covid疫苗得以快速生产。

GPT-3后的人工智能浪潮不仅仅是“炒作”,其中一个最有力的指标是杀手级应用已经很明显,每个应用程序都有超过1亿美元的机会:

  • 用于写作的生成文本——Jasper AI将在2年内实现0至7500万美元的ARR
  • 用于非艺术家的生成艺术——Midjourney/Stable Diffusion Multiverses
  • 面向知识工作者的Copilot——GitHub的CopilotX和“Copilot for X”
  • 对话式AI用户体验——ChatGPT/Bing Chat,拥有Doc QA初创公司的小众数据

我写这一切是为了暗示:

第五个杀手级应用就在这里,它就是自主性代理。

Auto-GPT执行摘要

Auto GPT(及其新版本BabyAGI)是独立开发的Python项目,分别于3月30日和4月2日开源,并且在过去两周内引起了极大的关注。Auto-GPT在Twitter和GitHub上的趋势排名均位居第一(远超其他开源AI项目,包括Segment-Anything、Stable Diffusion以及现在被Sequoia冠以2亿美元估值的LangChain)。

这两个项目都不涉及基础模型训练或任何深度ML创新;相反,它们证明了在无限循环中应用现有LLM API(GPT3、4或任何替代品)和推理/工具选择提示模式的可行性,以完成潜在的无限期长期运行的迭代工作,完成人类用户设定的高层次目标。

我们确实指的是“高级别”——Toran Richards最初为Auto-GPT制作的演示是“一个旨在自主开发和经营企业以增加你的净资产的AI”,而Yohei Nakajima则在ChatGPT上编程了Jackson Fall的热门HustleGPT提示,并让它“开始并发展一个移动AI创业公司”。在此后的两周内,社区成员构建了扩展和克隆、代理管理器和框架、ChatGPT插件和可视化工具包等,并在市场研究、测试驱动开发和科学文献综述中提供了用例。

除了这些相似之处之外,这些项目在方法上也大不相同。

  • BabyAGI是故意设计得很小,添加和剥离LangChain,其初始代码不到150行,只有10个环境变量(现在约为800LOC)。
GPT4可视化的代码库。
  • Auto-GPT则非常庞大(7300 LOC),具有克隆GitHub存储库、启动其他代理、语音、发送推文和生成图像等功能,需要50个环境变量来支持每个矢量数据库和LLM提供者/文本到图像模型/浏览器。

这些项目也引起了AI领军人物的想象,Andrej Karpathy称AutoGPT是“提示工程的下一个前沿”。

自主性人工智能的简史

根据我对神经生物学的理解,每一次使大脑思考更复杂的事情都会让我们变得更聪明一些。以类似的方式,人工智能的进步也是通过“思考”实现的,在回顾历史时,我们的进展之路是显而易见的。我想将其梳理一下:

按大致时间顺序排列的关键自主能力

  • 基础模型:

一切都始于大规模LLM的演变和普及(通过API或开源)。这些模型的巨大规模最终实现了3个主要特征:

  1. 完美的自然语言理解和生成
  2. 世界知识(175B参数可以存储320GB,相当于15个维基百科)
  3. 背景学习等主要能力的出现

这导致了早期提示工程师的崛起,比如Gwern Branwern和Riley Goodside,他们探索了创造性的单次提示。

  • 功能1:元认知(纯推理的自我提升)
  1. Kojima等人(2022年)发现,简单地在提示中添加“让我们逐步思考”一句话就可以显著提高GPT3在基准测试中的性能,后来发现这是由于将工作记忆外部化以应对更难的任务的效果。
  2. Wei等人(2022年)正式规范化了“思维链”提示技术,进一步提高了基准测试的性能。
  3. Wang等人(2022年)发现,在普通的思维链提示无效的情况下,采用多个思维链的多数投票方法也是有效的。
  4. 越来越多的技术开始出现,如使用前校准、自我询问、递归批评和改进、自动提示工程。
  • 功能2:外部存储器(读取大部分静态外部数据)
  1. 由于背景长度限制,需要使用嵌入、分块和链接框架(如LangChain),以及向量数据库(如Pinecone,现价值7亿美元)、Weaviate(价值2亿美元)和Chroma(价值7500万美元)。
  2. 另一种使用自然语言访问和回答关系型数据库问题的方法是Text to SQL公司,其中包括Perplexity AI(2600万美元A轮融资)、Seek AI(750万美元种子轮融资)以及其他一些小众的包括CensusGPT和OSS Insight。
  • 功能3:浏览器自动化(浏览器中的沙盒式读写)
  1. Sharif Shameem于2021年首次展示了通过GPT-3在Chrome自动化购买Airpods的演示。
  2. Adept与Transformer组成的全明星团队进行了A轮融资,并推出了ACT-1 Action Transformer(尽管Vaswani等人离开了,但现在B轮融资已高达3.5亿美元)。
  3. 一年后,Nat Friedman的NatBot将浏览器自动化重新带入时代潮流,展示了代理是如何通过单一的自然语言指令在谷歌搜索和地图中进行餐厅预订的。
  4. Dust XP1也发布了,但是只读的,没有进行任何自动化。
  5. 浏览器代理的一个很好的变体是桌面代理——Embra AI似乎是这里最受欢迎的,尽管它仍然是预发布的,而Rewind AI可能是下一个。
  6. 多模式GPT4的可视化能力似乎能够极大地促进桌面代理,特别是在没有可访问性文本或DOM的情况下。
  • 功能4:工具制作和工具使用(服务器端,与一切挂钩)
  1. 搜索。从记忆的世界知识中生成答案,或者从数据库中检索并输入背景,永远不会像搜索网络那样是最新的。OpenAI用WebGPT打开了这扇门,展示了他们抓取网络、总结内容和用参考资料回答问题的解决方案(现在在ChatGPT插件和Bing Chat中使用,但在Dust和其他地方也有复制)。
  2. 编写要运行的代码。我们知道GPT-3可以编写代码,但它需要像Riley Goodside这样有勇气的人来要求它为已知的糟糕功能(如数学)生成代码,并运行所生成的代码。Replit被证明是增强这种能力的完美托管平台。
  3. ReAct。Yao等人(2022年)创造了ReAct模式,该模式引入了一个非常简单的提示模板,使LLM能够在给定一组工具的情况下为推理和动作做出可靠的工具选择。Schick等人(2023年)介绍了专门用特殊代币训练模型的Toolformer,但这似乎并不受欢迎。
  4. 多模型方法。正在探索使用模型调用其他具有其所不具备能力的模型的方法,例如HuggingGPT/Microsoft JARVIS和VisualChatGPT。
  5. 自主学习。自主学习API代理(SLAPA)搜索API文档,以教会自己如何使用工具,而不仅仅是什么时候使用。这种方法被用于ChatGPT插件的OpenAPI(前身为Swagger)规范,并使用自然语言。
  6. 在这一领域可能值得探索的其他半隐形模式初创公司有Fixie AI和Alex Minion AI。

在这一点上,值得一提的是,我们几乎已经达到了John McDonnell在6个月前提到的全部愿景:

那么,在最近的能量爆发中,我们看到了什么全新的东西呢?

我认为线索就在BabyAGI中自然进化的4个代理中(见上图表):

“背景代理”(能力1+2)可能是LlamaIndex和Langchain正在开发的数据增强检索的一个更智能的版本。Yohei补充道,需要“相关(任务)背景”,这可能与向量数据库提供的经典语义相似性算法略有不同。

  • 主动学习可能会重新受到青睐,因为自主的“背景代理”会主动将他们不知道的事情浮出水面,以确定优先级。
  • “执行代理”调用OpenAI或任何其他基础模型,并可以选择制作或使用任何提供的工具来完成任务(能力3+4)。
  • “任务创建代理”创建任务,但不能产生错误,必须自我批评并从以前的任务中学习(能力1+2)。具有挑战性,但不超出简单常识基准的范围。
  • 最后一个代理是“优先级代理”。是一项新任务!

这让我们发现:

  • 功能5:计划、反思和确定优先次序
  1. Shinn等人(2023年)表明,Reflexion——一种具有动态记忆和自我反思的自主代理,可以显著提高GPT-4基准。
  2. Shoggoth the Coder作为一个能够向开源项目提出和提交PR修复的独立代理,赢得了最近的ChatGPT插件黑客马拉松。
  3. Meta的Simulacra论文展示了自主NPC代理在类似游戏的环境中相互作用的娱乐性潜力。
  4. 无论使用情况如何,自主代理将被期望进一步提前计划,对任务清单进行优先排序,对错误进行反思,并将所有相关的背景保存在内存中。“AGI的火花”论文特别指出,规划是GPT-4的一个显著弱点,这意味着我们很可能需要进一步的基础模型的进步,才能使其可靠。
  5. 最近的LangChain代理网络研讨会的讨论也强调了堆叠代理并在它们之间进行协调能力的需求。
  6. 在Latent Space社区,人工智能虚拟软件开发者平台e2b已经在讨论拥有人工智能开发者团队的潜力。

为什么自主性人工智能是圣杯

是什么让软件对人类有价值?在我的投资和职业建议中,我喜欢鼓励人们发展“软件价值理论”。

软件最明显的价值驱动因素之一是自动化。我们永远都没有足够的时间,而无论是通过巧妙的系统设计、雇佣他人还是对机器编程来代替人工,都会让我们有更多的时间,并通过并行地做更多的事情来提高我们扩大产出的能力。事实上,这可以被视为技术和文明的核心定义:

“文明的进步是通过扩大我们无需思考就能完成的操作数量来实现的”——Alfred North Whitehead

自动化和自主性之间的关系是微妙且重要的:

  • ChatGPT不需要你的输入就可以做任何事情,但是一旦你输入正确的提示,它就可以为你做大量的研究,特别是使用插件
  • 默认情况下,AutoGPT需要你输入一个目标,然后点击“是”来批准它所进行的每一步,但这比必须编写答复要容易的多
  • AutoGPT也有有限的(运行N个步骤)和无限的(永远运行)“连续模式”,它们是完全自主的,但很可能出错,因此必须密切监控

正如我们刚刚解释的那样,技术和文明的进步要求我们能够在不思考的情况下完成某些任务,因此,全面自主性并尽可能具有信任和可靠性是最终目标。让成千上万的代理出现!大多数人开始使用AI助手,但Josh Browder正在研究AI律师,Replika正在研究AI Waifu,我想要AI初级开发人员和AI视频、播客和通讯编辑,Karpathy希望我们继续推进AI C-Suite。

幸运的是,我们不必从第一原则出发推理出这一进展的每一步,因为汽车工程师协会几乎在十年前就建立了一个速记法:

我想你对一些自动驾驶汽车的讨论很熟悉,但是现在是时候明白,2023年的自动驾驶AI代理与自动驾驶汽车在2015年左右的水平差不多。我们开始在使用的工具中加入一些智能,比如Copilot和Gmail自动完成,但这些智能非常轻量级。

在下一个十年,我们会想把一些方向盘交给人工智能,然后是监控,这可能也会映射出我们与自主性人工智能代理的进展。

在接下来的十年中,我们将对我们的代理人产生足够的信任,从而从“一个AI对应多个人”的范式转变为“一个人对应一个AI”,最终发展成“一个人对应多个AI”的模式,这是计算机产业从1960年代到2010年代加速工业化的另一个版本。

关于自主人工智能将有两种风格,或者说是思想流派:

  • Jobs学派:人工智能代理增强了你的能力,就像“你头脑中的自行车”
  • Zuck学派:人工智能算法取代你的能力,劫持你的思维

我们会尽力将我们的努力引导到前者,但我们不一定会成功。

*本文由CoinTime整理编译,转载请注明来源。

评论

所有评论

推荐阅读

  • Polymarket周一将发布重大公告

    3 月 21 日,Polymarket 团队成员 Mustafa 发文表示,将于周一公布一项「重大公告」,具体内容尚未披露。

  • Polymarket将于下周一公布重大消息,或为发币或融资相关消息

    Cointime 报道,3月21日消息,Polymarket 官方团队成员 Mustafa 于 X 平台发文表示,下周一即将公布重大消息。因推文内容包含硬币符号,社区猜测或为融资或代币发射相关重大消息。 此前消息,预测市场平台 Kalshi 与 Polymarket 据悉正与潜在投资者洽谈新一轮融资,目标估值均约为 200 亿美元。日前,Kalshi 已完成新一轮超 10 亿美元融资,估值达 220 亿美元,较去年 12 月上一轮融资时的 110 亿美元估值翻倍。知情人士透露,本轮融资由 Coatue Management 领投,Kalshi 目前的年化收入为 15 亿美元。

  • 美众议院金融服务委员会将于3月25日举行代币化听证会,聚焦资本市场未来

    3 月 21 日,美国众议院金融服务委员会将于美东时间 3 月 25 日 10:00 举行听证会,主题为「代币化与资本市场的未来」,预计将重点讨论区块链技术在金融体系中的应用与监管方向。

  • 黄金创43年来最大周跌幅:一周暴跌11%,避险属性遭质疑

    3 月 21 日,受中东局势升级及利率预期影响,黄金价格大幅下挫,创下自 1983 年以来最大单周跌幅。现货黄金周五跌至约 4488 美元/盎司,单周累计下跌约 11%,自 2 月底以来累计跌幅已超 15%。市场分析认为,美联储年内或维持利率不变、鲍威尔关于通胀上行的表态削弱了黄金吸引力。同时,在伊朗冲突背景下,比特币表现相对更强,期间反弹超 11%,对黄金形成对比。

  • 分析:加密市场山寨币交易量大幅下滑,市场兴趣持续降温

    3 月 21 日,Cryptoquant 分析师 Darkfost 发文称,加密市场山寨币交易量持续走低,投资者兴趣明显减弱。在熊市背景及地缘政治不确定性影响下,山寨币表现持续跑输比特币,风险偏好显著收缩。当前,Binance 山寨币日交易量约为 77 亿美元,其它主要交易所合计约 188 亿美元,远低于 2025 年 10 月与 2 月高峰期(Binance 曾达 400 亿至 500 亿美元,其它平台达 630 亿至 910 亿美元)。目前 Binance 占据约 40% 的市场份额。分析指出,历史上交易量高峰往往对应市场阶段性顶部与 FOMO 情绪释放,而当前低迷成交环境也意味着潜在机会通常出现在市场关注度最低阶段。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    3 月 21 日,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。

  • 中东冲突与加息预期共振:全球资产大震荡,美股四连跌、债市「血洗」、黄金创43年最大周跌幅

    3 月 21 日,中东局势持续升级叠加 Federal Reserve 加息预期骤然升温,全球市场遭遇系统性冲击。美股连续第四周下跌创一年最长跌势,纳指单日跌超 2%,科技股全线承压;全球债市收益率大幅飙升,美债、英债、德债均创多年新高,资金大规模去杠杆。大宗商品剧烈分化,黄金跌破 4500 美元关口,单周暴跌超 10%,创 1983 年以来最大跌幅,避险属性遭质疑;原油则因中东供应风险暴涨,布油重返 110 美元上方,迪拜原油期货单日飙升超 16%。与此同时,比特币在 7 万美元附近获得支撑,连续三周跑赢黄金。市场分析认为,地缘冲突推升能源价格并加剧通胀预期,迫使货币政策路径重定价,全球金融条件快速收紧,风险资产仍处于下行与再定价过程中。

  • 美团开源560B参数定理证明模型:72次推理通过率97.1%,刷新开源模型SOTA

    据 1M AI News 监测,美团 LongCat 团队开源 LongCat-Flash-Prover,一个 5600 亿参数的 MoE 模型,专攻形式化定理证明语言 Lean4 的数学推理任务。模型权重以 MIT 协议发布,已上线 GitHub、Hugging Face 和 ModelScope。模型将形式化推理拆解为三项独立能力:自动形式化(将自然语言数学问题转化为 Lean4 形式语句)、草图生成(产出引理风格的证明框架)和完整证明生成。三项能力均通过 Agent 工具集成推理(TIR)与 Lean4 编译器实时交互验证。训练方面,团队提出 Hybrid-Experts Iteration Framework 生成冷启动数据,并在强化学习阶段引入 HisPO 算法稳定 MoE 模型的长程任务训练,同时加入定理一致性和合法性检测机制防止 reward hacking。基准测试显示,LongCat-Flash-Prover 在开源权重模型中刷新了自动形式化和定理证明两项 SOTA。MiniF2F-Test 上仅用 72 次推理即达 97.1% 通过率,ProverBench 和 PutnamBench 分别达到 70.8% 和 41.5%,每题推理次数不超过 220 次。

  • Erik Voorhees再次增持1.44万枚ETH,总持仓量突破11.7万枚

    3 月 21 日,据 AI 姨监测,ShapeShift 创始人、比特币早期支持者 Erik Voorhees 关联地址,过去 11 小时买入 14,424.53 ETH,总持仓突破 11.7 万枚,持仓均价 2,160.24 美元,当前浮亏 114.5 万美元。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    Cointime 报道,3月21日消息,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。 关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。(金十)