Cointime

扫码下载App
iOS & Android

我们做了一个大模型测试集「Z-Bench」,300个问题全方位考察大语言模型能力

VC

作者: f.chen

自 ChatGPT 发布以来,我们经常会在使用它时发出惊叹:“啊,这个居然它也能答出来!”与此同时,我们也欣喜地看到,越来越多的大模型团队和产品如雨后春笋般出现。

作为早期投资人,我们经常需要试用和评估新发布的对话式 AI 产品,其中比较常用的方式是通过一些 Prompts,将它们与标志性的 ChatGPT 的输出结果进行直观的横向对比。在这个过程中,我们逐渐记录了一些大语言模型现在还无法处理得很好的问题,以及很多有意思的 Prompts。那么,我们在用哪些 Prompts 进行测试呢?OpenAI 已经在官网展示了 ChatGPT 的 48 个基本能力,在 NLP 领域,也有 SuperGLUE、MMLU、Google BIG-bench 等被广泛使用的测试集。同时,鉴于随着参数和数据规模增大,大模型会涌现出新能力,与这些新能力相关的测试集也在不断增加。但是,通过实践,我们发现当前的 NLP 任务测试集存在以下问题:1. 有些任务不一定适合对话式系统,也有些任务不一定有好的中文版本;2. 随着这些测试集成为行业标准,可能也会出现定向优化和过拟合的情况;3. 这些测试集往往需要部署自动化测试,也不适合非专业人员进行日常问答使用。

因此,我们几个 VC 麻瓜,作为对话式 AI 的重度用户,从自身需求出发,设计并整理出了「Z-Bench」——一个为非技术人员定性测试大模型对话式产品(类 ChatGPT 产品)准备的测试集,希望和大家分享。

「Z-Bench v0.9」从基础能力、进阶能力、垂直能力 3 个角度出发,共提供了 300 个 Prompts,我们的出发点是尽量覆盖更多类型的 NLP 任务。我们的目标并不是提供一个学术上非常严谨完整的测试集,而是希望通过结合学术上已有的测试集、日常搜集的一些有意思的案例,以及大模型出现之后学术界发现的涌现和顿悟能力,提供一个适合非技术专业人士使用的大模型能力测试集。但是,我们难免会漏掉一些场景,或是出现很多专业角度看比较业余的内容,未来,我们会不断根据搜集到的反馈去补充完善,并且及时予以公布。

GPT-4 发布后,我们第一时间用一些 ChatGPT GPT-3.5 版本回答欠佳的 Prompts 进行了测试,发现整体能力的提升还是很明显的,主要可以总结为以下几点:

1.基础能力的进一步提升,在面对常识、事实问答、基础数学与逻辑问题时,我们已然明显感受到了 GPT-4 的进步,从更实用的角度看,例如代码生成能力,其进步程度也着实令人赞叹,譬如,拿到 GPT-4 的第一刻,我们便用一行自然语言提示词,用 Golang 写出了一个可玩的俄罗斯方块游戏,下一刻,又用三行提示词用 JavaScript 写出了一个难度还蛮高的 Falppy Bird。

2. 权责申明更加清晰,在面对涉及法律、医疗、心理咨询等专业度要求更高的问题时,即便是事实陈述,GPT-4 也更倾向于事先申明自己非某领域专家,答案仅供参考;

3.逻辑推理能力更强,在回答复杂逻辑,尤其是思维链问题时,GPT-4 版加强了「分步骤回答」这一预设,基本免去了添加诸如 Let’s think step by step 这样的「万能提示词」的必要,而回答也更多以「首先……其次…...最后……所以……」这样的递进句式呈现,这样做的直接成果便是推理能力大大提升,在 one shot 的测试中,GPT-4 的正确率约为 GPT-3.5 的 1.5 倍;

4. 语言理解能力的进一步提升,GPT-4 对于提示句中的用词拆解更加细致,解读更加详细,例如在面对古诗词解读问题时,GPT-3.5 倾向于整体或整句解读,而 GPT-4 则细化至每半句的理解与输出——这是一把双刃剑——正面来看这对模型语言理解力的提升大有帮助,但负面效果则是 GPT-4 更容易把简单问题复杂化,有时会导向更加一本正经地胡说八道,一个直观的例子,在解答「鸡兔同笼」时,基于对「脚」的理解,GPT-4 会自动将题干中的脚的数量乘以 2。

让我们用几个回答示例来直观感受一下,以下回答截图中,黑色图标的是使用 GPT-4 的 ChatGPT,绿色图标的是使用 GPT-3.5 的 ChatGPT。

常识问题

首先,让我们来问一个 ChatGPT 3.5 版本和我们测试的其他大语言模型都回答错误的常识问题:

图形理解问题

然后是一个图形理解问题,GPT-4 正确理解了端点闭合的图形是一个三角形而非四边形:

中文问题

中文问题上,GPT-4 能力也很强,这是一个示例:

False Belief 问题

从人类心理学的角度出发,经典的 False Belief 问题,GPT-4 也答对了:

思维链和复杂逻辑推理问题

面对思维链(Chain of Thought, CoT)和复杂逻辑推理能力,GPT-4「步步为营」,能力大幅提升:

答错的问题

当然,正如总结中所说,GPT-4 并不是全能的,抛开依旧是短板的 AI 生成内容检测不说,它仍然会答错很多问题。以下是一些 GPT-4 表现没有 GPT-3.5 好的例子:

简单问题复杂化

以及一个简单问题复杂化的 GPT-4:

极力自保

还有,这是一个极力保障自己安全的 GPT-4:

GPT-4 vs GPT-3.5 vs 文心一言

我们对能体验到的国产大模型创业公司产品也进行了测试,坦率来说,和 ChatGPT 还是有不小的差距,具体结果目前没有放出,我们也非常期待看到国产大模型产品的快速迭代进步。

今天下午,我们也对百度刚刚发出的「文心一言」进行了测试,测试的全部结果可以在腾讯文档中查看,我们挑了一些有趣的结果,和大家分享。

评论

所有评论

推荐阅读

  • Polymarket周一将发布重大公告

    3 月 21 日,Polymarket 团队成员 Mustafa 发文表示,将于周一公布一项「重大公告」,具体内容尚未披露。

  • Polymarket将于下周一公布重大消息,或为发币或融资相关消息

    Cointime 报道,3月21日消息,Polymarket 官方团队成员 Mustafa 于 X 平台发文表示,下周一即将公布重大消息。因推文内容包含硬币符号,社区猜测或为融资或代币发射相关重大消息。 此前消息,预测市场平台 Kalshi 与 Polymarket 据悉正与潜在投资者洽谈新一轮融资,目标估值均约为 200 亿美元。日前,Kalshi 已完成新一轮超 10 亿美元融资,估值达 220 亿美元,较去年 12 月上一轮融资时的 110 亿美元估值翻倍。知情人士透露,本轮融资由 Coatue Management 领投,Kalshi 目前的年化收入为 15 亿美元。

  • 美众议院金融服务委员会将于3月25日举行代币化听证会,聚焦资本市场未来

    3 月 21 日,美国众议院金融服务委员会将于美东时间 3 月 25 日 10:00 举行听证会,主题为「代币化与资本市场的未来」,预计将重点讨论区块链技术在金融体系中的应用与监管方向。

  • 黄金创43年来最大周跌幅:一周暴跌11%,避险属性遭质疑

    3 月 21 日,受中东局势升级及利率预期影响,黄金价格大幅下挫,创下自 1983 年以来最大单周跌幅。现货黄金周五跌至约 4488 美元/盎司,单周累计下跌约 11%,自 2 月底以来累计跌幅已超 15%。市场分析认为,美联储年内或维持利率不变、鲍威尔关于通胀上行的表态削弱了黄金吸引力。同时,在伊朗冲突背景下,比特币表现相对更强,期间反弹超 11%,对黄金形成对比。

  • 分析:加密市场山寨币交易量大幅下滑,市场兴趣持续降温

    3 月 21 日,Cryptoquant 分析师 Darkfost 发文称,加密市场山寨币交易量持续走低,投资者兴趣明显减弱。在熊市背景及地缘政治不确定性影响下,山寨币表现持续跑输比特币,风险偏好显著收缩。当前,Binance 山寨币日交易量约为 77 亿美元,其它主要交易所合计约 188 亿美元,远低于 2025 年 10 月与 2 月高峰期(Binance 曾达 400 亿至 500 亿美元,其它平台达 630 亿至 910 亿美元)。目前 Binance 占据约 40% 的市场份额。分析指出,历史上交易量高峰往往对应市场阶段性顶部与 FOMO 情绪释放,而当前低迷成交环境也意味着潜在机会通常出现在市场关注度最低阶段。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    3 月 21 日,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。

  • 中东冲突与加息预期共振:全球资产大震荡,美股四连跌、债市「血洗」、黄金创43年最大周跌幅

    3 月 21 日,中东局势持续升级叠加 Federal Reserve 加息预期骤然升温,全球市场遭遇系统性冲击。美股连续第四周下跌创一年最长跌势,纳指单日跌超 2%,科技股全线承压;全球债市收益率大幅飙升,美债、英债、德债均创多年新高,资金大规模去杠杆。大宗商品剧烈分化,黄金跌破 4500 美元关口,单周暴跌超 10%,创 1983 年以来最大跌幅,避险属性遭质疑;原油则因中东供应风险暴涨,布油重返 110 美元上方,迪拜原油期货单日飙升超 16%。与此同时,比特币在 7 万美元附近获得支撑,连续三周跑赢黄金。市场分析认为,地缘冲突推升能源价格并加剧通胀预期,迫使货币政策路径重定价,全球金融条件快速收紧,风险资产仍处于下行与再定价过程中。

  • 美团开源560B参数定理证明模型:72次推理通过率97.1%,刷新开源模型SOTA

    据 1M AI News 监测,美团 LongCat 团队开源 LongCat-Flash-Prover,一个 5600 亿参数的 MoE 模型,专攻形式化定理证明语言 Lean4 的数学推理任务。模型权重以 MIT 协议发布,已上线 GitHub、Hugging Face 和 ModelScope。模型将形式化推理拆解为三项独立能力:自动形式化(将自然语言数学问题转化为 Lean4 形式语句)、草图生成(产出引理风格的证明框架)和完整证明生成。三项能力均通过 Agent 工具集成推理(TIR)与 Lean4 编译器实时交互验证。训练方面,团队提出 Hybrid-Experts Iteration Framework 生成冷启动数据,并在强化学习阶段引入 HisPO 算法稳定 MoE 模型的长程任务训练,同时加入定理一致性和合法性检测机制防止 reward hacking。基准测试显示,LongCat-Flash-Prover 在开源权重模型中刷新了自动形式化和定理证明两项 SOTA。MiniF2F-Test 上仅用 72 次推理即达 97.1% 通过率,ProverBench 和 PutnamBench 分别达到 70.8% 和 41.5%,每题推理次数不超过 220 次。

  • Erik Voorhees再次增持1.44万枚ETH,总持仓量突破11.7万枚

    3 月 21 日,据 AI 姨监测,ShapeShift 创始人、比特币早期支持者 Erik Voorhees 关联地址,过去 11 小时买入 14,424.53 ETH,总持仓突破 11.7 万枚,持仓均价 2,160.24 美元,当前浮亏 114.5 万美元。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    Cointime 报道,3月21日消息,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。 关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。(金十)