Cointime

扫码下载App
iOS & Android

我们做了一个大模型测试集「Z-Bench」,300个问题全方位考察大语言模型能力

VC

作者: f.chen

自 ChatGPT 发布以来,我们经常会在使用它时发出惊叹:“啊,这个居然它也能答出来!”与此同时,我们也欣喜地看到,越来越多的大模型团队和产品如雨后春笋般出现。

作为早期投资人,我们经常需要试用和评估新发布的对话式 AI 产品,其中比较常用的方式是通过一些 Prompts,将它们与标志性的 ChatGPT 的输出结果进行直观的横向对比。在这个过程中,我们逐渐记录了一些大语言模型现在还无法处理得很好的问题,以及很多有意思的 Prompts。那么,我们在用哪些 Prompts 进行测试呢?OpenAI 已经在官网展示了 ChatGPT 的 48 个基本能力,在 NLP 领域,也有 SuperGLUE、MMLU、Google BIG-bench 等被广泛使用的测试集。同时,鉴于随着参数和数据规模增大,大模型会涌现出新能力,与这些新能力相关的测试集也在不断增加。但是,通过实践,我们发现当前的 NLP 任务测试集存在以下问题:1. 有些任务不一定适合对话式系统,也有些任务不一定有好的中文版本;2. 随着这些测试集成为行业标准,可能也会出现定向优化和过拟合的情况;3. 这些测试集往往需要部署自动化测试,也不适合非专业人员进行日常问答使用。

因此,我们几个 VC 麻瓜,作为对话式 AI 的重度用户,从自身需求出发,设计并整理出了「Z-Bench」——一个为非技术人员定性测试大模型对话式产品(类 ChatGPT 产品)准备的测试集,希望和大家分享。

「Z-Bench v0.9」从基础能力、进阶能力、垂直能力 3 个角度出发,共提供了 300 个 Prompts,我们的出发点是尽量覆盖更多类型的 NLP 任务。我们的目标并不是提供一个学术上非常严谨完整的测试集,而是希望通过结合学术上已有的测试集、日常搜集的一些有意思的案例,以及大模型出现之后学术界发现的涌现和顿悟能力,提供一个适合非技术专业人士使用的大模型能力测试集。但是,我们难免会漏掉一些场景,或是出现很多专业角度看比较业余的内容,未来,我们会不断根据搜集到的反馈去补充完善,并且及时予以公布。

GPT-4 发布后,我们第一时间用一些 ChatGPT GPT-3.5 版本回答欠佳的 Prompts 进行了测试,发现整体能力的提升还是很明显的,主要可以总结为以下几点:

1.基础能力的进一步提升,在面对常识、事实问答、基础数学与逻辑问题时,我们已然明显感受到了 GPT-4 的进步,从更实用的角度看,例如代码生成能力,其进步程度也着实令人赞叹,譬如,拿到 GPT-4 的第一刻,我们便用一行自然语言提示词,用 Golang 写出了一个可玩的俄罗斯方块游戏,下一刻,又用三行提示词用 JavaScript 写出了一个难度还蛮高的 Falppy Bird。

2. 权责申明更加清晰,在面对涉及法律、医疗、心理咨询等专业度要求更高的问题时,即便是事实陈述,GPT-4 也更倾向于事先申明自己非某领域专家,答案仅供参考;

3.逻辑推理能力更强,在回答复杂逻辑,尤其是思维链问题时,GPT-4 版加强了「分步骤回答」这一预设,基本免去了添加诸如 Let’s think step by step 这样的「万能提示词」的必要,而回答也更多以「首先……其次…...最后……所以……」这样的递进句式呈现,这样做的直接成果便是推理能力大大提升,在 one shot 的测试中,GPT-4 的正确率约为 GPT-3.5 的 1.5 倍;

4. 语言理解能力的进一步提升,GPT-4 对于提示句中的用词拆解更加细致,解读更加详细,例如在面对古诗词解读问题时,GPT-3.5 倾向于整体或整句解读,而 GPT-4 则细化至每半句的理解与输出——这是一把双刃剑——正面来看这对模型语言理解力的提升大有帮助,但负面效果则是 GPT-4 更容易把简单问题复杂化,有时会导向更加一本正经地胡说八道,一个直观的例子,在解答「鸡兔同笼」时,基于对「脚」的理解,GPT-4 会自动将题干中的脚的数量乘以 2。

让我们用几个回答示例来直观感受一下,以下回答截图中,黑色图标的是使用 GPT-4 的 ChatGPT,绿色图标的是使用 GPT-3.5 的 ChatGPT。

常识问题

首先,让我们来问一个 ChatGPT 3.5 版本和我们测试的其他大语言模型都回答错误的常识问题:

图形理解问题

然后是一个图形理解问题,GPT-4 正确理解了端点闭合的图形是一个三角形而非四边形:

中文问题

中文问题上,GPT-4 能力也很强,这是一个示例:

False Belief 问题

从人类心理学的角度出发,经典的 False Belief 问题,GPT-4 也答对了:

思维链和复杂逻辑推理问题

面对思维链(Chain of Thought, CoT)和复杂逻辑推理能力,GPT-4「步步为营」,能力大幅提升:

答错的问题

当然,正如总结中所说,GPT-4 并不是全能的,抛开依旧是短板的 AI 生成内容检测不说,它仍然会答错很多问题。以下是一些 GPT-4 表现没有 GPT-3.5 好的例子:

简单问题复杂化

以及一个简单问题复杂化的 GPT-4:

极力自保

还有,这是一个极力保障自己安全的 GPT-4:

GPT-4 vs GPT-3.5 vs 文心一言

我们对能体验到的国产大模型创业公司产品也进行了测试,坦率来说,和 ChatGPT 还是有不小的差距,具体结果目前没有放出,我们也非常期待看到国产大模型产品的快速迭代进步。

今天下午,我们也对百度刚刚发出的「文心一言」进行了测试,测试的全部结果可以在腾讯文档中查看,我们挑了一些有趣的结果,和大家分享。

评论

所有评论

推荐阅读

  • 伊朗:谈判重点是结束战争 正努力敲定谅解备忘录

    5月23日,伊朗外交部发言人巴加埃23日接受伊朗伊斯兰共和国广播电视台采访表示,当前谈判重点是推动结束“被强加的战争”,暂不深入讨论核问题,伊美正在努力敲定谅解备忘录。巴加埃说,现阶段谈判不涉及核问题及其相应的解除制裁的具体细节,但伊朗要求解除制裁、尤其是释放被冻结资产等诉求,已明确写入14条谅解备忘录文本。他表示,伊朗之所以暂不深入讨论核问题,是因为认为核问题曾两度成为针对伊朗发动战争的借口。当前伊朗将重点放在推动结束包括黎巴嫩在内“所有战线上的战争”,可能在30天或60天后的下一个阶段再进入核问题的谈判。(新华社)

  • BTC跌破75000美元

    行情显示,BTC跌破75000美元,现报74988美元,24小时跌幅达到3.19%,行情波动较大,请做好风险控制。

  • Michael Saylor:Strategy 或在2026 年前出售部分比特币

    据Strategy董事长Michael Saylor 表示,公司不太可能完全不卖出比特币,或将在2026年底前出售部分BTC,并动态管理美元现金储备,以实现每股比特币数量最大化目标。截至目前,Strategy持有约84.38万枚BTC,总价值约650亿美元,平均买入成本约为7.57万美元。当前比特币价格约为7.6万美元,接近其整体持仓成本线。

  • 知情人士:美筹备对伊朗发动新一轮军事打击 但仍未最终决定

    5月23日讯,据知情人士透露,尽管外交努力仍在持续,特朗普政府当日仍在筹备对伊朗发动新一轮军事打击。截至当日下午,关于是否发动打击尚未有最终决定。特朗普在社交媒体发文称,受“与政府事务相关的特殊情况��影响,他将无法出席本周末儿子小唐纳德·特朗普的婚礼。他此前原计划在“阵亡将士纪念日”周末前往其位于新泽西州的私人高尔夫球场度假,但现已决定返回白宫。据多位消息人士透露,鉴于可能发生军事打击,美国军方和情报界的部分人员已取消了原定的“阵亡将士纪念日”周末休假计划。国防和情报官员已开始更新美国海外军事基地的紧急召回名册。与此同时,驻扎在中东的部分美军部队正分批轮换撤离战区。(央视新闻)

  • 新任美联储主席沃什:将领导一个以改革为导向的美联储

    5月23日,第17任美联储主席沃什于周五在白宫宣誓就职。沃什表示: “美联储的使命是促进物价稳定和充分就业。”他说,“当以智慧和清晰的思路、独立和坚定的决心去追求这些目标时,通胀可以降低,经济增长可以更强劲,实际到手工资可以更高,美国可以更加繁荣,而且同样重要的是,美国在世界上的地位也会更加稳固。”他补充说:“为了完成这项使命,我将领导一个以改革为导向的美联储,从过去的成功和错误中吸取教训,既要摆脱静态的框架和模式,又要坚持明确的诚信和绩效���准。”

  • 美国新版战略比特币储备法案取消“100万枚BTC”购买目标,已持有BTC拟锁定20年

    5月23日,美国众议院提出新版两党法案《American Reserve Modernization Act of 2026》(ARMA),拟将美国政府持有的比特币纳入战略储备,并要求至少锁定 20 年。与此前提出的 BITCOIN Act 不同,新法案不再要求美国政府购买 100 万枚 BTC,而是主要将通过刑事和民事没收等方式已持有或未来获得的比特币纳入储备。 同时,法案还将设立独立的数字资产库存,用于管理联邦政府持有的非比特币加密资产。根据草案,进入战略储备的比特币在 20 年内不得出售、交换、拍卖、抵押或以其他方式处置。锁定期结束后,财政部长可建议在任意两年内出售最多 10% 的储备资产。法案还要求政府按季度公开储备证明,并对比特币持仓进行第三方审计。支持者认为,美国不应出售战略性数字资产,而应将其作为现代化国家储备体系的一部分长期持有。

  • 美SEC推迟开放代币化股票交易

    5月23日,据彭博社,由于面临监管担忧及外界反对,美国 SEC 已推迟允许代币化股票交易的相关计划。报道称,SEC 目前正重新评估相关风险及市场影响。

  • BTC跌破76000美元

    行情显示,BTC跌破76000美元,现报75997.97美元,24小时跌幅达到2.28%,行情波动较大,请做好风险控制。

  • 交易员已完全预期到2026年底美联储将加息25个基点

    5月22日,市场定价显示,交易员已完全预期到2026年底美联储将加息25个基点。消息面上,美联储理事沃勒表示,美联储不应再释放降息信号,短时间内应按兵不动。

  • 现货黄金、纽约期金双双失守4500美元

    5月22日,现货黄金、纽约期金双双失守4500美元/盎司,日内跌0.94%。交易员完全定价美联储截至2026年底将加息25个基点。