Cointime

扫码下载App
iOS & Android

深度思考:为什么说ChatGPT是网上所有文本的模糊图像?

个人专家

众所周知我是一个GPT爱好者,已经将其融入工作和生活的方方面面。 但GPT也不是万能的,我们需要认清其本质,才能更好使用其能力。强烈推荐特德·姜这篇极具洞察的文章《ChatGPT是网上所有文本的模糊图像》,独特见解发人深省。我总结了3个点,欢迎阅读。

特德·姜,华裔科幻作家,毕业于布朗大学计算机系,其短篇小说《你一生的故事》在2016年被改编成电影《降临》 技术和科幻的双重背景,让其对ChatGPT具有了独特见解。

TL;DR

  • ChatGPT是网上所有文本的有损压缩
  • 警惕「美丽的模糊」
  • 「原创想法的拙劣表达」好于「清晰表达的非原创想法」

1、ChatGPT是网上所有文本的有损压缩

如果将互联网上的所有文本看做是原件,考虑到处理速度和准确度,ChatGPT 实际上是这些文本的有损压缩后一个自然语言交互接口。既然是有损压缩,就会抛弃一些细节,甚至关键信息。

关于有损压缩可能会导致的问题,作者举了一个形象的例子:2013 年德国一家建筑公司复印了一张房子平面图,三个房间都有一个标签来说明其面积:14.13,21.11和17.42平方米。然后在复印件中,所有三个房间都被标记为14.13平方米。

经过调查发现,这台施乐复印机的工作原理是,先把文档扫描为数字图像,然后再进行打印。为了节省空间,扫描为数字图像时使用了一种被称为 jbig2 的有损压缩格式。复印机判断 3 个房间的面积标签非常相似,所以它只存储了其中一个,然后在打印时对所有 3 个房间都重复使用了这一个标签。

施乐复印机使用有损压缩格式而不是无损格式,这本身并不是一个问题 问题是如果只是打印出模糊的照片,每个人都会知道这不是原件的准确复制品,但复印机打印出了清晰但不准确的图片,可能会对使用者产生误导

作者认为,在我们使用 OpenAI 的 ChatGPT 和其他类似大语言模型时,需要对这个例子铭记于心。ChatGPT 保留了万维网上的大部分信息,就像 JPEG 保留了高分辨率图像的大部分信息一样。但是,如果你要寻找精确的比特序列,你无法找到它,你得到的只是一个近似值。

可以看到,在 OpenAI 论文的最新真实性评估中,虽然 GPT-4 比过往模型高很多,但仍然有不低的概率生成错误答案(特别是在科技、代码和商业领域),我们需要小心。

2、警惕「美丽的模糊」

我们对世界的认知,本质上也是对信息的接收和压缩。我们识别和抛弃不重要的信息,留下重要的信息,同时在这个过程中锻炼和使用了决策能力。都是对信息的有损压缩,我们和ChatGPT有何不同? - 我们对信息的压缩,是建立在对事实的理解上,最后留下的是「模糊的正确」 - ChatGPT 并没有真正的「理解」信息,建立在统计规律上输出「美丽的模糊」。 再看 2 个形象的例子:

  • 如果让 ChatGPT 计算 3457 * 43216,会给出错误答案 149299312(正确答案149397712) 最后一位正确是因为有很多以 6 和 7 结尾数字的乘法让 ChatGPT 学习,但因为其并没有真正理解算术原理,所以最后给出是错误答案。
  • 对文本的任何分析都会揭示,“供应不足”这样的短语经常出现在“价格上涨”这样的短语附近 当被问及有关供应不足的问题时, AI可能会给出包含价格上涨的回答。如果AI已经编译了大量经济术语之间的相关性,多到可以对各种各样的问题提供合理的回答,我们是否应该说它实理解了经济理论?显然没有。

ChatGPT 擅长产生美丽的答案,但美丽≠正确。我们必须时刻铭记这一点,ChatGPT 输出的结果可能会漂亮清晰但不准确,要识别它们就需要将它们与原件进行比较,否则就有可能基于瞎编的内容进行错误的决策。下面 bing 产生的这个答案,就是典型的「美丽的模糊」。

3、「原创想法的拙劣表达」好于「清晰表达的非原创想法」

有一种观点,让 ChatGPT 生成的文本作为作家在创作原创作品时的起点,让作者把注意力集中在真正有创意的部分,这样可行吗? 作者认为,以一份模糊的非原创作品作为起点,并不是创作原创作品的好办法。

如果你是一个作家,在你写原创作品之前,你会写很多非原创的作品。花在非原创工作上的时间和精力不会被浪费。相反,正是它让你最终能够创作出原创的作品 花在选择正确的词汇和重新排列句子上的时间,教会了你如何通过文章传达想要表达的意思。

让学生写论文不仅仅是一种测试他们对材料掌握程度的方法,这给了他们表达自己想法的经验。如果学生从来不用写我们都读过的文章,他们就永远不会获得写我们从未读过的东西所需的技能。

那是不是脱离学生身份后,就可以安全地使用 ChatGPT 等大语言模型提供的模板了呢? 然而并不是。想要表达自己想法的挣扎并不会在你毕业后消失。每当你开始起草一篇新文章时,这种挣扎就会出现。有时候,只有在写作的过程中,你才能发现自己最初的想法,这点非常关键。

有些人可能会说,大语言模型的输出看起来与人类作家的初稿没有太大不同,但这只是表面上的相似 你的初稿不是「清晰表达的非原创想法」;它是「原创想法的拙劣表达」,它伴随着你无定形的不满,你意识到它所说的和你想说的之间的距离。

这是在重写时能够指导你的东西,这是当你开始使用人工智能生成的文本时所缺乏的东西。基于「清晰表达的非原创想法」,会很容易让人失去想法;而从「原创想法的拙劣表达」开始,逐步打磨,最终会收获「原创想法的精确表达」,原创可能会成为玉石,非原创只会流于泛滥。

总结 2 点Take Away:

  1. ChatGPT是网上所有文本的有损压缩,我们必须时刻铭记这一点,警惕把「美丽的模糊」当做准确信息,影响判断和决策
  2. 2. 在挣扎和拙劣表达中发现「原创想法」,同时提升自己的表达能力,将其打磨成玉石 训练想象力、决策和沟通能力,打造机器无法拥有的竞争力
评论

所有评论

推荐阅读

  • AI智能终端全面爆发

    6月23日,据央视财经,在第四届链博会现场,原有的“数字科技链”升级成为“数智科技链”。这一字之变,背后体现的是人工智能正在成为产业链上的主角。现场首设的人工智能专区,集聚了中外AI领军企业,展示了从数据、算力到应用的全链条。不同厂家的AI眼镜、数字底盘的智能汽车、会踢足球的人形机器人……央视财经记者在链博会现场看到,人工智能接入物理世界的形态,正在从手机和电脑走向各类新的智能终端。今年以来,AI智能体应用也全面爆发。高通公司全球高级副总裁钱堃表示,AI智能体的赋能使得现有终端设备有一个大的升级换代周期。中国的产业链非常完善,通过跟中国合作伙伴不断合作,他们的产品能很快走向市场并被全球接受。阿里云智能集团副总裁刘湘雯表示,AI从原来的聊天进入到干活的生产力要素,所有全栈上的,无论是GPU的云还是CPU,发展非常迅速,相信接下来还有更大的空间。

  • Vitalik:以太坊基金会预算削减 40%,将转向长期基金模式

    6月23日,据 Vitalik Buterin 披露,以太坊基金会(Ethereum Foundation, EF)今年将削减约 40% 预算,按照其此前公布的财政管理方案,EF 正从每年支出约剩余资金 15% 的模式,过渡到 2030 年后每年支出约 5%,向长期导向的捐赠型组织转型。 为此,EF 将调整多客户端模式,更依赖 AI 辅助形式化验证,PSE 隐私与扩容探索团队将从“探索”转向围绕零知识证明的重点建设,Devcon 会务将缩减规模和亏损,超出 Ethereum 本身的大型项目也将减少,EF 机构工作将聚焦更小规模但可复制的 CROPS 友好型部署案例。

  • 美股三大指数短线拉升

    6月23日,道琼斯指数涨0.07%;标普500指数跌幅缩窄至0.77%,此前一度跌超1.5%;纳斯达克综合指数跌幅缩窄至1.17%,此前一度跌超2.3%。

  • 英伟达市值跌破5万亿美元

    6月23日,英伟达(NVDA.O)市值跌破5万亿美元,最新下跌2.6%。

  • 霍启刚:AI时代,我们自己的判断才是核心

    6月23日,据央视财经,霍启刚表示,过去一年AI议题铺天盖地,从“不用AI”到“不得不用”,让他深感“不参与其中就会被淘汰”。身为父亲,霍启刚坦言,孩子使用AI,身为家长该“控制”还是“辅助”?霍启刚称,目前已经开始在工作中辅助使用AI,但他强调用了AI不等于省去思考过程,必须经过自己的经验、思考和逻辑研判,不能直接照搬AI输出。

  • 美国财政部官网:美国发布对古巴相关制裁

    美国财政部官网:美国发布对古巴相关制裁。

  • 美股量子计算概念股普涨

    6月23日,美股量子计算概念股普涨,其中,Infleqtion涨逾14%,SEALSQ涨逾8%,D-Wave Quantum涨逾7%,Quantum Computing涨近5%,Rigetti Computing、IBM、IonQ Inc涨逾4% 。

  • 微软已完成在威斯康星州建造数据中心的工程

    微软(MSFT.O)宣布在美国威斯康星州芒特普莱森特市的首个数据中心建设完工。

  • 高盛:巴西央行预计将交替进行降息和按兵不动

    6月23日,高盛的Alberto Ramos写道,巴西央行可能会交替暂停降息和下调其基准Selic利率。巴西央行上周将Selic利率从14.5%下调至14.25%,并且对其下一步行动尚不明确。在面临粘性通胀和经济放缓风险之际,会议纪要让人们对该央行的想法有了一些了解。Ramos说,间歇性降息“将导致产出波动更温和,通胀在2028年第一季度收敛于目标水平“。他说:“总体而言,在增长与通胀的短期权衡中,Copom更倾向于保护经济活动,而不是采取更激进的以通胀为重点的策略。”

  • 美国制造业活动超预期增长,但工厂就业跌至六年低点

    受企业为防止短缺和价格上涨而提前下单的推动,6 月美国制造业活动再度扩张,但工厂就业人数跌至六年低点,主要是受中东冲突推高运营成本的影响。 美国 6 月标普全球制造业 PMI 初值从 5 月的 55.1 升至 55.7,为 2022 年 5 月以来最高水平,而路透调查的经济学家此前预计该指数将降至 54.8。制造业 PMI 的上升,叠加服务业 PMI 初值从 5 月的 50.7 升至 51.3,共同推动综合 PMI 产出指数从上月的 51.5 升至 52.2。服务业 PMI 的回升部分归因于美加墨联合举办的世界杯赛事。(金十)