人工智能时代的数据

简介

人工智能的突然爆发如何影响数据和数据业务？

在这篇文章中，我提出了两个答案并探讨了它们的影响：

信息和计算的相对价值的实质性变化，对软件和数据商业模式都有影响。

世界上可用的数据和计算的绝对数量的更大变化，对信任、身份、质量和策划的影响。

但我要从一些历史开始。数据和数据循环是过去十年中表现最好的商业模式的关键驱动力，并通过它们来推动人工智能革命本身。让我们来看看是怎样的!

内存即是命运

我在一台在8086上运行MS-DOS的IBM PC克隆机上自学编码。那是在80年代末；这台电脑很便宜，功能很齐全，虽然长得不太好看，但它能工作。而且它的存储量--在当时来说--是很可观的：整整30兆字节的硬盘空间。

十年后，我做的第一份工作是程序员，存储空间更容易获得，但我从来忘记之前的电脑。我关心的是内存泄漏、访问时间和效率。创建一个聪明的数据结构来保存收益率曲线，以实现快速的衍生品定价，是我当时最自豪的成就之一。我们没有存储所有的东西，存储我们需要的东西。

又过了十年，我已经不在乎了。在我创立的创业公司Quandl，我们保存了所有东西。不仅仅是构成我们业务核心的数据资产，以及它们所有的更新、年份和版本，还有我们所有的使用日志、API记录、客户报告和网站模式。所有的一切。

发生了什么？嗯...看看这个：

数据爆炸......

导致质变的定量变化总是值得关注。因为不仅仅是Quandl存储了所有的数据，是所有人。每个人都无处不在，一下子就有了。

2010年代是数据爆炸的十年。在硬件成本下降的推动下，以及同样重要的商业模式的推动下，使上述硬件易于使用（向亚马逊S3致敬！），世界开始创造、记录、保存和使用比以往更多的数据。

...以及商业模式

在过去十年中 "获胜 "的大量商业模式都处于数据爆炸的下游：

整个内容-广告技术-社会生态系统

整个电子商务-交付-物流生态系统

支持这些生态系统所需的基础设施

构建该基础设施的开发工具

为何如此？

以广告为例，它仍然是互联网最大的经济引擎。Facebook、Reddit、Youtube、Instagram、Tiktok和Twitter都依赖于完全相同的循环，将用户、内容和广告商联系起来：

公司能够为用户提供照片、视频、博客文章、更新和音乐的无限免费存储；这些内容吸引了更多的用户，这些用户又吸引了广告商，广告商又补贴了平台，循环往复。如果没有廉价、充足的存储，这一切都不可能实现。

或者考虑交付和物流。今天，我们很容易认为这是理所当然的，但为当天的电子商务、共享汽车或全球供应链提供动力所需的运营能力是非常惊人的。著名的亚马逊和Uber飞轮只是数据学习循环的特殊案例：

这些飞轮需要对客户的位置、购买和旅行习惯、商店库存和路线地域、司机和汽车的可用性以及一大堆其他方面进行最新的了解。同样，没有廉价、丰富的数据，这些都是不可能的。

顺便提一下，所有这些飞轮不仅仅是由数据驱动的；它们反过来产生新的数据。数据爆炸不仅仅是一个爆炸；它是一个真正的连锁反应。数据带来了数据。

数据是软件的最好朋友

所有这些商业模式，本质上都是软件。这并不奇怪数据和软件是一个硬币的两个面。

如果没有数据的应用，用于优化业务的软件是无用的。而没有软件对其进行解释和操作，数据就毫无价值。

更广泛地说，没有材料，工具是无用的；除非使用工具，否则材料是没有价值的。

补充性投入

经济学家称这些为 "完全互补的投入"：你需要两者来产生所需的产出，而且你不能用一个来代替另一个。一个直接的后果是，如果一种投入的价格下降了很多--也许是由于正面的生产力冲击--那么另一种投入的价格几乎肯定会上升。

“想象一下，你是一个裁缝。为了缝制衣服，你需要针和布料，而你只受限于你能买得起的每样东西的数量。(针和布是缝制过程中的互补性投入）。

现在想象一下，由于一种新的针头制造技术，针头的价格骤降。你的反应是什么？用节省下来的钱去买更多的布料，从而缝制更多的衣服但如果每个裁缝都这样做，那么布料的价格就会上升。裁缝和消费者都得到了好处，服装生产的总数量增加了，但针和布料的相对价值却发生了变化。”

在过去十年多的时间里，世界上的数据量一直在爆炸式增长：因此，其价格也在暗中下降。软件一直是相对稀缺的投入，它的价格也在上涨：从软件工程师的薪水到顶级软件公司的市值，你都可以看到这一点。在廉价、丰富的数据的巨大帮助下，软件吞噬了世界。

然后，GPT出现了，一切都变了。

内容战争的和平红利

GPT 是数据爆炸的产物。由用户以及内容农场、点击工厂、链接机器人和过度热心的 SEO 机构生成的大量新数据需要发明新技术来处理所有这些数据。正是谷歌的一组研究人员撰写了 Attention is All You Need，这篇论文介绍了几乎所有现代生成 AI 模型背后的 Transformers 架构。

最初的和平红利是冷战时期的红利。晶体管、卫星和互联网都是这场冲突的产物。今天，它们的用途更多——远不止于发射和跟踪导弹。同样，尽管 LLM 的发明是为了管理内容大战产生的数据，但它们的用途远不止搜索。

计算的爆炸性增长

从表面上看，GPT是对软件生产力的一个巨大提升。技术专家们谈论10倍的程序员：能比别人快10倍写出高质量代码的天才。但由于GPT的出现，每个程序员都有可能比两年前的基准线高出10倍的生产力。

我们即将看到这种影响。

抛开数据爆炸；向计算爆炸问好！！

数据统治我周围的一切

计算革命的第一个也许也是最明显的后果是，数据变得更有价值了。

https://twitter.com/bindureddy/status/1650139138748977152

这自然有利于那些已经拥有数据的公司。但在人工智能的世界里，什么是有价值的，与过去有价值的东西有微妙的不同。

一些拥有独特数据资产的公司将能够更有效地将这些资产货币化。BloombergGPT是我最喜欢的例子：它以几十年的高质量金融数据为基础进行训练，而其他公司很少拥有这些数据。引用金融数据行业一位（令人遗憾但可以理解为匿名的）高级执行官的话： "彭博社刚刚用这个为自己买了二十年的寿命"。

其他公司将意识到他们正坐在潜在的数据资产上--数据的价值没有被认识到，或者至少没有被货币化。再也不会了! Reddit就是一个很好的例子：它是一个高质量的人类生成的内容的宝库，由一个非常有效的审核和投票系统浮现出来。但现在你必须为它付费。

你不需要庞大的内容档案或昂贵的培训来获得有意义的结果。像LoRA这样的技术让你以相对较低的成本用你自己的道具数据来补充大型基础模型。因此，小型的定制数据可以拥有很大的价值。

数量本身就是质量，但当涉及到训练数据时，反过来也是如此。数据的质量比数据的大小更有意义"：超过一定的语料库规模，提高质量的投资回报率几乎总是超过增加覆盖率的投资回报率。这表明，黄金数据--对于一个特定的用例来说具有特殊质量的数据--就是黄金。

镐头和铁锹，交易和抢断

数据价值的增加有一些下游的影响。在之前的一篇文章中，我写到了数据资产的经济学问题：

“淘金的比喻可能被过度使用，但它仍然有效。勘探是一种彩票；镐和铲具是最好的风险回报；珠宝商可以获得体面的生活；而少数金矿的所有者会变得非常富有。”

最好的数据资产，为人工智能的使用案例而重塑，是新的金矿。但是，在一个以人工智能为先的世界里，围绕着数据日益突出的特点，专门设计的镐头和铲子有很大的机会：

为人工智能建立新的数据资产的工具；

将现有数据资产与人工智能基础设施连接的工具；

使用人工智能提取潜在数据的工具；

使各种数据资产货币化的工具。

更广泛地说，整个数据堆栈需要重构，以便生成模型成为一流的消费者和数据生产者。几十家公司正在涌现，正是为了做到这一点，从Pinecone和Chroma这样的低级信息提供者，到Jasper和Regie这样的高级内容引擎，到LangChain这样的粘合层，以及两者之间的一切。

除了工具之外，还有一个完整的商业生态系统等待着在人工智能时代围绕数据建立。定价和使用模型，合规和数据权利，新一代的数据市场：一切都需要更新。不再有 "未经同意的内容"；即使是淘金的城镇也需要他们的警长。

高价值的信息资产；新一代的镐头和铁锹；重新构想的数据生态系统：数据业务的世界变得更加有趣了！

一个加速飞轮

人工智能的第二个主要后果是，世界上的数据和计算的数量都将急剧增加。这就是飞轮加速：数据为计算爆炸提供了动力，计算为数据爆炸提供了动力。还有一个直接的影响：毕竟，生成模型不只是消费数据；它们还生产数据。

现在，输出大多是短暂的。但这已经在发生变化，因为越来越多的业务流程开始纳入生成性组件。

这对数据来说意味着什么？

信心链

我们正在进入一个内容无限的世界。其中一些是合法的，但大部分是不合法的--垃圾邮件机器人和参与农民，深度造假和心理战术，幻觉和人工制品。面对这个无限的自助餐，你如何保持一个健康的信息饮食？

答案是信任链--一系列的证明，只有在最薄弱的环节才是最强大的。谁创造了这些数据或内容；你能证明他们创造了这些数据或内容；你能证明他们是他们所说的人；他们创造的东西是 "好的"；它是否符合我的需要或需求？签名、出处、身份、质量、策划。

前三者是密切相关的。签名、出处和身份：一个东西到底是哪里来的，你能证明它吗？毕竟，"在互联网上，没有人知道你是一个人工智能"。在技术上，这个空间在很大程度上仍未被定义，因此也很有趣。(讽刺的是，对于零知识的加密货币来说，这几乎是一个完美的用例--而加密货币在公众的想象中已经被人工智能完全取代了）。

最后两个也是密切相关的。管理是质量如何浮出水面的方式，我们已经看到实现这一目标的信任等级制度的出现。现在，我对订单的最佳猜测是这样的：

“过滤气泡 > 朋友 > 领域专家 ~= 有影响力的人 > 二级关系 > 机构 > 匿名专家 ~= AI ~= 随机的陌生人 > 明显的滚动”

但是，目前还不清楚最终的顺序会是怎样的，如果看到 "精选的人工智能 "在名单上上升，我也不会感到惊讶。

这里经常被忽略的一个细微差别是，策划和排名没关系；而和匹配有关。如果生成性人工智能使世界上的内容总量增加100倍，这并不意味着你的质量过滤器需要有1/100的限制。没有 "质量守恒定律"；高质量创作的数量没有上限。限制因素是你作为内容消费者的带宽。

因此，管理的目标不是对任何类别的 "最佳 "X进行排名，而是找到（以最低质量截止点为条件）最符合你的情况的X。(而你的档案可能不是中立或客观的；这就是为什么过滤泡处于信任层次的最顶端）。

(请注意，本节的全部内容适用于B2B用例和广泛的数据类型，而不仅仅是消费者用例和社会内容）。

计算所有的东西

数据变得更有价值；生态系统需要重新调整；数据爆炸将加速；信任链将出现。那计算本身呢？

就像数据的默认行为从 "保存内存 "翻转到 "保存一切 "一样，软件的默认行为也将翻转到 "计算一切"。

计算所有的东西意味着什么？代理，到处都是代理。我们过去常说人在环中，以改善软件流程；我们将越来越多地看到软件在环中，以简化人类流程。这表现为人工智能飞行员和副驾驶，人工智能研究和物流助理，人工智能对话者和辅导员，以及大量的人工智能生产力应用程序。

其中一些有助于数据/内容的生成；它们是生产力工具。另一些则在数据/内容消费方面提供帮助；它们是定制的策划人，根据你的个人匹配偏好进行调整。

更确切地说，如果你是尼尔-斯蒂芬森的粉丝：

https://twitter.com/benrollert/status/1647321855814950920

一个还没有给出答案的问题是，这些代理是否会压缩或放大目前在权力、财富和访问方面的差异。富人和名人是否会拥有更好的人工智能代理，并与大众相比变得更富有和更出名？历史表明不会；生产力是一个民主化的因素；但你永远不知道这个问题的答案。

新的丰富性，新的稀缺性

19世纪英国经济学家威廉-杰文斯观察到煤炭行业的一个悖论。即使个别煤厂随着时间的推移变得更有效率--每单位能源生产使用的煤炭更少--但该行业使用的煤炭总量并没有下降，而是增加了。效率降低了煤炭能源的价格，导致整个社会对这种能源的需求增加。

类似的事情也发生在数据-软件综合体上。这不仅仅是数据和软件在生产力飞轮中相互促进的问题。这不仅仅是生成模型产生和消耗了数据，产生和消耗了代码。而是 "信息计算 "的价格下降了，其结果是世界上会有更多的信息计算。

一个可能有利可图的问题是，新的稀缺领域在哪里？为计算和数据提供动力的硬件是一个明显的候选者：随着后者的指数化发展，前者无法跟上。持续和反复出现的芯片短缺是这种情况的一个症状；我的假设是，这不是供应不足的问题，而是一个由杰文斯效应驱动的真正的永不满足的需求问题。

https://twitter.com/TheTranscript_/status/1656137426522238977

稀缺性的另一个候选者是能源。大型模型训练会消耗大量的能源，但至少它只限于少数公司。但是一旦你加入加速飞轮、计算爆炸和无处不在的代理，数量就会变得巨大。我们还没有感觉到压力，因为最近在能源基础设施方面的改进--太阳能效率、电池存储和压裂--而且希望知情计算将有助于保持这些学习曲线。

注意人为的稀缺性。社会可能会从丰富中受益，但个人和企业有不同的动机；他们会寻求限制或获取来自无处不在的、廉价的、强大的数据和计算的收益。

最后，最具有挑衅性的是，在这个勇敢的新世界里，人类会发生什么？我们是否是一种稀缺和有价值的资源，如果是的话，为什么呢--因为我们称之为 "创造力 "的模糊实体，还是因为我们完成物理任务的能力？人工智能将增强人类的能力，还是将其自动化？我相信丰富的资源，我很乐观；发现的唯一方法是去探索。我们生活在一个有趣的时代!

最近浏览

热门币种

每日趋势

每日必读

欢迎回来

注册账号

使用 email 登录

使用 email 注册

检查您的收件箱

简介