Cointime

扫码下载App
iOS & Android

上帝训练人脑用了多少数据?

大数据时代发展至今,随着ChatGPT为代表的LLM的崛起,人类算是一只脚迈进入了“智力付费时代”。

但LLM依然是基于大语料数据的预训练模型,这里大数据的量是非常惊人的。根据基于GPT-3.5-turbo的Phind.com上反馈的数据,GPT-3的训练使用了来自5700亿个网页的45TB的数据。

那么,一个有趣的问题就出现了:上帝训练人脑用了多少数据?

当然,我们先要旗帜鲜明地认清一个现实,那就是虽然我们下面讨论的是人听说读写到的字符数,但大自然训练人脑时用的可不只是这些字符,还包括说话时的语气、语速、音调变化、曲调旋律、表情、神态、眼神飘忽情况,等等等等。所以实际信息量是远远远大于下面的计算结果的。

声明完毕,下面开始正式的扯淡。

先来看一个问题:人脑的数据训练大概从什么时候开始训练到什么时候?

如果只局限在文字的训练上的话,那么一般来说人类的小孩在6个月的时候就能听懂简单的命令,12个月左右时能说出第一个简单的单词,18个月左右拥有简单组合词汇形成语句的能力,2岁大的时候就能拥有复杂的语言能力,4岁左右能识别与书写简单的字母与词汇,8岁基本掌握书写与阅读能力。

但如果说的是信息接受的话,那基本上在离开母亲身体之前就已经开始接受信息了,但此时到底能否训练大脑神经网络还不好说——胎教的话不要随便乱信。

而人的大脑皮层25岁到30岁才勉强算是发育成熟,但要说不再有新神经元发育的话,那最晚可以到90岁。

所以,我们就简单一点,从2岁开始一直到27岁,都认为是大自然在训练大脑的时间,总共历时25年。

接着,让我们来估算一下每天接触到的数据量吧,以文本信息为例,包括自己说的、写的,从外界看到与听到的,这四大项。

先看每个人每天要说几句话吧。

根据2007年美国人的一份针对396人(其中210位生理女性与186位生理男性)的跟踪调查报告,生理女性平均每天要说16215个英文单词,生理男性平均每天要说15669个英文单词。按照每个英文单词平均包含5.1个英文字母来说,美国人2007年每天,生理男性要说79912个字母,生理女性则要说82697个字母。

中文和英文的单词量之比大约是2:1,而中文的单词一般都包含2~3个汉字,有些成语啊俗语啊还会更多,所以我们差不多可以说中文用字数和英文用字母数是同一个量级的(信息量当然差海了去了)。

因此,这个结果我们可以简单地将其推而广之,作为目前人类平均每天要说出口的文本量,这样平均下来就是81304个字符——当然,一个中文字符按照UNICODE编码规则就是2个英文字符,按照UTF-8或UTF-16甚至UTF-32编码的话还可以更大,不过这里先简单算个字符数。

也就是说,根据我们的估算,人类每天平均要输出8.13万个字符。

听的情况则要更难估算,因为强烈依赖于每个人所处的环境,包括工作等等。

人们平均的说话语速是每分钟125到150个英文单词,不同语言可能会有不同,我们这里还是以此来估算(英文这方面调查资料较多)。

人们每天耳朵至少有6到8个小时在不停接受外界的声音信息——无论是和你的对话,还是别人的对话飘入了你的耳朵,或者听的音乐和电视剧,等等。而且和眼睛不同,这种信息的接受是很难阻断的(当然,现在有降噪耳机,但你戴着降噪耳机总会听点音乐的吧?总不能是为了享受虚无中的宁静吧?),其中就算只有80%进入了你的意识、潜意识与无意识,从而可以用于训练你的大脑。

这样,我们可以估算出每个人每天大约要听到46200个英文单词,也就是差不多235620个字符。

接下来,我们看看读的情况。

每天平均阅读多少时间是一个很难估算的值,因为不同地区的结果会有很大的不同。比如根据2019年的调查结果,美国人的日均阅读时长是65分钟,而英国人是25分钟,印度人是10分钟,一些战乱地区恐怕根本没有阅读时间。而另一方面,这里统计的是正儿八经看书、报纸、杂志的时间,但我们每天会看很多工作上的东西,比如表格、合同、同事写的总结报告,而一些特殊工种比如图书编辑,每天8小时上班的主要工作就是看书,学生每天看书时间也比一般成年人要长,等等。

平均就算每个人每天要花60分钟来阅读各种资料吧。

而一般人阅读的时候每分钟能吸收200到300个单词,平均就算250个单词好了,因此可以估算出每个人每天大约要看15000个单词也就是76500个字符。

写的就更少了,根据国内的一项调查,每个人每天大约要写7000个汉字,但这里有很大一部分是作家群体贡献的,在我们所考虑的2到27岁这个年龄段里,这个值恐怕要小一点,这部分是因为学生会拉大这个时长,另一部分是已经步入职场的成年人反而会缩小这个时长。所以我们可以大致认为,这个年龄段里,每个人每天大约要写5000个字符。

好了,数据到目前为止都准备好了:

  • 每天要说8.13万个字符
  • 每天要听23.56万个字符
  • 每天要读7.65万个字符
  • 每天要写5000个字符

这些数据,部分算是自监督学习,部分算是基于监督学习的“精调”,所以基本上可以认为和GPT的养成之路是很接近的——当然,对于人类主义者来说我这话就太冒犯了,人类怎么能和机器一样?真是大逆不道啊!拉出去TJJTDS!

但无论如何,至少我们可以知道,25年下来用于训练人脑的数据集大约有(考虑到上面估算的字符数在非英语环境下未必就是计算机可识别的1个字符,所以按照UTF-8编码规则,取一个平均值为2吧)7.27GB。

这个训练数据集还真不是一般的小啊……只有GPT-3训练所需数据量的1.62%。

当然,这里所说的都只是文字数据,现实生活中还包含大量别的信息,但这就属于是多模态的范围了,这里不深入考虑。

从这点来看,目前的GPT还真的是高射炮打蚊子,之所以表现如此抢眼,讲究的还是大力出奇迹。

但我们也要看到:如果让一个人只能接受文字信息而不能接受别的模态的信息的话,他有极大的概率无法达到GPT那样的对话能力。

从这个角度来说,认定GPT的路子走偏了还为时尚早,但同样的,将GPT认定为AGI之路也过于轻佻了。

AGI目前看来距离我们人类还需要等一段时日,就个人来看,不应对GPT抱有不切实际的热望,但就此认定GPT不过就是狗屁通也属实夜郎自大了——当然,我还是会叫GPT为狗屁通,因为他有的时候给的回复还真就是狗屁通:和狗屁不通相比,它读起来是通的,但狗屁还是狗屁。

评论

所有评论

推荐阅读

  • Polymarket周一将发布重大公告

    3 月 21 日,Polymarket 团队成员 Mustafa 发文表示,将于周一公布一项「重大公告」,具体内容尚未披露。

  • Polymarket将于下周一公布重大消息,或为发币或融资相关消息

    Cointime 报道,3月21日消息,Polymarket 官方团队成员 Mustafa 于 X 平台发文表示,下周一即将公布重大消息。因推文内容包含硬币符号,社区猜测或为融资或代币发射相关重大消息。 此前消息,预测市场平台 Kalshi 与 Polymarket 据悉正与潜在投资者洽谈新一轮融资,目标估值均约为 200 亿美元。日前,Kalshi 已完成新一轮超 10 亿美元融资,估值达 220 亿美元,较去年 12 月上一轮融资时的 110 亿美元估值翻倍。知情人士透露,本轮融资由 Coatue Management 领投,Kalshi 目前的年化收入为 15 亿美元。

  • 美众议院金融服务委员会将于3月25日举行代币化听证会,聚焦资本市场未来

    3 月 21 日,美国众议院金融服务委员会将于美东时间 3 月 25 日 10:00 举行听证会,主题为「代币化与资本市场的未来」,预计将重点讨论区块链技术在金融体系中的应用与监管方向。

  • 黄金创43年来最大周跌幅:一周暴跌11%,避险属性遭质疑

    3 月 21 日,受中东局势升级及利率预期影响,黄金价格大幅下挫,创下自 1983 年以来最大单周跌幅。现货黄金周五跌至约 4488 美元/盎司,单周累计下跌约 11%,自 2 月底以来累计跌幅已超 15%。市场分析认为,美联储年内或维持利率不变、鲍威尔关于通胀上行的表态削弱了黄金吸引力。同时,在伊朗冲突背景下,比特币表现相对更强,期间反弹超 11%,对黄金形成对比。

  • 分析:加密市场山寨币交易量大幅下滑,市场兴趣持续降温

    3 月 21 日,Cryptoquant 分析师 Darkfost 发文称,加密市场山寨币交易量持续走低,投资者兴趣明显减弱。在熊市背景及地缘政治不确定性影响下,山寨币表现持续跑输比特币,风险偏好显著收缩。当前,Binance 山寨币日交易量约为 77 亿美元,其它主要交易所合计约 188 亿美元,远低于 2025 年 10 月与 2 月高峰期(Binance 曾达 400 亿至 500 亿美元,其它平台达 630 亿至 910 亿美元)。目前 Binance 占据约 40% 的市场份额。分析指出,历史上交易量高峰往往对应市场阶段性顶部与 FOMO 情绪释放,而当前低迷成交环境也意味着潜在机会通常出现在市场关注度最低阶段。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    3 月 21 日,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。

  • 中东冲突与加息预期共振:全球资产大震荡,美股四连跌、债市「血洗」、黄金创43年最大周跌幅

    3 月 21 日,中东局势持续升级叠加 Federal Reserve 加息预期骤然升温,全球市场遭遇系统性冲击。美股连续第四周下跌创一年最长跌势,纳指单日跌超 2%,科技股全线承压;全球债市收益率大幅飙升,美债、英债、德债均创多年新高,资金大规模去杠杆。大宗商品剧烈分化,黄金跌破 4500 美元关口,单周暴跌超 10%,创 1983 年以来最大跌幅,避险属性遭质疑;原油则因中东供应风险暴涨,布油重返 110 美元上方,迪拜原油期货单日飙升超 16%。与此同时,比特币在 7 万美元附近获得支撑,连续三周跑赢黄金。市场分析认为,地缘冲突推升能源价格并加剧通胀预期,迫使货币政策路径重定价,全球金融条件快速收紧,风险资产仍处于下行与再定价过程中。

  • 美团开源560B参数定理证明模型:72次推理通过率97.1%,刷新开源模型SOTA

    据 1M AI News 监测,美团 LongCat 团队开源 LongCat-Flash-Prover,一个 5600 亿参数的 MoE 模型,专攻形式化定理证明语言 Lean4 的数学推理任务。模型权重以 MIT 协议发布,已上线 GitHub、Hugging Face 和 ModelScope。模型将形式化推理拆解为三项独立能力:自动形式化(将自然语言数学问题转化为 Lean4 形式语句)、草图生成(产出引理风格的证明框架)和完整证明生成。三项能力均通过 Agent 工具集成推理(TIR)与 Lean4 编译器实时交互验证。训练方面,团队提出 Hybrid-Experts Iteration Framework 生成冷启动数据,并在强化学习阶段引入 HisPO 算法稳定 MoE 模型的长程任务训练,同时加入定理一致性和合法性检测机制防止 reward hacking。基准测试显示,LongCat-Flash-Prover 在开源权重模型中刷新了自动形式化和定理证明两项 SOTA。MiniF2F-Test 上仅用 72 次推理即达 97.1% 通过率,ProverBench 和 PutnamBench 分别达到 70.8% 和 41.5%,每题推理次数不超过 220 次。

  • Erik Voorhees再次增持1.44万枚ETH,总持仓量突破11.7万枚

    3 月 21 日,据 AI 姨监测,ShapeShift 创始人、比特币早期支持者 Erik Voorhees 关联地址,过去 11 小时买入 14,424.53 ETH,总持仓突破 11.7 万枚,持仓均价 2,160.24 美元,当前浮亏 114.5 万美元。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    Cointime 报道,3月21日消息,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。 关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。(金十)