Cointime

扫码下载App
iOS & Android

开启 AIGC 时代的那个人,一分钱都没赚到

2021 年的时候,一位基金经理在 Discord 上找到了人在德国的高中老师克里斯托夫·舒曼。

基金经理愿意承担舒曼开源项目的所有云计算成本,没有任何附加条件。

一开始舒曼不敢相信会有这样的好事,直到几周之后,他获得了 AWS 云端 GPU 的访问权。

他的项目是 LAION,世界上最大的免费 AI 训练数据集。

那位基金经理名叫 Emad,他创办了 Stability.AI,开启了 AIGC 的时代。

开源万岁。

以下内容来源 Bloomberg,由 GPT 翻译,Founder Park 做了些微小的校对。

头图来源:Discord LAION 社区

在德国汉堡郊区的一所郊区房子前,单词「LAION」用铅笔潦草地写在邮箱上。

这是一个庞大的数据收集工作的背后人物,这个工作是人工智能潮流的核心,并引发了一个越来越激烈的关于如何监管它的争议。

这个人是高中教师克里斯托夫·舒曼(Christoph Schuhmann),而 LAION 是他的热情项目。当舒曼不是在向德国青少年教授物理和计算机科学时,他与一小队志愿者一起建立了世界上最大的免费 AI 训练数据集,已经被用 AIGC,如谷歌的 Imagen 和 Stable Diffusion。

像 LAION 这样的数据库对于 text2image 的 生成式 AI 模型非常重要,它们依赖于它们来解构和创建新图像所需的大量视觉材料。这些产品的首次亮相是一个范式转移事件:它将科技行业的人工智能竞赛推向了巅峰,但也引发了许多道德和法律问题。

在几个月内,针对生成式 AI 公司 Stability AI 和 Midjourney 的版权侵权诉讼频发,批评者对其中暴力、性化和其他问题图像的数据集发出警报,他们指责这些数据集包含了几乎不可能解决的偏见。

但这并不是舒曼的关注点,他只想让数据自由。

0140 亿美元 → 零收益

这位 40 岁的老师和受过演员训练的人,两年前在一个 AI 爱好者的 Discord 服务器上创建了 LAION。OpenAI 的第一版 DALL·E 是一个深度学习模型,用于响应文字 prompt 生成图片,例如,按要求创建一个粉色鸡坐在沙发上的图像。

舒曼受到启发,但也担心它会鼓励大型科技公司使更多数据专有化。

「我立刻明白,如果这个只集中在一个、两个或三个公司,对社会的影响将非常糟糕,」舒曼说。

作为回应,他和服务器上的其他成员决定创建一个开源数据集来帮助训练 t2i 扩散模型,这是一个类似于用数百万张闪卡向某人教授一种外语的几个月的过程。该组使用由加利福尼亚州非营利组织 Common Crawl 收集的原始 HTML 代码来定位网络上的图像并将其与描述性文本相关联。它不使用任何手动或人工策划。

几周后,舒曼和他的同事拥有了 300 万张图像文本对。三个月后,他们发布了一个含有 4 亿文本标注图片的数据集。现在,这个数字已经超过了 50 亿,使 LAION 成为最大的免费图像和标注数据集。

随着 LAION 的声誉不断提高,团队一直在无偿工作,2021 年获得了机器学习公司 Hugging Face 的一次捐赠。然后有一天,一位前对冲基金经理进入了 Discord 聊天室。

Emad Mostaque 主动提出承担计算能力的费用,没有任何附带条件。他想要启动自己的开源生成式 AI 业务,并渴望利用 LAION 来训练他的产品。团队最初嘲笑这个提议,认为他是一个疯子。

舒曼说:「我们一开始非常怀疑,但经过四周左右,我们获得了云端的 GPU 资源,这些资源通常的费用约为 9000 美元或 10000 美元。」

当 Mostaque 在 2022 年创办 Stability AI 时,他使用了 LAION 的数据集来训练 Stable Diffusion,并雇用了该组织的两名研究人员。一年后,Stability AI 目前正在寻求 40 亿美元的估值,这在很大程度上得益于 LAION 提供的数据。

舒曼没有从 LAION 中获利,他对此不感兴趣。「我仍然是一名高中老师。我拒绝了各种公司的工作邀请,因为我希望它保持独立。」

02数据集就是AI 时代的石油

像 LAION 这样的数据库中的许多图像和链接,一直以来都明目张胆地存在于网络上,有些甚至已经存在数十年之久。

它需要 AI 的兴起才揭示出它的真正价值,因为数据集越大且越多样化,其中的图像质量越高,AI 生成的图像就会越清晰、更精确。

这一认知反过来又引发了许多法律和伦理问题,即公开可用的材料能否用于填充数据库——如果答案是肯定的,那么创作者是否应该得到报酬。

为了建立 LAION,创始人们从 Pinterest、Shopify 和 AWS 等公司中获取了视觉数据——这些公司并未就 LAION 使用它们的内容是否违反了其服务条款发表评论。还包括来自 YouTube 缩略图、DeviantArt 和 EyeEm 等作品集平台的图像、来自包括美国国防部在内的政府网站的照片,以及来自新闻网站如《每日邮报》和《太阳报》的内容。

如果你问舒曼,他会说任何在网上免费提供的东西都是公平竞争的。但目前欧盟还没有 AI 监管,即将公布的 AI Act,其语言将在今年夏天早些时候确定,也不会规定版权材料是否可以包含在大型数据集中。

相反,立法者正在讨论是否包括一项规定,要求 AIGC 背后的公司披露其产品训练所使用的数据集中包含了哪些材料,从而给这些材料的创作者提供采取行动的选择。

欧洲议会议员 Dragos Tudorache 告诉彭博社,这一规定背后的基本思想很简单:「作为生成式 AI 的开发者,你有义务记录和透明地披露你在算法训练中使用的版权材料。」

这种规定对于 Stability AI 不是问题,但对于其他 t2i 模型可能会带来问题「没有人知道 Open AI 实际上用来训练 DALL·E 2 的是什么,」舒曼说,以此作为技术公司封锁公共数据的例子。这也将颠覆现有的数据收集现状。

「在这个领域中,惯例是假定您不需要同意或不需要通知人们,或者他们甚至不需要知道这一点。人们有一种自认为拥有权利的感觉,即无论网上有什么,您都可以爬取并将其放入数据集中,」Mozilla 基金会值得信赖的 AI 高级研究员 Abeba Birhane 说道,他已经研究了 LAION。

尽管 LAION 没有直接被起诉,但它已被列为两起诉讼的被告:一起指控 Stability 和 Midjourney 违反 DMCA 版权法和公众权利法,违法竞争和违反 TOS,使用艺术家的版权图片来训练其模型,另一起是由盖蒂影像公司针对 Stability 提出的,指称 LAION 爬取了其 1200 万张图片用于训练 Stable Diffusion。

由于 LAION 是开源的,因此不可能知道有多少其他公司使用了该数据集。谷歌已经承认它利用 LAION 帮助训练其 Imagen 和 Parti AI 文本到图像模型。舒曼认为其他大公司正在悄悄地这样做,只是不会披露。

03互联网的黑暗面

当他的儿子玩《Minecraft》时,舒曼坐在客厅里,将 LAION 比作「大信息技术海啸」上的「小型研究船」,采集下面的样本并展示给世界看。

「这只是互联网上公开的资源的一小部分,」他说到 LAION 的数据库,「因为即使是我们这样的人,只有来自捐赠者的 1 万美元的预算,也能够得到它。」

但是,公开的并不总是公众想要的,或者是合法允许看到的。除了猫和消防车的安全图片,LAION 的数据集还包含了数百万张色情、暴力、儿童裸体、种族主义梗、仇恨符号、版权艺术和从私人公司网站上抓取的作品。

舒曼表示,他不知道 LAION 的数据集中是否有儿童裸体照片,尽管他承认他没有深入审查数据。如果得到这样的内容通知,他说,他将立即删除与之相关的链接。

在开始组装数据库之前,舒曼咨询了律师并运行了自动化工具来过滤非法内容,但他对于清洗 LAION 的数据并不感兴趣,而是希望从中学习。

「我们可以从发布的数据中过滤出暴力内容,」他说,「但我们决定不这样做,因为它将加速暴力检测软件的开发。」LAION 提供了一个撤下表格以请求删除照片,但是该数据集已经被下载了数千次。

从 LAION 中提取的攻击性内容似乎已经整合到了 Stable Diffusion 中,尽管最近已经加强了过滤器,但很容易生成假的伊斯兰国斩首照片或大屠杀图像。

一些专家认为,这样的材料也可能在 AI 模型本身内部产生偏见:即使文本提示没有暗示主题的种族,像 Dall·E-2 和 Stable Diffusion 这样的工具也因复制种族刻板印象而受到批评。

这些偏见是谷歌决定不发布经过 LAION 训练的 Imagen 的原因。

当被要求发表评论时,Stability AI 表示,它在 LAION 数据库的一个策划子集上对 Stable Diffusion 进行了训练。该公司在一封电子邮件中写道,它试图「为该模型提供比原始 SD 更多样化和广泛的数据集」,并尝试使用「LAION 的 NSFW 过滤器」删除「成人内容」。

即使是基于开源的人工智能的支持者也警告说,在未加筛选的数据集上训练人工智能的影响。

根据 Hugging Face 的机器学习和社会团队负责人 Yacine Jernite 的说法,基于有污点的数据的生成式 AI 工具将反映其偏见。「模型是它所训练的内容的非常直接的反映。」

Jernite 补充说,在产品运行后引入防护栏是不足够的,因为用户总是会找到规避安全措施的方法。他们说:「当你拿一个训练有素的模型来模拟人们在互联网上的行为,并说:『好的,但不要这样做。』人们会找到一种方法来让它仍然这样做。」

数据非营利组织 Common Crawl 的创始人吉尔·埃尔巴兹(Gil Elbaz)怀疑「不能从训练集到生产之间画一条直线」,并将该过程比作一个去博物馆寻找灵感但被阻止复制艺术品的艺术家。他说,「重要的是社会决定哪些用例是合法的,哪些用例是不合法的。」

这不仅仅是由社会决定。随着欧洲监管机构制定人工智能使用法规,他们正在努力应对的事实是,目前人工智能热潮正在挖掘的数据多年来一直处于法律灰色地带,而这一现状现在才受到严重审查。欧洲议会成员图多拉切 (Tudorache) 说:「没有多年的数据积累,人工智能不可能达到这种复杂程度。」

但在舒曼的眼中,应该监控的不是数据集。在他看来,人工智能的最坏情况是大型科技公司通过为监管框架定制工具来排挤开发人员。「如果我们试图放慢速度并过度监管,」他警告说,「最终的风险是只有少数大型企业玩家能够承担所有正式要求。」

评论

所有评论

推荐阅读

  • 现货黄金失守4900美元

    现货黄金回落至4900美元/盎司下方,日内跌1.78%。

  • 菲律宾数字银行 Maya 正在探索在美国进行 IPO

    菲律宾数字银行 Maya 正在探索在美国进行首次公开募股 (IPO),计划融资高达 10 亿美元。该公司目前正与顾问合作推进这一交易。Maya 持有菲律宾中央银行颁发的数字银行牌照,通过其应用程序提供储蓄账户、消费贷款、支付和商户服务。除核心银行业务外,Maya 还在受监管的虚拟资产服务提供商框架下提供应用内加密货币交易服务。选择美国市场上市可能为 Maya 提供更深层次的资本池和更广泛的机构投资者基础。当地观察人士表示,投资者将权衡该公司的银行基本面与其加密业务合规性。

  • Vitalik:无需价值观认同,任何人都可自由使用以太坊

    以太坊联合创始人 Vitalik Buterin 在 X 平台发文表示,用户无需认同其对应用形态、DeFi、隐私支付、AI 等观点,都可以自由使用以太坊。以太坊作为去中心化协议,应保持无需许可与抗审查属性,但这并不意味着个人不能对应用进行价值判断和公开批评,中立性应属于协议层,而个人与社区需要明确表达自身原则,并在此基础上构建与价值观一致的生态,同时接受以太坊会被不同理念以不同方式使用。

  • 特朗普:我将间接参与伊朗谈判;伊朗想达成协议

    美国总统特朗普:正准备前往华盛顿,即将在空军一号上举行新闻发布会。我将间接参与伊朗谈判;伊朗想达成协议。

  • 香港监管机构将Victory Fintech列入获准交易平台名单

    香港证券及期货事务监察委员会(证监会)周五发布公告称,已将另一家公司列入其正式获得牌照的加密货币交易平台名单。

  • Zhu Su:加密货币未来几年可能将显著跑赢美股七巨头

    三箭资本联合创始人Zhu Su发文表示,未来几年加密货币可能将显著跑赢美股七巨头(Mag7)。

  • 本周美国以太坊现货ETF累计净流出1.612亿美元

    据Farside监测数据,本周美国以太坊现货ETF累计净流出1.612亿美元。

  • 链上期权,DeFi 矿工和交易员的十字路口

    多年以后,面对着低于 3% 的 sUSDe 收益率曲线,那位曾经不可一世的 DeFi 矿工会想起他第一次将 ETH 存入 EigenLayer 的那个遥远下午,正如他在上一个熊市时常回忆 DeFi Summer 的盛况一样。

  • 马斯克的「新大饼」:月球基地

    马斯克以「月球基地 Alpha」新叙事替代火星计划,拟在月球制造并发射 AI 卫星以突破算力瓶颈。此举旨在整合 SpaceX 发射能力与 xAI 算力需求,打造差异化估值,虽技术壁垒极高,但为合并实体注入增长想象。

  • Biteye ·

    OpenClaw 的 Agentic 经济,会利好和利空哪些资产?

    深入分析 AI 从提供建议转向自主执行引发的资产重定价:揭示依赖人力的旧资产价值坍塌,并探讨资金向算力能源、自动化结算协议及具身智能硬件的系统性迁移。