Cointime

扫码下载App
iOS & Android

开启 AIGC 时代的那个人,一分钱都没赚到

2021 年的时候,一位基金经理在 Discord 上找到了人在德国的高中老师克里斯托夫·舒曼。

基金经理愿意承担舒曼开源项目的所有云计算成本,没有任何附加条件。

一开始舒曼不敢相信会有这样的好事,直到几周之后,他获得了 AWS 云端 GPU 的访问权。

他的项目是 LAION,世界上最大的免费 AI 训练数据集。

那位基金经理名叫 Emad,他创办了 Stability.AI,开启了 AIGC 的时代。

开源万岁。

以下内容来源 Bloomberg,由 GPT 翻译,Founder Park 做了些微小的校对。

头图来源:Discord LAION 社区

在德国汉堡郊区的一所郊区房子前,单词「LAION」用铅笔潦草地写在邮箱上。

这是一个庞大的数据收集工作的背后人物,这个工作是人工智能潮流的核心,并引发了一个越来越激烈的关于如何监管它的争议。

这个人是高中教师克里斯托夫·舒曼(Christoph Schuhmann),而 LAION 是他的热情项目。当舒曼不是在向德国青少年教授物理和计算机科学时,他与一小队志愿者一起建立了世界上最大的免费 AI 训练数据集,已经被用 AIGC,如谷歌的 Imagen 和 Stable Diffusion。

像 LAION 这样的数据库对于 text2image 的 生成式 AI 模型非常重要,它们依赖于它们来解构和创建新图像所需的大量视觉材料。这些产品的首次亮相是一个范式转移事件:它将科技行业的人工智能竞赛推向了巅峰,但也引发了许多道德和法律问题。

在几个月内,针对生成式 AI 公司 Stability AI 和 Midjourney 的版权侵权诉讼频发,批评者对其中暴力、性化和其他问题图像的数据集发出警报,他们指责这些数据集包含了几乎不可能解决的偏见。

但这并不是舒曼的关注点,他只想让数据自由。

0140 亿美元 → 零收益

这位 40 岁的老师和受过演员训练的人,两年前在一个 AI 爱好者的 Discord 服务器上创建了 LAION。OpenAI 的第一版 DALL·E 是一个深度学习模型,用于响应文字 prompt 生成图片,例如,按要求创建一个粉色鸡坐在沙发上的图像。

舒曼受到启发,但也担心它会鼓励大型科技公司使更多数据专有化。

「我立刻明白,如果这个只集中在一个、两个或三个公司,对社会的影响将非常糟糕,」舒曼说。

作为回应,他和服务器上的其他成员决定创建一个开源数据集来帮助训练 t2i 扩散模型,这是一个类似于用数百万张闪卡向某人教授一种外语的几个月的过程。该组使用由加利福尼亚州非营利组织 Common Crawl 收集的原始 HTML 代码来定位网络上的图像并将其与描述性文本相关联。它不使用任何手动或人工策划。

几周后,舒曼和他的同事拥有了 300 万张图像文本对。三个月后,他们发布了一个含有 4 亿文本标注图片的数据集。现在,这个数字已经超过了 50 亿,使 LAION 成为最大的免费图像和标注数据集。

随着 LAION 的声誉不断提高,团队一直在无偿工作,2021 年获得了机器学习公司 Hugging Face 的一次捐赠。然后有一天,一位前对冲基金经理进入了 Discord 聊天室。

Emad Mostaque 主动提出承担计算能力的费用,没有任何附带条件。他想要启动自己的开源生成式 AI 业务,并渴望利用 LAION 来训练他的产品。团队最初嘲笑这个提议,认为他是一个疯子。

舒曼说:「我们一开始非常怀疑,但经过四周左右,我们获得了云端的 GPU 资源,这些资源通常的费用约为 9000 美元或 10000 美元。」

当 Mostaque 在 2022 年创办 Stability AI 时,他使用了 LAION 的数据集来训练 Stable Diffusion,并雇用了该组织的两名研究人员。一年后,Stability AI 目前正在寻求 40 亿美元的估值,这在很大程度上得益于 LAION 提供的数据。

舒曼没有从 LAION 中获利,他对此不感兴趣。「我仍然是一名高中老师。我拒绝了各种公司的工作邀请,因为我希望它保持独立。」

02数据集就是AI 时代的石油

像 LAION 这样的数据库中的许多图像和链接,一直以来都明目张胆地存在于网络上,有些甚至已经存在数十年之久。

它需要 AI 的兴起才揭示出它的真正价值,因为数据集越大且越多样化,其中的图像质量越高,AI 生成的图像就会越清晰、更精确。

这一认知反过来又引发了许多法律和伦理问题,即公开可用的材料能否用于填充数据库——如果答案是肯定的,那么创作者是否应该得到报酬。

为了建立 LAION,创始人们从 Pinterest、Shopify 和 AWS 等公司中获取了视觉数据——这些公司并未就 LAION 使用它们的内容是否违反了其服务条款发表评论。还包括来自 YouTube 缩略图、DeviantArt 和 EyeEm 等作品集平台的图像、来自包括美国国防部在内的政府网站的照片,以及来自新闻网站如《每日邮报》和《太阳报》的内容。

如果你问舒曼,他会说任何在网上免费提供的东西都是公平竞争的。但目前欧盟还没有 AI 监管,即将公布的 AI Act,其语言将在今年夏天早些时候确定,也不会规定版权材料是否可以包含在大型数据集中。

相反,立法者正在讨论是否包括一项规定,要求 AIGC 背后的公司披露其产品训练所使用的数据集中包含了哪些材料,从而给这些材料的创作者提供采取行动的选择。

欧洲议会议员 Dragos Tudorache 告诉彭博社,这一规定背后的基本思想很简单:「作为生成式 AI 的开发者,你有义务记录和透明地披露你在算法训练中使用的版权材料。」

这种规定对于 Stability AI 不是问题,但对于其他 t2i 模型可能会带来问题「没有人知道 Open AI 实际上用来训练 DALL·E 2 的是什么,」舒曼说,以此作为技术公司封锁公共数据的例子。这也将颠覆现有的数据收集现状。

「在这个领域中,惯例是假定您不需要同意或不需要通知人们,或者他们甚至不需要知道这一点。人们有一种自认为拥有权利的感觉,即无论网上有什么,您都可以爬取并将其放入数据集中,」Mozilla 基金会值得信赖的 AI 高级研究员 Abeba Birhane 说道,他已经研究了 LAION。

尽管 LAION 没有直接被起诉,但它已被列为两起诉讼的被告:一起指控 Stability 和 Midjourney 违反 DMCA 版权法和公众权利法,违法竞争和违反 TOS,使用艺术家的版权图片来训练其模型,另一起是由盖蒂影像公司针对 Stability 提出的,指称 LAION 爬取了其 1200 万张图片用于训练 Stable Diffusion。

由于 LAION 是开源的,因此不可能知道有多少其他公司使用了该数据集。谷歌已经承认它利用 LAION 帮助训练其 Imagen 和 Parti AI 文本到图像模型。舒曼认为其他大公司正在悄悄地这样做,只是不会披露。

03互联网的黑暗面

当他的儿子玩《Minecraft》时,舒曼坐在客厅里,将 LAION 比作「大信息技术海啸」上的「小型研究船」,采集下面的样本并展示给世界看。

「这只是互联网上公开的资源的一小部分,」他说到 LAION 的数据库,「因为即使是我们这样的人,只有来自捐赠者的 1 万美元的预算,也能够得到它。」

但是,公开的并不总是公众想要的,或者是合法允许看到的。除了猫和消防车的安全图片,LAION 的数据集还包含了数百万张色情、暴力、儿童裸体、种族主义梗、仇恨符号、版权艺术和从私人公司网站上抓取的作品。

舒曼表示,他不知道 LAION 的数据集中是否有儿童裸体照片,尽管他承认他没有深入审查数据。如果得到这样的内容通知,他说,他将立即删除与之相关的链接。

在开始组装数据库之前,舒曼咨询了律师并运行了自动化工具来过滤非法内容,但他对于清洗 LAION 的数据并不感兴趣,而是希望从中学习。

「我们可以从发布的数据中过滤出暴力内容,」他说,「但我们决定不这样做,因为它将加速暴力检测软件的开发。」LAION 提供了一个撤下表格以请求删除照片,但是该数据集已经被下载了数千次。

从 LAION 中提取的攻击性内容似乎已经整合到了 Stable Diffusion 中,尽管最近已经加强了过滤器,但很容易生成假的伊斯兰国斩首照片或大屠杀图像。

一些专家认为,这样的材料也可能在 AI 模型本身内部产生偏见:即使文本提示没有暗示主题的种族,像 Dall·E-2 和 Stable Diffusion 这样的工具也因复制种族刻板印象而受到批评。

这些偏见是谷歌决定不发布经过 LAION 训练的 Imagen 的原因。

当被要求发表评论时,Stability AI 表示,它在 LAION 数据库的一个策划子集上对 Stable Diffusion 进行了训练。该公司在一封电子邮件中写道,它试图「为该模型提供比原始 SD 更多样化和广泛的数据集」,并尝试使用「LAION 的 NSFW 过滤器」删除「成人内容」。

即使是基于开源的人工智能的支持者也警告说,在未加筛选的数据集上训练人工智能的影响。

根据 Hugging Face 的机器学习和社会团队负责人 Yacine Jernite 的说法,基于有污点的数据的生成式 AI 工具将反映其偏见。「模型是它所训练的内容的非常直接的反映。」

Jernite 补充说,在产品运行后引入防护栏是不足够的,因为用户总是会找到规避安全措施的方法。他们说:「当你拿一个训练有素的模型来模拟人们在互联网上的行为,并说:『好的,但不要这样做。』人们会找到一种方法来让它仍然这样做。」

数据非营利组织 Common Crawl 的创始人吉尔·埃尔巴兹(Gil Elbaz)怀疑「不能从训练集到生产之间画一条直线」,并将该过程比作一个去博物馆寻找灵感但被阻止复制艺术品的艺术家。他说,「重要的是社会决定哪些用例是合法的,哪些用例是不合法的。」

这不仅仅是由社会决定。随着欧洲监管机构制定人工智能使用法规,他们正在努力应对的事实是,目前人工智能热潮正在挖掘的数据多年来一直处于法律灰色地带,而这一现状现在才受到严重审查。欧洲议会成员图多拉切 (Tudorache) 说:「没有多年的数据积累,人工智能不可能达到这种复杂程度。」

但在舒曼的眼中,应该监控的不是数据集。在他看来,人工智能的最坏情况是大型科技公司通过为监管框架定制工具来排挤开发人员。「如果我们试图放慢速度并过度监管,」他警告说,「最终的风险是只有少数大型企业玩家能够承担所有正式要求。」

评论

所有评论

推荐阅读

  • 美国现货以太坊ETF昨日净流入4336万美元

    Cointime 报道,4月22日,据Trader T监测,美国现货以太坊ETF昨日净流入4336万美元。

  • 美国现货比特币ETF昨日净流入1183万美元

    Cointime 报道,4��22日,据Trader T监测,美国现货比特币ETF昨日净流入1183万美元。

  • BTC突破77000美元

    Cointime 报道,行情显示,BTC突破77000美元,现报77067.57美元,24小时涨幅达到1.78%,行情波动较大,请做好风险控制。

  • 特朗普:伊朗并不想关闭霍尔木兹海峡,他们希望海峡开放

    Cointime 报道,4月22日,美国总统特朗普:伊朗并不想关闭霍尔木兹海峡,他们希望海峡开放,这样他们每天可以赚取5亿美元(因此,如果关闭,他们就会损失这笔钱)。伊朗之所以说想关闭海峡,是因为我已经完全封锁(关闭)了这个海峡,所以他们只是想“保全面子”。(金十)

  • 伊朗表示同意暂停军事战斗 但战争仍未结束

    Cointime 报道,4月22日,当地时间4月22日凌晨,针对特朗普关于延长停火期限的声明,伊朗国家电视台表示,伊朗已经成为战场的胜利者。控制霍尔木兹海峡是这场战争中伊朗获得的极为宝贵的筹码。伊朗同意军事战斗的暂停,但战争仍未结束。同时,伊朗国家电视台还指出,伊朗必须警惕任何暗示伊朗必须参加谈判,否则敌人将攻击伊朗的言论。即使解除海上封锁,伊朗参加谈判也必须以不提出任何侵犯伊朗独立和尊严的议题为条件,其中首要的是伊朗的防御和导弹能力以及核能力和技术。(央视)

  • Kalshi和Polymarket将提供永续期货交易

    Cointime 报道,4月22日,继竞争对手 Kalshi 计划提供加密货币永续期货交易后,Polymarket 也开始拓展永续期货交易业务。

  • 特朗普宣布延长对伊朗停火

    Cointime 报道,4月22日,美国总统特朗普当地时间21日下午在“真实社交”发帖表示,应巴基斯坦陆军参谋长及总理的请求,美方将暂缓对伊朗的军事打击,延长停火期限,并要求伊朗方面先提出统一的谈判方案。在此期间,美军将继续对伊朗实施海上封锁,同时保持军事准备状态。他表示,停火将持续至伊朗提交方案并完成谈判为止,“无论结果如何”。 (CCTV国际时讯)

  • BTC跌破75000美元

    Cointime 报道,行情显示,BTC跌破75000美元,现报74894.74美元,24小时跌幅1.78%,行情波动较大,请做好风险控制。

  • 美联储主席提名人沃什:独立性取决于美联储(自身)

    Cointime 报道,美联储主席提名人沃什:我将独立于特朗普(的意见)之外。特朗普倾向于要求FOMC降息。独立性取决于美联储(自身)。

  • 数字银行Revolut IPO估值最高或达2000亿美元

    Cointime 报道,英国《金融时报》援引匿名投资者消息人士披露,英国数字银行Revolut计划在未来IPO中寻求1500亿至2000亿美元估值,较其此前750亿美元估值大幅提升,该公司首席执行官ONik Storonsky还透露,Revolut正筹备于2026年下半年进行新一轮二级股份出售,估值或超过1000亿美元。